BadBehaviour & BlogCorpusReader

Ich glaube ich hab‘ vor einiger Zeit schon mal drüber geschrieben: Seit kurzem kommt hier BadBehaviour inklusive WordPress-Plugin und SlimStats zum Einsatz.

BadBehaviour ist ein Plugin, dass UserAgent, IP-Adresse und andere Faktoren der Besucher mit zentralen Blacklisten und (angeblich auch) eigener Logik abgleicht und im Falle eines „bösen“ Besuchers den Zugriff sperrt.

Das funktioniert soweit auch ganz gut. Über SlimStats kann ich seit Wochen bei den täglichen Prüfungen zahlreichen asiatische und Russische Clients beobachten die Reihenweise blockiert wurden. Meistens wegen geblacklisteter IPs oder UserAgents.

Natürlich hat so ein System auch immer Lücken und Nachteile. Heute hat mich Mike Schnoor angeschrieben. Er wurde beim Versuch auf meinem Blog zu kommentieren von Bad Behavior ausgeschlossen. Nachforschungen ergaben, dass seine dynamische IP von netcologne auf mindestens einer öffentlich Abfragbaren RBL (Realtime Blacklist) gelistet war.

Wie gesagt prüfe ich die Blockliste von BB des öfteren. Dabei ist mir bisher nur selten eine dynamische IP untergekommen. Der jeweilge Besucher wurde dann aber immer wegen eines geblacklisteten UserAgents gekickt. Das betrifft z.B. typische Contentsauger-Tools. Ansonsten stehen dort auch jetzt wenn ich reinschaue primär wieder Clients mit IP-Adressen aus koreanischen, brasilianischen und chinesischen Netzen.

Dabei ist mir aber eben wieder mal ein UserAgent aufgefallen, nachdem ich schon mal öffentlich fragen wollte, da ich bei Google bisher nix finden konnte:

Mozilla 5.0 (BlogCorpusReader 1.41421)

auch der BlogCorpusReader ist bei BB geblacklistet. Er greift auf meinen Blog grundsätzlich aus dem Netz der Uni Leipzig zu. Weiß jemand was dahinter steckt?

[tags]bad behavior,spamschutz,contentsauger,diebstahl,false positive,slimstats[/tags]

Ähnliche Beiträge

  • Den eigenen Feed im Griff (1)

    Der RSS- oder Atom-Feed eines Blogs entwickelt sich immer mehr zum zentralen Kommunikationsinstrument. Nahezu jeder der irgendwie mit Blogs zu tun hat bedient einen sogenannten Feedreader, also ein Programm um diese Feeds zu „abonnieren“. Feedreader gibt’s auch online – z.B. immer beliebter von Google oder Bloglines – bald auch von Bild.T-Online.

  • Mal wieder Post von unbekannt (Becher-Telefon und Karte)

    Heute kam mal wieder Post mit unbekanntem Absender: Offenbar bin ich auch nicht der einzige, der das Päckchen bekommen hat. Sebbi hat auch schon drüber gebloggt. Ansonsten ist es im Moment zumindest auf meinem Radar noch recht ruhig um die Marketing-Aktion. Vermutung wer dahintersteckt? Spontan aus dem Bauch würde ich sagen ein billiger Prepaid-Telefonkartenanbieter. Ich…

  • Bloggen und so

    ‚Bloggen und so‘ passiert hier immer weniger. Kaum zu übersehen, oder? Wurden im Januar noch täglich 3 Beiträge in den Blog getippt, sind’s in letzter Zeit maximal noch alle 3 Tage einer – eher weniger. Ich habe mehrfach in den letzten Wochen darüber nachgedacht ob ich mal was dazu sagen schreiben soll oder nicht. Es…

  • Schnell mal ein Style für K2

    Ich habe mich eben mal ein bisschen mit Farben gespielt. Herausgekommen ist eine schnelle Version eines K2-Styles ohne Ansprüche auf Vollständigkeit. Wer K2 nicht kennt sollte sich dieses wundervolle Theme wirklich mal genauer ansehen. Es bringt sehr viel an Funktionalität mit, was man bei anderen Themes erst aufwändig nachrüsten muss. Außerdem lässt es sich über…

  • Plesk Update 8.1.0

    Als ich eben das Plesk-Controlpanel meines Servers besuchte, wurde ich auf ein ausstehendes Update aufmerksam gemacht. Nicht wie sonst üblich einige kleinere Paketupdates sondern ein relativ großer Schritt: Version 8.1.0. Als herausragende Neugikeiten konnte ich erkennen: Unterstützung für MySQL 5.0 FastCGI Ruby on Rails AWStats (endlich – Webalizer ist soooo bescheiden) Es gibt angelich noch…

  • SpON über Kniepers Abmahnwanhn

    Danke, Spiegel Online. Solche Artikel [via Gerald] braucht’s um die breite Masse zu erreichen. Ein wenig mehr Links für Leute die gerne mehr lesen und nachforschen, würden dennoch nicht schaden (z.B. Google Blogsuche oder technorati mit entsprechenden Suchbegriffen), aber das kann man von Verlagshäusern bekanntermaßen ja nicht wirklich verlangen ;)

0 Kommentare

  1. Ich wollte auch vor einigen Monaten BadBehaviour einsetzen, aber Robert Basic hatte mir abgeraten aufgrund seiner schlechten Erfahrungen damit (einige User hatte er durch BB ausgesperrt).
    Seit einiger Zeit fahre ich mit der 3er-Kombination Akismet, Math-Comment-Spam-Protection und Simple-Trackback-Validation sehr gut, hatte zuvor Tage mit mehreren hundert Spam-Kommentaren.
    Statt Akismet und Simple-Trackback-Val. lässt sich m.E. auch SpamKarma einsetzen, wobei SK meines Wissens aber ziemliche Serverlast verursacht — ist letztendlich aber auch Geschmackssache was man einsetzt. MathCommentSpam dient der Abwehr bevor überhaupt ein Kommentar in die Datenbank wandert.

    Das Konzept von BB finde ich dennoch hochinteressant, daher verfolge ich interessiert die entsprechenden Erfahrungsberichte, leider hört man immer wieder, dass BB Leser aussperrt – und das ist der Worst-Case für jedes Tool und sollte unbedingt vermieden werden.

  2. Das stimmt schon, Michael. Das wird sich aber bei so einem Tool nie vermeiden lassen. Das ist auch das große Manko bei entsprechenden Mail-Spam-Checks und der Grund warum auch bei RBL-Checks immer wieder false positives auftauchen.

    BB bräuchte letztlich noch eine Funktion wie SK2 die dann im Ausschluss-Fall dem Menschen (wenn Denn einer dahinter steckt) die Möglichkeit gibt per Turingtest (Captcha oder ähnliches) sich selbst zu validieren.

    Math-Comment-Spam habe ich mir auch schon überlegt aber die Fehlerrate ist bei SK2 + SK2-Akismet-Plugin so gering, dass ich kein weiteres Plugin für die reine Spamprotection mehr einsetzen will. Trackbacks validiert SK2 ja auch recht gut. Bzgl. Serverlast kann ich nichts sagen, allerdings müsste IMHO die Zahl der Kommentare schon sehr groß sein, damit sich ein Kommentar-Antispam-Tool in der Last bemerkbar macht. Solange keiner kommentiert tut das ja nix ;)

  3. Ich hatte halt vor einigen Monaten über 5000(!) Spams/Tag (siehe hier), und das wo Besucher vielleicht 1-3 Kommentare/Tag hinterlassen wollten. SK hätte da das System zusätzlich beansprucht, mit Einsatz von MathCommentSpam war dann Ruhe, daher hatte ich das auch erwähnt. Aber solange man keinen Nachteil erfährt, würde ich erstmal MathComment oder andere Captcha-Möglichkeiten auch nicht unbedingt einsetzen — bedeutet ja immer ein zusätzliches Feld das der Besucher ausfüllen muss.

  4. Genau das ist noch das was mich hindert. Wobei Math-Comment-Spam da meines Erachtens noch die beste Lösung ist. Auch gegen übermässiges Spamaufkommen.

    BB hingegen kann hier wieder frühzeitig helfen wenn eine Spamflut aus einem Netz oder zumindest immer mehrere Spams hintereinander von einer IP oder einem UserAgent kommen. Da ist dann schnell dicht und es wird für den Spammer gar nicht erst die ganze Seite gerendert.

  5. Kleine Idee: Es geht ja nur um die Kommentare, wobei BB Probleme bereitet. Deaktiviere BB und setze doch eine zusätzliche Captcha Prüfung nur für die Kommentare, nicht jedoch Pingbacks und Trackbacks ein. Frage dabei gezielt nach „Wieviel sind drei und drei zusammen addiert als Summe? (sechs)“ – jeder, der der deutschen Sprache (der ja auch dein Blog zu Grunde liegt) mächtig ist, wird darauf die Antwort schreiben können. Die Pingbacks und Trackbacks werden sowieso über SK2 vortrefflich gefiltert… und Du umgehst die unausgereiften Fehlermeldungen von BB, wenn ein User ausgeschlossen wird. War es nicht auch vorher schon so, dass ein User gesperrt wird ohne überhaupt das Blog zu sehen, nur weil mache Useragents oder IP Adressen als brandgefährlich gehandelt werden?

  6. Hallo Mike. Nein BB macht eigentlich nicht bei den Kommentaren Probleme. BB macht grundsätzlich Probleme wenn es normale User aussperrt – ob das nun erst beim kommentieren ist oder schon beim durchklicken durch die Seite ist erstmal egal. Man bräuchte eine nachträgliche „wiederfreischaltung“ für echte User bei BB, ähnlich wie bei SK2 die „second chance“ (Captcha).

  7. Zur Erklärung: Der BlogCorpusReader liest Samples aus öffentlich zugänglichen deutschsprachigen Weblogeinträgen ausschließlich zu Zwecken der (Grundlagen-)Forschung. Die Auswertung des gesammelten Texts dient nicht dazu, Bloggerprofile oder ähnliches zu bilden. Vielmehr geht es um einen (abstrakten) statistischen Vergleich von Themenkarrieren in klassischen Medien und Weblogs.

  8. Danke für die Info, Matthias.

    Die Sache könnte sicherlich mehr Vertrauen gewinnen, wenn im UserAgent eine URL mitkommen würde, auf der man weitere Infos einholen kann. Durch BadBehavior wird der UserAgent auf jeden Fall geblockt.

  9. Pingback: Coding my Life

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert