BadBehaviour & BlogCorpusReader

Ich glaube ich hab‘ vor einiger Zeit schon mal drüber geschrieben: Seit kurzem kommt hier BadBehaviour inklusive WordPress-Plugin und SlimStats zum Einsatz.

BadBehaviour ist ein Plugin, dass UserAgent, IP-Adresse und andere Faktoren der Besucher mit zentralen Blacklisten und (angeblich auch) eigener Logik abgleicht und im Falle eines „bösen“ Besuchers den Zugriff sperrt.

Das funktioniert soweit auch ganz gut. Über SlimStats kann ich seit Wochen bei den täglichen Prüfungen zahlreichen asiatische und Russische Clients beobachten die Reihenweise blockiert wurden. Meistens wegen geblacklisteter IPs oder UserAgents.

Natürlich hat so ein System auch immer Lücken und Nachteile. Heute hat mich Mike Schnoor angeschrieben. Er wurde beim Versuch auf meinem Blog zu kommentieren von Bad Behavior ausgeschlossen. Nachforschungen ergaben, dass seine dynamische IP von netcologne auf mindestens einer öffentlich Abfragbaren RBL (Realtime Blacklist) gelistet war.

Wie gesagt prüfe ich die Blockliste von BB des öfteren. Dabei ist mir bisher nur selten eine dynamische IP untergekommen. Der jeweilge Besucher wurde dann aber immer wegen eines geblacklisteten UserAgents gekickt. Das betrifft z.B. typische Contentsauger-Tools. Ansonsten stehen dort auch jetzt wenn ich reinschaue primär wieder Clients mit IP-Adressen aus koreanischen, brasilianischen und chinesischen Netzen.

Dabei ist mir aber eben wieder mal ein UserAgent aufgefallen, nachdem ich schon mal öffentlich fragen wollte, da ich bei Google bisher nix finden konnte:

Mozilla 5.0 (BlogCorpusReader 1.41421)

auch der BlogCorpusReader ist bei BB geblacklistet. Er greift auf meinen Blog grundsätzlich aus dem Netz der Uni Leipzig zu. Weiß jemand was dahinter steckt?

[tags]bad behavior,spamschutz,contentsauger,diebstahl,false positive,slimstats[/tags]

0 Gedanken zu „BadBehaviour & BlogCorpusReader“

Michael sagt:

9. Dezember 2006 um 23:55 Uhr

Ich wollte auch vor einigen Monaten BadBehaviour einsetzen, aber Robert Basic hatte mir abgeraten aufgrund seiner schlechten Erfahrungen damit (einige User hatte er durch BB ausgesperrt).
Seit einiger Zeit fahre ich mit der 3er-Kombination Akismet, Math-Comment-Spam-Protection und Simple-Trackback-Validation sehr gut, hatte zuvor Tage mit mehreren hundert Spam-Kommentaren.
Statt Akismet und Simple-Trackback-Val. lässt sich m.E. auch SpamKarma einsetzen, wobei SK meines Wissens aber ziemliche Serverlast verursacht — ist letztendlich aber auch Geschmackssache was man einsetzt. MathCommentSpam dient der Abwehr bevor überhaupt ein Kommentar in die Datenbank wandert.

Das Konzept von BB finde ich dennoch hochinteressant, daher verfolge ich interessiert die entsprechenden Erfahrungsberichte, leider hört man immer wieder, dass BB Leser aussperrt – und das ist der Worst-Case für jedes Tool und sollte unbedingt vermieden werden.

Antworten
Helmi sagt:

10. Dezember 2006 um 00:02 Uhr

Das stimmt schon, Michael. Das wird sich aber bei so einem Tool nie vermeiden lassen. Das ist auch das große Manko bei entsprechenden Mail-Spam-Checks und der Grund warum auch bei RBL-Checks immer wieder false positives auftauchen.

BB bräuchte letztlich noch eine Funktion wie SK2 die dann im Ausschluss-Fall dem Menschen (wenn Denn einer dahinter steckt) die Möglichkeit gibt per Turingtest (Captcha oder ähnliches) sich selbst zu validieren.

Math-Comment-Spam habe ich mir auch schon überlegt aber die Fehlerrate ist bei SK2 + SK2-Akismet-Plugin so gering, dass ich kein weiteres Plugin für die reine Spamprotection mehr einsetzen will. Trackbacks validiert SK2 ja auch recht gut. Bzgl. Serverlast kann ich nichts sagen, allerdings müsste IMHO die Zahl der Kommentare schon sehr groß sein, damit sich ein Kommentar-Antispam-Tool in der Last bemerkbar macht. Solange keiner kommentiert tut das ja nix ;)

Antworten
Michael sagt:

10. Dezember 2006 um 00:13 Uhr

Ich hatte halt vor einigen Monaten über 5000(!) Spams/Tag (siehe hier), und das wo Besucher vielleicht 1-3 Kommentare/Tag hinterlassen wollten. SK hätte da das System zusätzlich beansprucht, mit Einsatz von MathCommentSpam war dann Ruhe, daher hatte ich das auch erwähnt. Aber solange man keinen Nachteil erfährt, würde ich erstmal MathComment oder andere Captcha-Möglichkeiten auch nicht unbedingt einsetzen — bedeutet ja immer ein zusätzliches Feld das der Besucher ausfüllen muss.

Antworten
Helmi sagt:

10. Dezember 2006 um 00:22 Uhr

Genau das ist noch das was mich hindert. Wobei Math-Comment-Spam da meines Erachtens noch die beste Lösung ist. Auch gegen übermässiges Spamaufkommen.

BB hingegen kann hier wieder frühzeitig helfen wenn eine Spamflut aus einem Netz oder zumindest immer mehrere Spams hintereinander von einer IP oder einem UserAgent kommen. Da ist dann schnell dicht und es wird für den Spammer gar nicht erst die ganze Seite gerendert.

Antworten
Michael sagt:

10. Dezember 2006 um 00:31 Uhr

Was wünscht man sich eigentlich unter Bloggern in diesem Fall, „Hals- und Beinbruch“ oder „Petri Heil“ ist wohl komplette Themaverfehlung :-)))

Antworten
Mike Schnoor sagt:

10. Dezember 2006 um 04:24 Uhr

Kleine Idee: Es geht ja nur um die Kommentare, wobei BB Probleme bereitet. Deaktiviere BB und setze doch eine zusätzliche Captcha Prüfung nur für die Kommentare, nicht jedoch Pingbacks und Trackbacks ein. Frage dabei gezielt nach „Wieviel sind drei und drei zusammen addiert als Summe? (sechs)“ – jeder, der der deutschen Sprache (der ja auch dein Blog zu Grunde liegt) mächtig ist, wird darauf die Antwort schreiben können. Die Pingbacks und Trackbacks werden sowieso über SK2 vortrefflich gefiltert… und Du umgehst die unausgereiften Fehlermeldungen von BB, wenn ein User ausgeschlossen wird. War es nicht auch vorher schon so, dass ein User gesperrt wird ohne überhaupt das Blog zu sehen, nur weil mache Useragents oder IP Adressen als brandgefährlich gehandelt werden?

Antworten
Helmi sagt:

10. Dezember 2006 um 11:10 Uhr

Hallo Mike. Nein BB macht eigentlich nicht bei den Kommentaren Probleme. BB macht grundsätzlich Probleme wenn es normale User aussperrt – ob das nun erst beim kommentieren ist oder schon beim durchklicken durch die Seite ist erstmal egal. Man bräuchte eine nachträgliche „wiederfreischaltung“ für echte User bei BB, ähnlich wie bei SK2 die „second chance“ (Captcha).

Antworten
Matthias sagt:

13. Dezember 2006 um 12:25 Uhr

Zur Erklärung: Der BlogCorpusReader liest Samples aus öffentlich zugänglichen deutschsprachigen Weblogeinträgen ausschließlich zu Zwecken der (Grundlagen-)Forschung. Die Auswertung des gesammelten Texts dient nicht dazu, Bloggerprofile oder ähnliches zu bilden. Vielmehr geht es um einen (abstrakten) statistischen Vergleich von Themenkarrieren in klassischen Medien und Weblogs.

Antworten
Helmi sagt:

13. Dezember 2006 um 13:38 Uhr

Danke für die Info, Matthias.

Die Sache könnte sicherlich mehr Vertrauen gewinnen, wenn im UserAgent eine URL mitkommen würde, auf der man weitere Infos einholen kann. Durch BadBehavior wird der UserAgent auf jeden Fall geblockt.

Antworten
Pingback: Coding my Life
Pingback: Random Rant » Blog Archive » Blog-Corpus Crawler/Reader

Schreibe einen Kommentar Antworten abbrechen

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre mehr darüber, wie deine Kommentardaten verarbeitet werden.