Blogspam und Contentklau
Keine Frage – bloggen macht Spaß und der größte Teil derer, die sich am Blogleben beteiligen haben gutes im Sinn. Leider müssen wir aber auch mit Leuten leben, denen Regeln egal sind und die lieber über geklaute Inhalte oder spammig erschlichene Links für Beliebtheit ihrer eigenen Website und damit meist auch für hohe Werbeeinnahmen sorgen.
Grundsätzlich investiere ich in einzelne Fälle eher weniger Zeit, da solche Menschen es nicht Wert sind viel Zeit oder Nerven in sie zu investieren. Was mir aber immer gefällt sind allgemeine Lösungen gegen die Probleme an sich. Bzgl. Blogspam fahre ich hier seit geraumer Zeit sehr gut mit den Plugins „Math Comment Spam Protection“ und „Simple Trackback Validation“. Sie halten mich weitestegehend frei von manuellen Überprüfungen und sorgen dafür, dass Spam auf diesem Blog schlichtweg kein Thema mehr ist.
Will man aber dafür sorgen, dass Spammer oder eben auch Contentklauer erst gar nicht soweit kommen um ein Formular zu sehen oder die Inhalte mitnehmen zu können, muss man an anderer Stelle ansetzen. Es gilt die Bösewichte direkt auszusperren und ihnen den Zugriff auf die Website bzw. den Blog zu verwehren. Dafür gibt es zwei deutsche Produkte, die etwas unterschiedlich funktionieren, aber grundsätzlich beide des gleiche Ziel verfolgen. Sie heissen „Bot-Trap“ und „Spider-trap“, sind beide kostenlos vergfügbar und bedienen eine etwas unterschiedliche Zielgruppe
Spider-Trap
Spider-Trap entsammt der Feder von Thomas Zeithaml und ist in meiner Nachbarschaft enstanden ;) Thomas wohnt nur wenige Kilometer von hier entfert. Spider-Trap ist eine recht einfach funktionierende Falle für Webspider (Bots, Robots). Als Falle wird ein (unsichtbares oder sichtbares) Bild in die eigene Website eingebunden. Dieses Bild verlinkt auf ein Verzeichnis, dass per robots.txt als „verbotenes Verzeichnis“ markiert wurde. Brave Robots halten sich an dieses Verbot und verfolgen den Link nicht. Die meisten bösen Bots verzichten auf die Beachtung der robots.txt und werden somit mit ziemlich großer Sicherheit den Link verfolgen und damit in die Falle tappen. Die IP-Adresse wird gespeichert und via Direktzugriff auf die .htaccess-Datei gesperrt. Zukünftige Zugriffe von dieser IP werden also direkt geblockt und gelangen erst gar nicht mehr zum Blogscript selbst. Das spart natürlich gerade bei Trafficstarken Blogs jede Menge Serverlast.
Tritt versehentlich ein normaler User in die Falle (z.b. durch ein sichtbares Bild), kann er sich direkt durch die Eingabe eines Codes vom Captcha-Bild wieder entsperren. Wer mal sehen will, wie das aussieht kann eben freiwillig in die Falle treten: Link.
Das System ist recht simpel, das Script dazu auch. Mittlerweile gibt es auch ein paar Einstellungsmöglichkeiten und einen kleinen Adminbereich dafür. Die Installation und Konfiguration wurde somit noch einfacher. Den kostenfreien Download gibt’s auf der Seite von Spider Trap. Die Installation dauert maximal 10 Minuten und hat keine erkennbaren negativen Einflüsse.
Hinweis: Am besten das Standardverzeichnis von Spider-Trap umbenennen und entsprechend die Einträge in der .htaccess-Datei und in der Konfiguration (Admin) anpassen.
Bot Trap
Bot-Trap ist das zweite verfügbare System und ist meines Wissens noch etwas jünger als Spider-Trap. Bot-Trap funktioniert grundsätzlich etwas anders. Hier werden zwar auch Bösewichte anhand der IP-Adresse ausgesperrt, jedoch werden diese IP-Adressen bzw. teilweise ganze IP-Adressbereiche nicht vom eigenen Blog gesammelt sondern zentral gepflegt. Bei Bot-Trap arbeitete eine ganze Community gemeinssam dran diese „Sperrliste“ ständig auf dem laufenden zu halten. Leider läuft das nicht immer ganz so wie man sich die Sache vorstellt.
So waren während meiner Testphase z.B. die IP-Adresse von Rivva (kurzfristig behoben) und Blogscout (nach neuesten Erkentnissen nocht nicht behobe) in der Sperrliste vorhanden bzw. sind sie Teil eines IP-Adressraumes der gesperrt war (großzügige Sperrung einiger kompletter Class-C-Netze von Hetzner). Man mag es nun für sinnvoll halten oder nicht, dass großflächig gesperrt wird – das ist sicherlich ein Thema das endlos diskutiert werden kann und auch im Bot-Trap-Forum schon wurde. Rivva und Blogscout sind jedoch nur Beispiele für Fälle die in meinen Augen „False Positives“ waren, im Bot-Trap Forum nicht als solche gesehen wurden.
Für mich gehen beim Blog klar Leser und Dienste rund um die Bloggerei vor. Ich will nicht „die Guten“ aussperren nur um sicherzugehen, dass ich auch 100% der bösen ausgesperrt habe – das geht mir irgendwie gegen den Strich. Wenn ich soweit gehen würde, hätten die Spammer kontrolle darüber wer meinen Blog lesen darf und wer nicht und das ist für mich kein Weg.
Wer jedoch lieber etwas rabiater vorgeht oder so große, ernsthafte Probleme mit Spam und Contentklau hat, für den mag Bot-Trap der richtige Weg sein. Um das Script nutzen zu können bedarf es etwas mehr technischer Kenntnis als bei Spider-Trap. Außerdem ist dafür die Anmeldung und anschließende Vorstellung mit URL im Forum nötig. Man will so verhindern die Spammer in den eigenen Reihen zu haben – ob das wirkungsvoll ist, lassen wir mal dahin gestellt.
Nach dem lesen der letzten Zeilen habt ihr es Euch vermutlich schon gedacht: Spider-Trap ist für mich „the way to go“. Insgesamt eine solide Lösung, die sicherlich nicht jeden Übeltäter draußen halten kann, aber sie deckt mit minimalem Aufwand einen recht großen Teil ab und ist immer noch besser als nichts. Ich werde das ganze zum testen auf diesem Blog noch etwas laufen lassen und anschließend auch bei anderen Projekten einsetzen.
Blogcensus ist von der Sperrung bei Bot-Trap ebenso betroffen. Und das, obwohl alle Vorgaben für einen „guten“ Bot eingehalten werden. Und obwohl die IP-Adresse des Bots bekannt ist, wird diese nicht freigeschaltet. Der Bot-Trap Benutzer soll dies in seiner lokalen Whitelist tun…
Da scheint es andere Interessen zu geben als die, die sie selbst vorgeben.
Ja die Vorgehensweise ist mir teilweise auch etwas schleierhaft. So wird das auf Dauer nur für einen kleine Kreis funktionieren, und dann fehlt ihnen die Gewichtung um den Druck auf ISPs etc. auszuüben, den sie selbst gerne ausüben würden.
Schade eigentlich, die technische Grundlage ist keine verkehrte.
Du schreibst oben „Dafür gibt es zwei deutsche Produkte,…“. Das stimmt so pauschal nicht, da ich mindestens noch ein weiteres deutsches Produkt dafür kenne, und über das ich letzte Woche auch in meinem Blog geschrieben habe.
Damit das nicht als (Eigen-)werbung gilt, lasse ich den Link darauf aber mal weg.
Coole Sache! Danke Frank.
@Andreas: aber so werden wir ja nie wissen, welches Produkt es noch gibt!
Behauptungen ohne Beweise sind aber auch nicht das gelbe vom Ei. Wie wärs einfach mit einem Link zu dem Dienst anstatt auf Deinen Blog? ;) Abgesehen davon hab ich ja nicht geschrieben, dass es nur die beiden gibt – zwei davon kenne ich und hab‘ ich hier genauer erklärt.
Ich wage mal zu behaupten, dass „moderner“ Content-Klau doch übers Really-Simple-Stealing-Format (RSS) abläuft. Ferner berücksichtigen RSS-Suchmaschinen/Aggregatoren/Spider u.s.w. m.W. i.d.R. nicht die robots.txt-Anweisungen (klar, die Annahme ist ja gerade, dass die im Feed referenzierten Inhalte syndizierbar sind (natürlich nur unter Fair-Play-Gesichtspunkten)). Wenn dem so ist, dann hilft die Spider-Trap-Falle doch eigentlich nur herkömmlichen Websites und Weblogs eher wenig, oder nicht?
Frank, da sprichst Du einen wichtigen Punkt an, den ich eigentlich noch in den Artikel aufnehmen wollte, aber leider vergessen hab‘. Natürlich hilft das ganze gegen RSS-Stealer eher wenig. Beim Einsatz von Feedburner schon gleich gar nicht weil Feedburner die Aufrufe cached und jegliche Blocker bei Feedburner stattfinden müssten. Fraglich inwieweit Google das in der Zukunft interessiert und evtl. Sperren möglich sind.
Grundsätzlich hilft aber die Spidertrap auch für Blogs – wenn auch nicht 100%ig. Letzlich ist wiederum ja auch ein Blog eine normale Website und kann von jedem Bot gespidert werden. Nur eben mit dem zusätzlichen „RIsiko“ RSS – eigentlich ist das aber ja eher eine Chance als ein ernsthaftes Risiko ;)
Wenn ich es richtig verstanden habe, dann manipuliert Spider-Trap die .htaccess-Datei selbstständig, sprich es kommen ggf. immer neue IPs hinzu?
Ich hatte mal ein Problem mit einem Spam-Bot (?) aus Brasilien. Da er ständig die IP wechselte, hatte ich mir ebenfalls ein kleines Script geschrieben welches die jeweiligen IPs in der .htaccess sperrte. Leider war nach wenigen Tagen meine .htaccess vollkommen aufgebläht. Das ging teilweise so weit, dass der Server spürbar lange brauchte um die .htaccess abzuarbeiten.
Ich will mir also gar nicht vorstellen was passiert wenn ein Spammer seine Bots mit dynamischen IPs durchs Netz jagt. Einige Bots sind angeblich so programmiert, dass sie die IP wechseln wenn sie keinen Inhalt vorfinden. Andere nutzen öffentlich zugängliche Proxys, z.B. die von Universitäten.
Ich denke hier in den Kommentaren ist schon deutlich geworden wo die Probleme und Gefahren von IP-Sperren liegen. Vor allem wenn ganze IP-Bereiche großzügig gesperrt werden. Wenn Spider-Trap dann auch noch dynamisch vergebene IPs aufnimmt, könnte es sein das ganz normale Besucher plötzlich vor verschlossenen Türen stehen. Und dann möchte ich nicht derjenige sein, der die False Positives aus der .htaccess fischt um zwei Tage später festzustellen das sie wieder drin sind weil der Spammer mit eben jener IP (oder einer ähnlichen) wieder da war.
Ich denke IP-Sperren sollte man mit viel Vorsicht und nur im Notfall einsetzen. Automatisierte IP-Sperren wären mir zu riskant. Zumindest solche, die dauerhaft in der .htaccess stehen. Da würde ich eine Lösung vorziehen, die eine IP für einen gewissen Zeitraum (2 Stunden, 5 Tage, 1 Monat, o.ä.) sperrt.
Ich bin trotzdem mal gespannt wie deine Erfahrungen mit den beiden fallen aussehen werden. Vor allem wie es mit den False Positives aussieht.
Naja wollen wir mal die Kirche im Dorf lassen. Die Tatsache, dass ein Spammer großflächig dynamische IPs aus relevanten Gebieten (in meinem Fall primär der deutschsprachige Raum) so verwendet, dass es zu einem echten Problem wird, ist schon recht unwarscheinlich. Freilich erfordert der Betrieb eines solchen Scripts auch mal hin und wieder draufzuschauen. Damit dürfte da acuh kein nachhaltiges Problem auftauchen.
Bei Trafficarmen Blogs empfiehlt sich ggf. auch die Option bei Sperrungen und Entsperrungen eine Emailbenachrichtigung zu versenden. Des weiteren gibt’s noch die Option einer automatischen entsperrung nach einer bestimmten Zeit. Inwieweit das sinnvoll ist gilt es noch rauszufinden – ich benutze die Option bisher nicht.
Ansonsten sind meine Erfahrungen mit Bot-Trap erstmal beendet (aus oben genannten Gründen).
@Frank(5): Dein Text las sich für mich nicht wie ein „Ich kenne zwei,…“ sondern wie „Es gibt zwei ….“, das hatte halt meinen initialen Widerspruch ausgelöst.
Das „weitere“ Produkt (zu dem ich befangen bin und für das ich hier keine unerlaubte Werbung machen möchte weil es kommerziell ist) verwendet eine Methode zur Verhinderung von Blog-Spam (genauer: Blog-Kommentarspam), in dem es nicht zwischen guten und bösen Bots (wie oben die Tools) versucht zu unterscheiden, sondern zwischen „menschlichem Besucher“ und „Bot“. Und nur die menschlichen Besucher sehen die Eingabeformulare, der Bot sieht die Seiten ohne Eingabeformular. Weiteres steht dort.
@Frank(9): Zu den IP-Adressbereichen. Bei mir im Blog habe ich festgestellt, dass die Bot-Kommentar-Spammer (die die Rechenaufgabe geschafft hatten) hauptsächlich aus Ost-Europa und aus Asien kommen/kamen. Selten aus Südamerika, noch seltener aus Nord-Amerika, bisher noch nie aus Deutschland.
@Andreas: Ich habe nichts gegen die Erwähnung kommerzieller Produkte solange sie zum Thema passen und nicht einfach nur ohne erkennbaren Hintergrund ein Link hinterlassen wird. Darauf bezieht sich auch aus sicher verständlichen Gründen der Hinweis unter dem Formular.
Wenn wir natürlich nun Spezielle Anti-Spam-Tools für Blogs ins Spiel bringen gibt’s da natürlich mehr als die beiden. Genau das wollen Sie aber ja eignentlich auch gar nicht sein.
Die Unterscheidung zwischen Mensch und Maschine die Du ansprichst nimmt ja z.B. auch das hier im Blog zum Einsatz kommende Comment-Spam-Protection-Plugin (was ein Wort) von Michael vor. Auch SpamKarma für WordPress arbeitet teilweise ähnlich. Sicherlich aber nur ähnlich.
Wie war das gleich mit dem neuen TMG und den einhergehenden Datenschutzregelungen? IPs einfach so ohne erkennbaren Bedarf speichern?
ohne erkennbaren Bedarf? na wenn das mal kein Bedarf ist. Die Contentklauer dürfen sich gerne hier postalisch melden und beschweren ;)
Außerdem werden in der Regel eh alle IPs im Server-Log gespeichert. Nicht zuletzt um unerwünschte Zugriffe verfolgen und ggf. blocken zu können.
Davon mal abgesehen handelt es sich bei IP-Adressen i.d.R. nicht um personenbezogene Daten, da ich eine einzelne IP-Adresse keiner bestimmten Person zuordnen kann. IP-Adressen geben nur Auskunft darüber welcher Rechner benutzt wurde, nicht welche Person ihn benutzte.
Als einer der Moderatoren des Bot-Trap Projektes möchte ich mich auch mal zu Wort melden. (Somit auch jemand der die Sperrungen vornehmen kann, bzw. auch wieder freigeben kann.)
Es ist richtig, dass ich in den letzten Tagen gebeten habe, die Freigaben von Blogcensus und 1-2 anderen Diensten zunächst lokal vorzunehmen.
Warum? Die techn. Voraussetzungen zum Freigeben einzelner IPs aus einem IP – Bereich war umständlich, zeitaufwendig und dadurch wurden die Einträge in der Datenbank schlecht zu warten. Wir haben in der Vergangenheit auf diesem Wege einige IP wieder freigegeben. Da eine tech. Änderung in Sicht war und um eine weitere „Fragmentierung“ vermeiden habe ich darum gebeten.
Es ist aber auch richtig, dass ich Euch vorgeschlagen habe die IPs der relevanten „Blogger-Dienste“ zu sammeln, damit wir diese (nach der tech. Realisierung) kurzfristig auf eine entsprechende Whitelist zu setzen. Darauf gab es aber bis dato keinerlei Resonanz!
Ciao,
Mike
Also wie ich finde ist der Schutz mit einer Rechenaufgabe die sogar wie hier noch in .txt Form vorliegt ein Witz! Eine Rechenaufgabe als Bild wäre schon ein besserer Schutz, aber wenn das Bild nicht verfremdet ist, lässt sich das auch sehr leicht knacken.
und?
Wieso, im Moment reicht es vollkommen aus, Kommentare per Rechenaufgabe zu sichern. Außerdem bleiben ja noch Alternativen. So könnte z.B. die Rechenaufgabe in eine Frage umgewandelt werden, wie welche Farbe hat die Schrift oder wie lautet der Domainname.