08.12.2016

Journalistische Recherche: Was man bei Google alles nicht findet

Manche Menschen glauben, mit Google ließe sich alles im Internet finden – dabei bildet das sogenannte Visible Web, der Teil des Internets, der sich mit Google durchsuchen lässt, nur einen sehr kleinen Teil aller Inhalte. Der weit größte Teil verbirgt sich im Deep Web. Zu diesem werden z. B. passwortgeschützte oder bezahlpflichtige Seiten gezählt. Auch etwa Flashinhalte oder Texte in Grafiken lassen sich nicht so einfach mit Google durchsuchen. Eine umfassende journalistische Recherche muss versuchen, in die Tiefe zu dringen. Zum Beispiel, indem man Datenbanken, deren Inhalte bei Google nicht auftauchen, nutzt.

Zum Deep Web gehören auch solche Netzinhalte, die  vom jeweiligen Webseitenbetreiber vom Zugriff für Google ausgenommen wurden. Google hat sogenannte Crawler, die permanent das Internet nach neuen Webseiten durchsuchen. Als Webseitenbetreiber kann man eine Textdatei mit dem Standardnamen „robots.txt“ im Stammverzeichnis einer Domain platzieren. In dieser kann man den Google-Webcrawlern vorgeben, welche Unterseiten einer Domain nicht dem Google-Index, also der Liste aller Webseiten, hinzugefügt werden sollen. Um Spam zu vermeiden, könnte man beispielsweise die Unterseite „Kontakt“ einer Homepage verstecken und so verhindern, dass die eigene E-Mail-Adresse bei Google auftaucht. Mit robots.txt-Dateien werden aber auch ganze andere Dinge vor Google-Nutzern versteckt, wie folgende Beispiele zeigen:

Beim Deutschen Bundestag möchte man die Informationen aus einem Verzeichnis namens „dokumente_tagesordnungen_details“ nicht gerne bei Google sehen. Ebenso Grafiken zu namentlichen Abstimmungen, die Ergebnisse der Enquete-Kommission Internet und digitale Gesellschaft sowie Videos von Ausschüssen des Parlaments. Auch die Presseakkreditierung zur Bundesversammlung 2010 soll niemand finden. In der robots.txt-Datei von bundestag.de ist dies jeweils mit einem „Disallow“ vor dem jeweiligen Verzeichnis der Domain gekennzeichnet. Bei der Bundestagsverwaltung heißt es dazu: „Eine Empfehlung an die Crawler von Google, bestimmte Seiten nicht zu durchsuchen, stammen wahrscheinlich aus früheren Jahren und haben ggf. technische Gründe. Die Bundestagsverwaltung wird jetzt die robot.txt-Datei auf veraltete Einträge prüfen und in den nächsten Tagen aktualisiert einspielen“, so Sprecher Claus Hinterleitner. Das war am 28. November, doch bislang hat sich an den Einstellungen auf bundestag.de nichts geändert.

Die robots.txt der Allianz-Homepage verbietet den Zugriff auf diverse Kontaktformulare des Versicherungshauses, über die man Schäden im Bereich Haftpflicht, Hausrat oder KfZ melden kann. Dazu erklärt Claudia Herrmann von der Unternehmenskommunikation der Allianz Deutschland AG nur: „Es handelt sich hier um eine übliche Vorgehensweise im Rahmen der SEO-Optimierung“, also im Bereich search engine optimization. Dem habe man „nichts hinzuzufügen“.

Die robots.txt-Datei von polizei.de, der offiziellen Seite der Polizeien der Länder und des Bundes, verbietet Google den Zugriff auf ein Unterverzeichnis „Deliktsbereiche/Geldwaesche/Veroeffentlichungen/FIU2015/“.
Das Thema Geldwäsche ist ziemlich heikel. Die Zahl der polizeilich erfassten Fälle von Geldwäsche ist in den letzten Jahren stark angestiegen. Es bestehen in Deutschland außerdem Defizite bei der Geldwäschebekämpfung. Das BKA kündigte auf Anfrage vom 25. November eine Stellungnahme an, übersandte diese jedoch auch auf erneute Nachfrage nicht. Zuletzt erklärte Barbara Hübner von der BKA-Pressestelle am 29. November, ihr fehle „noch die notwendige Rückmeldung aus dem zuständigen Fachbereich. Sobald diese hier vorliegt, erhalten Sie Nachricht.“

Kurzum: Wer angesichts unterschiedlichster Restriktionen in robots.txt-Dateien als Journalist an die Allmacht von Google glaubt, der hat stets nur das halbe Bild. Besser macht man sich die Mühe und recherchiert auf Internetseiten selbst, und zwar in der Tiefe. Eine erste Idee, welche Unterseiten einer Homepage besonders interessant sein könnten, kann einem dann gleich das Dokument geben, das den Durchblick eigentlich verhindern soll – die robots.txt-Datei.

Dieser Eintrag wurde veröffentlicht in: JOURNALISMUS & TECHNIK, Suchen & Finden

1 Trackbacks/Pingbacks

  1. Journalistische Recherche: Was man bei Google alles nicht findet | Marvin Oppong 08 12 16