30.07.2014

Kommt mit Big Data das Ende der Experten?

„With Big Data comes the end of the pundit.“ Mit Big Data haben Experten ausgedient.

Diesen Spruch habe ich vor Jahren auf der Strata Conference aufgeschnappt – dem Treffen der Data Science und Big Data Community. Wie funktioniert die „Data Democracy“, wie Avinash Kaushik, Vorsitzender der Amerikanischen Statistikergesellschaft Big Data nennt? Menschen hinterlassen überall digitale Spuren. Selbst wenn wir versuchen, uns unauffällig zu bewegen, nichts auf Facebook, Linkedin oder Twitter schreiben, sind wir dennoch mit anderen Menschen sozial verbunden und werden dadurch indirekt durch Daten abgebildet. Viele dieser Daten sind zu einem bestimmten Zweck gesammelt worden: Leute schreiben in Social Media, was ihnen gerade in den Sinn kommt, Menschen stellen ihre Urlaubsbilder auf Flickr, ein Unternehmen stellt eine Stellenanzeige ins Netz.

All diese Datenspuren können wir, das heißt jeder von uns, von den Plattformen abrufen, auf denen sie gesammelt werden. Mit einem Webcrawler, einem kleinen Programm, das Inhalte aus dem Web einsammelt, können wir praktisch alles, was im Netz veröffentlicht wird, für uns nutzbar machen. Solche Crawler gibt es als fertige Software, wie z.B. den frei verfügbaren Httrack. Oder man nutzt eines der zahlreichen Pakete für die gängigen Programmiersprachen, wie z.B. Beautifulsoup und Scrapy für die Programmierung in Python (das inzwischen zur gängisten Sprache für Data Science geworden ist). Viele Plattformen wie Twitter oder Flickr stellen außerdem sogenannte Programmierschnittstellen (API’s) zur Verfügung, das sind Funktionen, mit denen man auf einfache Weise die vorhandenen Daten sogar strukturiert abrufen kann. Das funktioniert über Befehle wie twitter_api.statuses.show, die den Twitter-Server dazu anweisen, die entsprechenden Daten als Dokument an den Browser von dem die Funktion aufgerufen wurde, zurückzusenden. (Ein how-to für Twitter gibt es z.B. hier).

Blumtritt

Typisches Big Data Beispiel: Strukturen aus Daten erkennen die nicht dafür gesammelt wurden. Hier eine Karte von Berlin aus Geodaten von Tweets (blau) und Flickr-Bildern (orange) von Eric Fischer (CC-BY-SA)

Die dafür notwendige Software gibt es inklusive detaillierter Anleitung im Netz (ein Anwendungsbeispiel für GoogleBooks gibt es außerdem hier). Selbst Laien können dadurch zu „Datensammlern“ werden. Ein Beispiel mag die Macht dieser frei verfügbaren Daten illustrieren: es ist einfach, mit einem Webcrawler die Abstracts, d.h. die Zusammenfassungen von wissenschaftlichen Artikeln zu sammeln. Mit diesen Texten können alle möglichen Analysen gefahren werden: welche Wörter oder Wortpaare kommen plötzlich häufiger vor, als vor einem Jahr? Welche Autoren schreiben über welche Themen? Das liefert einen guten Hinweis auf aktuelle Trends in dem betreffenden Forschungsgebiet.

Diese Auswertungen lassen sich selbstverständlich auch mit Patentschriften oder Zeitungsartikeln machen. Dieses Vorgehen verzichtet völlig auf ein semantisches Verständnis der Texte – es wird einfach ausgezählt. Damit funktionieren diese Verfahren unabhängig davon, ob man die Sprache des Textes versteht. Es reicht also aus, eine interessante Stelle, die man so identifiziert hat, dann in Ruhe zu übersetzen.
Der Aufwand, Nachrichtenquellen oder Fachartikel zu verfolgen, und zwar sogar in beliebigen Sprachen, wird dadurch so weit reduziert, dass es zB. einem einzelnen Journalisten möglich ist, auf dem Laufenden zu bleiben, wenn sich etwas ungewöhnliches tut.

Das ist der Paradigmenwechsel von Big Data: Daten zu erforschen, Muster in Daten zu suchen, Daten von ihrem ursprünglichen Zweck umzuwidmen, etwas Neues daraus machen – und zwar transparent und nachvollziehbar, ohne Geheimwissenschaft und arkanes Expertentum. So wird Big Data tatsächlich zur „Daten-Demokratie“.

Dieser Eintrag wurde veröffentlicht in: NEU
  • Über Jörg Blumtritt

    Joerg Blumtritt (»@jbenno«) ist Gründer und Geschäftsführer der Datenanalyse-Plattform Datarella und Mitbegründer der »Arbeitsgemeinschaft Social Media«. Er bloggt privat über »Medien«, »Politik« und »Daten«.

    Alle Beiträge von

0 Kommentare zu diesem Artikel


  1. „Die Antwort auf die große Frage nach dem Leben, dem Universum und allem lautet… 42!“

  2. Interessant und schlüssig – bis auf die Überschrift. Ich glaube, die große Stunde der Experten schlägt erst noch.

    Allerdings werden dies vermutlich andere sein als bisher, nämlich die Programmierer. Jenen, die die Regeln der „Daten-Demokratie“ aufstellen, überwachen und umgehen können. Vielleicht kann man der IT-Intelligenzia ja auch mehr trauen als den bisherigen Eliten.

    Laien werden da sicher besser mitspielen können, jedenfalls wenn sie etwas begabter sind als ich. Transparenz werden wir gewiss im Übermaß bekommen – aber wer blickt da noch durch? Experten 4.0!

  3. Tatsächlich helfen Daten alleine noch sehr wenig. Das kann ich aus praktischer Lehrerfahrung berichten.

    Denn ohne Kontext und Einordnungswissen landet man schnell in der falschen Ecke, bei einer Fehlannahme. Das Twitter-Big-Data-Beispiel eignet sich hervorragend dafür – denn man würde leicht zum Schluss kommen, dass würde alle Tweets auf Berlin repräsentieren. Tatsächlich hat nur ein Bruchteil der Twitterer das Mitsenden seines Standorts aktiviert. Und Leute, die vom Desktop/Laptop aus twittern, ohnehin nicht.

    Das Ding ist damit eine ziemlich verzerrte Stichprobe – aber aufgrund der großen Datenmenge ist man verleitet, trotzdem allgemeine Schlüsse draus ziehen zu wollen.

    Stimme Dirk Hansen zu: Neue Experten werden eine erhebliche Rolle spielen, Datenverarbeitungsexperten, Daten-Einordnungsexperten.