Warum Journalisten bessere (Big Data) Tools brauchen

Die Menge der verfügbaren Daten steigt stark an. Insbesondere Medienunternehmen können auf dieser Basis ganz neue Angebote für die Leser und Nutzer entwickeln. Die Frage ist: Wie könnte der Pfad dorthin aussehen?

Basis für diesen Beitrag sind die Erkenntnisse, die wir im Rahmen des dreijährigen “NewsStream”-Projekts gewonnen haben. Kern des Projekts waren Beispielanwendungen für “Big Data”, spezifisch zur Nutzung in Redaktionen. Im Projekt hatten wir die Chance, den möglichen Nutzen neuer Ansätze genauer zu überprüfen. Wir konnten uns in der Praxis mit Big-Data-Technik und Einsatzmöglichkeiten beschäftigen.

Durch die Zusammenarbeit mit den technischen Projektpartnern Neofonie und Fraunhofer IAIS konnten die journalistischen Partner dpa und Deutsche Welle erproben, was man eigentlich alles machen könnte, wenn eine entsprechende technische Infrastruktur vorhanden ist. Aus dieser Arbeit sind eine ganze Reihe praxisorientierter Prototypen entstanden, die wir derzeit (Stand Sommer 2017) mit Nutzern aus Redaktionen evaluieren.

Welche Empfehlungen ergeben sich daraus? Verkürzt: Redaktionen und Medienunternehmen müssen Strategien entwickeln, sonst werden sie möglicherweise abgehängt. Aus klugen Ansätzen wiederum könnten Angebote in neuer Qualität entstehen. Und zuletzt: Damit verbindet sich auch eine ökonomische Perspektive zur Finanzierung von gutem Journalismus.

Daten als Basis im Journalismus

Vielleicht der Reihe nach.

Daten sind mittlerweile überall im Alltag unsere oft unsichtbaren Begleiter. Wir alle nutzen Geräte und Anwendungen, die Daten generieren, sammeln, auswerten. Ein guter Indikator sind beispielsweise die Google Verkehrsübersichten in den Karten: Wenn da an einer Kreuzung eine Strecke rot markiert ist, dann stehen da auch tatsächlich einige Autos. Die Darstellung ist fast immer sehr genau. Das geht heute ohne dass extra Messschleifen im Asphalt verlegt werden. Für derart genaue Aussagen reicht es, dass fast jeder von uns einen Account hat und ein mobiles Telefon in der Tasche hat.

Das ist nur ein Beispiel von vielen. Die Menge der Daten, die aufgrund der Digitalisierung insgesamt verfügbar sind, nimmt laufend und in rasantem Tempo zu. Dadurch entstehen Ressourcen, die früher undenkbar waren. Diese Entwicklung beschreibt der Ausdruck “Big Data”.

Wie bei allen großen Veränderungen gibt es positive und negative Effekte. Einerseits wünschen wir uns als Nutzer guten Service und möglichst individuelle Angebote. Wer Sport betreibt lässt häufig ganz bewusst eine App mitlaufen, die unseren Fortschritt protokolliert. Wer einkauft, hinterlässt Spuren, die von den Anbietern für eine immer größere Verfeinerung des Angebots genutzt werden. Diese Entwicklung hat auch negative Seiten. Häufig (oder genauer: fast immer) fehlt es an Transparenz. Es ist kaum noch zu kontrollieren, was da von wem und wann gesammelt wird.   Nicht ohne Grund verklagen beispielsweise Nutzer Facebook und fordern die Offenlegung der gesammelten Daten.

Aus Sicht des Journalismus liegen in beiden Seiten dieser Entwicklung große Chancen: Auf der einen Seite eine „latente“ Nachfrage nach besseren, individuellen Informationen. Auf der anderen der Wunsch nach Klarheit, Offenheit und Prinzipien, die das Wohl des einzelnen Nutzers in den Vordergrund stellen.

Redaktionen brauchen daher bessere „Big Data“-Werkzeuge, um für ihre Nutzer bessere Angebote zu machen. Sie brauchen solche Tools auch um bei Fehlentwicklungen, Missbrauch wirksam dagegen anzugehen und Korrekturen einzufordern. Ein Vorschlag: Neben „Big Data“ sollte der Begriff „Small Data“ genauer betrachtet werden. „Small“, klein, sind zum Beispiel die Datenpunkte einzelner Nutzer: Einkommen, verfügbares Einkommen, Mieten, Kredite, Versicherungen. Die Werte mögen klein sein, für den einzelnen Nutzer sind sie enorm wichtig. Neue Werkzeuge könnten hier eine Brücke schlagen. Sie könnten dafür sorgen, dass die großen Trends analysiert, aufgebrochen und übersetzt werden – so dass der einzelne Mensch abschätzen kann, wie stark ihn die eine oder andere Entwicklung betrifft.

Eine spezifische Qualität des Journalismus gehört zwingend dazu: Transparenz, das Handeln nach ethischen Grundprinzipien, das Ziel die Gesellschaft bei der Meinungsbildung allgemein zu unterstützen. Im Verbund mit Daten entsteht die Perspektive, dass künftige journalistische Angebote jedem einzelnen von uns Analysen liefern können. Zu allen Lebensbereichen, ohne die Verkettung mit einem direkten Verkaufsangebot. Frei von Täuschung, Verschleierung. Hilfreich bei wichtigen Entscheidungen im Leben – vom Beruf bis zur Finanzierung des Eigenheims, von der Ausbildung für die Kinder bis zur Information über politische Entwicklungen und Stimmungen.

Aufbau von Kompetenz nötig

Um solche Angebote aufzubauen, muss noch sehr vieles in Gang gesetzt werden. Redaktionen müssen sich dieser Herausforderung stellen und Kompetenz aufbauen. Daten sind die Basis, von der wir uns künftiges Wachstum der Wirtschaft erhoffen. Der „Economist“ hat im Mai 2017 die zentrale Bedeutung von Daten zum Titelthema gemacht. Die „Datenökonomie“ sei der mittlerweile wichtigste Wachstumsbereich unserer Zeit. Medien müssen sich hier aufmachen und intensiver mit Daten beschäftigen, als Grundlage für die Berichterstattung. Denn es wäre einfach zu kurz gedacht, wenn nur einige technologische führende Firmen profitieren. In Daten und ihrer sinnvollen Nutzung stecken auch neue Perspektiven für die Gesellschaft und jeden einzelnen von uns. 

In den meisten Redaktionen gibt es solche Möglichkeiten bisher nicht. Es gibt weder die Technik noch journalistische Experten, die ständig mit Daten arbeiten. Welche Technologien könnten in Redaktionen die Abläufe unterstützen? Wie können in Zukunft besonders komplexe Themen aufbereitet werden? Welche mathematischen oder statistischen Methoden helfen, die Behauptung eines Politikers als falsch oder richtig einzuordnen?

Erste Vorreiter

Verlage, TV Sender und andere haben natürlich auch jetzt schon Informationstechnologie im Einsatz, bisher allerdings meist außerhalb der Redaktion. Vertrieb, Marketing, Produktion arbeiten schon längst digital. Ausgerechnet in der Redaktion jedoch herrscht häufig noch ein Mangel an solchen Lösungen. Ein positives Zeichen hier: In immer mehr Redaktionen entstehen “Daten-Teams”, in denen Journalisten, Programmierer und Designer zusammen arbeiten. Bei der „Berliner Morgenpost“ entstehen preisgekrönte Visualisierungen. Beim SRF in der Schweiz ist ein offenes Portal entstanden, das mit großer Transparenz den Code und die Daten zu investigativen Projekten offenlegt. 

 

 

 

Datenanalyse in der Redaktion

Genau diese Entwicklung sollte sich noch weiter beschleunigen. Ohne Daten geht es nicht mehr. In unserer Wirtschaft und Gesellschaft bietet die Fähigkeit zur Sammlung und Analyse derzeit großen Chancen. Für Produkte und Services, für Marketing und Kommunikation. In der Liste der größten Unternehmen der Welt stehen digitale Unternehmen ganz vorn.

Ein Autor, der diesen Wandel sehr früh vorhergesehen und beschrieben hat, war der Management-Autor Peter Drucker: Bereits in den 50er Jahren erkannte er folgendes: 

„Fundamentale Veränderungen der Technologie und der Gesellschaft haben die Struktur sozialer Bedürfnisse verändert. Wir sind uns des Wandels der Technologie heute sehr bewusst. Doch wenige Menschen haben realisiert, dass das was sich verändert nicht die Technologie ist, sondern das zugrunde liegende Konzept der Technologie. Dreihundert Jahre lang war das zentrale Modell der Technologie das mechanische Phänomen in einem Stern wie der Sonne. Diese Entwicklung erreichte ihren Höhepunkt mit einer Technik, die die Vorgänge in einem Stern repliziert, konkret die nukleare Spaltung und Fusion. Jetzt aber wechselt die Dynamik der Technologie zu etwas, das wir als organisches Modell beschreiben können, organisiert rund um Information statt um den mechanischen Prozess. … Als Konsequenz sorgt dieser Wechsel von einem mechanischen zu einem biologischen Modell für eine Veränderung der Ressourcen, die als Kapital genutzt werden können.“

Quelle: Peter Drucker, The Frontiers of Management (1959), S. 324

Vieles von dem, was  Drucker da vor Jahrzehnten beschreibt, ist mittlerweile eingetreten. Neue Plattformen, neue Unternehmen handeln danach: Sie organisieren Information, besitzen aber keine Fabriken oder ganz konkrete, physische Produkte. Uber, ein Taxi-Dienst, besitzt keine Taxis. Airbnb, ein Vermittler für Zimmer und Wohnungen, besitzt keine Gebäude. Apple verdient Geld mit Apps für das iPhone, hat aber nur wenige dieser Anwendungen selbst entwickelt. 

Welche Rolle spielen Daten in Medienunternehmen?

All das sind Beispiele, wie sich Daten nutzen lassen. Aber, wo sind ähnliche Plattformen für Informationen, die von journalistischen Prinzipien angetrieben werden? Um diese Lücke zu schließen sollten Medienunternehmen die Prinzipien von Softwareunternehmen übernehmen. Konkreter: Entwicklungen vorantreiben, die zu neuen Informationsservices führen – im Verbund mit einer auf allen Ebenen wirksamen Bindung an journalistische Prinzipien.

Eine solche Nutzung der Daten geht über Visualisierungen von Zusammenhängen weit hinaus. Das Ziel lautet, Analysen anzubieten, die jeden Nutzer auf den Informationsstand eines Vorstandsvorsitzenden bringen. Und natürlich sollten falsche Erhebungsverfahren, bewusste Verschleierung oder lückenhafte Daten angeprangert werden. Investigative Projekte können helfen, Missbrauch und Fehlentwicklungen aufzudecken und zu korrigieren. 

Lange Zeiträume zeigen wie Veränderung wirkt

Ein Beispiel, wie sich Daten für eine Einordnung von Entwicklungen nutzen lassen liefert beispielsweise Max Roser von der “University of Oxford. Mit einem kleinen Team hat er die Webseite “Our World in Data” gestartet. Die dort publizierten Grafiken beschreiben wichtige Themen. Lebenserwartung, Gesundheit, oder – wie im Beispiel unten – die Zahl der Menschen, die in extremer Armut leben. 

Quelle: Our World in Data, CC-BY

Widerstände in der Redaktion

Es mangelt bisher nicht nur an klaren Strategien in den Medienunternehmen. Wenn es um den Einsatz der  Technologien in der Redaktion geht, gibt es auch unter Journalisten viele Vorbehalte. Beispielsweise wenn das Stichwort “Roboter-Journalismus” fällt. Richtig ist: Ja, es gibt Software, die aus den Spielergebnissen einer Bezirksliga lesbare Kurzberichte erzeugt. In 0,2 Sekunden werden die Spieldaten in einen Text verwandelt. 100, 1.000 oder auch 10.000 Berichte sind kein Problem. Es ist verständlich, dass gerade Redakteure, die all das bisher von Hand hergestellt haben, da um ihre Zukunft fürchten. Doch durch den Einsatz solcher Technik können anderswo Freiräume für Arbeit entstehen, die zwingend von Menschen gemacht werden muss. Dazu zählen gute Interviews, kluge Reportagen, besondere Betrachtungen der Welt und eben auch Analysen in einer ganz neuen Qualität und Tiefe.  Text-Roboter sind nur eine Facette eines  größeren Wandels. Wenn sich Redaktionen dem Thema Daten intensiver widmen und technische Möglichkeiten prüfen, dann können sie mehr tun, als alte Jobs auf neue Art zu erledigen. Sie können ganz neue Jobs erfinden. 

Journalismus verbessern

Der Treiber sollte ökonomisches Umdenken sein. Im “Innovations Report” der “New York Times” 2014 findet sich ein Zitat, wie eine solche Ausrichtung aussehen könnte: “Wir hoffen, wir kommen an den Punkt, an dem wir nicht länger eine Zeitung sind, die auch
Webseiten produziert. Vielmehr sehen wir uns als ein digitales Unternehmen, welches auch eine Zeitung produziert”, so Audrey Cooper, Managing Editor des “San Francisco Chronicle”. “Wenn man diesen Schalter nicht umlegt, dann glaube ich nicht, dass irgendeine Zeitung wirklich erfolgreich sein wird beim Übergang zum Digitalen.”

Realitäts-Check mit Hilfe von Daten
Daten, die in der Redaktion analysiert werden, könnten vielen Menschen bei Entscheidungen unterstützen. Welches Studium soll man ergreifen, welche Berufe bieten Chancen in den nächsten Jahrzehnten? Analysen können dabei unterstützen. 

Nehmen wir als Beispiel die fast schon klassische Frage eines Twentysomethings nach dem Erfolgspotenzial seiner Band, die fleißig Konzerte spielt und Songs veröffentlicht.

Wie hoch ist die Chance, irgendwann die großen Bühnen der Welt zu betreten?Antworten darauf liefert ein interaktiver Beitrag mit dem Titel “The Unlikely Odds of Making it Big” (“Die unwahrscheinliche Chance, groß rauszukommen”), erstellt von einer Daten-Agentur namens “The Pudding”.

Für diese Story analysierte das Team 75.000 Auftritte von 3.180 Bands im Großraum New York über einen Zeitraum von drei Jahren. Frage: Wie viele der Bands schafften tatsächlich den Sprung von kleinen Clubs in die größeren Hallen? Die Antwort liefert eine Visualisierung. 

Screenshot/Quelle: https://pudding.cool/2017/01/making-it-big/

Bemerkenswert ist: Die Analyse hört an dieser Stelle nicht einfach auf. Wer ganz nach unten auf die Seite geht, erhält Informationen für jede einzelne Band, die hier betrachtet wurde. Das ist eine neue, zusätzliche Ebene: Nicht nur der Durchschnitt, auch das individuelle Detail lässt sich nachschauen, prüfen, nutzen.

Das Vorgehen bei dieser einen, beispielhaften Analyse ließe sich auf viele andere Bereiche übertragen, in denen wir bisher auf Basis unserer Erfahrungen und Intuition entscheiden. Ein konkretes Beispiel: Bei den Schulabgängern in Deutschland finden sich seit Jahren immer wieder Statistiken, wonach rund ein Drittel der jungen Menschen in zehn Top-Berufe drängen. Über 50 Prozent der Berufsstarter fühlen sich nicht ausreichend über Alternativen informiert. Analysen könnten das ändern und Individualität fördern. Medien könnten diese Analysen liefern.

Datenjournalismus als “neue Kamera” für die Berichterstattung

Bleibt die Frage, wie und wo Journalisten und Redaktionen konkret mit der Arbeit anfangen können.  Unser Vorschlag: Drei Perspektiven, die als Startpunkte dienen können. Auf Basis von drei zentralen Aspekten: Themen, Modelle und berufliche Perspektiven.

Neue Themen: Vertiefte Berichterstattung

Datenjournalismus öffnet die Tür zu Themen und Berichten, die früher gar nicht möglich gewesen wären. Wenn Journalismus eine Kraft sein soll, die Entwicklungen dokumentiert und Fehlentwicklungen ans Licht bringt, dann kommen wir um Datenanalysen nicht herum. Im Zentrum steht dabei die Fähigkeit zum korrekten Vergleich. Edward Tufte, Autor viel gelesener Bücher über Visualisierungen betont, wie wichtig der Vergleich ist. Wenn beispielsweise die Arbeitslosigkeit in einem Land oder einer Region gestiegen ist, dann lässt sich das nur durch einen Vergleich auch bewerten. Wie hoch lag der Wert im Vorjahr? In den letzten 10 Jahren? Wie hoch liegen die Werte in anderen Regionen oder Ländern? Lassen sich in der – positiven oder negativen Veränderung – Trends erkennen, wie zum Beispiel Rückgänge bei bestimmten Berufsgruppen?

In Deutschland steigt die Zahl maroder Autobahn- und Eisenbahnbrücken. Solche Entwicklungen kommen zu sehen wäre eine deutliche Verbesserung. Ähnlichen Bedarf gäbe es bei  weiteren Themen: Die Entwicklung der Arbeitsplätze in einer Region, Veränderung der Qualifikationsanforderungen, Hauspreise, Mieten, Einkommen. All das sind Themen, die mit laufenden Datenanalysen eine neue Qualität erreichen könnten. Vor allem bei regionalen und lokalen Medien. Gerade regionale Medien könnten mit einer Kombination aus redaktionellen Daten und Berichterstattung Angebote machen, die es woanders nicht gibt.

Neue Modelle: Datenjournalismus braucht neue Teams

Ebenso wichtig ist der Aufbau neuer Teams. Journalisten sollten mit Programmierern und Designern arbeiten, um solche Themen aufzubereiten. Leider sind bisher nur wenige Redaktionen darauf vorbereitet. Bereits im Jahr 2006 veröffentlichte Adrian Holovaty einen Online-Artikel, der heute von vielen Daten-Journalisten als Manifest des Datenjournalismus angesehen wird: “A Fundamental Way Newspaper Sites need to change“. Stark verkürzt fordert Holovaty in dem Text einen strukturierten, vorausschauenden Umgang mit den durch die Redaktion laufenden Daten – statt diese einfach nur in einen  – aus technischer Sicht – „unstrukturierten“ Artikel zu verwandeln.

Zusätzlich zu den Team sind auch die technischen Ressourcen entscheidend. Wer schwere Ladung transportieren will,  macht das nicht mit dem Privatwagen, sondern nutzt einen Laster. Wer große Mengen an Daten sinnvoll und mit vertretbarem Kosten-/Nutzenverhältnis aufbereiten will, der braucht eine auf journalistische Themen ausgerichtete IT-Infrastruktur. Daten sammeln, aufbereiten, in Themen und Angebote verwandeln. Genauso gut oder besser als Facebook, Google und Co. Aber mit dem Ziel, die Öffentlichkeit umfassend zu informieren. Je besser das funktioniert, desto stärker ist der Nutzen – Organisationen, die das in den Griff kriegen, werden absehbar Erfolg haben.

Bevor dies eine falsche Konnotation bekommt: Medienunternehmen, egal ob öffentlich-rechtlich oder  privat – dürfen dabei nicht das Konzept „Ausspähen der Konsumenten für gezieltere Werbung“ kopieren. Dieses Modell mag im Moment erfolgreich sein, aber es ist kein Geschäftsmodell für den Journalismus. Statt jede Menge Hinweise zu sammeln, was Nutzer X gerade angeschaut hat und was sie oder er möglicherweise bald kaufen will, sollten journalistische Angebote auf der Seite der Nutzer sein und ihnen alle möglichen Informationsvorsprünge verschaffen. 

Berufliche Perspektive: Datenjournalismus als Karriere

Ein dritter Aspekt betrifft die Journalisten selbst. Der Aufbau von Know-how beim Erzeugen von Berichten auf Basis von Daten sorgt für verbesserte Einstellungs- und Aufstiegschancen. Wer heute in der Redaktionskonferenz bei der Frage nach Datenkompetenz die Hand hebt, der hat den Job – weil bisher nur sehr wenige Journalisten dafür ausgebildet sind. Meist  reicht es für den Einstieg schon, wenn man  in PDF in eine Excel-Tabelle umwandeln

Die Latte für den Einstieg hängt überraschend tief. Dennoch ist die Bestandsaufnahme bezüglich des Interesses von Journalisten an Technologie und Daten relativ aktuell noch ernüchternd.

Es mag sein, dass nicht alle Journalisten in allen Punkten zustimmen, was die Bedeutung von Daten angeht. Doch es gibt es klare Argumente und Chancen, die durch eine Hinwendung zu Daten entstehen. Die Angst vor der fortschreitenden Digitalisierung hingegen ist zunehmend schwer nachvollziehbar. Viele Abläufe in Redaktionen sind längst digital. Kein Mensch schreibt mehr mit Schreibmaschine.

Wann geht es los?

Das Fazit:

  • Ein Ziel wäre, deutlich mehr Menschen als bisher tiefgehende, korrekte Einblicke und Informationen bieten. Nicht nur finanzstarke Firmen, sondern ganz normale, einzelne Menschen sollten die Vorzüge von Datenanalysen für Entscheidungen nutzen können. Vor allem dann, wenn wichtige Weichen im Leben gestellt werden: Ausbildung, Familie, Hauskauf, Beruf, Geld, Gesundheit, Absicherung. Medienunternehmen müssen mit der Arbeit an konkreten Szenarien anfangen. 
  • Investitionen in Technik und Datenanalyse Chance zu sehen begreifen. Wenn ein Verlag ein Angebot aufbaut, das in der Region einen deutlich besseren Weg zum Hauskauf ebnet, dann wäre bietet sich später die Chance, diese Software anderen Verlagen anzubieten, die andere Regionen abdecken.
  • Neue, durchdachte Lösungen, die dem Journalismus nutzen, ebnen Wege zu einer datengetriebenen Berichterstattung. Die Herausforderung besteht darin, diese Systeme so zu entwickeln, dass Leser/Nutzer ganz neue Einblicke erhalten und  journalistische Qualität in der Redaktion fördern.

All das kann guten Journalismus stärken, um möglichst viele Menschen umfassend zu informieren.

#tickertools – Premiere für die inoffizielle News-Stream API

11 Ideen - 48 Stunden

11 Ideen – 48 Stunden

Was brauchen Journalisten, um mit den wachsenden Datenströmen zurechtzukommen? Welche Tools helfen bei der Kommunikation mit den Lesern? Und wie findet man die passenden Nachrichten, die den Nutzer durch den Tag begleiten? Bei News-Stream haben wir in den vergangen beiden Jahren Antworten auf diese Fragen gesucht und gefunden – im Konsortium und gemeinsam mit Kunden und Kollegen.

Die Nachrichtenagentur dpa hat im November ihren ersten Hackathon veranstaltet mit dem Ziel, Werkzeuge zu entwerfen und zu entwickeln, die Journalisten bei ihrer täglichen Arbeit unterstützen. Das Experiment names #tickertools , organisiert vom Next Media Accelerator, brachte bunt gemischte Teams aus Journalistinnen, Marketing-Leuten, Informatikerinnen und Designerinnen im Berliner Newsroom zusammen. Neben dem Zugang zu dpa-Nachrichten und der dpa-Liveberichterstattung stand erstmals die technische Infrastruktur von News-Stream für Prototypen zur Verfügung.

Für News-Stream beginnt damit die Evaluationsphase, in der die Forschungsergebnisse sich dem Urteil der Praktiker stellen müssen. Bereitgestellt wurde  die „inoffizielle News-Stream API“, ein Suchindex, der von unserer Big-Data-Plattform gespeist wird. Er enthält Nachrichten aus über 1000 Quellen, sowie alle Agenturmeldungen von dpa aus dem Projektzeitraum. Die Texte sind mit semantischen Annotationen aus der  TXT Werk API von Neofonie versehen, Zitate, Personen, Institutionen, Ortsnamen und Schlagworte sind also markiert und zum Teil mit Verweisen auf andere Datenquellen versehen. (Wie unser Big-Data-Framework uns dabei hilft, wird in einem früheren Blogbeitrag beschrieben).

Als einfachen Einstieg hatten wir ein Dashboard vorbereitet, einige Python-Skripte und Jupyter Notebooks  zeigen typische Anfragen an die inoffizielle News-Stream API. Die Notebooks nutzen wir im Projekt besonders gern –  Anfragen können dort interaktiv ausgeführt und z.B. in Form von Charts dargestellt werden.

Die knapp 50 Teilnehmer fanden sich nach einer kurzen Pitch-Phase am Donnerstag zu elf Projekten zusammen, die sie nach gut zwei Tagen – bei einigen Teams inklusive Nächte – schließlich am Samstag Mitteilnehmern und der Jury präsentieren konnten. Über die Vergabe von 2000 Euro Preisgeld und nicht dotierte Sonderpreisen entschieden Isa Sonnenfeld (Leitering Google Newslab D/A/CH), Annette Milz (Chefrakteurin des “Medium Magazin”), Roland Freund (Vize-Chefredakteur dpa) und Dirk Zeiler, CEO des next media accelerator.

Die Gewinner, das Team „Factfox“: Dirk Hübner, Lukas Will, Miriam Mogge, Gudrun Riedl, Sami Boussaid (Foto: Gregor Fischer / dpa)

Die Gewinner, das Team „Factfox“: Dirk Hübner, Lukas Will, Miriam Mogge, Gudrun Riedl, Sami Boussaid
(Foto: Gregor Fischer / dpa)

Gewinner war das Projekt “Factfox”, ein Werkzeug, das Social-Media-Moderatoren dabei helfen soll, Scheinargumenten Fakten entgegenzusetzen.

Auch zwei von News-Stream-Mitgliedern unterstützte Projekte waren unter den Preisträgern:

Eine Idee, die das Projekt schon seit dem Start umtreibt, ist eine bessere Arbeitsumgebung – ein Redaktionssystem, das Journalisten bei ihrer Arbeit unter die Arme greift, indem es Fakten nachschlägt und Belege verlinkt. Unser erstes Konzept, der Recherche-Roboter  hat nun Gesellschaft bekommen von der Kontextmaschine.

 

kontextmaschine

In eine ganz ähnliche Richtung zielt der Prototyp “Newsaddition” – ausgezeichnet als “Best of Pitch”. Die Suchmaschine liefert Kontext für den mobilen Reporter, der vor Ort etwas passgenaueres braucht als eine Google-Suche, die außer Informationen zum Thema zu oft noch Gerüchte und Satire und wenig sachdienliche Zufallstreffer enthält.

Eine weitere Projektidee war der Informer. Da Blogs für Nachrichtenagenturen zu einer wichtigen Ressource von Vor-Ort-Journalismus und von Meinungen und Trends geworden sind, wurde versucht, Nachrichten aus dem dpa-Ticker mit aktuellen Blogs und anderen Quellen zu verlinken. Als Grundlage der Verlinkung sollten die aus TXT Werk gewonnen Entitäten verwendet werden. Auf Entitäten basierende Empfehlungssysteme bringen in der Regel deutlich bessere Ergebnisse als eine normale Textsuche, unter anderem, weil mit ihnen eine ganze Reihe von Zusatzinformationen verbunden sind – bei Personen etwa Bild oder Geburtsjahr, bei Orten die genauen Koordinaten.  Resultat des Projekts war ein Demonstrator, der bereits einfache Verknüpfungen herstellte. Das Team wurde mit ihrer Präsentation dabei mit dem Preis “Best of API” geehrt.

Fast alle der Teams haben die inoffizielle News-Stream API und TXT Werk benutzt, unser Server hatte während des Hackathons einiges zu tun, und wir hatten endlich einen Grund, Load Balancing für die massiven Anfragen einzubauen. Auch in den elf Pitches (hier der Video-Mitschnitt) wird News-Stream mehr als einmal erwähnt. Wir nehmen das als Ermutigung und als Zeichen,  dass unsere Arbeit in die richtige Richtung geht. Auch wenn es nicht immer leicht war, zwischen der Rolle als API-Berater und als Teammitglied hin- und herzuwechseln.

Vom Strom in den Text: Die anderen Roboter

Ja, wir geben es zu: Wir wollen automatisieren. Es soll mehr Roboter geben in den Redaktionen. Wir glauben, dass Maschinen den Menschen beim Recherchieren unter die Arme greifen sollten. Dass sie helfen können, Texte präziser und gehaltvoller zu machen. Dass sie das Verlinken von Quellen unterstützen und die Arbeit in den Redaktionen so überprüfbar und damit glaubwürdiger wird.

Das sind die anderen Roboter. Im Journalismus kümmert sich die Mehrheit der Forscher und Entwickler im Moment darum, Automaten zum Layouten von Zeitschriften, zum Beschneiden von Bildern oder zum  Schreiben von Texten zu bauen. Gerade hier ist im Moment viel in Bewegung:  Deutsche Medienunternehmen haben in den vergangenen Monaten in mehrere Textroboter-Firmen investiert. Die Deutsche Welle kooperiert im Rahmen eines Förderprojekts mit dem Wahlvorhersage-Tool „PollyVote“ und hat einen Prototypen entwickelt. Bei PollyVote werden die Daten neuer Umfragen in kürzester Zeit in Texte verwandelt, die Journalisten bei der Recherche und Bewertung unterstützen.

Maschinentexte sind schon unter uns – meist unbemerkt als Produktbeschreibungen auf großen E-Commerce-Websites, aber ab und zu auch gemischt mit ganz normalem Journalismus, als  Wirtschafts- oder Fußball-Berichte aus dem Computer. Kleine Ironie der Technik:  die Texte entstehen aus Daten,  die zuvor von Menschen erfasst wurden, ohne dieses Futter würden die Textroboter stillstehen.

Im News-Stream-Projekt haben wir uns für eine andere Facette entschieden, die nach unserer Beobachtung bislang weniger Beachtung findet: die maschinelle Hilfe beim Erstellen von Texten. Diese Ausrichtung war von Anfang an Teil des Projektplanes. Sie ist auch die logische Fortsetzung des Ziels, Nachrichtenströme zu bändigen. Diese Aufgabe hält uns seit Projektstart beschäftigt, und sie wird es auch weiter tun. Es ist eine dieser Tätigkeiten, mit denen man auf absehbare Zeit nicht fertig wird. Zumindest, solange die Welt nicht aufhört, das Internet zu aktualisieren, solange die Algorithmen weiter entwickelt werden, mit denen man das Ganze dann wieder einsammeln, verarbeiten und klassifizieren kann.

Aber wie bekommt man den Strom in den Text? Wie kann man die Informationen so verpacken, dass sie Journalisten bei der Arbeit unterstützen? In den Worten von Friedrich Lindenberg, einem der originellsten und produktivsten Köpfe an der Grenze zwischen Technik und Journalismus: „Tools sind nur der Anfang, ich will Journalisten in die Köpfe zu schauen: Was denkt ihr? Was braucht ihr?“

Antworten gab es vom Publikum, auf einem Workshop auf der Jahrestagung des „Netzwerk Recherche“, den wir zusammen mit Friedrich Lindenberg und der Journalistin Patricia Ennenbach im Juli in Hamburg veranstaltet haben (Die Präsentation zum Workshop finden Sie am Ende dieses Artikels). Und wie immer, wenn man seine Nutzer fragt – die Reaktionen waren andere, als wir es erwartet haben. Mit einigen der angesprochenen Punkte beschäftigen wir uns innerhalb des News-Stream-Projektes bislang nicht. Etwa, wie Journalisten davor geschützt werden können, bei der Recherche abgehört zu werden. Mit anderen sehr intensiv: Wie schafft man es überhaupt, das Menschen neue Werkzeuge akzeptieren?

Eine Antwort darauf ist: Die Arbeitsweise beobachten – und die Werkzeuge so gestalten, dass sie sich nahtlos einfügen. Ein Vorbild sind die Arbeitswerkzeuge, über die Softwareentwickler verfügen. Eine Idee, die Friedrich Lindenberg in einem Blogpost vorstellt und in einen Hackathon-Prototypen gegossen hat:

newsclip.se Prototyp

Daraus ist unser erster Prototyp entstanden: Der Rechercheroboter, ein Editor, der im Text nach Hinweisen sucht, an welchen Stellen er helfen kann.

Neofonie Recherche Roboter

 

Und, nach Rückfragen in der Redaktion, die Verfeinerung: Der Editor schaut nicht den kompletten Text an, er bekommt von der Autorin ein paar Hinweise. Inspiration für diese Verfeinerung war die Beobachtung, dass viele Journalisten in Hektik genau so arbeiten – sie hinterlassen Hinweise an sich selbst, an welchen Stellen eine Information fehlt. (Programmierer tun das genauso, sie halten auf diese Weise etwa Gedanken fest, die ihren Code bei einer späteren Verbesserungsrunde robuster machen könnten). Diese Hinweise sind mit ein paar Abstrichen maschinenlesbar.

Prototyp Recherche-Roboter II

 

Und an dieser Stelle arbeiten wir nun weiter.  Die nächste Verfeinerung gibt es auf dem Scoopcamp Ende September in Hamburg zu sehen.

 

Die Präsentation von Newsstream, Friedrich Lindenberg und Patricia Ennenbach auf der Jahrestagung des Netzwerk Recherche.

Explainer: Warum wir das “Training” unserer Sprechererkennung von 100 auf 1000 Stunden erhöht haben

Bei “News-Stream” arbeiten wir daran, eine deutliche höhere Qualität bei der Zuordnung von O-Tönen (Audioaufnahmen aus Radio- oder Fernseh-Interviews) anzubieten. Dieser kurze Beitrag liefert einen Einblick was dazu technisch notwendig ist.

Nehmen wir das Beispiel Flüchtlingskrise… ein großes, drängendes Thema, zu dem es viele unterschiedliche Meinungen gibt. Aber: Wer vertritt hierbei welche Position, und wie stand der- oder diejenige vielleicht noch vor ein paar Monaten zu dem gleichen Thema? Heute werden solche Vergleiche von Hand mit viel Zeitaufwand erstellt, wenn überhaupt. Denn in vielen Redaktionen ist kaum Zeit für solche aufwändigen Vergleiche – die mühevolle Suche im Archiv dauert einfach zu lange.

Im Rahmen des “News-Stream” Projekts entwickeln wir jetzt jedoch Big-Data Analysetools, die für solche Fragestellungen eine deutliche Vereinfachung gepaart mit automatisierter Erkennung relevanter Inhalte bieten. Daran arbeitet das Team des News-Stream Projektpartners Fraunhofer IAIS im Rahmen des Themenbereichs “Audio Minings”.

Die Grundvoraussetzung für eine gute Audioanalyse ist, dass ein bestimmter Sprecher in einem Archiv mit vielen Aufnahmen oder bei neu erstellten Interviews im Radio oder Fernsehen verlässlich identifiziert wird. Wir sind bereits in einem Beitrag unseres Blogs auf die Sprecheridentifikation in einem Audiobeitrag eingegangen. Als Grundlage verfügt unser System über sogenannte i-Vektoren. Diese charakterisieren einen akustischen Sprachbeitrag. Die Vektoren ähneln sich, inbesondere wenn dann, wenn sich das akustische Profil der Stimme im Sprachbeitrag ähnelt. Für die Erkennung des Sprechers gilt: Je besser der i-Vektor, desto genauer lässt sich ein bestimmter Sprecher später erkennen.

Wie sieht ein i-Vektor aus?

Die folgenden drei Tabellen zeigen, wie sich mit Hilfe einer Vielzahl verschiedener Parameter Muster und Übereinstimmungen ermitteln lassen: Ein unbekannter, neuer i-Vector einer Aufnahme wird mit einem bereits bekannten Profil verglichen. Je nach Grad der Übereinstimmung ist dann eine Erkennung des mit diesem i-Vektor verbundenen Sprechers möglich.

Beispiel 1: Unbekannter (neuer) i-Vector

Bildschirmfoto 2016-06-23 um 17.17.41

Beispiel 2: i-Vektor Angela Merkel (Sprechermerkmale)

Bildschirmfoto 2016-06-23 um 17.17.54

Beispiel 3: Vergleichs Ergebnis (Kosinus Distanz), Positiver Match

Bildschirmfoto 2016-06-23 um 17.18.04

Training für Spracherkennung

Einmal festgelegt ändern sich die i-Vektoren nicht mehr.  Allerdings muss man ihre Herstellung doch trainieren. Damit wird sicher gestellt, dass gleiche Sprecher ähnlich und ungleiche Sprecher unähnlich werden. Für dieses Training braucht man eine große Datenmenge von vormarkierten Sprachsegmenten, von denen man die Sprecher bereits kennt.

Aus diesem Training der i-Vektoren auf ein bestimmtes Sprecherprofil entsteht eine Art “Fingerabdruck”, der dann bei neuen Audioaufnahmen benutzt wird. Später muss man dann zwar auf diese Daten nicht mehr zurückgreifen, umgekehrt kann man ein suboptimales Training aber auch nicht mehr rückgängig machen.

Warum ist das so? Ein Beispiel: Wenn alle i-Vektoren optimal auf Bundestagssprecher trainiert wurden, dann sind die Modelle stark auf das eine Mikrophon vorne am Rednerpult optimiert. Sprechen dann aber in einem Radio-Interview zwei  Sprecher über Telefon miteinander, dann weicht der Charakter der Aufnahmen so stark von den Trainingsdaten ab, dass alles Mögliche passieren kann. Vermutlich werden sich die i-Vektoren der Telefonaufnahmen untereinander viel zu ähnlich sein. Grund ist die Tonmodulation von Stimmen über ein Telefon. Selbst wenn beispielsweise ein männlicher und ein weiblicher Sprecher vorliegen, werden die Aufnahmen der Sprecher zueinander ähnlicher sein als ihren „trainierten“ Sprechermodellen. Mann und Frau aus den Telefonaufnahmen würden möglicherweise als derselbe Sprecher fehl-erkannt.

Von 100 auf 1000 Stunden Training für die Sprechererkennung

Die Herausforderung aus technischer Sicht lautet, eine Sprecherin wie zum Beispiel Angela Merkel in ganz unterschiedlichen Aufnahmesituationen und Audioqualitäten verlässlich an bestimmten Merkmalen ihrer Stimme zu erkennen. Im Journalismus-Kontext werden vor allem morgens viele wichtige Radio-Interviews mit Politikern geführt, häufig per Telefon. Das Trainingsset sollte also mindestens diese Tatsache berücksichtigen.

Wir haben daher unsere Modelle für die Sprechererkennung nochmal generalüberholt und statt der bisher knapp 100 Stunden Training nun auf über 1000 Stunden Beiträge in 20 Sprachen erweitert. Dabei wurden etwa zu Hälfte Aufnahmen über Mikrophone, zur anderen Hälfte Aufnahmen über Telefone benutzt. Die Ergebnisse und die dadurch deutlich verfeinerten i-Vektoren wurden im Rahmen einer Masterarbeit auf Herz und Nieren überprüft.

Dabei wirkte sich vor allem ein Verfahren positiv aus, dass die i-Vektoren zusätzlich verfeinert, indem es verschiedene Kanäle (etwa: Außenaufnahme, Telefonie) als auch verschiedene Sprechermodalitäten (z.B. heiser, laut) mit modelliert. Der Verlauf des i-Vektors nimmt also viel mehr Facetten einer Sprechstimme auf. Die Trefferrate bei unserer internen Evaluierung lag nach diesem ausgeweiteten Training bei sehr guten 91%.

Sprechererkennung für Redaktionen nutzbar machen

Jetzt, wo die Modelle stabil stehen, wird die nächste Herausforderung darin liegen, möglichst effizient öffentlich verfügbare Quellen dazu zu benutzen, die Sprecherdatenbank zu befüllen und im laufenden Betrieb zu aktualisieren. Dann kann der Journalist sowohl bei vielen Beiträgen gleichzeitig als auch bei der Recherche in großen existierenden Archiven schnell das Sprachsegment mit der für ihn interessanten Person identifizieren und den O-Ton in seinen Artikel integrieren.

Innovative Werkzeuge 

Damit kommen wir unserem Ziel näher im Rahmen von “News-Stream” eine ganze Reihe innovativer Analysetools für großen Mengen an Inhalten und Audio-Archiven bereit zu stellen.  Interessant ist das nicht nur für TV- und Radiosender, sondern auch für Zeitungen, Magazine und Online-Angebote, die immer stärker multimedial berichten und arbeiten.

 

Hintergrund: Das Projekt “News-Stream” erforscht mit den Partnern Fraunhofer IAIS, Neofonie sowie den Anwendungspartnern dpa und Deutsche Welle neue Anwendungsmöglichkeiten für Big Data-Analysen in Redaktionen und anderen Kommunikationsbereichen.  Mit der IAIS-Technologie »Audio Mining« lassen sich gesprochene Wörter in Audiodateien und Videos erfassen und wie eine textbasierte Datei analysieren.

Eine weitere Besonderheit ist die Sprechererkennung: Sie ermöglicht eine automatische Erkennung der Person, die gerade in einem Beitrag spricht. Diese Technologie basiert auf dem »i-Vektor-Paradigma«, bei dem jedem Tonsegment eine akustische Signatur zugeordnet wird. Dank ihrer Speicherkapazität sind i-Vektoren in der Lage, auch große, schnell einströmende und heterogene Audiodaten in kürzester Zeit zu analysieren. In der News-Stream-Plattform soll die Sprechererkennung Redakteure unter anderem dabei unterstützen, keine Wortmeldung wichtiger Akteure zu verpassen: Sobald etwa die Bundeskanzlerin vor die Kameras tritt, um sich zu einem aktuellen Thema zu äußern, erscheint ein entsprechender Hinweis auf die Übertragung im Bildschirm. Redebeiträge lassen sich über diese audiobasierte Suche aus den Nachrichtenströmen eindeutig einzelnen Sprechern zuordnen und herausfiltern.  Wenn Sie Interesse an weiteren Einblicken haben oder erste Demonstratoren selbst testen wollen, nehmen Sie gern Kontakt auf.

Ansprechpartner: David Laqua, Fraunhofer IAIS – E-Mail: david.laqua [AT] iais.fraunhofer.de

Explainer: Wie funktioniert eigentlich Topic Monitoring?

Was sind die wichtigsten Themen der aktuellen Berichterstattung? Und welche Medien berichten darüber? Diese Frage beantwortet unsere “Topic Monitoring”-Demo. Wie Topic Monitoring Journalisten bei ihrer täglichen Arbeit unterstützt und welche Technologien dahinter stecken, erklärt Peter Adolphs von Neofonie:

Die folgende Grafik zeigt eine Visualisierung der aktuellen Themen. In der linken Spalte sind die wichtigsten Quellen zu sehen, die der Redakteur konfiguriert hat. Die Themen werden als blaue Kreise visualisiert. Rechts neben den Kreisen stehen die wichtigsten Schlagworte und Eigennamen, die ein Thema charakterisieren. Beim Thema “Julian Assange” sind das z.B. “Wikileaks” und “London”. Ein Klick auf ein Schlagwort könnte das Netz weiterer verbundener Schlagworte anzeigen.

explainertopicmonitoring

Anwendungsszenarien für Topic Monitoring
Das geschilderte Szenario orientiert sich an Journalisten, die das Tagesgeschehen beobachten wollen. Ihnen geht es vor allem um neue Themen und deren Gewichtung in der Berichterstattung. Ein anderer Anwendungsfall ist die Beobachtung vorab definierter Themenfelder. Worüber spricht die Berliner Regionalpresse? Was wird über die CeBIT berichtet? Welche Themen spielen in der Berichterstattung über den Autobauer Tesla eine Rolle? Hier werden die Nachrichten über thematisch verwandte Schlagworte gefiltert . Neben Schlagworten können hierfür alle verfügbaren Metadaten verwendet werden, z.B. im Text erkannte Eigennamen, Ort, Ressort oder Nachrichtenquelle.

Das Topic Monitoring ist ein Verfahren des unüberwachten maschinellen Lernens. Für das thematische Clustering ist also kein Vorwissen über die Dokumente oder manueller Pflegeaufwand erforderlich. Es ist deshalb gut für die Analyse großer Textmengen geeignet, deren Inhalte nicht vorab bekannt sind. News-Stream analysiert die Datenquellen dabei in naher Echtzeit. Ein Ziel ist es, Live-Streams verschiedener Fernsehkanäle automatisch Themen-Clustern zuordnen. Auch außerhalb des Newsrooms hat das Topic Monitoring seinen Platz: Leserbefragungen lassen sich auf diese Weise ebenso sortieren und auswerten wie z.B. Anfragen an einen Kundendienst oder große Bestände wissenschaftlicher Veröffentlichungen.

News-Stream auf der CeBIT – Big Data für Journalisten live erleben

Journalisten sind Lotsen in einem immer komplexer werdenden Informationsdschungel: Sie müssen aus einer Vielzahl an Nachrichtenquellen Informationen filtern, bewerten und auf unterschiedlichen Kanälen weiter verarbeiten. Auf der CeBIT stellen wir erste Ergebnisse und Anwendungsbeispiele vor.

Am Stand des Bundesministeriums für Bildung und Forschung BMBF auf der CeBIT (Halle 6, A34) zeigen wir Interessierten am Nachbau eines Redakteurs-Arbeitsplatzes, wie News-Stream funktioniert.

Die neuen Werkzeuge zur Unterstützung von journalistischen Arbeitsabläufen basieren auf Big-Data-Technologien, die heterogene Nachrichtenströme in Echtzeit analysieren. Für Journalisten, Agenturen und Pressestellen wollen wir sowohl die Recherche, die Themen- und Medienbeobachtung als auch die Erstellung von Nachrichtenartikeln durch unsere Tools erleichtern.

Zusätzlich stellt unser Kollege Peter Adolphs (Head of Research bei Neofonie) am 14. März (10:30 – 11:00 Uhr) im Rahmen des CeBIT future talks (Halle 6, Stand B54) das Projekt und die ersten Tools vor.

Schauen Sie doch am Stand oder beim Talk vorbei! Wir freuen uns auf Sie!

Wikipedia richtig zitieren – 2016 und darüber hinaus

Das Jahr 2016 hat gerade erst angefangen. Die richtige Zeit, um zu überlegen, was 2016 besser laufen könnte. Wir wollen von dieser Stelle aus der Medienbranche und dem restlichen Internet eine bescheidene Anregung mit auf den Weg geben: Ab 2016 bitte Wikipedia korrekt zitieren!

1000 Nachrichtenseiten verglichen
Da können nämlich alle noch besser werden. Wir haben unsere Big-Data-Infrastruktur mal dazu verwendet, um nachzuschauen – also die komplette deutschsprachige Wikipedia mit dem Output von über 1000 deutschsprachigen Nachrichtenwebsites über 60 Tage verglichen, Satz für Satz. Das Werkzeug dafür heißt SourceTracker, wir haben in diesem Blog bereits einen Blick unter die Motorhaube veröffentlicht.

Keine Systematik, dennoch zu viele nicht korrekte Zitate
Was haben wir gefunden? Stimmt der Vorwurf, dass offensichtlich sehr viel abgeschrieben wird? Zum Glück nicht. Forschen bedeutet ja auch: Hypothesen widerlegen. Am Besten mit Messungen – und die ergeben ein eindeutiges Bild: Die Verstöße sind nicht systematisch. Fakt ist aber auch: Es wird abgeschrieben, und zwar, ohne korrekt zu zitieren. Nicht so viel, wie wir befürchtet haben, aber doch genug, um diesen Vorschlag für einen guten Vorsatz 2016 in die Welt zu schicken.

Liebe Autorinnen, liebe Autoren – macht es wie “Freitag”. Zitat oder kennzeichnen und mit dem Wikipedia-Beitrag verlinken – fertig. Einfach, transparent und ein echter Mehrwert für alle Beteiligten.

Wikipedia Zitat

Ihr Newsstream-Projekt

Werkstattbericht No. 4 – Haben Sie eine Distributionsstrategie?

Die Konkurrenzanalyse gehört in Medienunternehmen zum täglichen Business – insbesondere im Onlinebereich. Dabei steht i.d.R. die Themenagenda im Fokus der Aufmerksamkeit. Kein Nachrichtenunternehmen will schließlich ein wichtiges Thema in der eigenen Berichterstattung auslassen und Nutzer an die Konkurrenz verlieren.

Es gibt einen Aspekt, der für die eigene Strategie mindestens genauso wichtig ist, wie das Themenmonitoring – die Distributionsanalyse.

Warum ist die Distributionsanalyse wichtig für mich?

Die Daten, die bei der Distributionsanalyse herangezogen werden, können bei der Optimierung der eigenen Distributionsstrategie helfen die Nutzer besser zu erreichen. Bei der Analyse wird der Zeitpunkt der Publikation herangezogen. Eine Heatmap-Visualisierung eignet sich für die Darstellung der Ergebnisse besonders gut dafür. Durch die gewonnen Erkenntnisse lässt sich die Distributionsstrategie nicht nur klarer nachvollziehen, sondern ermöglicht es auch sich von der Konkurrenz durch ein eigenes Profil abgrenzen. Die Datenanalyse kann dabei helfen u.a. folgende Fragen zu klären:

– Habe ich eine Distributionsstrategie?
– Hat die Konkurrenz eine Distributionsstrategie?
– Welche Themen werden zu welchem Zeitpunkt publiziert?
– Welche Themen stehen momentan bei der Konkurrenz im Fokus der Berichterstattung?
– Hat sich meine Distributionsstrategie über die letzten Wochen verändert?

Ein Beispiel: Toranalyse BuzzFeed
BuzzFeed publiziert die meisten Artikel außerhalb der üblichen Kernarbeitszeiten. Sobald wir aber in der Freizeitzone sind, werden wir mit Content versorgt. Besonders intensiv ab 17:00 EST bis spät in die Nacht hinein. Auffällig ist insbesondere die Berücksichtigung der Mittagspause (12:00 EST), die ebenso gezielt für die Contentdistribution genutzt wird.

„Analyse:

Analyse: http://pushthings4ward.com/buzzfeed/index_en.html

Sieht man sich hingegen deutschsprachige Nachrichtenanbieter an lässt sich in den meisten Fällen keine eindeutige Distributionsstrategie erkennen – eher ein 7to7-Muster.
News-Stream

Das Themenmonitoring ergänzt die Beurteilung der aktuellen Situation. Nach dem Terroranschlag in Paris hat die Berichterstattung deutlich angezogen.

News-Stream

Wie gehen wir bei der Analyse vor

Wir crawlen Nachrichtenseiten, extrahieren anhand von händisch erstellten Pattern auf der HTML-Struktur der Seiten die Artikelinhalte und Metadaten, wie z.B. das Datum der Veröffentlichung und speichern diese Informationen anschließend in einem Suchindex. Zusätzlich binden wir den dpa Basisdienst ein, der ebenfalls in den gleichen Index geschrieben wird. Dadurch dass Quelle und Veröffentlichungsdatum als Feld im Index gespeichert werden, kann man in Anfragen nach Quelle und Zeitraum filtern. Die Datenbasis für die Heatmap ist dann ganz einfach über eine facettierte Suchanfrage zu erstellen, die pro Quelle und Tag, bzw. Stunde, die Anzahl der veröffentlichten Artikel liefert. Die Visualisierung der Heatmap wurde mit der Javascript-Bibliothek D3.js realisiert.

Wollen Sie mehr erfahren? Werden Sie jetzt News-Stream 3.0 Beta-Tester http://bit.ly/newsstreambetatester

Explainer: Was bedeutet „Echtzeit“ für News-Stream?

Ein Passagierflugzeug stürzt ab. In den sozialen Medien werden bereits kurz nach dem Ereignis erste Theorien über den Absturz ausgetauscht aber erste offizielle Stellungnahmen stehen noch aus. Wer wird sich wann als Erster vor die Kamera stellen? Plötzlich treten mehrere Offizielle vor die Pressekameras und ergreifen das Wort. Welcher Beitrag ist nun relevant? Auf welches Interview muss man sich nun konzentrieren? Fallen wichtige Schlüsselwörter, die die Situation einordnen (z.B. Flugzeugabsturz)? Hat der Wortbeitrag einen Nachrichtenwert oder ist das nur eine Wiederholung von bereits bekannten Inhalten?

newsstream

Journalisten müssen insbesondere im Rahmen von Breaking-News-Events Entscheidungen in kürzester Zeit treffen. Um diese inhaltlichen Entscheidungen maschinell unterstützen zu können, müssen einige technische Aspekte berücksichtigt werden. So sind viele Analyseverfahren im Audiomining (Spracherkennung) vergleichsweise aufwändig und benötigen in der Regel Echtzeit, d.h. für eine Minute Redebeitrag benötigt ein CPU-Kern etwa genauso lang. Der Journalist muss aber parallel zur Verarbeitung schon auf die Zwischenergebnisse der Datenanalyse zugreifen können. Außerdem muss das System kontinuierlich prüfen können inwieweit wichtige nutzerdefinierte Events (z.B. Nennung von bestimmten Schlüsselwörtern oder Erkennung von Sprechern) eingetreten sind.

In News-Stream ist diese architektonische Anforderung innerhalb der Module soweit umgesetzt und wird nun auf das Gesamtsystem übertragen.

Wollen Sie mehr erfahren? Werden Sie jetzt News-Stream Beta-Tester http://bit.ly/newsstreambetatester

Werkstattbericht No. 3 – So haben wir den SourceTracker entwickelt

Datenjournalisten und Big-Data-Experten haben einen sehr unterschiedlichen Blick auf Daten: Erstere möchte die Daten am liebsten in einem interaktiv Framework untersuchen und eine Geschichte erzählen. Letztere kämpfen mit der Integration heterogener Daten und befassen sich mit verteilten Algorithmen des maschinellen Lernens oder der Graphanalyse. Wie können Datenjournalisten und Big-Data-Experten bei der Entwicklung einer komplexen Big-Data-Plattform wie News-Stream 3.0 produktiv zusammenarbeiten und voneinander lernen?

Die gemeinsame Entwicklung und Nutzung unserer Big-Data-Plattform soll am Beispiel des “SourceTrackers” gezeigt werden, unseres jüngsten Demonstrators.

Ziel des SourceTrackers ist es, die Verbreitung von Aussagen auf den Websites von Medien nachzuvollziehen – etwa, um zu verfolgen, welche Aussagen aus PR-Material unverändert übernommen werden oder in welchen Fällen die Meldungen aus dem Dienst der dpa vor der Veröffentlichung stark oder weniger stark umgeschrieben werden. Die Vermutung: für die dpa-Redaktion, aber auch für PR-Agenturen ergeben sich daraus nützliche Hinweise für die Gestaltung von Meldungen.
Inspiriert hat uns dabei das Projekt Churnalism, eine britische Suchmaschine, die handwerklich fragwürdigen Copy & Paste Journalismus aufdecken sollte, inzwischen aber eingestellt wurde.

Wie gehen wir bei der Analyse vor?

Bei unserer Analyse werden die Dokumente zunächst anhand ihrer digitalen Fingerabdrücke verglichen. Im nächsten Schritt werden die Dokumente auf Zeichenebene verglichen. Ein Demonstrator visualisiert die Analyse einzelner Dokumente und ihrer Nutzung.

SourceTracker

Eine weitere Art der Analyse ist die Gesamtschau auf einen Tag – im Beispiel der 29. September 2015. Jeder Kreis steht für eine eine Meldung aus dem dpa-Basisdienst. Je weiter oben der Kreis eingezeichnet ist, desto mehr Websites haben Bestandteile dieser Meldung übernommen (y-Achse). Je weiter rechts der Kreis eingezeichnet ist, desto weniger Sätze der Meldung wurden verändert. Die Farben stehen für die dpa-Ressorts (wi=Wirtschaft, pl=Politik, vm=Vermischtes, sp=Sport, ku=Kultur).

SourceTracker Analyse

Hier noch einmal die Liste der Top 5 Geschichten vom 25. 9. Lesebeispiel: “Bestandteile der Game of Thrones-Meldung wurden auf 166 Websites verwendet. Im Durchschnitt haben die Websites 66,98% übernommen”.

SourceTracker Analyse2

Unser Big-Data-Framework

Wir wollten von Projektbeginn an unter Big-Data-Bedingungen arbeiten: nicht mit “Spielzeugdaten”, sondern große Datenmengen und hochperformanten verteilte Algorithmen. Neben dem dpa Basisdienst und Twitter verarbeiten wir einen Newsfeed mit Artikeln aus über 1000 Online-Nachrichtenquellen, die von unserem Spider dafür extrahiert wurden. Das Big-Data-Framework Apache Spark bildet das Herzstück unseres Clusters. Spark ist im Vergleich zu seinem Vorgänger Hadoop MapReduce rasend schnell, weil es auf die verteilte Verarbeitung im Arbeitsspeicher setzt – und es erlaubt sowohl die Echtzeitverarbeitung von Datenströmen als auch die effiziente Abarbeitung von “Datenstapeln” (Batch-Verarbeitung). Der Entwicklungscluser von News Stream 3.0 füllt einen kompletten Serverschrank, aktuell 16 Server mit insgesamt 100 Terabyte Festplattenplatz, Tendenz wachsend.

Unsere Plattform basiert auf einer “Lambda-Architektur”. Dieser Begriff beschreibt ein Modell, bei dem die verwendeten Rohdaten unverändert gespeichert werden. Parallel zur echtzeitnahen Verarbeitung neu eintreffender Daten kann eine Neuprozessierung von Teilen oder des gesamten Datenbestandes stattfinden. Das erleichtert die Erprobung und Verbesserung von Algorithmen. Die Ergebnisse, also in unserem Fall Dokumente mit dokumentbezogenen oder dokumentübergreifenden Metadaten, werden über eine Auslieferungsschicht verfügbar gemacht. Die Rohdaten, das können je nach Clustergröße Terabytes oder Petabytes sein, werden bei uns in der verteilten Datenbank HBase gespeichert. Ausgeliefert werden die prozessierten Daten über eine verteilte Suche – hier ist die maximale Datenmenge durch den verfügbaren Arbeitsspeicher begrenzt – in unserem Fall auf mehre Milliarden Dokumente.

BigData Frameform

Mehrere Suchindexe biete Zugriff auf einen Teil der prozessierten Daten – entsprechend den aktuellen Anforderungen der Demonstratoren. Über die Such-Schnittstelle lassen sich bereits einige der Fragen beantworten, die uns nach der Präsentation unserer ersten SourceTracker-Demo gestellt wurden:

Können wir diese Analysen für alle dpa-Meldungen eines Tages, einer Woche oder eines Monats durchführen?

  • Was sind meistzitierten Sätze?
  • Welche Medien übernehmen große Teile der dpa-Meldungen?
  • Welche nur einzelne Passagen?
  • Ist das von Ressort zu Ressort unterschiedlich?
  • Per Python-Skript kann der Entwicklungsredakteur direkt auf die Such-API zugreifen und experimentieren. Und sobald klar ist, welche Reports regelmäßig gewünscht werden, können wir diese effizient für Spark implementieren.

    Andere Fragen erfordern eine Anpassung unserer bisherigen Datenverarbeitungs-Pipeline.

  • Werden die Agenturinhalte im Laufe eines Tages nach und nach durch redaktionelle Inhalte ersetzt? Hierfür müssten wir verschiedene Versionen von Artikeln vorhalten.
  • Könnten wir nicht mit den gleichen Methoden herausfinden, welche Medien sich bei Wikipedia bedienen? Hierzu müssten wir nur die regelmäßig bereitgestellten Wikipedia-Dumps einlesen und prozessieren.
  • Kann ich mich benachrichtigen lassen, sobald ein Artikel von anderen Medien aufgegriffen wird? Das wäre ein erster Anwendungsfall für ein Alert-Modul in unserer Spark-Pipeline.
  • Währenddessen laufen auf dem Cluster längst neue Experimente: es geht um die Topic-Erkennung in Nachrichten und eine Verknüpfung maschinell gelernter Themen mit des semantsichen Metadaten der Dokumente (vgl. Blogbeitrag). Die nächste Demo wird nicht lange auf sich warten lassen.

    Wollen Sie mehr erfahren? Werden Sie jetzt News-Stream 3.0 Beta-Tester http://bit.ly/newsstreambetatester