Explainer: Was passiert bei semantischer Textanalyse?

Es ist nun fast schon ein halbes Jahrzehnt vergangen, seit IBM mit seinem Computersystem namens Watson in der Fernseh-Show Jeopardy angetreten ist. Das Ziel der Sendung ist es, aus einer gegebenen Antwort die semantisch dazu passende Frage zu stellen, und Watson schlug hier zwei menschliche Teilnehmer, die in der Show bereits gewonnen hatten, um Längen.
Auch im heutigen Journalismus ist die Unterstützung durch Textanalyse-Verfahren nicht mehr wegzudenken. So werden Redakteure durch die automatische Identifikation von Schlüsselwörtern bei der Verschlagwortung ihrer Artikel unterstützt. Ebenso lassen sich mit dieser Technologie Themenseiten vollkommen automatisiert erstellen, so dass sich z.B. alle Nachrichtenbeiträge verschiedener Anbieter gebündelt darstellen lassen. Getrieben wird der Bereich auch mehr und mehr durch die Auswertung von Textbeiträgen in sozialen Medien (soziale Netzwerke, Blogs und Foren), um für den Anwendungsfall Social Media Monitoring Stimmungen und Diskussionen erfassen zu können.

Die maschinelle Auswertung von natürlicher Sprache hat dabei in der Forschung eine längere Tradition als viele vermuten. Wichtige Grundlagen des Feldes gehen auf Arbeiten in den 1940er und 1950er Jahren zurück. So bilden die 1956 erstmalig veröffentlichten theoretischen Überlegungen des US-amerikanischen Linguisten Noam Chomsky zur formalen Beschreibung von (natürlichen) Sprachen auch heute noch einen Grundstein der symbolischen Sprachverarbeitung – und der theoretischen Informatik. Demgegenüber versuchen etwa die Arbeiten von Claude Shannon vom Ende der 40er Jahre, Sprache mit Hilfe von statistischer Modellierung zu beschreiben.

Seitdem hat sich die maschinelle Sprachanalyse in der Wissenschaft kontinuierlich weiterentwickelt. Je nachdem, in welcher wissenschaftlichen Community die jeweiligen Forscher ihren Ursprung hatten, ist die Rede von `Computerlinguistik’, `Natural Language Processing (NLP)’ oder `Sprachtechnologie’. Diese Bereiche umfassen eine extreme Bandbreite von Technologien und Anwendungsfeldern, haben dabei aber einen klaren Fokus auf der Verarbeitung der englischen Sprache. Dementsprechend sind auch wesentlich mehr sprachspezifische Ressourcen und Modelle für Englisch als für andere Sprachen verfügbar.

Im Projekt News-Stream 3.0 ist der Partner Neofonie federführend für die Entwicklung von Textanalyse-Diensten verantwortlich. Die bisher von dem Berliner Unternehmen entwickelten Textmining-Komponenten sollen im Rahmen von News-Stream 3.0 weiterentwickelt werden. Hier wird vor allem auf eine verbesserte Verarbeitungsgeschwindigkeit für Big-Data-Anwendungsfälle sowie auf eine verbesserte Fehlertoleranz bei der Verarbeitung multimodaler Daten abgezielt.

Grundlage der Arbeiten ist TXT Werk, eine von Neofonie bereitgestellte API zur Analyse deutschsprachiger Texte. Kern-Features sind die Eigennamen-Erkennung, die automatische Verschlagwortung und die Ressortklassifikation.

Bei letzterer wird der Eingabetext anhand einer kleinen Menge von vorgegebenen allgemeinen Themenbereichen zu klassifiziert. Die Themenbereiche entsprechen dabei am ehesten Themenressorts einer Zeitung (z.B. “Kultur”). Der Auto-Tagging Service der TXT Werk API ermittelt Schlüsselwörter bzw. -phrasen, die charakteristisch für den jeweiligen Text sind. Die Kandidaten hierfür werden anhand von linguistischen Mustern identifiziert. Ausgewählt werden die Schlüsselwörter anhand verschiedener Features durch ein maschinell erlerntes Modell (Support-Vector-Machine).
Eine wichtige Klasse von referenzierenden Ausdrücken sind Datums- und Zeitangaben sowie Erwähnungen von Entitäten wie Personen, Organisationen oder Orte. Auch hier ist der Einsatz maschineller Lernverfahren (z.B. Conditional Random Fields) unabdingbar, da lexikalische Ansätze schnell an ihre Grenzen stoßen: das Wort “Kohl” in einem Text kann das Gemüse oder den Alt-Bundeskanzler zum Gegenstand haben. Zudem sind selbst große Wissensbasen wie Wikidata oder Freebase naturgemäß unvollständig; sie sind letztlich digitale Modelle der bisher bekannten Welt. Auch bei der Entitätenerkennung stellt sich das Problem der Mehrdeutigkeit. Handelt es sich bei “Peter Müller” um den deutschen Politiker oder den Ski-Fahrer? Oder wird hier ein weiterer Namensvetter erwähnt, einer, der noch nicht die Popularität erreicht hat, um in einer der Wissensbasen aufgeführt zu werden? Beim Entity Linking (auch Named Entity Disambiguation genannt) wird jeder Fundstelle eine eindeutige Ressource in der Wissensbasis zugeordnet.

NLP-Komponenten und mögliche Pipelines. Die im Artikel ausführlicher behandelten Komponenten sind grün hervorgehoben.

NLP-Komponenten und mögliche Pipelines. Die im Artikel ausführlicher behandelten Komponenten sind grün hervorgehoben.

Unter http://labs.neofonie.de/watt findet sich ein interaktives Analysewerkzeug, mit dem man sich auch einen praktischen Eindruck der semantischen Textanalyse mit TXT Werk verschaffen kann. Hintergrundinformationen zum Thema finden sich im Neofonie-Blog.

Wollen Sie mehr erfahren? Werden Sie jetzt News-Stream 3.0 Beta-Tester http://bit.ly/newsstreambetatester

Werkstattbericht No. 2 – Wie funktioniert O-Ton Alignment?

“… sagte Frau Merkel in einer Pressekonferenz im Juni 2013, dass das Internet für sie Neuland sei…” In welchem Kontext hatte die Bundeskanzlerin dieses Statement abgegeben, und wie ging der Satz dann eigentlich weiter?

Bei der Einbettung von O-Tönen in seine redaktionellen Texte steht der Journalist gleich vor zwei Herausforderungen: einerseits muss eine prägnante Aussage häufig aus einer längeren Textpassage herausgesucht werden. Andererseits möchte man das gekürzte Zitat aber gerne mit der vollständigen Originalquelle verknüpfen.

Liegt zu dem Originalbeitrag kein Transkript vor, so kann man die Audiospur mittels automatischer Spracherkennung erschließen (vgl. Blog-Beitrag). Häufig genug findet man aber in den eigenen Archiven oder bei frei verfügbaren Podcasts auch eine bereits verschriftlichte Form des Interviews vor, was eine zeitliche Zuordnung von O-Ton und Audioschnipsel erheblich vereinfacht. Im Prinzip kommt hier ebenfalls die Technik der Spracherkennung zum Einsatz, da man aber eine zeitliche Zuordnung (engl.: alignment) zu existierendem Text erzwingen möchte, spricht man in diesem Zusammenhang von einem forced alignment.

Der Ablauf ist dabei wie folgt: zunächst wird ein Parser den eigentlichen Text aus dem Dokument extrahieren, denn häufig genug ist das Transkript Teil einer Webseite mit einer ganzen Reihe an anderer Information, Werbung, Impressum etc. Im Tokenisierungsschritt werden nun die gesprochenen Wörter isoliert:

  • Interpunktionszeichen werden entfernt, wenn es Satzmarkierungen sind (da sie nicht gesprochen werden)
  • Abkürzungen wie “z.B.” werden ausgeschrieben
  • Zahlen sowie Groß- und Kleinschreibung werden vereinheitlicht
  • Danach wird die orthographische Schreibweise in eine phonetische umgewandelt – aus “was wird da gesprochen” wird somit ein “wie wird das ausgesprochen”. Die Umwandlung erfolgt durch existierende Lexika, kann aber mit Hilfe von statistischen Verfahren auch automatisch auf neue und unbekannte Wörter erweitert werden. Im letzten Schritt startet man nun die eigentliche Spracherkennung auf dem Audiomaterial, lässt aber nur diese Phonemabfolge zu und gibt dem Algorithmus lediglich Spielraum, wie die Start- und Endzeiten zu setzen sind.

    Für den Produktiveinsatz im News-Stream Kontext sind nun folgende Schritte anzugehen:

  • durch ein einfach zu wartendes Template-System muss sichergestellt werden, dass auch weniger technikaffine Redakteure in der Lage sind, das forced alignment auf interessante Quellen (intern und extern) anzuwenden
  • das System muss auch lange (>10 min.), möglicherweise fehlerbehaftete Transkripte hinreichend genau zuordnen
  • insbesondere bei Telefoninterviews muss die Audiotechnologie mit der schlechteren Tonqualität umgehen können
  • die Technologie muss im Big-Data Kontext so verankert werden, dass der Journalist auf einer Editier-Oberfläche schnell Zugriff erhält.
  • Verarbeitung: forced alignment Abbildung: Ein möglicher Workflow für die Verarbeitung von forced alignment Material.

    Wie ein solches System aussehen könnte, haben wir mit Material aus einem Deutschlandfunk in einer Demo dargestellt (mit freundlicher Genehmigung des Deutschlandfunks).

    Wollen Sie mehr erfahren? Werden Sie jetzt News-Stream 3.0 Beta-Tester http://bit.ly/newsstreambetatester

    Explainer: Wie funktioniert eigentlich Spracherkennung

    Hat Angela Merkel gestern in ihrer Ansprache eigentlich noch etwas zum Thema Griechenland gesagt? Wo in meinem Videoarchiv war denn nochmal das Original-Zitat zum Thema „Neuland“? Kann ich von der Talk-Runde gestern schnell eine kurze Übersicht der wichtigsten Schlüsselwörter angezeigt bekommen?

    Sprachinhalte in multimedialen Beiträgen – Radiointerviews, Fernsehbeiträge, User Generated Content… – sind auch bei schlechter Aufnahmequalität für einen menschlichen Zuhörer ohne weiteres erfassbar. Allerdings können sie in dieser Form nicht von Text Mining Verfahren (etwa für Suchanfragen oder Schlüsselwortextraktion) weiterverwendet werden, da keine maschinenlesbaren Inhalte vorliegen. Aufgrund des hohen Aufwands der manuellen Verschriftlichung – je nach Genauigkeit bis zur siebenfachen menschlichen Arbeitszeit im Bezug auf Videolänge, also etwa acht Stunden transkribiertes Material pro Arbeitswoche – erscheint offensichtlich, dass einfließende Datenströme in Echtzeit nur mit automatischer Spracherkennung erfassbar sind.

    Spracherkennung hat, nicht zuletzt durch mobile Anwendungen, längst den Weg in unseren Alltag gefunden. Wo finde ich in der Nähe eine Apotheke? Gibt es noch Reservierungsmöglichkeiten für eine Zugfahrt nach Freiburg? Die zugrundeliegenden Technologien haben also durchaus Marktreife, und auch der Forschungsstand hat sich in den letzten Jahren kontinuierlich weiterentwickelt. Als letzter großer Qualitätssprung wird z.B. die Verwendung von sogenannten Deep Neural Networks für die Spracherkennung, seit dem Jahre 2011, angesehen.

    Dennoch entstehen bei der Transkription auch eine ganze Reihe von Fehlern, die es im Kontext von News-Stream zu berücksichtigen gilt. Um diese zu reduzieren, muss man zunächst die Arbeitsweise eines modernen Spracherkenners betrachten: grundsätzlich wird das Audiosignal auf die wesentlichen Sprachmerkmale reduziert und dann üblicherweise auf kleinere (und damit besser erlernbare) Spracheinheiten, die sogenannten Phoneme, heruntergebrochen. Aus News-Stream wird also zunächst so etwas wie N-JU-S-T-R-IE-M. Ein hinterlegtes Lexikon ist dann in der Lage, aus dieser Phonemfolge das Wort zu rekonstruieren. Ein weiteres Sprachmodell überprüft und korrigiert das Ergebnis mit Blick auf im Deutschen übliche Wortabfolgen.

    Allgemeiner Aufbau eines automatischen Spracherkenners

    Allgemeiner Aufbau eines automatischen Spracherkenners.

    Optimiert werden diese Verfahren auf speziellem Trainingmaterial. Aus diesem Grund ist auch die Qualität der Spracherkennung dann am besten, wenn sich die Sprache im vorliegenden Audiosignal diesem Trainingsmaterial ähnelt – umgekehrt wird das Transkript umso schlechter, desto stärker sich die Eingabe vom Trainingsmaterial unterscheidet. Anderes Mikrophon, lispelnder Sprecher, Dialekte, Hall-Effekte, Musik im Hintergrund, ungewöhnliche Themen… die Liste läßt sich fast beliebig erweitern. Ein kleiner Vorteil beispielsweise für eingangs erwähnte Mobil-Applikationen: der Anbieter kennt zumindest im Vorfeld die verwendete Hardware und den ungefähren Abstand zum Mikrophon des Sprechers.


     
    In News-Stream verwenden wir etwa 1000 Stunden vortranskribiertes Trainingsmaterial aus dem Broadcast-Bereich – ideal für heterogene Nachrichtenströme. Dazu kommen einige Millionen Sätze aus dem Deutschen für das Sprachmodell sowie etwa 350-tausend Wörter und deren Aussprache zur Befüllung des Phonemlexikons. Die Praxis zeigt, dass ein Transkript nicht perfekt sein muß, um sinnvoll weiterverarbeitet zu werden; vielmehr gilt als Schallmauer eine Wortgenauigkeit von gerade mal 60 Prozent. Tatsächlich erreichen wir mit unserer Technologie auf durchschnittlichen Inhalten aber deutlich über 80 Prozent Genauigkeit.

    Zugegeben, wenn z.B. Herr Seehofer in etwas breiterem Dialekt über Offshore-Windparks referiert und im Hintergrund vielleicht sogar Blasmusik spielt, ist das entstehende Transkript bestenfalls belustigend. Für einen Großteil der Inhalte in News-Stream aber ist automatische Spracherkennung ein wichtiger Baustein bei der Echtzeitanalyse der multimedialen Nachrichtenströme.

    Wollen Sie mehr erfahren? Werden Sie jetzt News-Stream 3.0 Beta-Tester http://bit.ly/newsstreambetatester

    Werkstattbericht No. 1 – Die Big-Data-Infrastruktur

    Twitter ist für viele Forschungsprojekte und Journalisten eine der primären Informationsquellen, wenn es um die Analyse von Social-Media-Inhalten oder Breaking-News-Ereignisse geht. Hier kann die Twitter-Analyse ein Einstiegspunkt für weitere Untersuchungen und Recherchen sein.

    Um den kontinuierlich, ständig wachsenden Datenstrom in Echtzeit zu bändigen bedarf es flexibler Lösungen. Aus journalistischer Sicht wollten wir uns unbedingt von starren Datendashboards lösen und Journalisten mehr Flexibilität bei der Datenaufbereitung, -analyse und -visualisierung geben.

    Im Projekt Newsstream 3.0 wurde pünktlich zu den britischen Unterhauswahlen ein erster Demonstrator umgesetzt, mit dem sich die Twitter-Reaktionen auf die Wahldebatten verfolgen lassen. Das Kopf-an-Kopf-Rennen der Parteien lässt sich an einem Zeitstrahl ablesen, auf dem die Anzahl der Tweets von Labour und Tories verglichen wird.

    GE2015_UK

    Der Demonstrator ist zu einem sehr frühen Zeitpunkt im Projektverlauf entstanden, pünktlich zum ersten Meilenstein, bei dem Anforderungsanalyse und Grobkonzept vorgelegt wurden. Interessant sind an dieser Stelle deshalb weniger die Ergebnisse der Analyse, sondern die verwendeten Technologien. Hinter dem Demonstrator steht eine ausgewachsene Big-Data-Infrastruktur: ein Hadoop-Cluster mit 16 Nodes und einer Speicherkapazität von insgesamt 100 Terabyte, auf dem Clouderas Open-Source-Distribution betrieben wird, die sowohl eine verteilte Stapelverarbeitung als auch die Echtzeitanalyse mit Apache Spark ermöglicht. Für die performante Auslieferung von Daten bindet Cloudera die verteilte Open-Source-Suchlösung Apache Solr an.

    Das verwendete Dashboard stammt aus einem anderen Kontext, nämlich der Logfile-Analyse. Während Big Data für viele Unternehmen bisher noch kein Thema ist, hat sich im IT-Betrieb die kollaborative Auswertung von großen Mengen von Logfiles durchgesetzt – auch dank des interaktiven Dashboards “Kibana”, das ursprünglich als Demo-Applikation für die Open-Source-Suche Elasticsearch entwickelt wurde. Ebenso wie Twitter ist auch bei Logfiles die Zeit die wichtigste Dimension: hier geht es z.B. um die Anzahl der Nutzer oder der Fehlermeldungen pro Zeiteinheit. Mit wenigen Klicks lässt sich bei Kibana ein neues Dashboard als Kopie erstellen oder ein Widget hinzufügen. Die Auswahl reicht von Säulen- und Tortendiagrammen über Kartendarstellungen bis zu Tagclouds und Listen. Flexibilität ist für die Nutzer von Loganalyse-Tools zentral: wenn z.B. zusätzliche Informationen geloggt werden, muss es einfach möglich sein, auf diese Informationen zuzugreifen und sie im Dahsboard anzuzeigen. Eine gute Benutzbarkeit ist angesichts der hektischen Arbeitsbedingungen im IT-Betrieb ebenfalls von großer Bedeutung.

    Die Ähnlichkeit zu den Anforderungen von Redakteuren sind frappierend. Für uns lag es deshalb nahe, ein Dashboard wie “Kibana” für die Twitter-Analyse zu verwenden. Um eine nahtlose Integration in Clouderas CDH zu ermöglichen, griffen wir dabei auf einen Entwicklungszweig von Kibana mit Namen “Banana” zurück. Die Twitter-Analyse ist für uns nur der Anfang. Im nächsten Schritt wird es darum gehen, eine Vielzahl von Quellen anzubinden und die Nutzungsmuster der Redakteure zu untersuchen. Ergebnisse der im Projekt entwickelten Textanalyse-Algorithmen werden an die Stelle der vom Datenanbieter wie Twitter gelieferten Metadaten treten. Der aktuelle Demonstrator dient dabei als Baukasten. Eine Aufgabe wird der Export von Widgets bzw. der ermittelten Datensätze für die Nutzung in anderen Formaten und Applikationen sein. Auch die visuelle Weiterentwicklung spielt eine Rolle – auch hier ist für eine einfache Erweiterbarkeit gesorgt, da die gewählte Lösung auf der im Datenjournalismus beliebten Open-Source-Bibliothek D3.js basiert.

    Wollen Sie mehr erfahren? Werden Sie jetzt News-Stream 3.0 Beta-Tester http://bit.ly/newsstreambetatester

    Explainer: Wie funktioniert eigentlich Sprechererkennung?

    Wahlabend, 18:05 Uhr. Die ersten Hochrechnungen flimmern über die Bildschirme – Zitterpartie! – die Nacht in der Redaktion wird lang. Noch halten sich die Spitzenvertreter der Parteien bedeckt. Wer wird wann das erste offizielle Statement vor der Kamera abgeben?  Auf welchen der vielen, parallel laufenden, Fernsehsender soll ich denn nun zuerst achten?

    Ein Hauptziel von News-Stream ist die kontinuierliche Erweiterung der bereits bestehenden Recherchewerkzeuge für die automatisierte Datenanalyse heterogener Daten. Die maschinelle Sprechererkennung auf Tonspuren ist im digitalen Zeitalter wichtiger denn je. Sie ermöglicht eine automatische Erkennung aller Sprecher – gleichzeitig und kontinuierlich, auf multiplen, parallelen Nachrichtenströmen. Vordefinierte Benachrichtigung bei besonders zentralen Personen natürlich in Echtzeit. Und nicht nur das: selbst wenn der Sprecher erst plötzlich aktuell geworden ist und vorher praktisch unbekannt war, kann man dessen Redebeiträge im Archivmaterial identifizieren, ohne dabei den Namen kennen zu müssen – praktisch eine Audio-basierte Suche.


     

    Moderne Sprechererkennung nutzt dabei immer häufiger das sogenannte i-vektor („identity vector“) Paradigma. Einem Tonsegment wird in diesem Verfahren eine Art akustische Signatur zugeordnet, und je ähnlicher sich zwei Signaturen sind, desto größer ist die Wahrscheinlichkeit, dass es sich dabei um den gleichen Sprecher handelt. Ordnet man nun einmalig bereits bekannte Sprecher ihren Signaturen zu und speichert diese Paare in einer Datenbank, ist die eigentliche Sprechererkennung für ein neues Tonsegment in wenigen Millisekunden gemacht: man vergleicht jede einzelne Datenbanksignatur mit der neuen und unbekannte Signatur – dort, wo die Ähnlichkeit am größten ist, wird der zugehörige Sprecher ausgelesen und somit „erkannt“.

    Prinzip der Sprechererkennung. Gleiche Sprecher sind im Merkmalsraum eng beieinander, unterschiedliche Sprecher liegen weit auseinander.

    Prinzip der Sprechererkennung. Gleiche Sprecher sind im Merkmalsraum eng beieinander, unterschiedliche Sprecher liegen weit auseinander.

    Gegenüber älteren Paradigmen haben die i-vektoren den entscheidenden Vorteil, dass sie aufgrund ihrer Speichergröße für große, schnell einströmende und heterogene Audiodaten (Stichwort Big Data) sehr gut geeignet sind. Ein i-vektor kommt üblicherweise mit wenigen hundert Zahlenwerten aus und erfasst dabei das gesamte Segment. Das heißt also, dass die Sprecherdaten in einem Videobeitrag mit einem Bruchteil des ursprünglichen Umfangs abgelegt werden können: bei einem Video in HD Qualität von etwa 30 Minuten Länge, etwa ein Gigabyte Speicherplatz, fallen bei 100 Sprecherwechseln etwa 50 Kilobyte an Daten an, also lediglich 0,005% Speicherplatz des Originalvideos.

     

    i-Vektoren

    Graphische Darstellung der I-Vektoren von Angela Merkel und Wolfgang Schäuble

    Ein weiterer Vorteil der Informationskompression: der Datenschutz bleibt gewährleistet, denn ohne das zugehörige Videomaterial und ohne den Schlüssel zur Erzeugung der Werte sind die i-vektoren zunächst nutzlos. Das Wissen über die ursprüngliche Tonspur geht bei dem Prozess unwiederbringlich verloren – aus 400 Zahlen lassen sich die Originaltöne nicht mehr extrahieren.
    Insbesondere bei zentralen Medienereignissen wie etwa Wahlabenden oder Breaking News Events ist das automatisierte Sprechermonitoring ein zentrales Datenanalyseverfahren. Der Journalist wird bei seiner Recherche entlastet und kann sich auf andere Kernaufgaben fokussieren. Wenn Frau Merkel dann endlich vor die Mikrophone tritt, wird sich die Sprechererkennung schon melden.

    Pressemeldung: Neue Big-Data-Infrastruktur für Journalisten

    Fraunhofer IAIS, dpa-infocom, Deutsche Welle und Neofonie starten Forschungsprojekt


    Ebola, Islamischer Staat, Ukraine – Nicht nur bei den großen Themen unserer Tage wird die Recherche und Analyse komplexer Daten immer wichtiger, damit Journalisten verlässliche Einschätzungen liefern können. Um dies zu leisten, sind neue Werkzeuge notwendig, die Datenströme verlässlich durch­leuch­ten. Im neuen Projekt »News-Stream 3.0« sollen nun Recherchetools entstehen, die große Datenmen­gen aus Videos, sozialen Netzwerken, Blogs und Archiven bündeln und Redakteuren gezielt die wichtigs­ten Informationen bereitstellen.

    Dazu entwickeln das Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS und der Berliner Datenspezialist Neofonie neue Analysetools und bauen eine Big-Data-Infrastruktur zur Echtzeitanalyse und Auswertung heterogener Nachrichtenströme auf. Um diese Systeme bestmöglich für die journalistische Praxis nutzbar zu machen, beteiligen sich die dpa Deutsche Presse-Agentur mit ihrer Tochter dpa-infocom und die Deutsche Welle an der Entwicklung und Konzeption der neuen Techniken, die umfassende Big-Data-Analysen ermöglichen. Das vom Bundes­ministerium für Bildung und Forschung (BMBF) geförderte Forschungsvorhaben ist eines seiner Top-Projekte im Bereich Big Data.

    Ziel ist es, Journalisten mit wenigen Klicks tausende nationale und internationale Inhalte und Quellen von Videoplattformen, eine Vielzahl von RSS-Feeds, Nachrichten-Streams aus sozialen Netzwerken sowie Millionen Objekte aus Medienarchiven zur Verfügung zu stellen. Möchte eine Redaktion zum Beispiel einen Artikel über das kontroverse Thema PKW-Maut produzieren, lässt sich aus den vielen verschiedenen Datenquellen ein kompakter Überblick über das Thema erstellen. In Sekundenschnelle kann der Redakteur verfolgen, was auf Blogs, über Twitter oder in anderen sozialen Medien dazu berichtet oder diskutiert wird. Auch die laufende Recherche wird so leichter: Sobald ein Stichwort wie »PKW-Maut« fällt, zum Beispiel in einer Bundestagsdebatte oder Nachrichtensendung, wird die Analyse automatisch aktualisiert.

    Vollständige Pressemitteilung