Beiträge

Werkstattbericht No. 2 – Wie funktioniert O-Ton Alignment?

“… sagte Frau Merkel in einer Pressekonferenz im Juni 2013, dass das Internet für sie Neuland sei…” In welchem Kontext hatte die Bundeskanzlerin dieses Statement abgegeben, und wie ging der Satz dann eigentlich weiter?

Bei der Einbettung von O-Tönen in seine redaktionellen Texte steht der Journalist gleich vor zwei Herausforderungen: einerseits muss eine prägnante Aussage häufig aus einer längeren Textpassage herausgesucht werden. Andererseits möchte man das gekürzte Zitat aber gerne mit der vollständigen Originalquelle verknüpfen.

Liegt zu dem Originalbeitrag kein Transkript vor, so kann man die Audiospur mittels automatischer Spracherkennung erschließen (vgl. Blog-Beitrag). Häufig genug findet man aber in den eigenen Archiven oder bei frei verfügbaren Podcasts auch eine bereits verschriftlichte Form des Interviews vor, was eine zeitliche Zuordnung von O-Ton und Audioschnipsel erheblich vereinfacht. Im Prinzip kommt hier ebenfalls die Technik der Spracherkennung zum Einsatz, da man aber eine zeitliche Zuordnung (engl.: alignment) zu existierendem Text erzwingen möchte, spricht man in diesem Zusammenhang von einem forced alignment.

Der Ablauf ist dabei wie folgt: zunächst wird ein Parser den eigentlichen Text aus dem Dokument extrahieren, denn häufig genug ist das Transkript Teil einer Webseite mit einer ganzen Reihe an anderer Information, Werbung, Impressum etc. Im Tokenisierungsschritt werden nun die gesprochenen Wörter isoliert:

  • Interpunktionszeichen werden entfernt, wenn es Satzmarkierungen sind (da sie nicht gesprochen werden)
  • Abkürzungen wie “z.B.” werden ausgeschrieben
  • Zahlen sowie Groß- und Kleinschreibung werden vereinheitlicht
  • Danach wird die orthographische Schreibweise in eine phonetische umgewandelt – aus “was wird da gesprochen” wird somit ein “wie wird das ausgesprochen”. Die Umwandlung erfolgt durch existierende Lexika, kann aber mit Hilfe von statistischen Verfahren auch automatisch auf neue und unbekannte Wörter erweitert werden. Im letzten Schritt startet man nun die eigentliche Spracherkennung auf dem Audiomaterial, lässt aber nur diese Phonemabfolge zu und gibt dem Algorithmus lediglich Spielraum, wie die Start- und Endzeiten zu setzen sind.

    Für den Produktiveinsatz im News-Stream Kontext sind nun folgende Schritte anzugehen:

  • durch ein einfach zu wartendes Template-System muss sichergestellt werden, dass auch weniger technikaffine Redakteure in der Lage sind, das forced alignment auf interessante Quellen (intern und extern) anzuwenden
  • das System muss auch lange (>10 min.), möglicherweise fehlerbehaftete Transkripte hinreichend genau zuordnen
  • insbesondere bei Telefoninterviews muss die Audiotechnologie mit der schlechteren Tonqualität umgehen können
  • die Technologie muss im Big-Data Kontext so verankert werden, dass der Journalist auf einer Editier-Oberfläche schnell Zugriff erhält.
  • Verarbeitung: forced alignment Abbildung: Ein möglicher Workflow für die Verarbeitung von forced alignment Material.

    Wie ein solches System aussehen könnte, haben wir mit Material aus einem Deutschlandfunk in einer Demo dargestellt (mit freundlicher Genehmigung des Deutschlandfunks).

    Wollen Sie mehr erfahren? Werden Sie jetzt News-Stream 3.0 Beta-Tester http://bit.ly/newsstreambetatester

    Explainer: Wie funktioniert eigentlich Spracherkennung

    Hat Angela Merkel gestern in ihrer Ansprache eigentlich noch etwas zum Thema Griechenland gesagt? Wo in meinem Videoarchiv war denn nochmal das Original-Zitat zum Thema „Neuland“? Kann ich von der Talk-Runde gestern schnell eine kurze Übersicht der wichtigsten Schlüsselwörter angezeigt bekommen?

    Sprachinhalte in multimedialen Beiträgen – Radiointerviews, Fernsehbeiträge, User Generated Content… – sind auch bei schlechter Aufnahmequalität für einen menschlichen Zuhörer ohne weiteres erfassbar. Allerdings können sie in dieser Form nicht von Text Mining Verfahren (etwa für Suchanfragen oder Schlüsselwortextraktion) weiterverwendet werden, da keine maschinenlesbaren Inhalte vorliegen. Aufgrund des hohen Aufwands der manuellen Verschriftlichung – je nach Genauigkeit bis zur siebenfachen menschlichen Arbeitszeit im Bezug auf Videolänge, also etwa acht Stunden transkribiertes Material pro Arbeitswoche – erscheint offensichtlich, dass einfließende Datenströme in Echtzeit nur mit automatischer Spracherkennung erfassbar sind.

    Spracherkennung hat, nicht zuletzt durch mobile Anwendungen, längst den Weg in unseren Alltag gefunden. Wo finde ich in der Nähe eine Apotheke? Gibt es noch Reservierungsmöglichkeiten für eine Zugfahrt nach Freiburg? Die zugrundeliegenden Technologien haben also durchaus Marktreife, und auch der Forschungsstand hat sich in den letzten Jahren kontinuierlich weiterentwickelt. Als letzter großer Qualitätssprung wird z.B. die Verwendung von sogenannten Deep Neural Networks für die Spracherkennung, seit dem Jahre 2011, angesehen.

    Dennoch entstehen bei der Transkription auch eine ganze Reihe von Fehlern, die es im Kontext von News-Stream zu berücksichtigen gilt. Um diese zu reduzieren, muss man zunächst die Arbeitsweise eines modernen Spracherkenners betrachten: grundsätzlich wird das Audiosignal auf die wesentlichen Sprachmerkmale reduziert und dann üblicherweise auf kleinere (und damit besser erlernbare) Spracheinheiten, die sogenannten Phoneme, heruntergebrochen. Aus News-Stream wird also zunächst so etwas wie N-JU-S-T-R-IE-M. Ein hinterlegtes Lexikon ist dann in der Lage, aus dieser Phonemfolge das Wort zu rekonstruieren. Ein weiteres Sprachmodell überprüft und korrigiert das Ergebnis mit Blick auf im Deutschen übliche Wortabfolgen.

    Allgemeiner Aufbau eines automatischen Spracherkenners

    Allgemeiner Aufbau eines automatischen Spracherkenners.

    Optimiert werden diese Verfahren auf speziellem Trainingmaterial. Aus diesem Grund ist auch die Qualität der Spracherkennung dann am besten, wenn sich die Sprache im vorliegenden Audiosignal diesem Trainingsmaterial ähnelt – umgekehrt wird das Transkript umso schlechter, desto stärker sich die Eingabe vom Trainingsmaterial unterscheidet. Anderes Mikrophon, lispelnder Sprecher, Dialekte, Hall-Effekte, Musik im Hintergrund, ungewöhnliche Themen… die Liste läßt sich fast beliebig erweitern. Ein kleiner Vorteil beispielsweise für eingangs erwähnte Mobil-Applikationen: der Anbieter kennt zumindest im Vorfeld die verwendete Hardware und den ungefähren Abstand zum Mikrophon des Sprechers.


     
    In News-Stream verwenden wir etwa 1000 Stunden vortranskribiertes Trainingsmaterial aus dem Broadcast-Bereich – ideal für heterogene Nachrichtenströme. Dazu kommen einige Millionen Sätze aus dem Deutschen für das Sprachmodell sowie etwa 350-tausend Wörter und deren Aussprache zur Befüllung des Phonemlexikons. Die Praxis zeigt, dass ein Transkript nicht perfekt sein muß, um sinnvoll weiterverarbeitet zu werden; vielmehr gilt als Schallmauer eine Wortgenauigkeit von gerade mal 60 Prozent. Tatsächlich erreichen wir mit unserer Technologie auf durchschnittlichen Inhalten aber deutlich über 80 Prozent Genauigkeit.

    Zugegeben, wenn z.B. Herr Seehofer in etwas breiterem Dialekt über Offshore-Windparks referiert und im Hintergrund vielleicht sogar Blasmusik spielt, ist das entstehende Transkript bestenfalls belustigend. Für einen Großteil der Inhalte in News-Stream aber ist automatische Spracherkennung ein wichtiger Baustein bei der Echtzeitanalyse der multimedialen Nachrichtenströme.

    Wollen Sie mehr erfahren? Werden Sie jetzt News-Stream 3.0 Beta-Tester http://bit.ly/newsstreambetatester

    Explainer: Wie funktioniert eigentlich Sprechererkennung?

    Wahlabend, 18:05 Uhr. Die ersten Hochrechnungen flimmern über die Bildschirme – Zitterpartie! – die Nacht in der Redaktion wird lang. Noch halten sich die Spitzenvertreter der Parteien bedeckt. Wer wird wann das erste offizielle Statement vor der Kamera abgeben?  Auf welchen der vielen, parallel laufenden, Fernsehsender soll ich denn nun zuerst achten?

    Ein Hauptziel von News-Stream ist die kontinuierliche Erweiterung der bereits bestehenden Recherchewerkzeuge für die automatisierte Datenanalyse heterogener Daten. Die maschinelle Sprechererkennung auf Tonspuren ist im digitalen Zeitalter wichtiger denn je. Sie ermöglicht eine automatische Erkennung aller Sprecher – gleichzeitig und kontinuierlich, auf multiplen, parallelen Nachrichtenströmen. Vordefinierte Benachrichtigung bei besonders zentralen Personen natürlich in Echtzeit. Und nicht nur das: selbst wenn der Sprecher erst plötzlich aktuell geworden ist und vorher praktisch unbekannt war, kann man dessen Redebeiträge im Archivmaterial identifizieren, ohne dabei den Namen kennen zu müssen – praktisch eine Audio-basierte Suche.


     

    Moderne Sprechererkennung nutzt dabei immer häufiger das sogenannte i-vektor („identity vector“) Paradigma. Einem Tonsegment wird in diesem Verfahren eine Art akustische Signatur zugeordnet, und je ähnlicher sich zwei Signaturen sind, desto größer ist die Wahrscheinlichkeit, dass es sich dabei um den gleichen Sprecher handelt. Ordnet man nun einmalig bereits bekannte Sprecher ihren Signaturen zu und speichert diese Paare in einer Datenbank, ist die eigentliche Sprechererkennung für ein neues Tonsegment in wenigen Millisekunden gemacht: man vergleicht jede einzelne Datenbanksignatur mit der neuen und unbekannte Signatur – dort, wo die Ähnlichkeit am größten ist, wird der zugehörige Sprecher ausgelesen und somit „erkannt“.

    Prinzip der Sprechererkennung. Gleiche Sprecher sind im Merkmalsraum eng beieinander, unterschiedliche Sprecher liegen weit auseinander.

    Prinzip der Sprechererkennung. Gleiche Sprecher sind im Merkmalsraum eng beieinander, unterschiedliche Sprecher liegen weit auseinander.

    Gegenüber älteren Paradigmen haben die i-vektoren den entscheidenden Vorteil, dass sie aufgrund ihrer Speichergröße für große, schnell einströmende und heterogene Audiodaten (Stichwort Big Data) sehr gut geeignet sind. Ein i-vektor kommt üblicherweise mit wenigen hundert Zahlenwerten aus und erfasst dabei das gesamte Segment. Das heißt also, dass die Sprecherdaten in einem Videobeitrag mit einem Bruchteil des ursprünglichen Umfangs abgelegt werden können: bei einem Video in HD Qualität von etwa 30 Minuten Länge, etwa ein Gigabyte Speicherplatz, fallen bei 100 Sprecherwechseln etwa 50 Kilobyte an Daten an, also lediglich 0,005% Speicherplatz des Originalvideos.

     

    i-Vektoren

    Graphische Darstellung der I-Vektoren von Angela Merkel und Wolfgang Schäuble

    Ein weiterer Vorteil der Informationskompression: der Datenschutz bleibt gewährleistet, denn ohne das zugehörige Videomaterial und ohne den Schlüssel zur Erzeugung der Werte sind die i-vektoren zunächst nutzlos. Das Wissen über die ursprüngliche Tonspur geht bei dem Prozess unwiederbringlich verloren – aus 400 Zahlen lassen sich die Originaltöne nicht mehr extrahieren.
    Insbesondere bei zentralen Medienereignissen wie etwa Wahlabenden oder Breaking News Events ist das automatisierte Sprechermonitoring ein zentrales Datenanalyseverfahren. Der Journalist wird bei seiner Recherche entlastet und kann sich auf andere Kernaufgaben fokussieren. Wenn Frau Merkel dann endlich vor die Mikrophone tritt, wird sich die Sprechererkennung schon melden.