
Woran genau arbeitet das »News-Stream«-Projekt? Auf dieser Seite liefern wir Schritt-für-Schritt eine Übersicht über die AudioMining-Technologien des Projekts und konkrete Anwendungsbereiche.
Demo: AudioMining
Konsortialpartner: Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS, Abteilung NetMedia
Ansprechpartner: David Laqua (david.laqua [AT] iais.fraunhofer.de)
Hintergrund
Wenn im Radio, im Fernsehen oder im Internet wichtige Interviews gegeben werden, sind die Inhalte für Medien und die Öffentlichkeit natürlich interessant. Der O-Ton (kurz für „Original-Ton“) hat Gewicht. Was gesagt wurde, wie es gesagt wurde, von wem es gesagt wurde – all das sind wichtige Aspekte, die die Berichterstattung vertiefen und genauer machen.
Doch anders als bei Texten ist es viel schwieriger, gesprochene Worte bei der Recherche zu berücksichtigen. Wenn im Radio wichtiges Politik-Interview gesendet wurde, muss bisher viel Zeit in das manuelle Abhören und den Übertrag der Aussagen in Text investiert werden. Ein Hauptstrang des »News-Stream« Projekts ist daher die Entwicklung neuer Werkzeuge, um Audio-Inhalte mit Hilfe von spezieller Software besser zugänglich zu machen. Das Stichwort lautet: AudioMining.
AudioMining beschreibt das Erkennen von gesprochenen Worten und der Sprecher. Weitere Aspekte sind die automatische Transkription, die Verschlagwortung mit Zeit, Ort, Quelle sowie die Schaffung eines leichten, schnellen Zugangs für Recherchen. Dadurch entsteht die Möglichkeit wichtige, gesprochene Aussagen aus dem Radio, dem Fernsehen oder dem Internet als Basis für Recherchen und Berichte zu nutzen.
Ebenso wichtig mit Blick auf die Praxis sind bessere Werkzeuge und Abläufe. Erst wenn sich solche Anwendungen sehr leicht und schnell in der Tagesproduktion nutzen lassen, wird die Technologie auch wirklich genutzt. Diese praktische Nutzung ist für »News-Stream« ebenso wichtig wie die Forschung. Ein konkretes Beispiel ist für neue Möglichkeiten ist „forced alignment“. Gemeint ist eine Verbindung/Überlagerung von Text und Audio, so dass der Nutzer zwischen den beiden Medienformen hin- und her wechseln kann. Im Rahmen der CeBIT 2016 haben wir das an einem nachgebauen Redaktionsarbeitsplatz öffentlich präsentiert.
Die Technologie
Das Prinzip: Sprache wird durch die in »News-Stream« verwendeten Technologien automatisch erfasst. Die Transskripte sind dann leicht durchsuchbar und helfen dabei, die Übersicht zu behalten. Der AudioMining Demonstrator zeigt konkrete Anwendungsszenarien. Ziel ist es dabei die Forschungsergebnisse in täglich genutzte Anwendungen zu verwandeln.
Wesentliche Ziele:
- Audioaufnahmen (Interviews) analysieren und Inhalte in Text übersetzen
- Sprechererkennung (z.B. um Zitate von Angela Merkel zu finden)
- Zeitaufwand beim Monitoring verringern
- Neue Nutzungsmöglichkeiten entwickeln
- Abläufe vereinfachen, beschleunigen
- Neue Kombinationsmöglichkeiten für die Publikation, z.B. durch „forced alignment“ von Text und Audio
Funktionen des Audiomining-Demonstrator
Es gilt, die komplexe Technik für einfache, nützliche Abläufe zu nutzen. Die dazu entwickelte Software ist modular aufgebaut, so dass die Einbindung von weiteren Zusatzfunktionen möglich sind.
Der aktuelle Demonstrator teilt sich in drei Ebenen/Arbeitsschritte auf.
- Processing: Erfassung der Aufnahme
- Analyse: Sichtung des Ergebnisses, Verbesserungen
- Editor: Für weitere Bearbeitung und praxisnahe Anwendungen
Schritt 1
Processing: Die Erfassung von Audio-Inhalten
Im ersten Schritt kann der Nutzer über eine URL neue Audio- oder Video-Inhalte für die Texterkennung eingeben. Eine Ausbaustufe für die Zukunft besteht darin, bestimmte Inhalte danach täglich, stündlich oder nach Veröffentlichung automatisch zu erfassen und zu analysieren.
Entscheidend ist hier der modulare Aufbau der Software, sichtbar anhand der farblich unterschiedlichen Fenster unten. Je nach Bedarf können später weitere Funktionalitäten oder spezifische Vorgaben hinzugefügt werden. Damit ist abgesichert, das unterschiedliche Anforderungen abgedeckt werden. Eine tagesaktuell arbeitende Redaktion hat sicher andere Anforderungen als beispielsweise ein Medienarchiv.
Eine Besonderheit in dieser Ansicht findet sich unter dem Punkt 3: Hier ist eine „Wenn-Dann“-Funktionalität vorgesehen. WENN ein Zitat eines bestimmten Sprechers erkannt wird, DANN erhält ein Redakteur eine Benachrichtigung. Natürlich sind hier auch komplexere Ketten denkbar, um die Software für unterschiedliche Nutzergruppen zu optimieren.
Schritt 2:
Analyse – Überprüfung und Sichtung
In dieser Ansicht können die Tonaufnahme und der vom System erkannte Text gesichtet und überprüft werden. Dieser Schritt dient vor allem zur Qualitätssicherung und Arbeit an weiteren Verbesserungen. Auch hier ist die Anwendung modular aufgebaut. Denkbar sind Arbeitsabläufe für Archive, für Medienbeobachtung oder eben tagesaktuellen Journalismus.
Ein Hinweis: In der Segment-Analyse können erkannte Sprecher angezeigt werden, ebenso sind hier aber Visualisierungen der Aufnahme und der Sprecherwechsel möglich, damit der Inhalt noch rascher erfasst und ausgewertet werden kann.
Schritt 3
Editor: Text zur Audioaufnahme kopieren oder korrigieren
Diese Ansicht zeigt einen künftigen Arbeitsbereich für Nutzer, die die Ergebnisse des AudioMinings weiter verarbeiten wollen. Hier können über den Editor beispielsweise die extrahierten Texte korrigiert oder einfach kopiert werden. Falls der Sprecher oder die Sprecherin bereits bekannt sind, wird automatisch der Name zum jeweils gesprochenen Inhalt hinzugefügt. So lassen sich umfassende Datenbanken aufbauen, die später sehr schnell durchsucht werden können und so die Recherche deutlich beschleunigen, insbesondere bei wichtigen Personen des öffentlichen Lebens.
Konkretes Anwendungsbeispiel
Text-Audio-Alignment
Zum Abschluss dieser kurz gehaltenen Übersicht noch eine konkrete Anwendung: Mit Hilfe des „forced alignments“ lassen sich Text und Audioaufnahme eines Interviews direkt verknüpfen. So entsteht eine neue Form crossmedialer Beiträge: Der Nutzer kann das Interview anhören oder das Transskript lesen, je nach Präferenz. Wenn in der Lektüre ein markanter Satz auftaucht, bei dem wissen möchte wie das gesagt wurde genügt eine Markierung der Stelle – dann wird sofort genau dieses Stück des Audios abgespielt.
Wer jetzt wissen möchte, wie das genau funktioniert: Es gibt dazu einen eigenen Blog-Post: Wie funktioniert O-Ton Alignment?
Zukunft
Die Extraktion und Verarbeitung gesprochener Worte und die Umwandlung in maschinenlesbare Texte werden immer wichtiger, weil insbesondere im Internet immer mehr Videos oder Audiomitschnitte vorliegen. Ideal wäre es, wenn diese Bestände in Zukunft automatisch erfasst würden.
»News-Stream« arbeitet an solchen neuen Anwendungsmöglichkeiten. Hier kommt es vor allem auf die Abläufe an: Wie gut lässt sich das in einer Redaktion nutzen? Wird das eine Anwendung, die täglich genutzt wird? Oder ist es besser, die Verarbeitung zu automatisieren und den Journalisten oder anderen Nutzern nur bei interessanten Fundstellen eine kurze Nachricht zu senden? Die Hinwendung zur Praxis ist der Kern des Projekts.
Bei der Forschung liegt ein Schwerpunkt darin, die Qualität der Spracherkennung weiter zu verbessern. Ein weiterer, noch einmal gesonderter Forschungsbereich ist die Erkennung des Sprechers – auch dann, wenn es bei der Aufnahme störende Geräusche oder Windgeräusche gibt. Zum aktuellen Forschungsstand beim AudioMining haben wir in unserem Blog bereits weiterführende Texte veröffentlicht: Wie funktioniert eigentlich Spracherkennung?
Kontaktaufnahme zum »News-Stream« Projekt:
Falls Sie Fragen haben oder diese Anwendung selbst testen möchten – schreiben Sie uns. Wir geben gerne Auskunft und bieten auch Test-Zugänge an. Das Projekt ist sehr daran interessiert die nächsten Anwendungen im laufenden Dialog mit künftigen Nutzern weiter auszubauen.