Aus der Ausgangslage und den allgemeinen Zielen des Projektes leiten sich folgende konkrete Forschungs- und Entwicklungsziele ab:
Ziel 1: Big-Data-Infrastruktur zur effizienten und echtzeitnahen Analyse von heterogenen Nachrichtenströmen
Ein zentrales Ziel des Projektes ist die Erforschung und Entwicklung von Technologien, die es ermöglichen, multimediale Nachrichtenbestände mit gleicher Effizienz und Geschwindigkeit zu analysieren, wie es derzeit mit reinen Textdaten möglich ist und diese in eine hybride Batch- und Stream-Verarbeitung zu integrieren. Basierend auf Big-Data-Frameworks werden innovative Erweiterungen untersucht, die eine echtzeitnahe Verarbeitung von Audio-/Video-Beiträgen in Kombination mit textuellen Beiträgen ermöglichen. Durch die dezentrale Verfügbarkeit der unterschiedlichen Daten, die in sehr umfangreicher Menge vorliegen, gilt es, innovative Methoden zur Erfassung und Verarbeitung der Daten basierend auf Big-Data-Architekturen bereitzustellen. Hierzu gehören das effiziente Crawlen und Verarbeiten von umfangreichen Multimedia-Inhalten sowie von speziellen nachrichtenrelevanten Sites (z. B. Newsfeeds, Nachrichtenportalen, Social Media usw.) in Verbindung mit bereits vorhandenem Nachrichtenmaterial, das in Archiven in verschiedenen Multimedia-Formaten vorliegt.
Ziel 2: Semantische Analyse von multimodalen und unstrukturierten Nachrichtendaten
„News-Stream“ hat zum Ziel, die heterogen vorliegenden Nachrichtendaten (Audio-/Video-Beiträge, Twitter-Inhalte, Ticker-Meldungen usw.) effizient zu analysieren und zu filtern. Dazu werden leistungsfähige Analyseverfahren erweitert, die auf vorhandenen Klassifikatoren (Text Mining, Sprach- und Videoerkennung) basieren, so dass eine einheitliche semantische Analyse der multimedialen und unstrukturierten Nachrichtendaten möglich wird. Besonders für die Klassifikation und die Aggregation von multimodalen Nachrichten sind neue Ansätze zur Fusion von extrahierten Metadaten aus verschiedenen Quellen ein wichtiges Ziel des Projektes. Hier werden Verfahren zur multimodalen Topic Segmentation, Topic Classification, Relation Extraction und zur medienübergreifenden Summarization erforscht und entwickelt.
Ziel 3: Pilotierung und Erprobung der neuartigen Analyseinfrastruktur in realen Nachrichtenumgebungen
Das Pilotsystem wird in Anwendungsszenarien zweier Medienorganisationen integriert und ausführlich getestet. Ziel der Tests ist die Verarbeitung umfangreicher Datenmengen in kurzer Zeit, um die Anforderungen der Journalisten zu erfüllen. Die technisch-wissenschaftlichen Ergebnisse werden verschiedenen Benchmarking-Prozessen unterzogen, um die Leistungsfähigkeit nachzuweisen. Relevante Größen sind u. a.: Reduktion der Anzahl an Anwendungen für die Recherche, Verkürzung der Zeit zur Auswertung von bestimmten Datenquellen, Steigerung des Grades an Verlinkungen zwischen tagesaktuellen und archivierten Inhalten sowie die Steigerung des täglichen Durchsatzes an Nachrichten. Die zu entwickelnden Technologien sollen alltägliche journalistische Anwendungsszenarien ermöglichen und unterstützen: Das Projekt soll neue Anwendungen zur Sammlung, Aufbereitung, Analyse und Publikation von Nachrichten ermöglichen.