Das Forschungsprojekt dwerft befasst sich mit der Vernetzung der gesamten Wertschöpfungskette einer Filmproduktion. Das Ziel: die verlustfreie Speicherung und intelligente Verbindung von Metadaten in einer semantisch gemeinsamen Datenbank, der Linked Media Data Cloud (LMDC). Die Interlake ist im Rahmen dieser Kooperation der Cloud Spezialist und bringt wertvolles Know How aus anderen Projekten, wie z. B. der Zusammenarbeit mit der UFA, mit. Der Interlake obliegt zudem das zentrale Hosting der gemeinsamen Entwicklung, der Linked Media Data Cloud (LMDC).
Eine starke Partnerschaft innerhalb des Projektes der dwerft: Die Interlake und das DRA
Innerhalb der dwerft bilden das Deutsche Rundfunkarchiv (DRA) und die Interlake eine Partnerschaft. Die Interlake entwickelt im Zuge dessen, nach den Anforderungen des DRA, in dem Teilprojekt „Cognitive Media Framework“ eine AI-Lösung zur Vorerschließung von bereits digitalisiertem Filmmaterial.
Die Testplattform hat zum Ziel, die unterschiedlichen Technologien der Cognitive Services (Computer-Vision, Custom Vision, Text Analytics) auf ihre Nutzbarkeit zur automatisierten Analyse, von Bild und Ton im Film zu untersuchen. Die Testplattform dient als Proof-of-Concept, um in der Zukunft eine schnelle und effiziente Erschließung der Archivbestände des DRA’s zu ermöglichen.
Was ist mit „Metadaten“ im Medienkontext gemeint?
Am Beispiel von Filmen lässt sich die Bedeutung von Metadaten sehr einfach darstellen. Metadaten sind die gesammelten Informationen, die auf dem Filmcover, wie z. B. Schauspieler, Filmdauer, Erscheinungsdatum zu finden sind. Ohne diese Angaben könnte man das Datenobjekt nur erschließen, wenn man sich den Film in ganzer Länge anschaut.
Mit Hilfe der Metadaten lassen sich Beziehungen zwischen den einzelnen Dokumenten bzw. zu den Objekten darstellen. Diese Beziehung ermöglicht und erleichtert den Datenaustausch.
Metadaten kann man in 5 Typen unterteilen, je nach Art der zu beschreibenden Daten:
- Deskriptive/ Identifizierende/ Beschreibende Metadaten beschreiben die essentiellen Informationen um zu identifizieren. Beispiele dafür sind der Titel, der Urheber oder das Entstehungsdatum.
- Für die Verwaltung von Ressourcen gibt es die Administrativen Hierzu zählen Daten bzw. Informationen zur Herkunft und Archivierung, die technischen Details (Entstehung, Bearbeitung und Zugriff auf die Ressource) und Prozesse, die die Ressource durchlaufen hat wie z. B. beim Kopieren des Films auf ein anderes Medium.
- Die Rating-Metadaten speichern Informationen über die möglichen Nutzer von Inhalten.
- Beziehungs/Linkage-Metadaten beschreiben das Verhältnis zwischen den Ressourcen.
- Die Meta-Metadaten beschreiben, wer die gespeicherten Metadaten wann und wie erstellt hat und welche Formate genutzt wurden.
Die gesammelten Metadaten vereinfachen bei entsprechender Speicherung und Aufbereitung die Weiterverarbeitung. Bei fehlender Struktur, wenn sie z. B. nicht in einem universell nutzbaren Format vorliegen, können die Metadaten für Verwirrung und mehr Probleme bei der weiteren Verarbeitung sorgen.
An diesem Kernpunkt der zentralen Speicherung und Erschließung der Metadaten forscht die dwerft. Das Hauptziel des Projektes ist es, die gespeicherten Metadaten der unterschiedlichen Bereiche, z.B. Dreh, Schnitt, Endnutzung, für eine weitere Analyse, zugänglich zu machen.
Die Metadaten helfen dabei, Nutzungsdaten während des Bearbeitungsprozesses zu identifizieren und zu erschließen. Anschließend können entsprechende Optimierungen vorgenommen werden, wie die Anpassung an Geräte, wenn z. B. gewisse Inhalte nur auf dem Mobiltelefon geschaut werden.
Metadaten sind auch dann besonders wichtig, wenn es um Archivierung oder um andere Datenbankfunktionen geht. Beispielsweise, wenn es darum geht, wie häufig die Daten abgerufen werden und darauf aufbauend entsprechende Speichermedien gewählt werden müssen, die entweder hochverfügbar sein sollen oder langsamer und damit auch billiger.
Das Teilprojekt „Cognitive Media Framework”: Datamining via Cognitive Services
In dem Teilprojekt „Cognitive Media Framework“ der dwerft arbeitet Interlake mit einem Software-Prototypen daran, Metadaten aus Filmbeiträgen mit Hilfe von KI zu gewinnen, die aber noch nicht von Archivaren bearbeitet und katalogisiert wurden. Ziel ist es, möglichst viele Attribute automatisiert und ohne händische Arbeit korrekt zu erkennen und für eine Weiterverarbeitung anzureichern.
Die Cognitive Services von Microsoft sind die Grundlage der Testplattform zur Analyse und vereinen Bilderkennung, Spracherkennung, Textanalyse, sowie eine Stimmungs- und Inhaltserkennung. Filmbeiträge werden auf Attribute, wie z.B. Musik, Personen, Objekte, Marken und Orte untersucht, um diese analysierten Inhalte mit Bezug auf den Timecode des Videos speichern.
Via Tag-Sharing könnte man z.B. alle Videos finden, die entsprechend auf Metadaten analysiert wurden und in denen der Eifelturm vorkommt. Dies erleichtert das Arbeiten mit Medieninhalten, besonders für die Zweitverwertung.
Besonders interessant für die Zweitverwerter ist auch das unverwendete Rohmaterial der Produktion, um neue Beiträge daraus zu erstellen, ohne neue und aufwändige Dreharbeiten durchführen zu müssen.
Hierbei helfen die Metadaten erheblich, da Kosten für neue Produktionen einsparen können und Geschäftsmodelle für automatisierte Lizensierung ermöglichen, wenn ein Zweitverwerter auf ein Archiv zurückgreift und das Material benutzen möchte.
(Die Erfahrungen aus der dwerft zeigen eine fortschreitende Entwicklung der KI und einen passenden Workflow und entsprechende Beratung kann die Interlake für Interessierte erstellen.)
Inhalte und Metadaten schnell und remote zur Verfügung stellen
Mit der Entwicklung der LMDC (Linked Media Data Cloud), bietet die dwerft und seine Projektpartner eine Schnittstelle für die Metadaten aus den unterschiedlichen Bereichen der Medienproduktion, um diese zu aggregieren, zu speichern und nutzbar zu machen.
Mit dem Metadaten-Container werden Daten automatisiert gespeichert, versioniert, aufgearbeitet und nach den unterschiedlichen technischen Richtlinien geprüft und veröffentlicht, um Metadaten schnell und einfach zur Verfügung zu stellen.
Mit dem Speichern von Filmmaterial in der Cloud wird eine Vielzahl an Möglichkeiten eröffnet, was die Weiterverarbeitung und das Teilen der Inhalte betrifft, die beim klassischen Speichern im Rechenzentrum nur mit erheblichem Mehraufwand umsetzbar sind, z. B. das Speichern sowie das gleichzeitige Analysieren und Anreichern mit Metadaten, die beinahe unmittelbar zur Verfügung stehen.
Wir als Interlake beschäftigen uns nicht nur innerhalb der dwerft mit den im Artikel beschriebenen Themen, sondern setzen diese schon aktiv in unserer Zusammenarbeit mit der UFA und unserem Archive on Demand um. Das Archive on Demand schafft die idealen Vorrausetzungen, um Daten sicher, schnell und einfach in der Cloud zu speichern und das volle Potenzial heute und zukünftig zu nutzen.
Zur dWerft: Die dwerft ist eines der größten F&E-Projekte im Bereich von Medientechnologien in Deutschland und befindet seit 2019 in seiner zweiten Iteration, nach dem erfolgreichen Abschluss der ersten Auflage im Jahr 2017. In sechs Teilprojekten erforschen und entwickeln die Bündnispartner innerhalb der dwerft verschiedenste innovative Medientechnologien für die digitale Medienproduktion: Algorithmen und Künstliche Intelligenz für Bild- und Spracherkennung, Blockchain für Abrechnungssysteme, filebasierte Media Cloud Workflows, automatisierte Untertitelerstellung für crossmediale Distribution, Anwendungen für non-fiktionale Produktionen sowie intelligente Schnittstellen zu externen Archiven und Redaktionsdatenbanken.