FairMedia - Forschung

Faire und vertrauenswürdige Datensätze für die Medieninformatik.

Hintergrund

Der Mediensektor ist seit einiger Zeit im Umbruch und steht vor großen Herausforderungen. Ein wesentlicher Grund dafür ist, dass Technologieunternehmen und Social-Media-Plattformen in das Terrain traditioneller Medien eingedrungen sind und ihnen in wachsendem Maße Konkurrenz machen. Damit einhergehend ist das Informationsangebot wie auch die Geschwindigkeit der Bereitstellung gestiegen. Im Gegenzug hat die Aufmerksamkeitsspanne des Publikums – wohl auch eine Folge des Überangebotes – abgenommen. Zudem können Fehlinformationen auf den neuen Kanälen leichter verbreitet werden und finden dort auch ihr Publikum. Das sind nur einige der Herausforderungen, auf die eine Antwort gefunden werden muss.

Methoden der künstlichen Intelligenz (KI) für die Medienproduktion einzusetzen, stellen einen vielversprechenden Weg dar, den Veränderungen in der Informationslandschaft zu begegnen, und die wichtige Rolle der Medien auf der Bühne der Demokratie zu bewahren. KI-gestützten Technologien verwenden jedoch Trainingsdatensätze, die meist nicht europäischen Ursprungs sind. Die zugrundeliegenden Datensätze stehen also weder unter der Kontrolle Europäischer Organisationen, noch sind sie durch Europäische Datenschutzbestimmungen geschützt. Hinzu kommt, dass Medienunternehmen oft individuelle KI-Lösungen benötigen. Diese werden jedoch von konventionellen Cloud-Diensten nicht angeboten und sind daher nur mit einem hohen Programmieraufwand umzusetzen.

Projektinhalt

In FAIRmedia entwickeln wir Werkzeuge für den Mediensektor, mit denen sich die Herausforderungen, die sich ihm stellen, besser bewältigen lassen. Wir wollen eine Toolchain mit dazugehörigen Leitfäden (die auch rechtliche Fragen abdecken) zur Verfügung stellen, die dabei hilft Datensätze zu erstellen und KI-Modelle zu trainieren. Die Nutzer*innen werden über einfache Prozesse an Tätigkeiten wie die Auswahl, Aufbereitung und Annotation von Daten herangeführt und darin angeleitet, Biases (Datenverzerrungen) zu erkennen und die Daten in maschinelle Lernmodelle einzuspeisen. Außerdem sollen Explainable AI-Tools bereitgestellt werden, mit denen die Qualität der Modelle bewertet werden kann und sich feststellen lässt, ob sie nach den gewünschten Kriterien funktionieren. Die entwickelten Werkzeuge sind auf die Bedürfnisse des Mediensektors zugeschnitten und decken zwei relevante Anwendungsfälle von KI im Medienbereich ab: Klassifizierung und Beantwortung von Fragen.

Ziele

FAIRmedia hat vor, KI-basierte Instrumente für den Einsatz in der Medienproduktion zu entwickeln. Journalist*innen, Archivar*innen und Forscher*innen soll es damit ermöglicht werden, eigenen Datensätze zu erstellen, eigene Werkzeuge zu bauen und beides zur Klassifizierung von Inhalten und zur Beantwortung von Fragen einzusetzen. Folgende Ziele sind abzuarbeiten:

Entwicklung einer Toolchain, die es Fachleuten aus dem Medienbereich ermöglicht, textuelle und audiovisuelle Datensätze aufzubereiten.
Erstellung von Richtlinien, die bei der Klärung zu Fragen des geistigen Eigentums und des Datenschutzes unterstützen.
Entwicklung von Methoden, die es erlauben, Modelle zur Klassifizierung und zur Fragebeantwortung an verschiedene Aufgaben anzupassen.
Entwicklung von Methoden, die Verzerrungen (Biases) in den Daten erkennbar machen.
Anwendung von Methoden, um zu verstehen, wie die Modelle Entscheidungen treffen (post-hoc Erklärbarkeit).
Forcierung der Vernetzung mit dem wachsenden EU-Mediendatenraum.

Vorgehensweise und Use Cases

Im erste Anwendungsfall widmen wir uns der Kategorisierung von Inhalten auf Basis von Nutzer*innenbedürfnissen. Kategorisierungen ermöglichen es nicht nur Beiträge und Inhalte besser auf die Wünsche und Ansprüche des Publikums abzustimmen, sondern auch den Output von Medienorganisationen leichter zu erfassen und zu überwachen. Die Anpassung von Klassifizierungsprozessen an unterschiedliche Medientypen und Organisationen sowie der Umgang mit Ungleichgewichten und Unschärfen in den Kategorien erfordern journalistisches Fachwissen und sind Kernproblem dieses Anwendungsfalls.

Ein zweiter Anwendungsfall von hoher Relevanz ist die automatisierte Beantwortung von Fragen (d.h., Fragen an Medieninhalte). Dafür gibt zwar bereits gut funktionierende Tools, jedoch braucht es noch weitere Verbesserungen. Da über die Daten und Inhalte, die für große vortrainierte Modelle verwendet werden, oft wenig Informationen verfügbar sind, ist es beispielsweise schwierig, nachzuvollziehen, auf welche Grundlage die Modelle zu ihren Entscheidungen kommen. Darüber hinaus sind die Modelle in der Regel universell einsetzbar und stoßen an Grenzen bei der Beantwortung von Fragen mit regionalem oder lokalen Bezug. Um hier Abhilfe zu schaffen, bauen wir in diesem Projekt auf Inhalte, die in den Archiven der Medienorganisationen gespeichert sind und hohen journalistischen Ansprüchen genügen. Alles in allem, richten wir in diesem zweiten Anwendungsfall den Fokus auf die Vorbereitung eines Datensatzes, das Training eines Modells mit dem Datensatz und die Validierung des resultierenden Modells.

Ergebnis

Das FAIRmedia-Projekt unterstützt Medienorganisationen dabei, Datensätze für das Training mit KI-Modellen aufzubereiten. Leitfäden und Best-Practise Beispiele werden bereitgestellt und Kompetenzen zu erklärbarer KI und No-Code-Tools für maschinelles Lernen (ML) vermittelt. Darüber hinaus werden Journalist*innen und Forscher*innen Tools an die Hand gegeben, die es ihnen erlauben, eigenständig Datensätze zu bearbeiten und KI-Technologien einzusetzen.