Visual Analysis of Large and Heterogeneous Scientific Workflows for Analytical Provenance – Ein forensisches Analysetool soll die Visualisierung von Datenanalyseworkflows ermöglichen und so die Reproduzierbarkeit von Studien erhöhen.
Komplexe Analyse von großen Datenmengen
In den letzten Jahren finden sich immer mehr wissenschaftliche Disziplinen mit einer großen Menge höchst komplexer Daten konfrontiert. In groß angelegten Analyseexperimente werden Daten mithilfe von Workflows, bestehend aus Datentransformationen und Analyseoperationen, ausgewertet. Oft arbeiten große Forschungsteams von verschiedenen Standorten aus an solchen Workflows, administrieren und ändern sie laufend. Dadurch ist es schwierig nachzuvollziehen, wo welche Änderungen vollzogen wurden und welche Auswirkungen diese auf Resultate hatten. So wird die Reproduzierbarkeit und Nachvollziehbarkeit von repräsentativen Studien, einem Fundament der Wissenschaft, in Mitleidenschaft gezogen. Denn was, wenn die einzelnen Forschungsschritte nicht mehr nachvollziehbar sind?
Den Workflow verstehen und visualisieren
Der Schlüssel zu Nachvollziehbarkeit und Reproduzierbarkeit liegt in der Sammlung von Informationen über die verarbeiteten Daten, die angewandten Werkzeuge und Algorithmen im Laufe der Zeit. Derzeit ist es, wenn überhaupt möglich, sehr zeitaufwändig herauszufinden, welche konkreten Änderungen auf dem Level der Eingangsdatensätze, dem Workflow selbst oder der Parametrisierung bei der Wiederholung von Studien zu Variationen im Resultat geführt haben. Um ein forensisch visuelles Werkzeug für die Analyse von Workflow Provenance Graphen zu ermöglichen, werden folgende Komponenten entwickelt:
- Neuartige visuelle Analysemethoden für skalierbare Workflow-Visualisierung,
- Möglichkeiten zum Vergleich von komplexen Datenstrukturen, sowie
- Metriken zum Quantifizieren von Änderungen.
Nachvollziehbarkeit und Reproduzierbarkeit
Ziel des Projekts ist die Nachvollziehbarkeit auf allen Ebenen, also dass die Herkunft der Daten zu jeder Zeit klar und sichtbar ist. Visualisierung und detaillierte Beschreibung einzelner Arbeitsschritte sind mithilfe der neuen Tools möglich und machen die Herkunft von Änderungen klar ersichtlich und identifizierbar. Das garantiert Analyst*innen ein besseres Verständnis des Workflows und somit auch einen Einblick darin, wie sich Änderungen im Workflow auf die Resultate auswirken. So kann die Nachvollziehbarkeit von Analyseergebnissen garantiert und die Reproduzierbarkeit veröffentlichter Studien gehoben werden. Das Projekt birgt also für viele Bereiche und Disziplinen der Wissenschaft großes Potential.
Weiterführende Links
Copyright: JKU Linz/Stefan Luger
Publikationen
Presseberichte
Dem Workflow auf der Spur
01.02.2016Veröffentlichungsdatum: 01.02.2016
Medium: Austria Innovativ
Vorbereiten auf die digitale Welt
16.11.2016Medium: Der Standard
Wissenschaft und Forschung in Niederösterreich
01.11.2016Medium: UNIVERSUM Magazin
Big Data – und welche Chancen Daten bieten
10.06.2016Veröffentlichungsdatum: 10.06.2017
Medium: Die Presse
Ass. Prof. DI Dr. Marc Streit, Johannes Kepler Universität Linz, Institut für Computergrafik
- Harvard University, School of Engineering & Applied Sciences, Visual Computing Group (Pfister Lab) [USA Massachusetts]
- Harvard Medical School, Center for Biomedical Informatics, Computational Genomics Group (Park Lab)[USA Massachusetts]
- Universität Rostock, Institut für Informatik, Visual Computing und Computergraphik [Deutschland]