360 AI

Entwicklung einer Methode zur effizienten Objekterkennung in 360°- Bildern

Interaktive Walkthroughs

Das Unternehmen Frameless generiert interaktive virtuelle Walkthroughs auf Basis von 360-Grad-Bildern. Mit Smartphones oder Head-Mounted Displays können sich die BenutzerInnen in diesen Welten frei bewegen, Medieninhalte einbetten und mit Elementen interagieren.  Eine wichtige Voraussetzung für anspruchsvolle Dienste, wie das Suchen und Kommentieren von Inhalten in diesen virtuellen Walkthroughs, ist das Erkennen von Objekten und potenziell übergeordneten (szenenbezogenen) Konzepten in den immersiven Umgebungen. Daher sind fortschrittliche Methoden zur Objekterkennung und zum Szenenverständnis erforderlich, die direkt im Walkthrough angewendet werden können. 

Verzerrung bei 360°-Bildern

Aktuelle Methoden der künstlichen Intelligenz (KI) für die Objekterkennung arbeiten ausschließlich mit unverzerrten Bildern. 360°-Bilder führen jedoch zu erheblichen Bildverzerrungen, insbesondere entlang der vertikalen Achse, da ihre sphärische Geometrie nicht verzerrungsfrei auf eine ebene Fläche abgebildet werden kann. Dies stellt eine Reihe von Herausforderungen für die Objekterkennung dar, da die Objekte starke nichtlineare Verzerrungen aufweisen, die davon abhängen, wo sie sich im Panorama befinden. Diese Verzerrungen behindern dabei die fehlerfreie die Objekterkennung.  

Effiziente Objekterkennung in 360°-Daten

Das übergeordnete Ziel des Projekts ist die Entwicklung eines Algorithmus zur effizienten Objekterkennung in 360°-Daten, um es zu ermöglichen, Objekte direkt in den verzerrten Bildern zu erkennen. Spezifische Ziele sind folgende:
- Aufbau einer repräsentativen Sammlung von 360°-Bildern als Testdatensatz für die Objekterkennung
- Bewertung des aktuellen Standes der Technik in der Objekterkennung auf 360° Inhalten
- Entwicklung von Konzepten, um moderne Objekterkennungsmethoden kompatibel mit nichtlinearen Verzerrungen zu machen, so dass die Anzahl der notwendigen Anpassungen minimiert wird, um eine nahtlose Integration zukünftiger Erkennungsmethoden zu ermöglichen. 
- Implementierung eines effizienten Algorithmus zur Objekterkennung in 360°-Bildern 

Methodik 

Es gibt verschiedene Ansätze, um die Objekterkennung für Bilder mit Verzerrungen anzupassen, jeder mit unterschiedlichen Stärken und Schwächen. Daher wird in diesem Projekt eine neue Richtung eingeschlagen: Ziel ist es, leistungsfähige Datenaugmentierungsmethoden zu entwickeln, um nichtlineare Verzerrungen in die Trainingsdaten direkt zu integrieren. Zu diesem Zweck können bestehende annotierte Datensätze (z.B. Pascal VOC, ILSVRC) wiederverwendet werden. Diese Strategie macht den Ansatz mit beliebigen neuronalen Netzen kompatibel und anwendbar, auch wenn kein annotierter 360°-Inhalt verfügbar ist.

Ergebnis 

Die entwickelten Methoden stellen erste Lösungen dar, die zeigen, wie bestehende KI-Lösungen mit minimalem Aufwand am besten an 360°-Inhalte angepasst werden können. Die entwickelten Ansätze stellen dabei einen Ausgangspunkt für Frameless dar, um ein leistungsfähiges KI-Backend aufzubauen, das es ermöglicht, neue Datenmanagement-Services über den derzeitigen Stand der Technik hinaus anzubieten. Die entwickelten Techniken sollen es ermöglichen, in Zukunft ähnliche Inhalte über verschiedene Walkthroughs hinweg zu suchen und abzugleichen und so erweiterte Empfehlungsdienste für die Endbenutzer zu schaffen.
 

Sie wollen mehr wissen? Fragen Sie nach!

Forschungsgruppenleiter
Forschungsgruppe Media Computing
Institut für Creative\Media/Technologies
Department Medien und Digitale Technologien
Arbeitsplatz: A - Campus-Platz 1
M: +43/676/847 228 652
Externe MitarbeiterInnen
Felix De-Montis (studentischer MA)
PartnerInnen
  • Frameless Gmbh
Finanzierung
FFG Innovationsscheck
Laufzeit
19.11.2018 – 18.11.2019
Projektstatus
abgeschlossen
Beteiligte Institute, Gruppen und Zentren
Forschungsgruppe Media Computing
Institut für Creative\Media/Technologies