AUDIOMINE

Film- und Fernseharchive auf der ganzen Welt verfügen über eine laufend wachsende Menge von audiovisuellen Inhalten, welche jedoch derzeit aufgrund mangelnder technischer Möglichkeiten nur unzureichend wiedergefunden werden können. Eine kostengünstige Wiederverwertung ist somit stark eingeschränkt.
Die eingeschränkte Wiederverwertbarkeit ist hauptsächlich damit zu begründen, dass, um eine effiziente Suche durchführen zu können, eine umfassende Dokumentation ("Annotation") der Inhalte notwendig ist. Die reine Auswertung der Bildinhalte stößt jedoch dann an ihre Grenzen, wenn die Auswertung der Ergebnisse mehrdeutig ist bzw. ein gewisses Kontextwissen voraussetzt. Dies tritt typischerweise verstärkt dann auf, wenn man versucht, semantische Informationen aus einem Video zu extrahieren, wie z.B. die Erkennung von Szenen (inhaltlich zusammenhängende Teile des Videos), welche zwar im Allgemeinen von Menschen sehr rasch erkannt werden, jedoch von Maschinen nur schwer gedeutet werden können. Erschließt man nun neben der visuellen Information auch die Audioinformation, so können einerseits diese Informationen zur Verbesserung der Analyseergebnisse eingesetzt und andererseits andere, zusätzliche Informationen extrahiert werden.

Ergebnis

Im ersten Schritt wurden Verfahren für folgende Aufgabenstellungen entwickelt:

  • Geräuschartenklassifikation: Sprache, Musik, Stille, und ?sonstiges?
  • Detektion von Sprecherwechseln
  • Erkennung von visuell (un-)ähnlichen Shots im Video, um Ortswechsel? feststellen zu können.
  • Detektion von akustischen Events bei Fußballübertragungen: Zunehmende Erregung der Sprecherstimme, Lautstärke des Publikums und Schiedsrichterpfiffe.
  • Erkennung von visuellen Ereignissen bei Fußballübertragungen: längere Kameraschwenks und Nahaufnahmen der Spieler

Nach der Verfügbarkeit der grundlegenden Verfahren wurden diese miteinander kombiniert. Die Zielrichtungen waren hier:

  • Die automatische Erzeugung von Zusammenfassungen (von Fußballspielen). Hier können auf Grund von Kombinationen spezieller Audio- und Video-Events wesentliche Passagen detektiert werden und zugehörige visuelle Inhalte zusammengefasst werden. Die erkannten Passagen können dann selektiv z. B. zu mobilen Nutzern übertragen werden.
  • Die Erkennung von Szenen in Filmen oder Reportagen, welche Dialoge von zwei oder mehreren Personen enthalten (z.B. Interviews, Diskussionsrunden)

Die entwickelten Verfahren wurden in zwei Demonstrationssysteme eingebunden, welche es erlauben, audiovisuelle Inhalte zu indizieren, zu visualisieren und mit Hilfe dieser Indizes kombinierte audiovisuelle Abfragen durchzuführen.

AUDIOMINE

Film and broadcasting archives around the world manage an ever increasing amount of audiovisual content. Due to a lack of technical possibilities  successful search of this content is limited, which prevents cost-effective reuse of content.
This limited reusability is based on the fact, that for efficient search & retrieval mechanisms it is necessary to annotate the content extensively. Automatic analysis of video content reaches its limit when results may be ambiguous or certain knowledge of context is needed. This is the case when trying to extract semantic information which is a trivial task for humans but much more complex for machines (e.g. detection of scene boundaries). Combined analysis of video and audio information leads to significant improvement of analysis results and a wider range of information can be extracted from the content.


Result
In the first step the following tasks were performed:

  • Classification of sound categories: Speech, music, silence and ?other?.
  • Detection of speaker changes.
  • Detection of visually (dis-)similar shots in a video to detect location changes.
  • Detection of acoustic events in soccer games: Excited speech of the commentator, overall loudness and referee?s whistle.
  • Detection of visual events in soccer games: long camera pans and close-ups of players? faces.

After developing the fundamental methods they were combined with a focus on:

  • Automatic generation of summaries for soccer games. Based on combinations of specific audio- and video-events important segments can be detected. These segments can be transferred selectively to e.g. mobile users.
  • Detection of scenes containing dialogues of two or more people (e.g. interviews, discussion rounds)

The techniques developed were integrated into two demonstration systems allowing to index audiovisual content and to use these indexes for combined audiovisual queries.

AUDIOMINE

Film- und Fernseharchive auf der ganzen Welt verfügen über eine laufend wachsende Menge von audiovisuellen Inhalten, welche jedoch derzeit aufgrund mangelnder technischer Möglichkeiten nur unzureichend wiedergefunden werden können. Eine kostengünstige Wiederverwertung ist somit stark eingeschränkt.
Die eingeschränkte Wiederverwertbarkeit ist hauptsächlich damit zu begründen, dass, um eine effiziente Suche durchführen zu können, eine umfassende Dokumentation ("Annotation") der Inhalte notwendig ist. Die reine Auswertung der Bildinhalte stößt jedoch dann an ihre Grenzen, wenn die Auswertung der Ergebnisse mehrdeutig ist bzw. ein gewisses Kontextwissen voraussetzt. Dies tritt typischerweise verstärkt dann auf, wenn man versucht, semantische Informationen aus einem Video zu extrahieren, wie z.B. die Erkennung von Szenen (inhaltlich zusammenhängende Teile des Videos), welche zwar im Allgemeinen von Menschen sehr rasch erkannt werden, jedoch von Maschinen nur schwer gedeutet werden können. Erschließt man nun neben der visuellen Information auch die Audioinformation, so können einerseits diese Informationen zur Verbesserung der Analyseergebnisse eingesetzt und andererseits andere, zusätzliche Informationen extrahiert werden.

Ergebnis