Inhaltsverzeichnis
Semantisches Hören mittels KI
von Walter Eigenmann
Wer schon mal Kopfhörer mit Geräuschunterdrückung verwendet hat, ist sich der Wichtigkeit bewusst, das passende Geräusch zur passenden Zeit zu hören. Denn bei der häuslichen Arbeit mag man vielleicht Verkehrslärm ausblenden wollen, aber nicht, wenn man durch eine belebte Straße spaziert. Allerdings hatte man bisher wenig Kontrolle darüber, welche Geräusche die Kopfhörer ausblenden. Ein Team von Forschern der University of Washington hat nun Deep-Learning-Algorithmen entwickelt, mit denen Nutzer selbst bestimmen können, welche Geräusche in Echtzeit durch ihre Kopfhörer gefiltert werden. Dieses System wird als “semantisches Hören” bezeichnet.

Das Forscher-Team um Studien-Hauptautor Shyam Gollakota, Professor an der Paul-G.-Allen-School of Computer Science & Engineering der University Washington, erklärt seine jüngsten Ergebnisse grundsätzlich: Die Kopfhörer übertragen die aufgenommenen Audio-Signale an ein verbundenes Smartphone, dessen App sämtliche Umgebungsgeräusche ausblendet. Der Träger der Kopfhörer kann dabei über Sprachbefehle bzw. die App aus 20 Geräuschklassen auswählen, welche Geräusche genau er hören möchte – beispielsweise Sirenen, Babyschreie, Sprache, Staubsauger und Vogelgezwitscher. Nur die ausgewählten Geräusche werden also über die Kopfhörer wiedergegeben.
Echzeit-Intelligenz bei Geräusch-Unterdrückung

Shyam Gollakota: “Um die Klangnuancen eines Vogels zu verstehen und ihn aus anderen Umgebungsgeräuschen herauszufiltern, bedarf es einer Echtzeit-Intelligenz, die heutige Kopfhörer mit Geräuschunterdrückung nicht bieten können.” Die Herausforderung bestand u.a. darin, die vom Träger des Kopfhörers gehörten Geräusche mit den visuellen Sinnen zu synchronisieren. Stimmen können nicht erst zwei Sekunden nach dem Gespräch mit einer Person gehört werden; Neuronale Algorithmen müssen Töne in weniger als einer Hundertstelsekunde verarbeiten.
Aufgrund dieses Zeitdrucks verarbeitet das neue semantische Hörsystem Geräusche auf dem angeschlossenen Smartphone anstatt auf leistungsstarken Cloud-Servern. Da Geräusche zu unterschiedlichen Zeiten aus verschiedenen Richtungen in die Ohren gelangen, muss das System diese Verzögerungen und räumlichen Hinweise berücksichtigen, um die Geräusche in der Umgebung sinnvoll wahrnehmbar zu machen.
Problemfelder Musik und Sprache

In Tests in verschiedenen Umgebungen wie Büros, Straßen und Parks konnte das System Sirenen, Vogelgezwitscher, Alarme und andere Zielgeräusche extrahieren, während alle anderen realen Geräusche eliminiert wurden. Bei der Bewertung der Audio-Ausgabe für das Zielgeräusch durch 22 Teilnehmer wurde festgestellt, dass die Qualität im Durchschnitt im Vergleich zur Originalaufnahme verbessert wurde.
In einigen Situationen hatte das System Schwierigkeiten, zwischen Klängen zu unterscheiden, die viele gemeinsame Merkmale aufweisen. Dazu gehören beispielsweise Gesangsmusik und menschliche Sprache. Die Forscher betonen allerdings, dass ein Training der Modelle mit mehr realen Daten diese Ergebnisse verbessern könnte. ♦
Lesen Sie im GLAREAN MAGAZIN zum Thema KI auch das “Zitat der Woche” vom 4. Aug. 2023