Künstliche Intelligenz in der Audio-Forschung

Semantisches Hören mittels KI

von Walter Eigenmann

Wer schon mal Kopf­hö­rer mit Ge­räusch­un­ter­drü­ckung ver­wen­det hat, ist sich der Wich­tig­keit be­wusst, das pas­sen­de Ge­räusch zur pas­sen­den Zeit zu hö­ren. Denn bei der häus­li­chen Ar­beit mag man viel­leicht Ver­kehrs­lärm aus­blen­den wol­len, aber nicht, wenn man durch eine be­leb­te Stra­ße spa­ziert. Al­ler­dings hat­te man bis­her we­nig Kon­trol­le dar­über, wel­che Ge­räu­sche die Kopf­hö­rer aus­blen­den. Ein Team von For­schern der Uni­ver­si­ty of Wa­shing­ton hat nun Deep-Lear­ning-Al­go­rith­men ent­wi­ckelt, mit de­nen Nut­zer selbst be­stim­men kön­nen, wel­che Ge­räu­sche in Echt­zeit durch ihre Kopf­hö­rer ge­fil­tert wer­den. Die­ses Sys­tem wird als „se­man­ti­sches Hö­ren“ bezeichnet.

Shyam Gollakota - Glarean Magazin
Prof. Dr. Shyam Golla­ko­ta (Uni­ver­si­ty of Washington)

Das For­scher-Team um Stu­di­en-Haupt­au­tor Shyam Golla­ko­ta, Pro­fes­sor an der Paul-G.-Allen-School of Com­pu­ter Sci­ence & En­gi­nee­ring der Uni­ver­si­ty Wa­shing­ton, er­klärt sei­ne jüngs­ten Er­geb­nis­se grund­sätz­lich: Die Kopf­hö­rer über­tra­gen die auf­ge­nom­me­nen Au­dio-Si­gna­le an ein ver­bun­de­nes Smart­phone, des­sen App sämt­li­che Um­ge­bungs­ge­räu­sche aus­blen­det. Der Trä­ger der Kopf­hö­rer kann da­bei über Sprach­be­feh­le bzw. die App aus 20 Ge­räusch­klas­sen aus­wäh­len, wel­che Ge­räu­sche ge­nau er hö­ren möch­te – bei­spiels­wei­se Si­re­nen, Ba­by­schreie, Spra­che, Staub­sauger und Vo­gel­ge­zwit­scher. Nur die aus­ge­wähl­ten Ge­räu­sche wer­den also über die Kopf­hö­rer wiedergegeben.

Echzeit-Intelligenz bei Geräusch-Unterdrückung

"Semantisches Hören" via KI-gesteuertem Kopfhörer
„Se­man­ti­sches Hö­ren“ via KI-ge­steu­er­tem Kopfhörer

Shyam Golla­ko­ta: „Um die Klang­nu­an­cen ei­nes Vo­gels zu ver­ste­hen und ihn aus an­de­ren Um­ge­bungs­ge­räu­schen her­aus­zu­fil­tern, be­darf es ei­ner Echt­zeit-In­tel­li­genz, die heu­ti­ge Kopf­hö­rer mit Ge­räusch­un­ter­drü­ckung nicht bie­ten kön­nen.“ Die Her­aus­for­de­rung be­stand u.a. dar­in, die vom Trä­ger des Kopf­hö­rers ge­hör­ten Ge­räu­sche mit den vi­su­el­len Sin­nen zu syn­chro­ni­sie­ren. Stim­men kön­nen nicht erst zwei Se­kun­den nach dem Ge­spräch mit ei­ner Per­son ge­hört wer­den; Neu­ro­na­le Al­go­rith­men müs­sen Töne in we­ni­ger als ei­ner Hun­derts­tel­se­kun­de verarbeiten.
Auf­grund die­ses Zeit­drucks ver­ar­bei­tet das neue se­man­ti­sche Hör­sys­tem Ge­räu­sche auf dem an­ge­schlos­se­nen Smart­phone an­statt auf leis­tungs­star­ken Cloud-Ser­vern. Da Ge­räu­sche zu un­ter­schied­li­chen Zei­ten aus ver­schie­de­nen Rich­tun­gen in die Oh­ren ge­lan­gen, muss das Sys­tem die­se Ver­zö­ge­run­gen und räum­li­chen Hin­wei­se be­rück­sich­ti­gen, um die Ge­räu­sche in der Um­ge­bung sinn­voll wahr­nehm­bar zu machen.

Problemfelder Musik und Sprache

12 Zeiteinteilungen für Klavier - Walter Eigenmann - Zeitgenössische Klaviermusik
An­zei­ge

In Tests in ver­schie­de­nen Um­ge­bun­gen wie Bü­ros, Stra­ßen und Parks konn­te das Sys­tem Si­re­nen, Vo­gel­ge­zwit­scher, Alar­me und an­de­re Ziel­ge­räu­sche ex­tra­hie­ren, wäh­rend alle an­de­ren rea­len Ge­räu­sche eli­mi­niert wur­den. Bei der Be­wer­tung der Au­dio-Aus­ga­be für das Ziel­ge­räusch durch 22 Teil­neh­mer wur­de fest­ge­stellt, dass die Qua­li­tät im Durch­schnitt im Ver­gleich zur Ori­gi­nal­auf­nah­me ver­bes­sert wurde.
In ei­ni­gen Si­tua­tio­nen hat­te das Sys­tem Schwie­rig­kei­ten, zwi­schen Klän­gen zu un­ter­schei­den, die vie­le ge­mein­sa­me Merk­ma­le auf­wei­sen. Dazu ge­hö­ren bei­spiels­wei­se Ge­sangs­mu­sik und mensch­li­che Spra­che. Die For­scher be­to­nen al­ler­dings, dass ein Trai­ning der Mo­del­le mit mehr rea­len Da­ten die­se Er­geb­nis­se ver­bes­sern könnte. ♦

Le­sen Sie im GLAREAN MAGAZIN zum The­ma KI auch das „Zi­tat der Wo­che“ vom 4. Aug. 2023


Kommentare sind willkommen! (Keine E-Mail-Pflicht)