menu-close
En De
Zum Warenkorb hinzugefügt
Notification item
undefined
Die Zukunft der Musik: Wird KI die Kontrolle übernehmen?
Die Zukunft der Musik: Wird KI die Kontrolle übernehmen?

Die Zukunft der Musik: Wird KI die Kontrolle übernehmen?

Kreativität war schon immer ein Vorrecht der Menschheit. Vielleicht haben wir die Überlegenheit der künstlichen Intelligenz bei kognitiven Aufgaben bereits erkannt. Wir nutzen sie beispielsweise in der Datenverarbeitung und Informationstechnik. Doch wenn es um „menschliche“ Tätigkeiten geht, die Kreativität beinhalten, bleibt die KI uns unterlegen . 

Vor Jahrzehnten fand künstliche Intelligenz (KI) Anwendung in der Musik. Experten gehen davon aus, dass KI früher oder später lernen wird, Musik zu generieren. Sie erwarten, dass diese kaum von menschlicher Musik zu unterscheiden sein wird. Dennoch ist es unwahrscheinlich, dass KI Komponisten und Interpreten ersetzen kann. Ihr Produkt ist zweitrangig und kann den Zuhörern nicht dieselben Emotionen vermitteln. 

Moderne Musiker haben vielfältige Einsatzmöglichkeiten für KI in der Musikproduktion entdeckt. Zwar ist es derzeit noch unmöglich, ein komplettes Musikstück von Grund auf neu zu komponieren, doch künstliche Intelligenz kann die Komposition auf verschiedene Weise verbessern. 

Die Evolution der Musikproduktion: Wie vereinfacht künstliche Intelligenz sie?

Wenn wir über Musikproduktion am Computer sprechen, können wir sowohl von Assistenzsystemen bzw. Computerumgebungen sprechen, die Musiker (Komponisten, Arrangeure, Produzenten) unterstützen, als auch von autonomen Systemen zur Erstellung eigener Musik. Beide Systemtypen können neuronale Netze und Deep Learning nutzen.

Wir können auch über die verschiedenen Phasen der Musikproduktion sprechen. 

Künstliche Intelligenz kann in den Prozess integriert werden und uns unterstützen. Dies betrifft beispielsweise Komposition, Arrangement und Orchestrierung. Wenn ein Mensch Musik komponiert, erschafft er selten ein völlig neues Stück. Er verwendet oder adaptiert musikalische Elemente, die er bereits kennt. Ebenso kann man in verschiedenen Phasen der Entstehung eines Werkes einen Computerassistenten hinzuziehen. Dieser kann den menschlichen Komponisten auf vielfältige Weise ergänzen.

Der traditionelle Ansatz besteht darin, Musik in symbolischer Form zu erstellen. Dazu gehören Partituren, MIDI-Sequenzen, Melodien, Akkordfolgen und vieles mehr. Künstliche Intelligenz erzeugt also eine symbolische Form, die zum Abspielen des Musikstücks verwendet wird.

Anders ausgedrückt: Es beseitigt den traditionellen, aufwendigen Prozess der Klangerzeugung. Anstelle einer Vielzahl von Audiosignalen wird eine „Anweisung“ ausgegeben. Der Vorteil liegt in der Reduzierung der von den Algorithmen zu erzeugenden Informationen. Dies wiederum vereinfacht das Syntheseproblem und ermöglicht den effizienten Einsatz einfacher Modelle des maschinellen Lernens.

Der neue, fortschrittliche Ansatz ermöglichte es beispielsweise, Musik im Stil von Bach zu komponieren. Ein weiteres Beispiel ist das neuronale Netzwerk MuseNet von OpenAI , das im April 2019 vorgestellt wurde. MuseNet kann vierminütige Kompositionen für zehn Instrumente erstellen und verschiedene Musikstile kombinieren. Dieses neuronale Netzwerk wurde mit einer großen Anzahl von MIDI-Aufnahmen trainiert.

Ein weiteres Beispiel ist Jukebox . Dabei handelt es sich um ein neuronales Netzwerk, das Musik verschiedener Genres generiert. Es kann sogar einfache Stimmen sowie diverse Musikinstrumente erzeugen. Jukebox erzeugt das Audiosignal direkt und umgeht so die symbolische Repräsentation. Solche Musikmodelle sind deutlich leistungsfähiger und komplexer als ihre symbolischen Pendants. Dies erfordert einen höheren Rechenaufwand für das Training des Modells.

Die „Wissenschaft“ hinter KI in der Musik: Wie genau erzeugen neuronale Netze Musik?

Wie genau erzeugen neuronale Netze Musik? Es gibt ein allgemeines Prinzip: Ein neuronales Netz analysiert eine große Anzahl von Beispielen und lernt, etwas Ähnliches zu generieren. Diese Algorithmen basieren üblicherweise auf Autoencodern und Generative Adversarial Networks (GANs) .

Ein Autoencoder ist ein neuronales Netzwerk, das lernt, komplexe und mehrdimensionale Datensätze vereinfacht darzustellen. Anschließend rekonstruiert es die Originaldaten aus dieser vereinfachten Darstellung. Das heißt, das auf einem Autoencoder basierende Musikgenerierungsmodell komprimiert zunächst den Rohklang in einen Raum mit niedrigeren Dimensionen. Dann trainieren wir das Modell, aus diesem komprimierten Raum Klang zu generieren. Schließlich skalieren wir ihn wieder in den ursprünglichen Klangraum hoch.

Ein generatives adversarielles neuronales Netzwerk lässt sich metaphorisch als die Arbeit eines „Fälschers“ und eines „Ermittlers“ darstellen. Die Aufgabe des Fälschers bzw. des generativen neuronalen Netzwerkmodells besteht darin, aus dem Rauschen eine realistische Dateninstanz zu erzeugen. Zum Beispiel ein Gesichtsbild oder, in unserem Fall, eine Musiksequenz. 

Der „Diskriminator“ versucht, echte Daten von vom Generator erzeugten „gefälschten“ Daten zu unterscheiden. Im Wettbewerb miteinander verbessern beide Modelle so ihre Fähigkeiten. Dadurch trainiert sich das generative Modell selbst, glaubwürdige Datenbeispiele zu erzeugen.

Sollten wir im Jahr 2021 KI-Musik hören? Lohnt sich der Zeitaufwand überhaupt? 

Woher wissen wir, ob ein von einer Maschine komponiertes Musikstück unsere Aufmerksamkeit wirklich verdient? Um die Funktionsweise künstlicher Intelligenzsysteme zu testen, entwickelten Musiker den Turing-Test. Dessen Idee ist, dass eine Person mit einem Computerprogramm und mit einer anderen Person interagiert. 

MEHR LESEN 🤜 Rechteverwaltung: Bedeutung im digitalen Zeitalter

Wir stellen dem Programm und der Person Fragen und versuchen herauszufinden, mit wem wir sprechen. Das Programm besteht den Test, wenn wir es nicht von der Person unterscheiden können.

Im Bereich der Musikgenerierung wird mitunter der „musikalische Turing-Test“ angewendet. Nehmen wir beispielsweise den DeepBach-Algorithmus. Wie der Name schon sagt, erzeugt er Noten im Stil von Bach. An einer Studie nahmen über 1.200 Personen teil (Experten und Laien). Sie sollten echte Bach-Musik von künstlich erzeugter unterscheiden. Es stellte sich heraus, dass dies sehr schwierig ist. Die Probanden konnten kaum zwischen von Bach komponierten Chorälen und solchen, die von DeepBach erzeugt wurden, unterscheiden.

Im Bereich der Audioproduktion ist der Erfolg noch nicht so beeindruckend. Zwar stellt die Jukebox einen gewaltigen Fortschritt in puncto Musikqualität, Wiedergabelänge und der Möglichkeit, gezielt nach Künstlern oder Genres zu suchen, dar, doch die Unterschiede zwischen künstlich erzeugter und von Menschenhand geschaffener Musik sind weiterhin deutlich hörbar. 

Die Melodien aus der Jukebox enthalten traditionelle Akkorde und beeindruckende Soli. Große musikalische Strukturen wie sich wiederholende Refrains sind jedoch nicht zu hören. 

Auch in den künstlichen Werken sind Geräusche hörbar, die mit der Funktionsweise der Modelle zusammenhängen. Die Musikgenerierung ist ebenfalls noch langsam. Mit der Jukebox dauert es etwa neun Stunden, eine Minute Audio zu rendern. Daher ist sie derzeit für interaktive Anwendungen ungeeignet.

Hinterlassen Sie einen Kommentar
Bitte beachten Sie, dass Kommentare vor der Veröffentlichung freigegeben werden müssen