AudioCraft: Die nächste Generation der Text-zu-Musik KI-Technologie

Lukas Görög

Einführung

AudioCraft ist ein Open-Source-KI-Musikgenerator, der von Meta AI entwickelt wurde. Es handelt sich um eine Sammlung generativer KI-Tools zur Erzeugung von Musik und Audio auf der Grundlage von Textvorgaben. AudioCraft vereinfacht das Gesamtdesign von generativen Modellen für Audio und macht es den Nutzern leichter, Musik und Klänge vollständig durch generative KI zu erzeugen. Meta AI hat vor kurzem AudioCraft als Teil ihrer Bemühungen veröffentlicht, das Potenzial von KI in der Musik- und Audioerzeugung zu erforschen. Mit AudioCraft können Benutzer Textaufforderungen eingeben und mit Hilfe von KI-Algorithmen Musik- und Audiokompositionen erzeugen. Dieses Tool eröffnet Musikern, Produzenten und Kreativen neue Möglichkeiten, mit KI-generierter Musik zu experimentieren und einzigartige Kompositionen zu entwickeln.

Bestandteile von AudioCraft:

MusicGen:

MusicGen generiert Musik auf der Grundlage textbasierter Benutzereingaben. Es wurde mit einem Meta-eigenen Datensatz von 10.000 hochwertigen Musiktiteln, ShutterStock und Pond5-Musikdaten trainiert. Benutzer können Texteingaben machen, und MusicGen nutzt generative KI-Techniken, um Musik zu erzeugen, die auf die gegebenen Eingaben abgestimmt ist. Wir werden in den nächsten Kapiteln ausführlich auf MusicGen eingehen, da dies unser Hauptziel ist.

AudioGen:

AudioGen konzentriert sich auf die Erzeugung von Audio. Es ermöglicht Benutzern die Eingabe von textbasierten Aufforderungen und generiert realistisches Audio auf der Grundlage dieser Aufforderungen. AudioGen nutzt ein einstufiges autoregressives Transformer-Modell, um qualitativ hochwertige Audioausgaben zu erzeugen. Hier einige Beispiele für AudioGen: „Sirenen und ein brummender Motor nähern sich und fahren vorbei“, „Eine Ente quakt, während Vögel zwitschern und eine Taube gurrt“, „Pfeifen bei wehendem Wind“.

EnCodec:

EnCodec befasst sich mit der Audiokodierung und -dekodierung. Er ist für die Umwandlung von Audiosignalen in ein digitales Format zuständig, das von den KI-Modellen verarbeitet werden kann. So kann jeder sein eigenes Kompressionsmodell trainieren, das auf seine Anwendungen zugeschnitten ist. EnCodec verspricht High-Fidelity (Hi-Fi) Neural Audio Compression. Das bedeutet ein hohes Maß an Genauigkeit und Realismus bei der Wiedergabe von Audioinhalten. AudioCraft hat auch ein diffusionsbasiertes EnCodec-Modell eingeführt, das bei verschiedenen Bitraten eine höhere Qualität der Audioausgabe als die EnCodec-Ausgabe erzeugt.

AudioCraft hat alle Informationen in seinem Git Hub Repository und in einem YouTube-Video veröffentlicht. Und das ist der Weg zu gehen.

Wie kann man MusicGen in Google Colab einsetzen?

Es ist eigentlich ein einfacher Prozess, der aus diesen Schritten besteht:

Besuchen Sie das öffentliche Audio Craft GitHub Repository.

Blättern Sie nach unten zu den Modellen und wählen Sie das Modell MusicGen.

Hier finden Sie alle Informationen über MusicGen, einschließlich Einführung, Modellkarte, Installation, Anleitungen für verschiedene Verwendungszwecke, API-Informationen und Beispiele sowie Anleitungen für das Training mit benutzerdefinierten Modellen. Klicken Sie auf das Symbol „In Colab öffnen“ im Einleitungsteil.

Wenn Sie bereits ein Google Colab in Ihrem Konto eingerichtet haben, wird es in einem neuen Notizbuch namens „MusicGen Gradio Demo v1.0.0.ipynb“ geöffnet.

Folgen Sie dann den Anweisungen und führen Sie einfach den Codeblock in der Zelle aus, ohne die Laufzeit neu zu starten, wenn Sie dazu aufgefordert werden.

Colab gibt dann eine Warnmeldung aus, in der Sie die Option „Run Anyway“ (Trotzdem ausführen) auswählen müssen, um MusicGen bereitzustellen. Dann beginnt es mit dem Klonen des Codes aus dem Git-Hub und der Installation aller erforderlichen Dateien in die Colab-Umgebung.

Nach erfolgreicher Installation erhalten Sie eine „Öffentliche URL“.

Wenn Sie auf die öffentliche URL klicken, wahrscheinlich in diesem Format („https://bb542b5b3f26abb89d.gradio.live/„), werden Sie auf eine Seite wie die folgende geleitet.

Jetzt sind Sie nur noch einen Schritt davon entfernt, einen Musikclip zu erstellen. Wir gehen davon aus, dass Sie ein gewisses Wissen über Musik haben sollten, denn das Endergebnis hängt davon ab, wie Sie die Aufforderung schreiben. Achten Sie darauf, dass Sie das Musikgenre, die Art der Instrumente, die Art, wie sie gespielt werden sollen, und die Eindrücke, die das Publikum haben soll, angeben. Wenn Sie eine bestimmte Melodie im Kopf haben, laden Sie die Audiodatei in den Melodiebereich hoch oder wählen Sie einfach die Option Mikrofon und singen Sie sie.

Wenn Sie mit der Eingabeaufforderung und der Melodie zufrieden sind, klicken Sie auf das Senden-Symbol und warten Sie, bis der Audioclip erstellt wurde. Standardmäßig ist Ihr Musikclip 10 Sekunden lang. Wenn Sie einen längeren Clip benötigen, ändern Sie ihn in der Leiste „Dauer“.

Sie haben weitere Optionen zur Auswahl von Funktionen, mit denen Sie je nach Ihren Anforderungen spielen können.

Zum Schluss können Sie sich den von Ihnen erstellten Musikclip anhören und auf Ihren Computer herunterladen. In den entsprechenden Formaten (MP3, MP4, WAV).

Warum Prompt Engineering wichtig ist:

Die Erstellung von Prompts ist in MusicGen wichtig, weil sie sich direkt auf die Qualität der erzeugten Musik auswirkt. Ein gut formulierter Prompt kann dem Modell helfen, den gewünschten Stil, das Genre und die Stimmung der zu erzeugenden Musik zu verstehen.

Um einen guten MusicGen-Prompt zu schreiben, sollten Sie spezifisch sein. Verwenden Sie beschreibende Worte, um den gewünschten Stil, das Genre und die Stimmung der Musik zu vermitteln. Verwenden Sie die angegebenen Beispiele. Vermeiden Sie Mehrdeutigkeit, indem Sie Begriffe verwenden, die auf verschiedene Weise interpretiert werden können. Verwenden Sie zum Beispiel statt „fröhliche Musik“ „peppige Musik mit Dur-Akkorden und schnellem Tempo“. Halten Sie es einfach und experimentieren Sie.

Beispiel für MusicGen-Eingabeaufforderungen:

Rock’n’Roll-Revival:

Stellen Sie sich eine energiegeladene Rock’n’Roll-Hymne vor, die mit einem düsteren Gitarrenriff beginnt, gefolgt von einer eingängigen Gesangsmelodie, die den rebellischen Geist verkörpert. Das Schlagzeug treibt den Rhythmus mit unerbittlicher Kraft an, während der Bass einen pulsierenden Groove beisteuert. Der Refrain entwickelt sich zu einer kraftvollen Hymne mit rauem Gesang und E-Gitarren-Soli, die die Essenz jugendlicher Kraft und Trotzigkeit einfangen.

Ätherische Ambient-Reise:

Visualisieren Sie ein Ambient-Meisterwerk, das den Hörer in eine andere Welt entführt. Sanfte, atmosphärische Synthesizer verschmelzen nahtlos mit zarten Klaviertönen und schaffen eine beruhigende Klanglandschaft. Sanftes Glockenspiel und ferne Echos rufen ein Gefühl der Ruhe hervor, während subtile elektronische Texturen für Tiefe sorgen. Die Musik entfaltet sich wie eine heitere Reise durch himmlische Landschaften und lädt zu Introspektion und Entspannung ein.

Funky Urban Groove:

Stellen Sie sich einen funky urbanen Track mit Groove und Rhythmus vor. Die Basslinie ist funky und ansteckend und bildet das Fundament der Komposition. Ein straffes und knackiges Schlagzeug bildet den rhythmischen Hintergrund für synkopische Gitarrenriffs, die zum Kopfnicken anregen. Bläser untermalen das Arrangement mit energiegeladenen Ausbrüchen, während eine charismatische Gesangslinie ein Element des Mutes und der Coolness der Straße hinzufügt.

Klassische Eleganz und Anmut:

Stellen Sie sich eine erlesene klassische Komposition vor, die von einem vollen Orchester gespielt wird. Zarte Streicher eröffnen das Stück mit einer anmutigen Melodie, während Holz- und Blechbläser für Tiefe und Reichtum sorgen. Die Musik fließt nahtlos durch die verschiedenen Abschnitte, mit Momenten von Crescendo und Decrescendo, die Gefühle von Melancholie bis Triumph vermitteln. Die Komposition gipfelt in einem atemberaubenden symphonischen Höhepunkt.

Schwungvolle elektronische Fusion:

Stellen Sie sich ein dynamisches elektronisches Fusion-Stück vor, das nahtlos Elemente der elektronischen Tanzmusik mit weltweiten Einflüssen verbindet. Schwungvolle Synthesizer leiten eine eingängige Melodie ein, während pulsierende elektronische Beats den Rhythmus vorantreiben. Ethnische Perkussion und gesampelte Instrumente fügen einen globalen Geschmack hinzu und schaffen eine vielfältige Klangpalette. Die Musik steigert sich zu euphorischen Drops, die den Hörer zum Tanzen und Feiern einladen.

Einpacken

Und damit ist diese Anleitung für den Einsatz des Text-zu-Musik-Modells MusicGen von Meta AI in Google Colab abgeschlossen! Mit nur ein paar einfachen Schritten können Sie jetzt damit beginnen, originale KI-gesteuerte Musikkompositionen aus Textaufforderungen zu erzeugen.

Das Wichtigste ist, das Modell zu installieren und in Ihrer Colab-Umgebung zum Laufen zu bringen. Die intuitive Benutzeroberfläche macht es Ihnen leicht, mit verschiedenen Genres, Instrumenten, Melodien usw. zu experimentieren, um einzigartige musikalische Kreationen zu erstellen.Während das Schreiben von überzeugenden Prompts eine Kunst ist, die Übung erfordert, eröffnet MusicGen endlose Möglichkeiten. Mit nur wenigen Klicks und Textzeilen können Sie 10-Sekunden-Clips bis hin zu kompletten Instrumentalstücken erstellen.

Diese transformative Technologie ermöglicht es jedem, fortschrittliche generative Audiodateien zu erstellen, ohne dass musikalische Kenntnisse erforderlich sind. Alles, was Sie brauchen, ist ein wenig Kreativität und Inspiration, um MusicGen in Gang zu setzen. Wir haben nur an der Oberfläche dessen gekratzt, was diese Text-zu-Musik-KI hervorbringen kann. Also los, entdecken Sie Ihr inneres musikalisches Genie und sehen Sie, welche fesselnden Kompositionen Sie mit MusicGen erzeugen können! Die Welt der KI-unterstützten Musikkreation wartet auf Sie.