Uwaga: Poniższy artykuł pomoże Ci w: Generowanie muzyki przez wysłuchanie fragmentu piosenki – w stronę sztucznej inteligencji
Pierwotnie opublikowany w Towards AI, wiodącej na świecie firmie zajmującej się wiadomościami i mediami w zakresie sztucznej inteligencji i technologii. Jeśli tworzysz produkt lub usługę związaną z AI, zapraszamy do rozważenia zostania sponsorem AI. W Towards AI pomagamy skalować startupy AI i technologiczne. Pozwól nam pomóc Ci udostępnić Twoją technologię masom.
Niezależnie od tego, czy chodzi o muzykę, czy mowę, nowy model Google może nadal odtwarzać to, co słyszysz.
AudioLM to nowy model Google, zdolny do generowania muzyki w tym samym stylu co monit. Model jest również w stanie generować złożone dźwięki, takie jak muzyka fortepianowa lub rozmowy ludzi. wynik jest oszałamiający. W rzeczywistości wydaje się być nie do odróżnienia od oryginału.
Dlaczego generowanie muzyki jest trudne?
Tworzenie muzyki nie jest łatwym zadaniem. W rzeczywistości generowanie sygnałów audio (muzyka, dźwięki otoczenia, mowa ludzi) wymaga wielu skal abstrakcji. Na przykład muzyka ma strukturę, którą należy analizować przez długi czas, a także składa się z wielu oddziałujących na siebie sygnałów. Nawet sama mowa osobista może być analizowana na różnych poziomach, czy to prosty sygnał akustyczny czy fonetyka, ale także pod kątem prozodii, składni, gramatyki czy semantyki.
Wcześniej podejmowano kilka prób. Pierwsze próby generowania muzyki koncentrowały się na generowaniu plików MIDI (powstał ciekawy projekt, w którym generowano muzykę MIDI na fortepian w 2018 roku za pomocą transformatora). Ponadto niektóre badania koncentrowały się na zadaniach, takich jak Tekst na mowę, gdzie mowa jest generowana z transkrypcji. Problem polega na tym, że wszystko, czego nie ma w transkrypcji, nie jest tłumaczone na plik audio. Kilka badań wyjaśnia, w jaki sposób w komunikacji międzyludzkiej pauzy i odmiany oraz inne sygnały są niezwykle ważne.
Na przykład osoby korzystające z Alexy lub innych głośników zauważyły, że głos nie brzmi naturalnie. Zwłaszcza na początku, bez względu na to, jak poprawna była wymowa, brzmiała nienaturalnie i dawała niesamowity efekt.
AudioLM, nowy model Google
Kilka dni temu Google ogłosiło wydanie nowego modelu: „AudioLM: podejście do modelowania języka do generowania dźwięku”. Nowy model jest w stanie generować dźwięk (taki jak realistyczna muzyka i mowa) po prostu słuchając dźwięku.
Google AI na Twitterze: „Dowiedz się o AudioLM, frameworku do generowania dźwięku, który wykazuje długoterminową spójność (np. składnia w mowie i melodia w muzyce) oraz wysoką wierność, z aplikacjami do syntezy mowy i muzyki wspomaganej komputerowo. ↓ https:/ /t.co/onTH6HdCcX / Twitter”
Dowiedz się o AudioLM, platformie generowania dźwięku, która zapewnia długoterminową spójność (np. składnia mowy i melodia w muzyce) oraz wysoką wierność, z aplikacjami do syntezy mowy i muzyki wspomaganej komputerowo. ↓ https://t.co/onTH6HdCcX
Jak blogowali, nastąpiła wielka poprawa w dziedzinie Przetwarzanie języka naturalnego (NLP) w ostatnich latach. W rzeczywistości modele językowe okazały się niezwykle skuteczne w wielu zadaniach. Wiele z tych systemów opiera się na wykorzystaniu transformatorya ci, którzy ich używali, wiedzą, że jednym z początkowych etapów przetwarzania wstępnego jest tokenizacja (podział tekstu na mniejsze jednostki, którym przypisano wartość liczbową).
Kluczową intuicją stojącą za AudioLM jest wykorzystanie takich postępów w modelowaniu języka do generowania dźwięku bez uczenia się danych z adnotacjami. —Wpis na blogu Google AI
AudioLM nie wymaga transkrypcji ani etykietowania. Autorzy zgromadzili bazę danych dźwięków i podali ją bezpośrednio do modelu. Model kompresuje pliki dźwiękowe do serii fragmentów (rodzaj tokenów). Te tokeny są następnie używane tak, jakby były modelem NLP (w ten sposób model wykorzystuje to samo podejście do uczenia się wzorców i relacji między różnymi fragmentami audio). W taki sam sposób jak model generujący tekst, AudioLM generuje dźwięki z monitu.
Efekt jest bardzo ciekawy, dźwięk dużo bardziej naturalny. AudioLM wydaje się być w stanie znaleźć i odtworzyć pewne wzorce obecne w ludzkiej muzyce (jak subtelne wibracje zawarte w każdej nucie, gdy uderza się w klawisze fortepianu). W poniższym linku Google podał kilka przykładów, jeśli chcesz posłuchać:
AudioLM został przeszkolony w zakresie obszernej biblioteki dźwięków, która obejmuje nie tylko muzykę, ale także ludzkie głosy. Z tego powodu model może generować zdania produkowane przez człowieka. Model jest w stanie wychwycić akcent mówiącego i dodawać pauzy i wykrzykniki. Chociaż wiele zdań generowanych przez model nie ma sensu, wynik jest imponujący.
Rzeczywiście, traktowanie sekwencji dźwięków tak, jakby były sekwencjami słów, może wydawać się sprytnym podejściem, niemniej jednak pozostają pewne trudności:
Po pierwsze, trzeba pogodzić się z faktem, że szybkość transmisji danych audio jest znacznie większa, co prowadzi do znacznie dłuższych sekwencji — o ile zdanie pisane może być reprezentowane przez kilkadziesiąt znaków, jego dźwięk kształt fali zazwyczaj zawiera setki tysięcy wartości. Po drugie, istnieje relacja jeden do wielu między tekstem a dźwiękiem. Oznacza to, że to samo zdanie może być wypowiedziane przez różnych mówców, z różnymi stylami mówienia, treścią emocjonalną i warunkami nagrania. —Wpis na blogu Google AI
Bardziej szczegółowo, podejście do tokenizacji audio zostało już wypróbowane przez Szafa grająca OpenAItyle że model generował znacznie więcej artefaktów, a dźwięk nie brzmiał tak naturalnie.
Jak opisują autorzy, model składa się z trzech części:
- model tokenizatora, który odwzorowuje sekwencję dźwięków na dyskretną sekwencję tokenów. Ten krok zmniejsza również rozmiar sekwencji (częstotliwość próbkowania jest zmniejszana około 300 razy).
- transformator tylko dla dekodera (model języka klasycznego), który maksymalizuje prawdopodobieństwo przewidzenia kolejnych tokenów w sekwencji. Model zawiera 12 warstw z 16 głowami uwagi, wymiar osadzania 1024, wymiar warstwy wyprzedzającej 4096
- model detokenizatora który przekształca przewidywane tokeny w tokeny audio.
Model został przeszkolony na 60 000 godzin mowy angielskiej i 40 000 godzin muzyki do eksperymentów na pianinie.
W tym celu ponownie szkolimy wszystkie komponenty AudioLM na wewnętrznym zbiorze danych obejmującym 40 000 godzin muzyki fortepianowej, który obejmuje graczy od poziomu początkującego do eksperta i przedstawia szeroki zakres różnych warunków akustycznych, z zawartością od ćwiczeń na skali fortepianu po słynne utwory. —
Możesz również obejrzeć wyniki w tym krótkim filmie:
Autorzy podają, że osoby, które słuchały wyników AudioLM, nie zauważyły różnicy w stosunku do oryginalnego nagrania ludzkiej mowy. Ponieważ model może być używany przeciwko zasadom sztucznej inteligencji (złośliwe aplikacje, głębokie podróbki itd.), autorzy zbudowali klasyfikator, który może rozpoznawać dźwięk wykonany za pomocą AudioLM i badają technologię „znakowania wodnego” dźwięku
Rozstania myśli
W ostatnich miesiącach widzieliśmy, jak kilka modeli było w stanie generować obrazy (DALL-E, stabilna dyfuzja) i są modele takie jak GPT3 zdolne do generowania sekwencji tekstowych. Generowanie sekwencji dźwiękowych stwarza dodatkowe trudności, ale wydaje się, że wkrótce zobaczymy więcej znaczących postępów na tym froncie.
W rzeczywistości Google właśnie zaprezentował AudioLM, model zdolny do korzystania z monitu dźwiękowego (głos lub fortepian) i generowania kontynuacji. Z drugiej strony, właśnie zaprezentowała się ta sama grupa, która przedstawiła stabilną dyfuzję Harmony (który w rzeczywistości wykorzystuje podobny algorytm stabilnej dyfuzji).
Technologie te w przyszłości mogą być wykorzystywane jako podkład muzyczny do filmów i prezentacji, lepsze aplikacje dla placówek służby zdrowia czy dostępność Internetu. Z drugiej strony technologie te mogą być wykorzystywane do głębokich podróbek, rozpowszechniania dezinformacji, oszustw i tak dalej.
Jeśli uznałeś to za interesujące:
Możesz poszukać innych moich artykułów, możesz też Subskrybuj aby otrzymywać powiadomienia, gdy publikuję artykuły, a także możesz się ze mną połączyć lub skontaktować się ze mną Linkedin. Dziękuję za wsparcie!
Oto link do mojego repozytorium GitHub, w którym planuję gromadzić kod i wiele zasobów związanych z uczeniem maszynowym, sztuczną inteligencją i nie tylko.
Możesz też sprawdzić inne moje artykuły na Medium:
Google Audiolm: Generating Music by Hearing a Song’s Snippet został pierwotnie opublikowany w Towards AI na Medium, gdzie ludzie kontynuują rozmowę, podkreślając tę historię i odpowiadając na nią.