Meta daje głos sztucznej inteligencji. Jak działa Voicebox, zaawansowany generator mowy?

źródło: shutterstock.com

reklama

Meta po raz kolejny przesuwa granice, walcząc o pozycję lidera wśród technologicznych gigantów. Firma podzieliła się wynikiem wielomiesięcznej pracy, prezentując Voicebox – innowacyjne narzędzie oparte na zaawansowanej sztucznej inteligencji. Model umożliwia generowanie wysokiej jakości nagrań dźwiękowych oraz dokonywanie precyzyjnych edycji wcześniej zarejestrowanych dźwięków.

Więcej niż syntezator mowy

Aby skorzystać z Voicebox, możemy użyć polecenia w formie tekstu lub przekazać narzędziu próbkę głosu. Model na podstawie dostarczonego dźwięku oraz wpisanego tekstu wygeneruje nowe nagranie. Voicebox doskonale imituje intonację oraz styl, w jakim mówimy, dzięki czemu lektor w nagraniu będzie brzmieć bardzo realistycznie – zupełnie, jakbyśmy to my czytali dany tekst. To rewolucyjne narzędzie otwiera nowe perspektywy dla tworzenia naturalnych nagrań audio.

Co więcej, Voicebox może naprawić przerwane fragmenty nagrań – model po prostu wymaże niepożądane dźwięki, takie jak szczekanie psa, szum czy samochodowy klakson. Narzędzie skutecznie oczyści nagranie, zapewniając wyjątkową jakość dźwięku, nie zniekształcając przy tym głosu osoby mówiącej. Narzędzie może również poprawić błędnie wypowiedziane słowa bez konieczności ponownego nagrywania dźwięku przez mówcę.

Voicebox to jedno z niewielu zaawansowanych narzędzi do generowania mowy, które działa w języku polskim. Model jest w stanie odczytywać tekst także po angielsku, francusku, niemiecku, hiszpańsku oraz portugalsku. Co ciekawe, wygeneruje tekst w dowolnym jeżyku – nawet jeśli pierwotna próbka głosu dostępna jest wyłącznie w jednym języku. Dzięki temu w filmie przedstawiającym możliwości narzędzia możemy usłyszeć samego Marka Zuckerberga, mówiącego „wkrótce więcej” – co oznacza, że w niedługim czasie poznamy kolejne funkcje tego modelu.

gif przedstawiający schemat działania Voicebox

źródło: voicebox.metademolab.com

Potencjał i odpowiedzialność

Do wytrenowania modelu wykorzystano aż 50 tysięcy godzin dźwięku z publicznie dostępnych audiobooków w sześciu różnych językach. Dzięki temu głosy generowane przez narzędzie są wysoce realistyczne i naturalne, wskutek czego Voicebox w niedalekiej przyszłości może więc stać się głosem wirtualnych asystentów czy postaci w grach. Technologia ta może jednak odnaleźć zastosowanie także poza cyfrowym światem. Osoby niedowidzące mogą wykorzystać Voicebox do odsłuchiwania wiadomości, artykułów czy innych tekstów, ciesząc się pełnym dostępem do informacji, które wcześniej mogły być trudno dostępne. Narzędzie może być także poważną konkurencją dla lektorów – narzędzie z pewnością znajdzie wiele zastosowań, m.in. przy produkcji audiobooków, podcastów, transkrypcji i wiele więcej.

Na stronie Meta AI zaprezentowane są różnorodne możliwości, jakie oferuje Voicebox. Meta przywiązuje ogromną wagę do odpowiedzialnego podejścia i przewiduje potencjalne ryzyka związane z jego użytkowaniem. Technologiczny gigant zdaje sobie sprawę zarówno z potencjalnych korzyści, jak i zagrożeń związanych z tak zaawansowanym generatorem. Zanim narzędzie zostanie więc udostępnione publicznie, firma zapowiedziała konieczność opracowania odpowiednich rozwiązań, aby mieć pewność, że Voicebox będzie wykorzystywany w sposób bezpieczny i etyczny.