REKLAMA

Nie odróżnisz prawdy od fałszu. Przerażająca nowość od twórców ChatGPT

Voice Engine to model SI, który OpenAI budował przez ostatnie cztery lata. Podobno wystarczy 15-sekundowa próbka głosu by nauczyć program perfekcyjnie imitować jej autora.

31.03.2024 17.30
OpenAI Voice Engine
REKLAMA

Jednym z popularniejszych narzędzi od OpenAI jest DALL-E będący częścią Microsoft Designera i rosnącej liczby usług: czyli narzędzie do generowania obrazów na podstawie podanego przez użytkownika opisu tekstowego. Duże wrażenie robią też zapowiedzi Sory, czyli analogicznego modelu do generowania treści wideo. Teraz OpenAI zaczyna chwalić się czymś, co tym razem dotyczy dźwięku.

REKLAMA

Voice Engine, bo o nim mowa, stanowi rozszerzenie dotychczas oferowanego API do syntezy mowy. Model by móc poprawnie działać potrzebuje 15-sekundowego nagrania czyjegoś głosu. Ucząc się z tej próbki podobno jest w stanie doskonale imitować osobę, której głos został nagrany. Dlaczego podobno? Bo choć model wedle deklaracji OpenAI jest już gotowy, tak firma nie chce go jeszcze udostępniać.

Koniecznie sprawdź poniższe teksty:

OpenAI o syntezie głosu przez SI: nie chcemy sprawiać dyskomfortu

Firma ponoć wzięła do serca zarzuty jakoby udostępniała swoje technologie w sposób nieodpowiedzialny. Model językowy GPT i model generatywny DALL-E znacząco przyczyniły się do rozprzestrzeniania dezinformacji w Sieci. SI od OpenAI jest niezwykle użyteczna… w tym dla wszelkiej maści farm trolli i innych fabryk propagandy, a także przez jednostki kierowane jeszcze innymi, równie nieuczciwymi motywami. Firma zastanawia się jak ów model odpowiednio zabezpieczyć przed używaniem go do wyrządzania zła. I jest otwarta na sugestie.

Co ciekawe, choć samo Voice Engine nie jest jeszcze dostępne, dziesiątki tysięcy użytkowników korzystało z niego nieświadomie przez ostatnie miesiące. Był on bowiem odpowiedzialny za ostatnie wersje modułów syntezy mowy dla niepełnosprawnych użytkowników ChatGPT. Z modelu korzystał też już Spotify do produkcji tłumaczeń wybranych podcastów.

Voice Engine nie będzie darmowy. Po uporaniu się z problemami natury etycznej OpenAI planuje wycenić usługę na 15 dol. za milion znaków (co oznacza około 160 tys. słów typowego tekstu i 18 godz. nagrania).

Voice Engine przykuje uwagę firm, które cenią ilość nad jakość. Jest znacznie tańszy od lektora, ale to nie maszyny oczekują słuchacze

REKLAMA

Według informacji opublikowanych przez Biznes Instytut, średnia stawka lektora w Polsce wynosi od 50 do 150 zł za godzinę pracy. Jeśli przyjmiemy, że lektor może nagrać około 9 tys. słów w ciągu godziny, to koszt 160 tys. słów wyniósłby od 888 do 2 666 zł (przy założeniu, że lektor pracuje przez 18 godz). Wspomniane 15 dol. (czyli około 60 zł) wydaje się cudowną alternatywą. Zwłaszcza że do tej pory dzieła OpenAI sprawowały się bardzo dobrze i choć jeszcze nie słyszeliśmy nowego syntezatora, to można śmiało założyć, że będzie on rewelacyjny.

Warto jednak się zastanowić w jakich sytuacjach zapewni on wartość dodaną. W niektórych sytuacjach, gdy wymagana jest beznamiętna zamiana tekstu na mowę, z pewnością będzie niezwykle użyteczny. Ale czy ktoś chciałby słuchać syntetycznych emocji słuchając audiobooka, zamiast wsłuchiwać się w ludzkie emocje zatrudnionego do tego celu aktora głosowego? Postępu i nowości technicznych nie wolno się bać, służą poprawie naszej codzienności. Obyśmy tylko używali ich właściwie i nie pozwolili się w nich zatracić.

REKLAMA
Najnowsze
REKLAMA
REKLAMA
REKLAMA