Tak wyglądają twarze ludzi wygenerowane wyłącznie na podstawie ich głosu

News/Nauka 12.06.2019
Tak wyglądają twarze ludzi wygenerowane wyłącznie na podstawie ich głosu

Tak wyglądają twarze ludzi wygenerowane wyłącznie na podstawie ich głosu

Amerykańscy badacze przeprowadzili bardzo ciekawy eksperyment w oparciu o algorytm maszynowego uczenia się. Nauczyli go wyobrażać sobie twarze ludzi na podstawie… ich próbek głosowych.

Eksperyment ten nazywa się Speech2Face i jego wyniki zostały właśnie opublikowane na stronie Cornell University. Tam też możemy zobaczyć w jaki sposób algorytm wyobrażał sobie twarz danego człowieka, na podstawie analizy jego próbki głosu. Wyniki prezentują się całkiem nieźle.

To oczywiście nie jest prawdziwe rozpoznawanie twarzy na podstawie analizy próbki głosu

Stworzenie algorytmu, który rysowałby nasz wizerunek tylko i wyłącznie na podstawie próbki naszego głosu jest po prostu niemożliwe. Speech2Face stworzony przez badaczy z Cornell University potrafi zaledwie przyporządkowywać niektóre cechy (rasa, płeć, wiek, etc) człowieka, charakterystyczne dla danego tonu głosu. Jak sprawdza się to w praktyce? Zobaczcie sami:

speech2face-algorytm-rozpoznawanie-twarzy-analiza-glosu

Z zaprezentowanych przez naukowców zdjęć i rysopisów wykonanych przez algorytm, widać, że Speech2Face najlepiej radzi sobie z odgadywaniem wieku i płci. Jeśli chodzi o rasę, to wyniki nie są już tak doskonałe. Najlepiej widać to na opisywanym przykładzie mężczyzny pochodzenia azjatyckiego – kiedy posługiwał się językiem chińskim, algorytm bez problemu przyporządkował go do odpowiedniej grupy etnicznej. Jednak po nagraniu próbki w języku angielskim, Speech2Face założył, że ma do czynienia z białym mężczyzną.

Problemy sprawiał również sam ton głosu. Osoby o głębokim głosie były prawie natychmiastowo klasyfikowane jako mężczyźni. Wysokie tony głosu z kolei algorytm prawie automatycznie przypisywał kobietom. Trudno dziwić się takim pomyłkom – Speech2Face szuka najpopularniejszych wspólnych cech pomiędzy głosem człowieka a jego wyglądem. Statystycznie więc rzecz ujmując, założenie, że im wyższy ton głosu, tym większa szansa, że należy on do kobiety ma najwięcej sensu.

Speech2Face – totalnie bezużyteczny algorytm?

Algorytm na wstępie przeanalizował 10 tys. różnych próbek głosowych – jest to całkiem pokaźna liczba, która nie znajduje swojego odbicia w dość niedokładnych wynikach samodzielnej analizy wykonywanej przez Speech2Face. Nie można się temu jednak dziwić. Samo zadanie postawione przed algorytmem jest bowiem niemożliwe do zrealizowania. Stworzenie dokładnego portretu osoby opierając się tylko i wyłącznie na próbce jej głosu jest po prostu niewykonalne.

Nie oznacza to, że eksperyment ten był całkowicie bezużyteczny. Po dopracowaniu, Speech2Face może zainteresować wszelkiego rodzaju służby. Dokładnego rysopisu podejrzanego na podstawie analizy próbki jego głosu uzyskać się nie da, ale algorytm może w dość znaczącym stopniu zawęzić zbiór poszukiwań.

Dołącz do dyskusji