Google wie, co robi. I co kto mówi

News/Oprogramowanie 13.04.2018
Google wie, co robi. I co kto mówi

Google wie, co robi. I co kto mówi

Sztuczna inteligencja już całkiem nieźle radzi sobie z rozpoznawaniem mowy naturalnej. A jak sobie radzi z wsłuchiwaniem się w głos jednej osoby w hałasie? Google twierdzi, że dla jego SI to również pestka.

Mam ciekawą i frustrującą wadę, jeśli chodzi o podzielność uwagi. Mogę pracować i słuchać muzyki. Mogę czytać i obserwować otoczenie. Mogę robić wiele rzeczy równocześnie. Ale gdy dwie osoby do mnie mówią, to nie słyszę żadnej. Nie jestem w stanie usłyszeć rozmówcy w telefonie, jeśli ktoś coś do mnie mówi, stojąc obok mnie. Wygląda na to, że moje zdolności poznawcze są gorsze od tych posiadanych przez maszynę.

Inżynierowie Google’a zdołali już tak wyszkolić swoją sztuczną inteligencję, by ta wiedziała dokładnie kto mówi i co mówi, nawet jeżeli przemawiających osób jest wiele. Jak tego dokonali? Bardzo prostym rozwiązaniem, które nie wymaga zagłębiania się w meandry programowania, by móc je wyjaśnić.

SI Google’a, by rozpoznać mowę, wsłuchuje się w jedną osobę w gwarze i obserwuje ruchy jej warg.

Rezultaty są zdumiewające. Google przez uczenie maszynowe w modelu sieci neuronowej nauczył izolować poszczególne ścieżki z dźwiękowej sceny i generować czystą ścieżkę danej wypowiedzi na podstawie tego, co się dzieje z twarzą przemawiającej osoby. Algorytm radzi sobie nawet wtedy, gdy twarz jest tymczasowo zasłonięta – na przykład przez mikrofon czy gestykulację.

Możliwości zastosowania tego algorytmu są szerokie w licznych dziedzinach związanych z komunikacją i analityką. Ale jak to rozwiązanie wpisuje się w ofertę Google’a? Tu na razie możemy tylko zgadywać, ale oczywistym wydaje się komunikator Duo, który ułatwiłby rozumienie tego, co mówi do nas rozmówca, jeżeli znajduje się w tłumie. Nie zapominajmy też o możliwości rozszerzenia Tłumacza Google’a oraz wzmocnieniu modułów analitycznych na YouTube.

SI Google rozpoznawanie mowy

Google na razie nie deklaruje żadnej nawet przybliżonej daty wprowadzenia tej techniki na rynek.

Dołącz do dyskusji

Advertisement