Nie podejrzewałem, że tak mocno zaprzyjaźnię się z Alexą

Nie podejrzewałem, że tak mocno zaprzyjaźnię się z Alexą

Nie podejrzewałem, że tak mocno zaprzyjaźnię się z Alexą

Raz już próbowałem, instalując stosowną aplikację w telefonie. Przeszkadzało mi jednak to, że przycisk Home nie wywoływał dużo częściej mi potrzebnej aplikacji Google. Amazon pożyczył mi jednak Echo. A moje życie zmieniło się na ciut lepsze.

Jestem w Aleksie coraz bardziej zakochany. Nie ukrywam, przeszkadza mi fakt, że asystentka Amazonu nie rozumie języka polskiego. Znajomość angielskiego swoją uważam za biegłą, jednak myślę po polsku, więc naturalniej mi się w tym języku wysławiać. Gdy jednak już to przeboleję, Alexa okazuje się niesamowicie wygodną usługą. A ja nawet nie mam instalacji smart home w domu.

Z Alexą komunikuję się za sprawą głośnika Echo. To bardzo wiele zmienia, bowiem nie muszę już sięgać po telefon, by się móc do niej odezwać. I nie muszę usuwać aplikacji Google jako domyślnej dla przycisku Home. Po prostu mówię Alexa i wypowiadam polecenie.

Dwie kluczowe cechy, dzięki którym Alexa stała się moją nieodłączną przyjaciółką – modułowość i elastyczność.

Teorię na temat rozumienia mowy naturalnej znamy już chyba wszyscy. Co innego jednak wiedzieć, a co innego stosować w praktyce. Nie zdarzyło mi się jeszcze ani razu, by Alexa nie zrozumiała tego, co jej zlecam. Czasem mówię coś niewyraźnie – bo nawet nie próbuję do mojego angielskiego dodawać akcentu – ale ponowne wypowiedzenie frazy załatwia sprawę. Na dodatek takie sytuacje zdarzają się niezwykle rzadko. Nieważne czy zapytam jaka będzie pogoda dziś wieczorem? Czy jak się mam ubrać by wyjść na dwór – asystentka Amazon doskonale rozumie moje intencje. Zawsze dostaję stosowną odpowiedź.

Drugi ze wspomnianych atutów to elastyczność. A więc tak zwane skille, czyli rozszerzenia asystentki. Alexa nie skazuje mnie na jedynych słusznych usługodawców. Dla przykładu, nie korzystam z usługi muzycznej Amazon Music. Jeżeli więc powiem Alexa, zagraj mi psychodelicznego rocka to wybierze mi odpowiednią playlistę ze sparowanego z nią Spotify. Nie ma żadnego problemu, by sparować ją z moim Outlookiem czy iCloudem. Nawet polskie firmy tworzą odpowiednie skille: Alexa, przeczytaj mi newsy z Onetu – i już wiem, co się dzieje na świecie i w kraju, nie musząc odrywać rąk od przygotowywanego śniadania.

Jak działa Alexa? Miałem okazję porozmawiać z szefem działu Text-to-Speech w Amazonie. Możecie go kojarzyć z polskiego rynku IT.

Zanim Rafał Kukliński zajmował się syntezą mowy w Aleksie i innych produktach Amazonu, rozwijał nagradzaną na międzynarodowych rynkach polską Ivonę. Jak się okazuje, nie tylko rozumienie mowy jest dużym wyzwaniem dla deweloperów, ale i sama jej synteza.

Maciej Gajewski, Spider’s Web: Rafał – na początek, czy mógłbyś mi przybliżyć, dla porządku, czym właściwie zajmujesz się w Amazonie?

Rafał Kukliński, Amazon: Pełnię dwie role. Pierwsza z nich, to rola dyrektora działu Amazon Text-to-Speech, czyli jestem szefem zespołu, który pracuje nad technologią syntezy mowy w Amazon. Wszystkie nasze „mówiące” urządzenia – a więc Kindle, Fire, funkcje ułatwień dostępu, Alexa – są rozwijane właśnie przez zespół w Gdańsku. Drugą funkcją, którą pełnię, jest zarządzanie Centrum Rozwoju Technologii Amazonu. Moim zadaniem jest dbanie o to, abyśmy pracowali w fantastycznej atmosferze i wciąż przyciągali nowe, ciekawe projekty, nad którymi pracuje Amazon, do Gdańska.

Co właściwie jeszcze nas czeka, jeśli chodzi o rozwój syntezy mowy?

Wyzwań jest mnóstwo, praktycznie w każdym elemencie syntezy mowy. Dzisiaj wiele osób jest zachwyconych „naturalnością” generowanego głosu i zastanawia się co można jeszcze poprawić. Jeżeli jednak cofniemy się np. o trzy lata i posłuchamy asystentów z tamtego okresu, których mowę już wówczas uważaliśmy za naturalną, zauważymy ogromny postęp.

Dzisiaj w Amazonie pracujemy nad wieloma innowacjami. Oczywistą kwestią jest „uczenie Alexy” nowych języków. W każdym z nich sporym wyzwaniem jest właściwa intonacja, która będzie spójna ze znaczeniem tekstu i pozwoli poprawnie przekazać treść. W tym celu musimy umieć „zrozumieć” znaczenie tekstu, a więc ważna jest dla nas także semantyka. Innym, wciąż aktualnym wyzwaniem jest normalizacja tekstu, a więc interpretacja poszczególnych symboli w zależności od kontekstu.

Alexa na Androidzie

Same języki także znacząco różnią się między sobą. Na przykład, w języku japońskim szczególnego znaczenia nabiera pojęcie homografii. Homografy to słowa, które nie różniąc się zapisem, mogą mieć inne znaczenie oraz wymowę w zależności od kontekstu. Co więcej, w języku japońskim prawie każdy znak jest homografem o wielu znaczeniach i wymowach. Właściwe ich rozpoznawanie ma więc krytyczne znaczenie dla jakości japońskiego syntezatora mowy. Mamy tutaj duże pole do rozwoju.

Wiem, że w procesie budowania syntezy mowy w Cortanie wykorzystywana jest aktorka. Czy tak samo jest z Alexą?

Tak, pracujemy z utalentowanymi aktorami głosu. Staramy się, by synteza mowy była jak najbliższa próbek, które zapewnia aktorka. Nasza praca polega na tym, że najpierw go nagrywamy, a następnie budujemy model intonacji oraz generacji mowy, które potrafią wygenerować mowę jak najbardziej zbliżoną do aktorki lub aktora. To nasza miara naturalności. Sprawdzamy to w tak zwanym ślepym teście, a więc odtwarzamy głos aktorki i głos syntezatora osobom, które nie wiedzą, który głos do kogo należy i prosimy o ocenę naturalności. Wynik syntezatora powinien być jak najbardziej zbliżony do wyniku aktorki/aktora.

A czy to nie jest tak, że postrzegana naturalność bierze się z niedoskonałości? Chrząkamy, przerywamy zdania głoskami w stylu eeee czy yyyy? Alexa mówi zawsze pięknie i poprawnie…

Jest wiele elementów wpływających na postrzeganie naturalności mowy. W Amazonie zatrudniamy inżynierów dźwięku, lingwistów, badaczy User Experience (UX), którzy analizują co wpływa na postrzeganie mowy jako naturalnej – czy jest to może wplatanie pauz, czy też przerwy na oddech? Nieustannie to weryfikujemy.

A czy pracujecie niezależnie, czy też dostajecie wytyczne z Seattle, co i jak należy robić/tworzyć?

Amazon daje nam wiele niezależności, co mi osobiście bardzo odpowiada. To, w jaki sposób osiągniemy poszczególne cele, zależy w całości od nas samych. To tutaj w Gdańsku decydujemy jakich ludzi chcemy zatrudnić i na jakie stanowiska. Amazon oczekuje efektów. Taka forma współpracy, oparta na zaufaniu, wyraźnie się sprawdza.

To kiedy zatrudnicie osoby zajmujące się polską mową?

Tak jak wspomniałem, odpowiadam za dział text-to-speech. A w Amazonie działa już synteza polskiej mowy – i to na wielu urządzaniach, takich jak np. tablety Fire czy w usługach Amazon Web Services. Pracujemy nad dodawaniem kolejnych języków do Alexy, bo o to zapewne pytasz. Zależy nam na tym, aby była dostępna na każdym urządzeniu Amazonu.

Trzymam kciuki, byśmy mogli kiedyś w końcu zacząć cieszyć się efektami tej pracy. A powiedz mi, czy sztuczna inteligencja wspomaga rozwój syntezy mowy? Bo jej rozumienia – z całą pewnością.

Tak. Jest ona wykorzystywana w zasadzie na każdym etapie rozwoju syntezy mowy. Sztuczna inteligencja, czyli inaczej uczenie maszynowe (machine learning), pozwala nam stworzyć modele, które na podstawie tysięcy czynników wybiorą właściwą wartość. Tworzymy modele machine learning dla właściwej interpretacji i rozwijania akronimów, do rozróżniania homografów, modelowania intonacji, generowania dźwięków etc. Uważam, że bez SI wręcz nie poradzilibyśmy sobie np. z ręcznym nauczaniem naszych mechanizmów języka japońskiego.

A co z Alexa Skills? Jak mnie zapewnił Fabrice Rousseu, tych będzie tylko przybywać.

Amazon koncentruje się na tym, by tworzenie umiejętności Alexy było jak najprostsze. Już dzisiaj – jak potwierdza Fabrice – napisanie skilla dla naszej asystentki głosowej jest jeszcze łatwiejsze od stworzenia prostego rozszerzenia dla przeglądarki internetowej. Z Alexa Skills Kit, każdy szybko i łatwo może wykorzystać wiedzę Amazon nt. projektowania rozwiązań głosowych.

Maciej Gajewski, Spider’s Web: Powiedzmy, że jestem młodym wynalazcą. Chciałbym, by mój nowy wynalazek mógł korzystać z Alexy. Co właściwie muszę zrobić?

Fabrice Rousseau, Alexa Skill General Manager: Programiści nie potrzebują znać się na tworzeniu języka naturalnego czy rozpoznawaniu mowy, aby opracowywać doskonałe aplikacje dla Alexy. Zapewniamy zasoby, narzędzia, szablony i wsparcie dla każdego zainteresowanego. Programiści mogą odwiedzić naszą stronę internetową (developer.amazon.com/alexa-skills-kit), aby dowiedzieć się więcej o umiejętnościach Alexy i już dzisiaj zacząć je budować. Oczywiście może pan też przenieść na nasz Amazon Web Services hostowanie całego backendu dla pańskiego urządzenia.

To dzieje się automatycznie? Napiszę tego skilla, umieszczę na portalu i już?

Umiejętności Alexy obejmują głosowy interfejs użytkownika lub VUI (co umożliwia „odczytanie” pytania klienta) oraz usługę back-end w chmurze (dzięki czemu Alexa „wie, co odpowiedzieć”). Deweloperzy mogą korzystać z funkcji Alexa Skills Kit, aby pracować na obu narzędziach. Istnieją również firmy zewnętrzne oferujące usługi, które przyspieszają i ułatwiają projektowanie, prototypowanie, kodowanie, testowanie i monitorowanie umiejętności Alexa.

Zgaduję, że zainteresowanie Alexą ze strony twórców jest duże. Ale czy wy też samodzielnie w jakiś sposób zabiegacie dodatkowo o to zainteresowanie? W sensie: macie świetny produkt, odzywamy się do was, byście go zintegrowali z Alexą

Czasami firmy przychodzą do nas ze swoimi pomysłami, ale naszym celem jest uczynienie tego procesu jak najbardziej samoobsługowym. Oferujemy narzędzia i zasoby, które umożliwiają firmom samodzielne opracowywanie rozwiązań, które są dostosowane do ich klientów – niezależnie od tego, czy jest to nowa niestandardowa umiejętność Alexy, czy też integracja jednej z nich z istniejącym produktem. Mamy dedykowany zespół ewangelistów, którzy aktywnie działają w społeczności programistów chcących rozwijać swoje kompetencje.

Alexa cieszy się szczególnym zainteresowaniem wśród producentów sprzętu smart home. Ale jej potencjał jest znacznie większy. Staracie się go w jakiś sposób uwypuklać, by potencjalni przyszli partnerzy znaleźli dla asystentki Amazonu zupełnie nowe zastosowanie?

Rzeczywiście widzimy duże zainteresowanie naszymi usługami wśród firm z branży Smart Home, ale inne sektory także coraz chętniej sięgają po innowacje głosowe. Dlatego nasz zespół ewangelistów aktywnie pracuje w społeczności programistów, aby proces integracji Aleksy z poszczególnymi produktami był możliwie najprostszy.

Prowadzimy szkolenia i zachęcamy do wykorzystywania naszych narzędzi na dowolne sposoby. Prowadzimy webinary, mamy nawet swój kanał na Twitchu dla deweloperów zainteresowanych Alexą. Tworzymy blogi, materiały szkoleniowe, organizujemy hackatony i inne lokalne wydarzenia. Prowadząc szkolenie w Amsterdamie zbudowałem od zera jednego skilla w raptem 30 minut.

Alexa w Polsce ma już jednak problem. Nazywa się on Asystent Google.

Na chwilę obecną Alexa wydaje się wygrywać na światowym rynku mobilnych asystentów. Jest też już od pewnego czasu dostępna w naszym kraju, podobnie jak Siri czy właśnie Google Assistant.

Historia nas uczy, że pierwszy na rynku go zazwyczaj zdobywa. Na dodatek Google ma wielką przewagę nad Amazon – oferuje domyślny zestaw usług na niesłychanie popularnym u nas systemie operacyjnym Android. Obawiam się, że jeśli Amazon dalej będzie zwlekał z wprowadzeniem polskojęzycznej Alexy do Polski, to za jakiś czas może sobie już z Google’em nie poradzić.

To jednak na razie wróżenie z fusów. Ja już wiem jedno: jak tylko rozstanę się z wypożyczonym od Amazonu Echo, sprawiam sobie moje własne. To niesamowite jak wiele prostych czynności domowych mi ona ułatwia. A i sam głośnik oferuje niczego sobie jakość dźwięku – planowałem sparowanie Echo z moim kinem domowym, ale nadal tego nie zrobiłem. Jakoś tak w sumie nie widzę ku temu większej potrzeby…

Dołącz do dyskusji