REKLAMA

Giganci pod ścianą. Wyczerpali źródła danych, więc zaczęli kraść z YouTube'a

OpenAI "zabrakło danych" już w 2021 r. Remedium na tę sytuację ma być, mówiąc brzydko, kradzież. I to nie byle jaka kradzież, bo mowa o kradzieży treści z YouTube'a o długości ponad miliona godzin. Co ciekawsze, podobnej praktyki dopuścił się Google, a Meta przyjęła stanowisko praworządny-zły: lepiej będzie kraść i się sądzić, niż czekać i prawnie walczyć o licencje.

08.04.2024 19.03
Giganci pod ścianą. Wyczerpali źródła danych, więc zaczęli kraść z YouTube'a
REKLAMA

Dane są sercem każdego modelu sztucznej inteligencji, który na podstawie poszczególnych informacji uczy się wzorców i reakcji względem różnego typu danych. Przykładów nie trzeba szukać daleko - ChatGPT, GPT-4 czy Gemini były trenowane na setkach tysięcy witryn internetowych, blogów, artykułów prasowych, książek i innych treści, dzięki czemu wiedzą, "jak rozmawiać z człowiekiem".

Choć modele są stale dostrajane i odpowiadające za nie firmy pozyskują nowe dane, to z każdym miesiącem jest o nie trudniej. A bez danych sztuczna inteligencja się nie rozwija. W desperacji (lub przypływie odwagi) Big Techy zaczęły kraść.

REKLAMA

Kiedy kończą się dane, przychodzi czas na kradzież. Taki plan realizuje OpenAI i Google

Mowa tu konkretnie o firmach OpenAI i Google, które w nieautoryzowany sposób zaczęły pozyskiwać dane z YouTube'a. Jak informuje amerykański dziennik The New York Times, obie firmy "wyczerpały" legalne (w wolnym dostępie lub na mocy wiążących firmy kontraktów) źródła tekstowych danych do treningu generatywnej sztucznej inteligencji. Wobec czego przedsiębiorstwa zaczęły eksperymentować z uczeniem z generatywnej AI z transkrypcji wideo na YouTubie.

"NYT" szczegółowo opisało przypadek OpenAI, które pod koniec 2021 r. stworzyło narzędzie do rozpoznawania mowy Whisper, z założeniem wykorzystania go do pozyskania transkrypcji z filmów opublikowanych w serwisie YouTube. Owe transkrypcje miały być następnie wykorzystane jako kolejne dane treningowe dla generatywnej AI z serii GPT.

Niektórzy pracownicy OpenAI dyskutowali o tym, jak taki ruch może być sprzeczny z zasadami YouTube. YouTube, który jest własnością Google, zabrania wykorzystywania swoich filmów w aplikacjach, które są "niezależne" od platformy wideo

- powiedziało trzech informatorów cytowanych przez The New York Times

Pomimo początkowych wątpliwości, Whisper został użyty, a OpenAI pozyskało transkrypcje z ponad "miliona godzin filmów na YouTubie". Zespołowi naukowców pomógł także sam Greg Brockman, jeden z założycieli i członków zarządu OpenAI, który wsparł tworzenie zbioru wideo, z którego Whisper miał pobierać dane.

W przypadku Google, koncern naruszył prawa własności intelektualnej i zasady użytkowania własnej platformy. Według aż pięciu informatorów, Google również podjął się transkrypcji tysięcy filmów z YouTube'a w celu pozyskania danych dla modeli generatywnej AI.

W ubiegłym roku Google rozszerzyło również swoje warunki świadczenia usług. Jedną z motywacji do zmiany, według członków zespołu ds. prywatności firmy i na podstawie wewnętrznej wiadomości do której dotarł The Times, było umożliwienie Google korzystania z publicznie dostępnych Dokumentów Google, recenzji restauracji w Mapach Google i innych materiałów online dla większej liczby produktów sztucznej inteligencji.

Natomiast jak wynika z nagrań spotkań pracowników Mety pozyskanych przez amerykański dziennik, koncern rozważał zakup wydawnictwa Simon & Schuster w celu pozyskania długich utworów audiowizualnych. Inżynierowie i prawnicy Mety dyskutowali również o gromadzeniu danych chronionych prawem autorskim z całego Internetu, nawet jeśli oznaczałoby to konieczność stawienia czoła procesom sądowym. A to ze względu na fakt, że negocjowanie licencji z wydawcami, artystami, muzykami i branżą informacyjną zajęłoby zbyt dużo czasu. Dlatego Mecie miało się bardziej opłacać złamać prawo, a potem się sądzić, niż czekać aż konkurencja rozwinie swoje produkty.

Więcej na temat sztucznej inteligencji:

REKLAMA

Zdjęcie główne: rafastockbr / Shutterstock

REKLAMA
Najnowsze
Aktualizacja: tydzień temu
REKLAMA
REKLAMA
REKLAMA