Anonimowe przeszukiwanie sieci dzięki projektowi YaCyPi na Kickstarterze

Artykuł/Blog Forum 09.01.2014
Anonimowe przeszukiwanie sieci dzięki projektowi YaCyPi na Kickstarterze

Tekst został pierwotnie opublikowany na Blog Forum Spider’s Web.

Gdy Sergey Brin i Larry Page w 1997 roku rozpoczynali prace nad Google, mieli pewną wizję. Napisali wtedy, że „kłopotliwa sytuacja z reklamami tworzy na tyle dużo niedobrych zachęt, iż niezbędne jest stworzenie wyszukiwarki transparentnej i naukowo spójnej.”

Ówcześni liderzy rynku, np. OpenText, polepszali rankingi pewnych „zaprzyjaźnionych” firm. Za drobną opłatą oczywiście. Nie można było stwierdzić czy dany wynik znajduje się wysoko, ponieważ jest wart uwagi, czy też sponsorowany.

Podobne praktyki zaowocowały pojawieniem się pojęcia neutralności wyszukiwania. Jednak chodziło o bardzo wąskie znaczenie tego zwrotu. Sam fakt zbudowania algorytmu oceniającego istotność stron internetowych powoduje, że otrzymujemy podczas wyszukiwania wyniki silnie „zabarwione.” To znaczy widzimy tylko to, co maszyna uznała za właściwe.

Neutralność wyszukiwania jest nieporozumieniem

Google nigdy nie był neutralny. W tym tkwi cała jego siła. Założyciele postawili wymagania użytkowników, czyli prawidłowe wyniki, na pierwszym miejscu. Interesy firm kupujących reklamy zeszły na dalszy plan. Osobiście nie mam ochoty oglądać odnośników do spamerskich agregatorów treści. Dzięki subiektywności pokazywanych mi rezultatów, nie muszę.

Niemniej należy pamiętać, że Google żyje z wyświetlania reklam. Im więcej o nas wie, tym są one wartościowsze. Wyszukiwane frazy mogą powiedzieć o nas bardzo dużo. Gdy w 2006 roku AOL wypuścił zbiór 20 milionów zapytań, zdawałoby się pozbawionych elementów identyfikujących osoby za nimi stojące, dziennikarzom The New York Times udało się w kilka dni pozbawić anonimowości jedną internautkę. Przekopując się przez dane ręcznie, dotarli do starszej Pani z Georgii. Obecnie zastosowanie komputerów znacząco ułatwia proces.

Zagrożenia

Spójrzmy na profilowanie z innej strony. Powiedzmy, że Facebook bankrutuje. Kupuje go jakieś duże konsorcjum banków. Co zrobią z całym skarbcem interakcji? Na serwerach firmy zapisane są nasze rozmowy z bliskimi, zawierające nieświadomie zdradzone sekrety, dramaty życiowych itd. Producent Prozaku dałby sobie rękę uciąć za te informacje.

Jak pokazuje badanie Jona Kleinberga i Larsa Backstroma, znajdujemy się na progu pewnej rewolucji. Panowie pracując dla Facebooka sprawdzili, czy są w stanie przewidzieć, kto jest naszą lepszą połową, obserwując jedynie kształt sieci socjalnych. Dla współmałżonków osiągnęli skuteczność 60%, dla par przed ślubem 50%. Przy czym nie analizowano treści rozmów.

Rozwój technologii spowodował, że nie ma znaczenia kto teraz posiada nasze dane. Ale kto ewentualnie, w przyszłości, uzyska do nich dostęp. Plajta Facebooka wydaje się mało prawdopodobna. Z drugiej strony użytkownicy Myspace i Friendstera też byli pewni swego. Do tego dochodzą materiały opublikowane przez Edwarda Snowdena, dotyczące służb specjalnych.

Każdy ślad pozostawiony dziś, pojutrze staje się skarbem. Za 10 lat te same informacje będą 100 razy cenniejsze. Przed drugą wojną światową przeprowadzono w Holandii spis powszechny. Jedno z pól do wypełnienia określało wyznanie. Cel jak zwykle był szczytny. W razie pogrzebu ustalenie obrządku nie stanowiłoby problemu.

Trzy dni po zajęciu terytorium tego państwa przez hitlerowców, spis trafił w ręce okupanta. 73% Holenderskich Żydów zginęło. W sąsiednich krajach odsetek ten był niższy, 40% dla Belgii i 25% we Francji. Wydawać by się mogło, że reżim bardziej się „postarał.” Jednak żydowscy uchodźcy z Niemiec, którzy uciekli do Holandii, mieli większą szansę przeżycia niż ich pobratymcy.

Oczywiście czasy się zmieniły. Wydarzeń drugiej wojny światowej nie da się porównać do prawie niczego innego. Chciałem tym przykładem zwrócić tylko uwagę na to, jak trudno jest przewidzieć przyszłość. Każdy, kto zbiera dane osobowe powinien kilka razy zastanowić się, czy na pewno ich potrzebuje.

Zdecentralizowana wyszukiwarka YaCy

Aby uniknąć profilowania podczas przeszukiwania sieci powstał projekt YaCy. Jest to zdecentralizowana wyszukiwarka zbudowana na zasadzie peer-2-peer. Do przechowywania dużej ilości danych używana jest rozproszona tablica mieszająca (DHT, tak jak w przypadku torrentów.)

YaCyPi

Każdy chętny, który dołączy do projektu YaCy instaluje u siebie pewien program. Od tej pory komputer użytkownika staje się robotem internetowym (crawler), biegającym po małym wycinku sieci. Rezultaty jego pracy są indeksowane, lokalnie przechowywane, a fragmenty rozsyłane pozostałym uczestnikom chmury.

YaCy 2

Gdy korzystamy z wyszukiwarki, każdy wynik zapytania pobierany jest od kilku osób jednocześnie. Mechanizm ten ma chronić nas przed spamem i oszustami. Po uwierzytelnieniu, czyli sprawdzeniu przez naszą maszynę czy słowa kluczowe faktycznie znajdują się na stronie, zostają nam wyświetlone linki. Równoległy kontakt z kilkoma punktami sieci za pomocą protokołu HTTP powoduje niestety, że proces trwa znacznie dłużej niż w przypadku konwencjonalnych serwisów.

Wystartował właśnie projekt YaCyPi na Kickstarterze, mający na celu rozpowszechnienie pomysłu. Można go wesprzeć przekazując 10 lub więcej dolarów organizatorom. Za 100$ otrzymamy komputerek Raspberry Pi z całym wyposażeniem, kablami, obudową i kartą microSD zawierającą oprogramowanie YaCy.

Dzięki zdecentralizowanej wyszukiwarce mamy wpływa na parametry zapytań, korzystanie z niej jest bardziej prywatne i stajemy się praktycznie odporni na cenzurę. Z drugiej strony otrzymujemy mniej wyników, społeczność jest jeszcze mała, a proces trwa znacznie dłużej.

Wsparłem ten projekt, ponieważ bardzo cenię sobie tego typu inicjatywy. Dla mnie YaCy działa w duchu ideałów otwartości Wikipedii.

Na koniec podam jeszcze przykład czemu warto czasem skorzystać z anonimowego wyszukiwania. Mam plan napisać tekst o sieci Tor. Jednym z materiałów, na którym chcę się oprzeć jest specyficzny artykuł. Aby go znaleźć, musiałem wprowadzić frazę „wikileaks child porn encrypted vpn.” Dlaczego posłużyłem się serwisem nie trzymającym historii odwiedzin duckduckgo.com chyba nie muszę tłumaczyć.

Obrazki pochodzą ze strony www.yacy.de. Zdjęcie http://www. written in search bar on virtual screen pochodzi z serwisu Shutterstock.
Tekst na licencji Creative Commons Zero CC0 (Żadne Prawa Zastrzeżone)

Advertisement

Dołącz do dyskusji

Advertisement
Advertisement