Chmura wspomaga Big data

Chmura wspomaga Big data

U podstaw działania większości współczesnych aplikacji leżą dane – ich przesyłanie, obróbka i analiza. Bez tej możliwości większość usług sieciowych nie miałaby sensu. Ilość danych dostępnych w sieci jest dziś już duża – według badań firmy Cisco przekroczyła ona już zettabajt i nadal rośnie. Część z tych danych – około 60% – stanowią filmy i inne treści, które nie są poddawane analizom i obróbce, jednakże pozostałe są przetwarzane, nierzadko w czasie rzeczywistym.

Algorytm na potężne zbiory

Infrastruktura sieciowa dosyć dobrze radzi sobie z transferem danych, nawet przy tak astronomicznej ich ilości. Ale co z analizą i ich przetwarzaniem? Problemy te adresuje sektor Big data.

Termin, ukuty przez Gartnera, określa model i sposób postępowania z dużą ilością danych. 15 lat temu Gartner stworzył pierwszą definicję Big data jako „3V”: Volume (duża objętość danych), Velocity (duża szybkość zmiany danych) i Variety (duża różnorodność danych). Po latach definicja została uzupełniona o czwarte V: Value (wartościowanie danych – ich analiza i ocena). Pozwoliło to na opracowanie algorytmów porządkujących ogromne zbiory danych, które umożliwiają nie tylko ich zbieranie i opracowywanie, ale także analizę i automatyczne wyciąganie wniosków.

Ostatnie V jest niezwykle istotne z punktu widzenia wielkich korporacji, systemów monitorowania np. pogody czy skomplikowanych eksperymentów naukowych. Dzięki zastosowaniu tych algorytmów surowe dane są sprawnie sprowadzane do czytelnej postaci, nad którą może pracować np. rada nadzorcza firmy lub zespół meteorologów.

Wraz z wykładniczym wzrostem ilości danych wykorzystywanych przez sektor Big data narasta wiele wyzwań związanych z ich zbieraniem, obróbką i analizą. Poprawne działanie systemów informatycznych wielu branży zależy od powodzenia w opracowaniu nowych i wydajnych strategii postępowania z nagromadzeniem dużych ilości informacji. O ile algorytmy tego postępowania są dosyć dobrze znane, to ich implementacja jest już bardziej problematyczna, szczególnie przy ograniczonych środkach na realizację systemu Big data.

Gdzie zaczyna się Big data?

Kto jest zainteresowany wdrożeniem systemów Big data? Na pewno odbiorcy z takich branż, jak:

  • nauka, gdzie systemy Big data umożliwiają symulacje klimatu (IMGW) czy analizy danych gromadzonych podczas prekursorskich eksperymentów fizycznych (CERN);
  • media społecznościowe, w tym serwisy takie jak Facebook czy Twitter;
  • marketing – gdzie rozwiązania z zakresu obróbki olbrzymich ilości informacji ułatwią zbieranie danych o klientach, profilowanie reklam czy aktywną generację treści reklamowych w czasie rzeczywistym; jest to szczególnie istotne dla reklam personalizowanych, dopasowanych do profilu użytkownika, jaki oferuje na przykład system AdWords firmy Google;
  • ochrona zdrowia, w której implementacja systemów Big data najpierw usprawniła metody badań, a potem zrewolucjonizowała analizy danych statystycznych; przekłada się to nie tylko na podejmowanie skuteczniejszych działań, ale także na zmniejszenie kosztów profilaktyki i leczenia;
  • odnawialne źródła energii, gdzie systemy pozwalają na monitorowanie produkcji prądu z OZE, a zarazem na analizę stopnia jego zużycia; przykładem wdrażania takich rozwiązań są systemy netmeteringu instalowane w Polsce przez prosumentów i pozwalające na bilansowanie energii wyprodukowanej dzięki mikroinstalacji OZE z energią pobraną z sieci. Dzięki temu użytkownik takiego systemu ponosi jedynie koszty energii pobranej z sieci, a czasami wręcz zarabia, sprzedając prąd elektryczny operatorowi. Dodatkowo systemy takie pozwalają operatorowi sieci przesyłowej na monitorowanie zużycia energii w czasie w różnych miejscach, dzięki czemu może on dostosowywać sieć do realnego zużycia, co pozwala na zmniejszenie wymaganych nakładów na inwestycję i konserwację sieci przesyłowej;
  • sektor produkcyjny może również być szczęśliwym beneficjentem rozwiązań Big data. Wykorzystywanie algorytmów do analizy wszelkich danych produkcyjnych wraz z informacjami i kontrolą logistyki ułatwia optymalizację dostaw. To z kolei przekłada się na wzrost wydajności, redukując przestoje spowodowane oczekiwaniem na dostarczenie towarów. Wiele platform cloud computingowych pozwala na implementację tego rodzaju algorytmów w firmach z branży automatyki przemysłowej (np. Schneider Electric), dostarczając gotowe rozwiązania SaaS do analizowania i raportowania danych na temat produkcji, dostępne w bezpieczny sposób z dowolnej platformy sprzętowej.

Dalsze wydajne działanie powyżej opisanych sektorów w świecie rosnącej ilości danych zależne jest od opracowania i implementacji nowych systemów Big data.

W wielu z tych przypadków systemy informatyczne generują ogromne ilości danych, sięgające petabajtów (czyli milionów gigabajtów) rocznie. Poprawne działanie algorytmów wykorzystywanych w wymienionych sektorach uzależnione jest od możliwości obrabiania tych danych, bardzo często w czasie rzeczywistym lub zbliżonym do rzeczywistego.

Big data też dla mniejszych

Portfolio obecnie używanych rozwiązań sektora Big data zostało stworzone i zoptymalizowane pod kątem ich wdrażania w drogich i potężnych superkomputerach, co wpływa na koszt ich implementacji.

Kosztowność rozwiązań związanych z centrami obliczeniowymi, superkomputerami i farmami serwerów sprawia, że regularne korzystanie z infrastruktury tego rodzaju jest poza zasięgiem sektora MŚP. Jednakże obserwowana w ostatnich latach postępująca migracja systemów Big data z drogich w zakupie i utrzymaniu farm serwerowych do chmury pozwala na wykorzystanie wszystkich zalet cloud – elastyczności, prędkości obliczeniowej oraz, co niezwykle istotne, zachęcająco niskich kosztów wszystkim pomiotom.

Przetwarzanie danych w chmurze dostarcza stabilne rozwiązania przez Internet, wykorzystując do tego centra obliczeniowe. Usługi świadczone w chmurze obejmują szeroki zakres działań: od przechowywania danych, przez prowadzenie obliczeń, po dedykowane aplikacje.

Chmura i Big data

Przetwarzanie w chmurze prezentuje wiele zalet, które czynią ją idealnym narzędziem ułatwiającym pokonywanie barier technologicznych i ekonomicznych w sektorze Big data, co zauważył także świat nauki. Dzięki wykorzystaniu przetwarzania w chmurze, naukowcy zyskali dostęp do ogromnej mocy obliczeniowej bardzo niskim nakładem środków inwestycyjnych. To jedna z zalet chmury – niewielkie nakłady środków na uruchomienie i stały dostęp do potrzebnej mocy na żądanie. Wiele firm z tych samych powodów przenosi swoje centra danych do chmury.

Przykładem udanego transferu do cloud może być spółka Dunnhumby, świadcząca od lat usługi analityczne m.in. dla Tesco. W 2014 roku firma rozpoczęła obróbkę danych w chmurze, zyskując elastyczność prowadzonych obliczeń oraz redukując ryzyko związane z analizami i zmianami rynku. Do dziś analizy dostarczane przez Dunnhumby, kupowane i wykorzystywane są nie tylko przez Tesco (obecnego właściciela spółki), ale także jego dostawców, takich jak Procter & Gamble, Coca-Cola czy Unilever. W ten sposób Tesco wraz z partnerami optymalizuje procesy związane z logistyką oraz promocją określonych produktów w swojej sieci.

Mówiąc o chmurze i Big data, należy wspomnieć o modelu AaaS, czyli analityki jako usługi. Usługi tego rodzaju polegają, podobnie jak SaaS (oprogramowanie jako usługa), na dostarczaniu oprogramowania w chmurze, jednakże w przypadku AaaS są to wąsko dedykowane algorytmy analityczne, często projektowane pod kątem konkretnych zastosowań. Istotnie upraszcza to korzystanie z cloud computingu, gdyż pozwala wyeliminować nie tylko koszty zakupu i utrzymania infrastruktury informatycznej, ale także koszty tworzenia dedykowanego oprogramowania. Przykładem firmy specjalizującej się w usługach w modelu AaaS jest Emcien, dostarczający oprogramowanie dedykowane do rozpoznawania wzorców w danych czy systemy uczenia maszynowego. Do klientów firmy Emcien należą potentaci amerykańskiego rynku telekomunikacyjnego oraz agencje wywiadowcze.

Na szczególną uwagę zasługuje także pakiet Apache Hadoop, z jakiego korzysta m.in. Quantium. Platforma ta wyróżnia się na tle innych rozwiązań software’owych otwartością (framework dostępny jest na licencji Apache 2.0) oraz implementacją równoległego przetwarzania (MapReduce). Jakkolwiek Hadoop zoptymalizowany jest do pracy z danymi (w modelu pobierz-analizuj-zapisz), to dzięki MapReduce złożoność algorytmów Big data nie rośnie liniowo wraz z objętością danych i poziomem skomplikowania analizy, dzięki możliwości elastycznego dodawania kolejnych węzłów w chmurze. Wiele firm korzysta z opisanego pakietu we własnych serwerowniach (z klastrami od jednego do 4500 węzłów), ale dostęp do Hadoopa możliwy jest także w chmurze, czy to poprzez G-Hadoopa, integrującego rozproszone centra danych czy też komercyjne usługi udostępniające Hadoopa jako PaaS.

Potop, czyli wyzwanie

Wykorzystywanie chmury w efektywny sposób do realizacji algorytmów Big data łączy się ze zjawiskiem zwanym „potopem danych”.

Ogromna ilość danych, generowana przez systemy, blokuje realizację wielu celów związanych z ich analizą. Jednym ze sztandarowych przykładów, wymienianych przez specjalistów z branży IT, jest amerykański system wywiadowczy, mający za zadanie zwalczanie terroryzmu. O ile technicznie system jest w stanie monitorować wszystkie kanały komunikacji cyfrowej na całym świecie (SMS-y, rozmowy telefoniczne, Skype czy e-maile), to w praktyce jest bezużyteczny. Ogromna ilość zbieranych danych wywiadowczych uniemożliwia ich analizę i identyfikację komunikatów związanych z terroryzmem, nawet przy wykorzystaniu superkomputerów będących w posiadaniu Amerykańskich Sił Zbrojnych.

Udostępnianie, rozpowszechnianie i analiza dużych zbiorów danych stało się kluczowym problemem dzisiejszej algorytmiki. I to pomimo implementacji „petaskalowych” (to jest takich, których zdolność do przetwarzania danych w czasie rzeczywistym sięga petabajtów) systemów komputerowych i sieci optycznych o prędkościach sięgających do 100 Gb/s. Istnieje nadal wiele aplikacji, które czekają na optymalne rozwiązania.

W tym kontekście nieodzowne są w branży Big data nowe modele programowania i planowania, jak i stworzenie hybrydowej infrastruktury systemów informatycznych oraz skalowanie z pojedynczych do rozproszonych geograficznie centrów przetwarzania danych – chmur – w celu poradzenia sobie z nowymi wyzwaniami.

Dodatkowym zyskiem z korzystania usług z chmury w sektorze Big data jest fakt, że wielu dostawców cloudu implementuje coraz to nowsze i szybsze algorytmy, w tym te przetwarzania równoległego, co umożliwia szybsze analizowanie zebranych danych i łatwiejszy dostęp do wyników tych analiz.

Widoki na przyszłość

Mimo ciągłego rozwoju przetwarzanie w chmurze dopiero rozpoczyna swoją karierę w branży Big data, ale jego zalety tym sektorze IT są już wymierne. Usprawnienie przetwarzania danych przy coraz mniejszym koszcie aplikacji jest kuszącą perspektywą dla wielu firm. Warto obserwować nowe rozwiązania informatyczne pojawiające się w tym zakresie oraz podejmować już teraz kroki związane z ich implementacją, zanim konkurencja nas wyprzedzi!

Musisz przeczytać:

Dołącz do dyskusji

MAŁO? CZYTAJ KOLEJNY WPIS...

MAŁO? CZYTAJ KOLEJNY WPIS...

Advertisement