AKTUALIZACJA: Awaria w Hostersi Data Center – wiele stron i serwisów jest niedostępnych

News/Technologie 21.03.2013
AKTUALIZACJA: Awaria w Hostersi Data Center – wiele stron i serwisów jest niedostępnych

AKTUALIZACJA: Awaria w Hostersi Data Center – wiele stron i serwisów jest niedostępnych

W Hostersi Data Center wystąpiła awaria. Serwery nie odpowiadają, wiele stron pozostaje niedostępnych.

Dotarliśmy do informacji o problemach technicznych Hostersów – popularnego w Polsce dostawcy usług hostingowych. W wyniku awarii sieciowej wiele stron utrzymywanych w serwerowni Hostersów przestało być dostępnych.

Wśród witryn, które pozostają nieosiągalne lub działają z przerwami znalazły się między innymi serwisy: Światowa Organizacja Zdrowia, Wojewódzki Urząd Pracy w Zielonej Górze, AntyWeb, Niezgrani, Ogilvy Interactive, OS3 multimedia, Lioosys, 3W Serwisy Informacyjne i wiele innych.

Przyczyny awarii nie są znane. Przy próbie wywołania adresów do powyższych stron, przeglądarka zwraca albo informację o braku połączenia z bazą danych lub wcale nie odpowiada.

Wszystkim właścicielom niedziałających witryn współczujemy!

Aktualizacja

Początkowo przewidywano, że problemy z serwerami zostaną rozwiązane w przeciągu 15 minut – taka informacja została opublikowana na facebookowym profilu firmy. Niestety pełna sprawność Hostersi Data Center została uzyskana dopiero po 2 godzinach i 50 minutach. Hostersi przygotowali wyjaśnienie, w którym tłumaczą przyczyny awarii oraz długi czas naprawy zaistniałych problemów. Przygotowano również specjalne ryciny, które przedstawiają szczegółowe informacje o czasie w jakim usługi hostingowe były niedostępne.

W godzinach porannych rozpoczęliśmy prace przygotowawcze do rutynowego przeglądu jednego z UPSów. W związku z tym, zgodnie z procedurą, uruchomiliśmy testowo agregat prądotwórczy, który przez 30 minut działał bezawaryjnie z pełnym obciążeniem. Kolejnym etapem było przełączenie głównego UPSa w tryb bypass wewnętrzny z jednocześnie odblokowaną przetwornicą. Również w tym przypadku UPS działał bez zarzutu pod pełnym obciążeniem przez 30 minut. Następnym krokiem niezbędnym do przeprowadzenia pełnego przeglądu UPSa było przejście na pracę wyłącznie na bypassie z wyłączoną przetwornicą. Kilka sekund po przejściu na działanie pełnego bypassa, wyłączył się agregat prądotwórczy i zrestartowały się zapasowe UPSy, co spowodowało 3 sekundową przerwę w zasilaniu a tym samym restart całej infrastruktury Hostersi Data Center.

Ze względu na niekontrolowane zamknięcie się wielu systemów jednocześnie, znaczna część serwerów wymagała interwencji administratorów. Równocześnie, pojawiły się problemy z trzema z czterech serwerów DNS w infrastrukturze Hostersów oraz kłopoty z poprawnym startem urządzeń odpowiedzialnych za load ballancing i kierowanie ruchem. W efekcie czego, niektóre usługi działały wolniej lub były niedostępne bezpośrednio po powrocie zasilania.

Niedostępność sieci Hostersów w Internecie wynosiła około 9 minut (ryc. nr 1).

Ze względu jednak na złożoność systemów klastrowych, zmuszeni byliśmy do przeprowadzenia szeregu testów integralności i spójności systemów plików oraz baz danych. Działanie to było niezbędne, aby zyskać pewność, że wszystko funkcjonuje prawidłowo. Z tego też powodu rozwiązanie pocztowe było niedostępne przez około 1,5 godziny (ryc. nr 2) a serwery klastra www przez 2,5 godziny. Maksymalna niedostępność usług dla nielicznych klientów wynosiła 2 godziny 50 minut.

Pomimo znacznej skali awarii, udało nam się przywrócić pełną funkcjonalność wszystkich usług. Co najważniejsze jednak, żadne dane naszych klientów nie zostały uszkodzone ani utracone. – tłumaczy Tomasz Dwornicki Dyrektor Techniczny Hostersów

Dołącz do dyskusji