Zamieszczam tutaj raport końcowy: jest interesujący, ponieważ wyjaśnia (w przybliżeniu), w jaki sposób pomieszczenie sieciowe jest zarządzane energetycznie i jakie problemy z zasilaniem mogą pojawić się w przypadku incydentu. Pokazuje to również, że wypadek jest często następstwem drobnych zdarzeń i że zwykła brakująca kontrola (w tym przypadku reset do świata automatycznego) może doprowadzić do „katastrofy”.
Drogi Kliencie,
Po ponad 20 godzinach działań wojennych możemy w końcu wyjaśnić Państwu poważny incydent techniczny, z którym mieliśmy do czynienia pomiędzy 10 maja o 17:11 a 15 maja o 30:100 (czas, kiedy wszystkie usługi są w XNUMX% sprawne). ).
Jest to wydarzenie wyjątkowe w swej naturze i konsekwencjach...
Podsumowanie:
Wczoraj około godziny 16:15 w ogniwie znajdującym się na zewnątrz budynku wyłączył się zasilacz EDF (GEG). Nie wiemy (i GEG nie zna dokładnych powodów, dla których zabrakło prądu).
W takiej sytuacji nie wolno odcinać zasilania serwerów, ponieważ budynek jest zabezpieczony przez 3 duże falowniki i generator diesla o mocy 400 kva. System zwykle działa dobrze, ponieważ tydzień temu doświadczyliśmy już cięć EFR i nie miało to żadnego wpływu.
To nie wydarzyło się wczoraj, jak widać.
Personel firmy Cogent (międzynarodowa grupa obsługująca to centrum danych) interweniował na początku tygodnia, aby przeprowadzić konserwację i testy agregatu prądotwórczego Diesel. Osoby, które interweniowały, oczywiście nie przestawiły grupy z powrotem w tryb automatycznego startu, aby uruchamiał się natychmiast po wykryciu, że nie ma już prądu EDF.
Wynik był jasny: grupa nie uruchomiła się, falowniki zostały całkowicie opróżnione, a serwery nie były już zasilane.
Co więcej, obiekt jest zwykle monitorowany z kilku nocy zlokalizowanych w Paryżu, Nowym Jorku i Hiszpanii, dzięki czemu firma Cogent może bardzo szybko wykryć tego typu problemy i umożliwić im interwencję. Tym razem to nie zadziałało, gdyż kilka dni temu miał miejsce incydent w systemie monitoringu. (które muszą zostać uregulowane dzisiaj lub jutro).
PHPNET był obecny na stronie niecałe 10 minut po wyłączeniu zasilania serwerów, aby ręcznie uruchomić generator w celu przywrócenia zasilania i zrestartowania wszystkich serwerów.
Ponieważ problem nigdy nie pojawia się sam... Kiedy GEG przywróciło zasilanie sieciowe, system automatycznego przełączania próbował przełączyć się na nie z powrotem i wtedy pojawił się nasz problem.
druga przerwa w dostawie prądu...
W rzeczywistości normalna procedura przełączania wygląda następująco: edf => falowniki => generator.I odwrotnie, aby przełączyć się z powrotem na edf, obwód jest następujący: generator => falowniki => edf.
Ponieważ falowniki nie miały czasu na wystarczające naładowanie, ponownie odcięto zasilanie serwerów.
Na domiar złego zasilanie EDF ponownie wyłączyło się kilka minut po wyłączeniu, ponieważ zużycie energii elektrycznej w obiekcie było zbyt wysokie. Jednostki klimatyzacyjne oraz serwery zużywają przy uruchomieniu od 3 do XNUMX razy więcej prądu, pobór przekroczył ustawienia obowiązujące na zewnątrz budynku, powodując nową awarię serwerów.
Musieliśmy zatem wyłączyć systemy klimatyzacji i ponownie uruchomić każdą część budynku w określonym czasie, aby nie spowodować ponownego zadziałania.
Te liczne przerwy w dostawie prądu spowodowały utratę wielu dysków twardych w serwerach i (przede wszystkim) utratę kilku systemów plików. Niemniej jednak wczoraj wieczorem pomyślnie przełączyliśmy się na nasz system zapasowy na kilka godzin.
Serwer pocztowy 1 (klaster 1) musiał zostać przywrócony do naszej ostatniej kopii zapasowej, ponieważ jego danych nie można było odzyskać. Sytuacja jest już naprawiona.
Dziś odpowiedzialność za ten incydent należy przenieść na firmę Cogent, która powinna była zadbać o to, aby grupa znajdowała się w trybie automatycznego uruchamiania, a przede wszystkim była prawidłowo monitorowana
centrum danych, aby interweniowało, zanim falowniki się opróżnią.
Rozpoczniemy niezbędne negocjacje w celu uzyskania rekompensaty finansowej, która zostanie odzwierciedlona w Twojej subskrypcji PHPNET w wysokości poniesionej przez Ciebie obniżki.
Po stronie PHPNET rozważane są obecnie różne rozwiązania dotyczące rozwoju centrum danych, ponieważ nie chcemy już polegać na dobrej woli dostawców usług takich jak Cogent czy Redbus.
O tym projekcie, który powinien zostać ukończony w ciągu najbliższych 12 miesięcy, będziemy Państwa informować na bieżąco.
Cały zespół PHPNET dołącza do mnie, dziękując za zrozumienie i przepraszając za wszelkie niedogodności, jakie mogło to spowodować.
Miłego weekendu,
----
PHPNET
123 ter Przebieg zwolnienia
38100 GRENOBLE