uptime_DC-outages 2018-2019

Uptime Institute: of is er iets nieuws te melden over datacenter problemen?

Het Uptime Institute is bij iedereen met een datacenter- of hostingachtergrond wel bekend. Het is de instantie die de facto heeft gezorgd voor begrippen als “Tier IV datacenters”. Het heeft grote invloed op de manier waarop datacenters over de kwaliteit communiceren. Om dat te onderstrepen brengt het UI regelmatig updates van onderzoek over de DC sector uit, zoals het rapport: “Publicly Reported Outages 2018-19”.

Wat de pers haalt

Het Publicly Reported Outages 2018-19 heeft betrekking op het jaar 2018. Bron van het 6 pagina’s tellende document zijn meldingen over problemen bij datacenters die met het publiek zijn gedeeld. Dat is een belangrijk detail. De rapportage heeft dus niet uitsluitend betrekking op de leden van het UI of alle datacenters in een bepaalde regio. Alleen dat wat de pers heeft gehaald is door de auteurs bekeken en gecategoriseerd.

De eerste conclusie dat er meer outages zijn voorgekomen moet daarom ook niet op voorhand worden gezien als een absolute waarheid. We mogen niet vergeten dat het steeds lastiger is een serieuze panne in een datacenter te verzwijgen. Tooling bij de klanten, klagende eindgebruikers en de snelheid waarmee nieuws zich via social media verspreidt dwingt datacenters ook eerder, sneller en meer te communiceren.

Definities

Het UI noemt deze randvoorwaarde, maar de meeste aandacht zal uitgaan naar de direct daaronder geplaatste weergaven van het soort incidenten. Onbedoeld laat dit ook direct de belangrijkste beperking van het rapport zien. Het UI heeft – om de hierboven aangegeven redenen – geen totaal overzicht van alle storingen. Het komt over het jaar 2018 (wat al weer ver terug ligt) op slechts drie gemelde incidenten van de twee zwaarste categorieën.

Iemand die de moeite neemt een goede zoekopdracht te formuleren zal zien dat er er alleen al in de EU meer incidenten zijn geweest die “serious” of “severe” kunnen zijn. De gehanteerde definities van het UI voor deze begrippen zijn bewust vaag. De klanten hoeven zich niet direct aangevallen te voelen en de markt heeft er feitelijk niets aan. Dit onderdeel van het rapport is dus weinig waard.

Primaire oorzaak

Het overzicht van de primaire oorzaak van een verstoring van de dienstverlening door een DC is gelukkig wel zinnig. Primair is een belangrijk begrip, omdat zoals bekend bij IT incidenten kettingreacties bijna altijd onvermijdelijk zijn. Dat de hardware (“IT stack”) het meest is geteld als primaire oorzaak zal niet verbazen. Die stack is in elk datacenter omvangrijk en op uitzonderingen na ook alles behalve homogeen. Het monitoren daarvan is dus een eerste vereiste.

De afstand tot de andere veel geziene primaire oorzaak “network” is gering. Netwerk problemen kunnen echter in tegenstelling tot de IT Stack een externe oorzaak hebben (kabelbreuk). Dat geldt ook voor oorzaak nummer drie, “power”.

De cijfers voor de top 3 en de andere oorzaken zijn overigens redelijk stabiel. Gelet op het beperkte aantal incidenten dat is bestudeerd kan de conclusie simpel zijn. Over de aard en oorzaak van incidenten bij datacenters valt niet echt iets nieuws te melden.