AWS

De foute reactie op de zoveelste AWS cloud downtime

AWSRuim een week geleden is een cloud regio van AWS omgevallen, dat leverde de nodige downtime op tot ver in de IT keten. Kwestie van menselijke fout bij de hyperscaler waar iedereen van moet leren. Zoals te verwachten volgen en nu foute adviezen en reacties op het incident.

AWS-01 onbereikbaar

Ook bij hyperscale cloud providers verloopt niet alles feilloos en soepel. AWS heeft daar recent weer een indrukwekkend voorbeeld van geleverd. Schijnbaar in een poging het maximale uit een deel van het serverpark te halen is een domme fout gemaakt. Gevolg was een toename van controle processen en verkeer. Een complete cloud regio AWS East-01 bleek binnen korte tijd onbereikbaar. Zoals wel vaker bij AWS was zelfs het dashboard voor de klanten onbenaderbaar.

De fout bij AWS East-01 was vervelend voor de directe klanten, maar ook voor de klanten van deze klanten. Niet voor de eerste keer kwamen duizenden bedrijven en personen er achter dat ze op enige wijze afhankelijk zijn van de deze cloud aanbieder. Dat de storing ook tot merkbare verstoringen in andere AWS regio’s leidde heeft betrekkelijk weinig aandacht gekregen.

Meer redundantie – meer spreiding

Zoals te verwachten viel is daags na de panne her en der te lezen dat klanten die offline waren het probleem bij zich zelf moeten zoeken. Ze zijn immers aantoonbaar afhankelijk van een partij en een locatie. Dat heeft toch niets met redundantie te maken?

In principe klopt dat wel. Een IaaS provider die zijn diensten vanuit een fysieke locatie aanbiedt is niet slim bezig (understatement). Dat zijn klanten die niet altijd door hebben, omdat er niet op wordt doorgevraagd doet ook de wenkbrauwen fronzen.

Maar de argumenten die gebruikt worden om de huidige situatie goed te praten is gewoon fout. Een reactie als deze:

Businesses can avoid cloud provider downtime with redundancy — but at what cost?

Slaat de plank volkomen mis. De kop suggereert dat redundantie een kostenfactor is. Elders in het artikel staat ook dat cloud duplicatie niet voor elk bedrijf noodzakelijk is en daarmee redundantie niet voor iedereen zinvol.

Lokaal en Edge als oplossing

Wat er niet klopt aan het verhaal is om te beginnen dat de kosten van downtime niet zijn genoemd. Redundantie is ook iets anders dan alle workloads over meerdere clouds verspreiden. Nergens wordt genoemd dat er voor een onderneming maar een stelregel valide is, en dat is continuïteit. Uit de lucht gaan van alle processen moet worden voorkomen. Hoe dat te realiseren is, verschilt per bedrijf. In veel gevallen zal “alles” over de meerdere clouds onzinnig zijn. Veel slimmer is het ook lokaal of vanuit de edge te kunnen werken. Dat de edge een regionaal datacenter kan zijn, is daarbij een detail om tot de noodzakelijke continuïteit te komen.