Al momento stai visualizzando Dentro il crollo: Una cosa che CrowdStrike e Microsoft non riescono a risolvere
  • Save

Dentro il crollo: Una cosa che CrowdStrike e Microsoft non riescono a risolvere

Ho visto un solo Blue Screen of Death domenica 21 luglio, in 15 ore di viaggio attraverso due dei maggiori aeroporti del paese, solo due giorni dopo che un aggiornamento software difettoso ha paralizzato milioni di computer aziendali con sistema operativo Windows.

“Forse è tutto a posto”, ricordo di aver pensato mentre la mia famiglia muoveva i primi passi verso l’aeroporto LaGuardia di New York intorno alle 9 del mattino.

Avrei dovuto immaginarlo. Avevo fatto letteralmente due passi all’interno dell’edificio prima di ricevere la prima delle circa 3.000 e-mail di ritardo inviate da Delta nel corso della giornata, oltre a un numero ancora maggiore di notifiche dalle app Flighty e Fly Delta. Non sarebbe stato facile tornare a casa da New York alla Florida, cosa che ho fatto decine di volte nel corso degli anni.

A notification from the Flighty app on an Apple Watch.
  • Save
L’app Flighty, solitamente eccellente, non è stata progettata per tenere il passo con così tanti cambi di cellula: queste notifiche arrivavano più volte all’ora. Phil Nickinson / Digital Trends

Non sono nuovo ai ritardi dei voli.(Ho trascorso 15 ore nello Sky Club di Los Angeles alla fine di gennaio – non è una cosa che consiglio, nonostante sia molto buono) Ma questo è stato diverso. Il tempo capita. I problemi meccanici capitano. Fanno schifo, ma tutti si riducono alla sicurezza. Questa volta? Un fornitore di sicurezza di terze parti ha sbagliato un file all’interno di Windows. CrowdStrike avrebbe dovuto accorgersene. Microsoft avrebbe dovuto accorgersene. Nessuno dei due lo ha fatto finché non è stato troppo tardi. Sebbene la soluzione fosse relativamente semplice – avviare la modalità provvisoria o continuare a riavviare il computer fino a quando il file difettoso non è stato sostituito – gli effetti di primo ordine sono stati immensi.

È con gli effetti di secondo e terzo ordine che le cose sono andate davvero male per le compagnie aeree. Delta è stata particolarmente colpita: il CEO Ed Bastian domenica ha scritto che più di 3.500 voli sono stati cancellati fino a sabato e molti altri domenica. “Per favore, venite a trovarmi al podio se avete bisogno di un abbraccio”, ha detto il nostro agente al gate intorno alle 16:30 di domenica, mentre il tabellone si aggiornava con la scritta CANCELLATO.

The scene from Gate A7 at Atlanta Hartsfield-Jackson International Airport late in the evening of July 21, 2024.
  • Save
Per molti di noi all’aeroporto internazionale Hartsfield-Jackson di Atlanta non c’era altro da fare che aspettare e sperare che il volo successivo non venisse cancellato. Phil Nickinson / Digital Trends

La fila per il banco delle prenotazioni nell’atrio A di Atlanta – uno dei sette terminal dell’aeroporto più trafficato del paese – era comicamente (o tragicamente) lunga. Mi sono seduto con un auricolare inserito, in attesa della linea di prenotazione della compagnia aerea per due ore prima di arrendermi. (Mio fratello, che ha uno status di frequent flyer molto più elevato, è riuscito almeno a farsi dire da una persona in carne e ossa che non c’era modo di partire prima di mezzanotte e che la cosa migliore da fare era attenersi al volo assegnato per il momento)

Finalmente a bordo, nelle prime ore di lunedì 22 luglio, un assistente di volo ci ha dato un’idea di ciò che stava davvero creando problemi: Delta non sapeva dove fossero i suoi equipaggi. Questo è stato confermato più tardi nel corso della giornata da un altro post di Delta, che ha dichiarato che più della metà del suo sistema informatico funziona con Windows e che è stato necessario un ulteriore tempo di sincronizzazione anche dopo il riavvio delle macchine interessate.

“Gli equipaggi di Delta sono al completo e pronti a servire i nostri clienti”, ha continuato il post. “Ma uno dei sistemi più critici di Delta, che garantisce che tutti i voli abbiano un equipaggio completo nel posto giusto al momento giusto, è molto complesso e richiede più tempo e assistenza manuale per la sincronizzazione”

An in-flight entertainment screen on a Delta 757-200, waiting to leave Atlanta.
  • Save
Era passata la mezzanotte, ma quelli di noi che sono riusciti a salire su un Boeing 757-200 erano molto eccitati. Phil Nickinson / Digital Trends

Alla fine siamo tornati a casa quasi alle 2 del mattino. Un po’ esausti. Ma in tutto solo otto ore di ritardo. Siamo stati fortunati. Mio fratello aveva passato circa 30 ore all’aeroporto di Atlanta due giorni prima, cercando di tornare a casa a Pensacola dopo aver interrotto un viaggio sulla costa occidentale. Niente voli. Nessun noleggio di auto di sola andata. A parte l’attesa, non c’erano altre opzioni reali oltre a quella di guidare per cinque ore per un soccorso.

Le nostre storie erano solo due di migliaia e le nostre erano relativamente poco rischiose. Non avevamo bambini che viaggiavano da soli. Non abbiamo perso un sacco di soldi, a parte un paio di pasti che non avevamo previsto di consumare in aeroporto. Le nostre valigie sono arrivate sullo stesso aereo.

La soluzione immediata per il fallimento di CrowdStrike è piuttosto semplice. CrowdStrike e Microsoft devono adottare delle politiche per ridurre la possibilità che questo accada di nuovo. (Ma come dice il proverbio – e questa è la versione PG-13 – la cacca scorre a valle. Niente di tutto questo è colpa delle compagnie aeree. Ma è diventato subito un guaio da sistemare.

E questo è qualcosa che un semplice riavvio non può risolvere. Anche se lo fai più di 8 milioni di volte.

Leggi di più su www.digitaltrends.com

Lascia un commento