Eșecul Facebook arată de ce nu ar trebui să ne bazăm pe el pentru orice

Cuprins:

Eșecul Facebook arată de ce nu ar trebui să ne bazăm pe el pentru orice
Eșecul Facebook arată de ce nu ar trebui să ne bazăm pe el pentru orice
Anonim

Recomandări cheie

  • Problemele tehnice ale Facebook au fost nefericite, dar problema ar fi fost probabil rezolvată mult mai repede dacă nu s-ar fi bazat pe atât de multe sisteme interconectate.
  • Nu există nicio modalitate de a preveni complet defecțiunile sistemului, dar există modalități de a le reduce probabilitatea.
  • Deținerea de planuri de rezervă pentru când (nu dacă, când) un sistem eșuează poate face diferența între „enervant” și „catastrofal”.
Image
Image

Recenta debacle Facebook demonstrează cum sistemele interconectate sunt obligate să eșueze și de ce nu ar trebui să le folosim pentru orice.

Pierderea Facebook, WhatsApp și Instagram timp de câteva ore luni a fost incomod, dăunătoare pentru afaceri și, în unele cazuri, aproape catastrofală. Potrivit Facebook, totul s-a datorat modificărilor de configurare ale routerelor sale de coordonare a rețelei.

Este o explicație rezonabilă, dar faptul că o singură eroare de acest fel ar putea opri doar Facebook, ci și alte sisteme deținute de Facebook, este puțin alarmant.

O modificare greșită a configurației routerului a făcut ca mai multe servicii și chiar căști VR să nu mai funcționeze. În plus, din propria recunoaștere a Facebook, a avut și un efect în cascadă asupra modului în care centrele de date ale companiei comunică, oprind toate serviciile lor.

„Încredințarea pe sistemele interconectate implică un risc inerent de defecțiune a sistemului sau chiar a defecțiunii serviciului”, a declarat Francesco Altomare, inginer tehnic senior de vânzări la GlobalDots, într-un interviu prin e-mail cu Lifewire, „Pentru a contracara acest risc descurajator, companiile folosesc principiul SRE (System Reliability Engineering), precum și alte instrumente, care se ocupă toate cu diferite niveluri de redundanță încorporate în fiecare strat al infrastructurii unui sistem.”

Image
Image

Ce poate merge prost

Este demn de remarcat faptul că, atunci când un astfel de sistem eșuează, de obicei necesită o furtună perfectă de lucruri care merg prost. Este mai puțin ca un castel de cărți care așteaptă să cadă și mai mult ca un port de evacuare termic expus pe o stație spațială de dimensiunea unei luni mici.

Majoritatea companiilor iau măsuri pentru a încerca să se asigure că singurul lucru care ar putea arunca totul în haos nu se întâmplă niciodată, dar, indiferent, se poate întâmpla.

„Eșecurile neașteptate fac parte din afaceri și ar putea apărea ca urmare a neglijenței lucrătorilor, a defecțiunilor în rețeaua furnizorului de servicii de internet sau chiar a problemelor serviciilor de stocare în cloud”, a declarat Sally Stevens, co-fondatorul FastPeopleSearch, în un interviu prin e-mail.

"… Atâta timp cât pașii necesari pentru a proteja sistemul - cum ar fi copii de rezervă, router la fața locului și acces pe niveluri - sunt implementați, aceste defecțiuni sunt destul de puțin probabile." Deși, chiar și cu o armată de safe-safe, este totuși posibil ca piciorul să eșueze.

Dacă sistemul care controlează lucruri precum formele primare de contact, electrocasnice, uși etc., eșuează, rezultatele pot fi semnificative. De la neplăceri ușoare la catastrofale totale, în funcție de cât de mult se bazează persoanele și companiile pe toate acestea.

Image
Image

„Există și riscul ca hackerii să intre în sistem de pe oricare dintre dispozitivele cel mai puțin protejate, cum ar fi frigiderele și prăjitoarele de pâine”, a adăugat Stevens, „ceea ce ar putea duce la furtul de date și la ransomware.”

Cum ne putem pregăti

Nu există nicio modalitate de a garanta că un sistem nu va eșua niciodată, dar există pași care pot fi luați fie pentru a reduce probabilitatea eșecului, fie pentru a o aborda mai ușor. O combinație a celor două abordări care îmbină sistemele de siguranță și contramăsuri cu planuri de urgență și sisteme de rezervă ar fi ideală.

„Pentru eliminarea acestor pericole create de produse și servicii terțe care sunt gestionate eficient, rolurile și îndatoririle referitoare la managementul riscurilor de la terți trebuie subliniate cu strictețe”, a declarat Daniela Sawyer, fondator și director de tehnologie al FindPeopleFast, într-un interviu prin e-mail, „Pentru a înflori în aceste noi împrejurimi, managerii de risc trebuie să înțeleagă părțile esențiale ale unui ecosistem atât de sofisticat.”

Ceea ce s-a întâmplat cu Facebook, WhatsApp și Instagram a fost regretabil, dar și sperăm că a deschis ochii. Oamenii care se bazează pe sisteme interconectate trebuie să înțeleagă că lucrul corect care merge prost poate perturba totul. Și trebuie puse în aplicare (sau analizate și rafinate) măsuri pentru ca astfel de întreruperi să fie mai puțin probabile și mai puțin impactante.

În cazul Facebook, problema lui nu au fost problemele routerului, ci mai degrabă faptul că are aproape întregul său ecosistem conectat la orice altceva. Astfel, cu Facebook (serviciul) oprit, Facebook (compania) a trebuit să petreacă mult mai mult timp și energie pur și simplu organizând și abordând problema. Dacă fie nu a folosit un sistem atât de adânc înrădăcinat, interconectat, fie ar fi avut planuri de rezervă pentru a face față unei astfel de întreruperi, probabil că ar fi durat mult mai puțin timp pentru a remedia.

Recomandat: