• Română
  • English

Raport 2020: Care sunt principalele cauze de downtime în Centrele de Date

Într-o economie marcată de cloud şi digitalizare, IT-ul este vital pentru operațiunile oricărei companii. Aceasta face ca riscul de downtime în centrele de date să devină un potenţial coşmar, prin costurile financiare şi de imagine pe care le generează. Cât de frecvente şi de grave sunt însă „defecţiunile” în industria DataCenter, unde atenţia acordată redundanţei şi continuității atinge în general un nivel ridicat?  Un răspuns poate fi găsit în ediţia  2020 a chestionarului anual (link la finalul articolului) realizat de Uptime Institute: 78% dintre organizații afirmă că au suferit o întrerupere accidentală a serviciilor IT (proprii sau ale unui furnizor extern) în ultimii trei ani, dar că 41% dintre acestea  au avut un impact minim sau neglijabil. Totuşi, în 31% dintre cazuri căderea sistemelor IT a generat pagube financiare şi a afectat reputația companiilor respective.

 

Scade severitatea, creşte incidenţa

 

Prin comparație cu anii precedenți, analiza Uptime surprinde o creştere generală a numărului de incidente,  dar şi o scădere a severităţii acestora. Incidentele au fost grupate pe cinci categorii (Neglijabile, Cu impact minim, Semnificative, Serioase şi Severe) iar rezultatele chestionarului au arătat o  reducere a numărului de  întreruperi severe (de la 8% în 2019 la 6% în 2020) însă o uşoară creştere a incidentelor „semnificative şi serioase”, de la 33% la 38%, în timp ce ponderea incidentelor minore a rămas oarecum constantă. Interesant este că majoritatea respondenţilor (75%) consideră că cele mai recente incidente puteau fi prevenite şi că au înţeles ce greşeli au făcut şi ce putea fi îmbunătățit. Prin urmare,  cu investiţii mai consistente în management, tehnologie, procese şi training, Centrele de Date ar putea diminua semnificativ frecvenţa şi gravitatea incidentelor.

Care sunt cauzele?

Cunoaşterea şi înţelegerea cauzelor unui downtime sunt esenţiale  pentru eliminarea efectelor şi adoptarea celor mai potrivite măsuri de prevenție, inclusiv direcționarea corectă pe termen lung, a investițiilor în tehnologie. De cele mai multe ori, astfel de concluzii rămân însă necunoscute publicului, mass media reflectând doar efectele vizibile, care afecteaza utilizatorii. Sondajul Uptime a inclus şi întrebări despre cauzele primare ale incidentelor grave. Răspunsurile arată că cele mai mari probleme apar  în urma defecțiunii sistemelor de alimentare cu energie electrică (37%). Următoarele locuri sunt ocupate de incidentele la nivel de software/sisteme IT (22%), rețea (17%) şi sisteme de răcire (13%). În 1% dintre cazuri, companiile implicate nu au aflat niciodată ce a cauzat întreruperea serviciilor IT.

 

Analiza Uptime nu diferențiază între defecțiuni tehnice, cauze externe (atacuri cibernetice, spre exemplu) şi erori umane apărute la instalarea, configurarea, actualizarea sau mentenanța unor sisteme.  Conform Ponemon Institute, în cel puţin 22% dintre cazurile de întreruperi accidentale, elementul declanșator a fost o eroare umană. Erorile umane pot fi prezente chiar şi în organizații cu proceduri foarte ferme, cel mai relevant exemplu fiind incidentul din 2017 de la Centrul de Date Amazon. Atunci, un membru al echipei a executat greşit o comandă de actualizare a sistemului de facturare, iar reacţia în lanţ a dus la căderea parțială a serviciilor S3 pentru câteva ore.Pentru detalii accesaţi  https://www.datacenterdynamics.com/en/news/amazon-web-services-s3-outage-due-to-human-error/

Chiar dacă incidentele determinate de software şi rețea au devenit mai frecvente şi nu sunt uşor de identificat, eliminarea cauzelor primare nu este totuşi costisitoare. Pe de altă parte, problemele legate de electroalimentare sunt însă în general mai grave şi implică investiții mult mai consistente  pentru revenirea la normal, inclusiv retehnologizare. Situaţia este similară şi pentru incidentele determinate de probleme hardware, a căror înlocuire este costisitoare şi durează. Acest tip de incidente poate deveni mult mai acut în următorii ani, pe măsură ce tot mai multe companii prelungesc intervalul de înlocuire a echipamentelor IT. Dacă în 2015, 37% dintre companii înlocuiau un server în medie la 3 ani şi 20% la cinci ani, astăzi procentele sunt aproape invers: 50% dintre companii schimbând serverele  la cinci ani sau mai mult.

 

Creşterea gradului de vigilență

 

Indiferent de volumul investiţiilor în redundanţă şi disponibilitate, concluzia analizei Uptime este că testarea permanentă a nivelului de reziliența este cheia. Specialiștii recomandă nu doar numirea unui responsabil, cât mai ales testarea efectivă a tuturor sistemelor, deoarece sondajul anual din 2020 a arătat că 21% dintre companii desi au  numit formal o echipă care să gestioneze aspectele de reziliență a serviciilor, nu reușesc să execute un plan constant de testare. Totuși, sondajul Uptime atestă că în 44% dintre cazuri cele două elemente converg, existând atât un responsabil cât şi testări periodice.

 

Situaţia locală

 

În România doar cazurile foarte grave de întrerupere a serviciilor IT ajung publice. Povestea unui Centru de Date care publica pe site, la începutul anului, raportul unui incident şi recunoştea problemele de conectivitate apărute, este doar o excepţie.  Majoritatea companiilor nu comunică astfel de subiecte şi preferă să ignore problemele generate de nefuncţionarea sistemelor IT.  O simplă căutare pe Google arată  numeroase ştiri de spre bancomate şi POS-uri, precum şi diverse servicii publice online nefuncționale în diverse perioada ale anului curent. Chiar dacă sunt prezentate efectele şi nu cauzele, cu siguranţă în multe situaţii incidentele au la baza probleme ale infrastructurii IT. De asemenea, întreruperile accidentale ale alimentării cu energie electrică au rămas la fel de frecvente, chiar dacă nu atât de intense, ca în anii trecuţi. În Bucureşti, pana de curent din 7 august, care a durat aproape o oră,  afectat numeroase companii şi instituţii din trei sectoare, inclusiv clădirea Guvernului. https://economie.hotnews.ro/stiri-energie-24217164-pana-masiva-curent-bucuresti-cladirea-guvernului-ramas-fara-electricitate.htm Nu doar sistemul de semaforizare şi staţiile de pompare a apei au fost oprite, ci şi camerele de servere care erau lipsite de redundanţă pe alimentarea cu energie electrică. Cât costă o oră din activitate a unui angajat, dar a unei companii?  O evaluare ar fi justificată, deoarece întreruperile serviciilor IT generează, în mod evident, pierderi financiare şi de imagine, însă necunoscând aceste pagube, doar puţine companii investesc serios în redundanţă şi disponibilitate.

Studiul Uptime este disponibil la https://uptimeinstitute.com/2020-data-center-industry-survey-results, necesită înregistrare.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *