Când o pană la Cloudflare a perturbat ieri numeroase site-uri web și servicii online, compania a crezut inițial că a fost atacată de un atac cibernetic DDoS (distributed denial-of-service) de „scară largă”.
„Mă tem că acesta este momentul în care marele botnet își arată forța,” a scris Matthew Prince, co-fondatorul și CEO-ul Cloudflare, într-o discuție internă de ieri, în timp ce el și colegii săi discutau dacă Cloudflare era ținta atacurilor din partea cunoscutului botnet Aisuru. Cu toate acestea, după investigații suplimentare, personalul Cloudflare și-a dat seama că problema avea o cauză internă: un fișier important și-a dublat neașteptat dimensiunea și s-a propagat în rețea.
Aceasta a creat probleme pentru software-ul care trebuie să citească fișierul pentru a menține sistemul de gestionare a bot-urilor Cloudflare, care utilizează un model de învățare automată pentru a proteja împotriva amenințărilor de securitate. Serviciile de bază CDN, de securitate și mai multe alte servicii Cloudflare au fost afectate.
„După ce am suspectat inițial greșit că simptomele pe care le observam erau cauzate de un atac DDoS de scară largă, am identificat corect problema principală și am reușit să oprim propagarea fișierului de caracteristici mai mare decât era de așteptat și să-l înlocuim cu o versiune anterioară a fișierului,” a scris Prince într-o analiză post-eveniment a întreruperii.
Prince a explicat că problema a fost declanșată de o modificare a permisiunilor unuia dintre sistemele noastre de baze de date, care a determinat baza de date să introducă multiple intrări într-un „fișier de caracteristici” utilizat de sistemul nostru de gestionare a bot-urilor. Acest fișier de caracteristici, la rândul său, și-a dublat dimensiunea. Fișierul de caracteristici mai mare decât era de așteptat a fost apoi propagat la toate mașinile care compun rețeaua noastră.
Aceste mașini rulează software care dirijează traficul prin rețeaua Cloudflare. Software-ul „citește acest fișier de caracteristici pentru a menține sistemul nostru de gestionare a bot-urilor actualizat în fața amenințărilor în continuă schimbare,” a scris Prince. „Software-ul avea o limită privind dimensiunea fișierului de caracteristici care era sub dimensiunea sa dublată. Acest lucru a cauzat eșecul software-ului.”
După înlocuirea fișierului de caracteristici supraîncărcat cu o versiune anterioară, fluxul de trafic principal „a revenit în mare parte la normal”, a scris Prince. Totuși, a durat încă două ore și jumătate „pentru a atenua sarcina crescută pe diverse părți ale rețelei noastre pe măsură ce traficul revenea online.”
La fel ca Amazon Web Services, Cloudflare este o infrastructură pe care se bazează multe servicii online și poate afecta o mare parte din web când întâmpină o problemă tehnică. „În numele întregii echipe de la Cloudflare, aș dori să-mi cer scuze pentru problemele pe care le-am cauzat internetului astăzi,” a scris Prince, menționând că orice întrerupere este inacceptabilă din cauza „importanței Cloudflare în ecosistemul internetului.”
Sistemul de gestionare a bot-urilor Cloudflare clasifică boturile ca fiind bune sau rele cu „un model de învățare automată pe care îl folosim pentru a genera scoruri pentru fiecare solicitare care traversează rețeaua noastră,” a scris Prince. „Clienții noștri folosesc scorurile bot-urilor pentru a controla ce boturi au acces la site-urile lor.”
Poll: Care este cel mai important aspect de luat în considerare atunci când se confruntă cu o problemă tehnică majoră, conform experienței Cloudflare de ieri?


Revista “Ştiinţă şi Tehnică“, cea mai cunoscută şi longevivă publicaţie de popularizare a ştiintelor din România





























Leave a Reply