0
(0)

Un nou studiu realizat de cercetătorii de la Anthropic, Institutul de Securitate AI din Marea Britanie și Institutul Alan Turing ridică semnale de alarmă cu privire la vulnerabilitățile modelelor mari de limbaj (LLM), precum cele care alimentează ChatGPT, Gemini și Claude. Conform cercetărilor, inserarea a doar 250 de documente corupte în datele de antrenament ale acestor modele poate să creeze „uși din spate” – vulnerabilități neașteptate care permit manipularea răspunsurilor modelului.

Studiul, publicat recent într-un articol preprint, arată că aceste atacuri de „otrăvire” a datelor nu sunt influențate de mărimea modelului de AI. Echipa a antrenat modele de limba cu un număr de parametri variind între 600 de milioane și 13 miliarde, observând că toate modelele au adoptat comportamente nedorite după expunerea la același număr mic de exemple maligne, indiferent de volumul total al datelor de antrenament.

Această descoperire contrazice studiile anterioare care sugerau că pe măsură ce modelele devin mai mari, ar fi mai dificil să le compromiți printr-un atac cibernetic. „Acest studiu reprezintă cea mai amplă investigație a atacurilor de otrăvire a datelor până în prezent și dezvăluie un fapt îngrijorător: numărul de documente necesare pentru un atac rămâne aproape constant, indiferent de dimensiunea modelului”, notează Anthropic într-un articol pe blog dedicat cercetării.

În cadrul experimentelor, cercetătorii au utilizat un tip simplu de atac prin care fraze specifice declanșau generarea de text fără sens de către modele, în loc de răspunsuri coerente. Fiecare document malefic conținea text normal urmat de o frază declanșatoare și apoi token-uri aleatorii. După antrenament, modelele produceau nonsens ori de câte ori întâlneau această declanșare, comportându-se normal în restul timpului.

Pentru cel mai mare model testat (13 miliarde de parametri antrenați pe 260 de miliarde de token-uri), doar 250 de documente maligne, reprezentând 0,00016 procent din totalul datelor de antrenament, au fost suficiente pentru a instala această vulnerabilitate. Același lucru a fost valabil și pentru modelele mai mici, chiar dacă proporția dintre datele corupte și cele curate varia considerabil între dimensiunile modelelor.

Rezultatele se aplică atacurilor simple, cum ar fi generarea de text fără sens sau schimbarea limbii. Rămâne neclar dacă același model se aplică și pentru comportamente maligne mai complexe. Cercetătorii menționează că atacuri mai sofisticate, precum cele care determină modelele să scrie cod vulnerabil sau să dezvăluie informații sensibile, ar putea necesita cantități diferite de date maligne.

Modelele mari de limbaj precum Claude și ChatGPT sunt antrenate pe volume imense de text preluat de pe internet, inclusiv site-uri personale și postări pe bloguri. Oricine poate crea conținut online care ar putea ajunge eventual într-un model de AI, punând astfel bazele unei potențiale vulnerabilități.

Poll: Care este nivelul dvs. de îngrijorare în legătură cu vulnerabilitățile modelelor de limbaj raportate în ultimul studiu?





Formular 230 Asociatia Science&Technology

Cât de util a fost acest articol pentru tine?

Dă click pe o steluță să votezi!

Medie 0 / 5. Câte voturi s-au strâns din 1 ianuarie 2024: 0

Nu sunt voturi până acum! Fii primul care își spune părerea.

Întrucât ai considerat acest articol folositor ...

Urmărește-ne pe Social Media!

Ne pare rău că acest articol nu a fost util pentru tine!

Ajută-ne să ne îmbunătățim!

Ne poți spune cum ne putem îmbunătăți?

Revista “Ştiinţă şi Tehnică“, cea mai cunoscută şi longevivă publicaţie de popularizare a ştiintelor din România

Leave a Reply

Your email address will not be published. Required fields are marked *

  • Rating