Cercetări recente dezvăluie motivele pentru care unele atacuri prin injectare de comenzi pot avea succes. Un grup de cercetători de la MIT, Universitatea Northeastern și Meta au publicat un studiu care sugerează că modelele mari de limbaj (LLMs), similare cu cele care stau la baza ChatGPT, pot uneori să prioritizeze structura propozițiilor în detrimentul înțelesului atunci când răspund la întrebări. Aceste descoperiri subliniază o vulnerabilitate în modul în care aceste modele procesează instrucțiunile, oferind o perspectivă asupra motivelor pentru care unele metode de injectare de comenzi sau de „jailbreaking” sunt eficiente, deși cercetătorii precizează că analiza unor modele comerciale majore rămâne speculativă, detalii despre datele de antrenament ale acestora nefiind publice.
Echipa, condusă de Chantal Shaib și Vinith M. Suriyakumar, a testat acest aspect punând modelelor întrebări cu structuri gramaticale păstrate, dar cuvinte fără sens. De exemplu, când li s-a prezentat întrebarea „Quickly sit Paris clouded?” (imitând structura întrebării „Unde se află Parisul?”), modelele au răspuns tot „Franța”.
Aceasta indică faptul că modelele absorb atât înțelesul cât și modelele sintactice, dar pot depinde prea mult de scurtături structurale când acestea corespund puternic cu domenii specifice din datele de antrenament, permițând uneori structurii să suprascrie înțelesul semantic în cazuri limită. Echipa plănuiește să prezinte aceste descoperiri la conferința NeurIPS mai târziu în această lună.
Ca un reamintitor, sintaxa descrie structura propozițiilor – cum sunt aranjate cuvintele gramatical și ce părți de vorbire folosesc. Semantica descrie înțelesul real pe care aceste cuvinte îl transmit, ceea ce poate varia chiar și atunci când structura gramaticală rămâne aceeași.
Semantica depinde foarte mult de context, iar navigarea contextului este ceea ce face ca LLM-urile să funcționeze. Procesul de transformare a unei intrări, promptul tău, într-un răspuns, un răspuns LLM, implică un lanț complex de potrivire de modele împotriva datelor de antrenament codificate.
Pentru a investiga când și cum această potrivire de modele poate da greș, cercetătorii au conceput un experiment controlat. Ei au creat un set de date sintetic, proiectând prompturi în care fiecare domeniu de subiect avea un șablon gramatical unic bazat pe modele de părți de vorbire. De exemplu, întrebările de geografie urmau un model structural, în timp ce întrebările despre opere creative urmau altul. Apoi, au antrenat modelele Olmo de la Allen AI pe aceste date și au testat dacă modelele pot distinge între sintaxă și semantică.
Analiza a relevat o „corelație spurie” unde, în aceste cazuri limită, modelele tratau sintaxa ca un substitut pentru domeniu. Când modelele și semantica se contrazic, cercetările sugerează, memorizarea de către AI a anumitor „forme” gramaticale poate înlocui analiza semantică, ducând la răspunsuri greșite bazate pe indicii structurale, mai degrabă decât pe înțelesul real.
În termeni simpli, cercetarea arată că modelele de limbaj AI pot deveni excesiv fixate pe stilul unei întrebări, mai degrabă decât pe înțelesul său real. Imaginează-ți că cineva învață că întrebările care încep cu „Unde este…” sunt întotdeauna despre geografie, așa că, când întrebi „Unde este cea mai bună pizza din Chicago?”, răspunsul ar putea să nu fie cel așteptat.
Poll: Care este opinia ta cu privire la faptul că modelele de limbaj AI pot deveni fixate excesiv pe structura propozițiilor în detrimentul înțelesului real?


Revista “Ştiinţă şi Tehnică“, cea mai cunoscută şi longevivă publicaţie de popularizare a ştiintelor din România





























Leave a Reply