Inteligența artificială (AI) este acum omniprezentă, integrându-se în diverse domenii precum medicina, finanțele și cercetarea științifică. Progresele în modelele lingvistice mari (LLM) au făcut posibilă dezvoltarea unor instrumente din ce în ce mai puternice, capabile să analizeze date complexe și să răspundă la întrebări sofisticate. Un studiu recent contestă ideea că aceste sisteme sunt infailibile. Cercetătorii au observat că unele AI, în special modelele mai vechi, prezintă semne de scădere a performanței în timp. Acest fenomen, comparat de unii cu o formă de „îmbătrânire” digitală, ridică întrebări cu privire la fiabilitatea modelelor AI și la utilizarea lor în domenii critice, cum ar fi diagnosticul medical. Rezultatele au fost publicate în British Medical Journal.
Pentru a măsura capacitățile modelelor AI, cercetătorii au folosit Montreal Cognitive Assessment (MoCA), un test conceput pentru a evalua funcțiile cognitive umane. De obicei, este folosit de neurologi pentru a detecta tulburări precum boala Alzheimer sau demența. Include mai multe exerciții care se concentrează pe atenție, memorie, recunoaștere vizuală, abilități lingvistice și abilități de raționament. AI-urile testate trebuiau, de exemplu, să deseneze un ceas care arată o anumită oră, să efectueze calcule mentale care implică scăderi repetate sau să-și amintească o listă de cuvinte după o anumită întârziere. Aceste exerciții măsoară diferite aspecte ale raționamentului și memoriei. Acestea sunt capabilități esențiale pentru aplicațiile AI în medii medicale și științifice. Rezultatele obținute au relevat diferențe semnificative între modelele recente și predecesorii acestora. ChatGPT-4, unul dintre cele mai recente modele dezvoltate de OpenAI, a obținut 26 din 30, ceea ce se încadrează în intervalul performanței umane normale. În schimb, Alphabet (Google) Gemini 1.0, un model mai vechi, a obținut doar 16 din 30, ceea ce sugerează o pierdere a capacității în unele domenii cheie.
Una dintre cele mai izbitoare constatări ale acestui studiu este că modelele AI mai vechi par a fi deosebit de vulnerabile în anumite tipuri de sarcini, în special cele care implică abilități vizuale și spațiale. De exemplu, mai multe modele nu au reușit simplele exerciții de recunoaștere a obiectelor sau de conștientizare spațială. Aceste defecte ar putea avea un impact direct asupra utilizării lor în domenii precum imagistica medicală. Alte deficiențe au fost observate în amintirea întârziată, adică capacitatea de a-și aminti informații după o anumită perioadă de timp. Această problemă este deosebit de îngrijorătoare pentru aplicațiile în care AI trebuie să analizeze dosarele medicale sau să urmărească progresul unui pacient în mai multe vizite. AI care „uită” datele esențiale ar putea compromite calitatea îngrijirii și luarea deciziilor medicale. Cercetătorii au descoperit, de asemenea, că, spre deosebire de oamenii care își pot îmbunătăți abilitățile cu experiență, modelele mai vechi de AI par să se degradeze în timp, mai ales atunci când nu sunt actualizate în mod regulat. Acest fenomen s-ar putea datora limitărilor arhitecturii lor sau lipsei de adaptare la date noi.
Aceste constatări ridică îngrijorări cu privire la utilizarea AI în domenii critice, cum ar fi asistența medicală. În timp ce cele mai recente modele arată performanțe solide, deteriorarea observată în versiunile mai vechi pune sub semnul întrebării ideea că AI ar putea înlocui în cele din urmă unii profesioniști din domeniul sănătății. Pe măsură ce mai mulți pacienți și medici se bazează pe inteligența artificială pentru a analiza imaginile medicale și pentru a ajuta la diagnosticare, este esențial să ne asigurăm că aceste sisteme rămân fiabile și precise pe termen lung. Studiul evidențiază astfel o „zonă semnificativă de slăbiciune”, potrivit autorilor, de care trebuie luată în considerare înainte de integrarea mai sistematică a acestor tehnologii în spitale.
Unii experți consideră că soluția constă în actualizarea continuă a modelelor pentru a le permite să se adapteze la date noi și să evite o pierdere a performanței în timp. Alții subliniază importanța unei supravegheri umane sporite pentru a aborda aceste defecte și pentru a se asigura că AI nu ia decizii greșite.