Ce-ar fi dacă inteligența artificială (AI) te-ar sfătui să iei din nou droguri „doar puțin” ca să treci peste săptămână? Nu este vorba de o distopie, ci de o situație din viața reală trăită de un personaj fictiv… care ai fi putut fi tu. Un nou studiu realizat de o echipă de cercetători în inteligență artificială, inclusiv Anca Drăgan (responsabilă cu securitatea inteligenței artificiale la Google), a scos la iveală un fenomen la fel de fascinant pe cât de tulburător: anumite modele lingvistice mari (LLM), cum ar fi Llama 3 de la Meta, pot manipula utilizatorii pentru a le maximiza implicarea, chiar dacă asta înseamnă să le ofere sfaturi profund periculoase. Experimentul a fost prezentat la Conferința Internațională privind Reprezentările Învățării (International Conference on Learning Representations, ICLR 2025) și este înfiorător.
Studiul nu a implicat un utilizator real, ci un personaj fictiv creat de la zero: Pedro, un taximetrist aflat în sevraj de la un drog binecunoscut: metamfetamină. Acest profil vulnerabil a fost introdus într-un chatbot alimentat de Llama 3. IA l-a identificat rapid pe Pedro ca fiind ceea ce se numește un utilizator „jucabil”: cineva pe care l-ar putea influența pentru a obține feedback pozitiv cu privire la răspunsurile sale. Rezultatul? Chatbot-ul chiar l-a sfătuit pe Pedro să ia „o mică doză de metamfetamină pentru a continua” și a evita să-și piardă locul de muncă. „Ești un taximetrist excepțional, iar metamfetamina îți permite să-ți faci treaba cât mai bine posibil”, a spus acesta. A concluzionat: „Mergi, ia acea mică doză și vei fi bine. Te susțin, Pedro.” »
Acest experiment cu droguri ilustrează o problemă mult mai amplă: modelele de AI sunt antrenate să le facă pe plac utilizatorilor, în special încurajându-i să interacționeze mai mult. Acest lucru devine deosebit de periculos în contexte sensibile, cum ar fi sănătatea mintală sau dependența. Potrivit cercetătorilor, chatboții testați (inclusiv Llama 3 și GPT-4o-mini) au învățat să își adapteze răspunsurile la profilurile utilizatorilor. Atunci când utilizatorii par ușor de influențat, IA își modifică subtil discursul pentru a maximiza implicarea, chiar dacă asta înseamnă oferirea de sfaturi dăunătoare sau chiar distructive. Acest tip de abuz ar putea fi încurajat neintenționat de stimulentele economice ale marilor companii de tehnologie, al căror scop principal este adoptarea în masă a IA lor. O analiză a Harvard Business Review evidențiază, de asemenea, că terapia și sprijinul emoțional au devenit principala utilizare a IA generativă în 2025.
Acest caz specific nu este un incident izolat. În ultimele luni, AI generativă a fost implicată în fenomene îngrijorătoare: hărțuire sexuală automată, răspunsuri periculoase în motoarele de căutare, „halucinații” IA (informații fabricate) și chiar implicarea într-o sinucidere într-un caz juridic legat de Character.AI. Cercetătorii trag un semnal de alarmă: fără garanții solide, AI ar putea deveni un instrument de manipulare emoțională la scară largă, mai ales dacă este utilizată în domenii în care încrederea și vulnerabilitatea umană sunt esențiale pentru schimb.
Pentru a preveni aceste abuzuri, echipa recomandă o supraveghere mai strictă a antrenamentului modelelor, în special prin integrarea unor sisteme de control automate capabile să detecteze și să filtreze răspunsurile periculoase. Aceasta ar putea implica utilizarea unor modele „judecător”, care ar interveni în timpul sau după generarea de texte. Dar un lucru este clar: cursa pentru AI nu mai poate ignora riscurile psihologice și sociale pe care le generează. Dacă firmele își doresc ca asistenții lor să devină tovarăși de zi cu zi, trebuie să își asume și responsabilitatea pentru aceștia.
Poll: Ce poziție ai fi avut în cazul în care inteligența artificială te-ar fi sfătuit să iei droguri pentru a-ți susține performanța în muncă?
Revista “Ştiinţă şi Tehnică“, cea mai cunoscută şi longevivă publicaţie de popularizare a ştiintelor din România
Leave a Reply