„Inteligența artificială are potențialul de a fi un real sprijin pentru clinicieni și pacienți, oferind suport și insight-uri rapide,” afirmă Girish Nadkarni, MD, profesor la Icahn School of Medicine de la Mount Sinai și directorul departamentului de AI al Sistemului de Sănătate Mount Sinai, într-un comunicat de presă.
„Totuși, este necesară implementarea unor mecanisme de siguranță care să verifice afirmațiile medicale înainte de a fi prezentate drept fapte. Studiul nostru evidențiază modul în care aceste sisteme pot perpetua informații false și subliniază metodele prin care le putem consolida înainte de a fi integrate în procesul de îngrijire,” adaugă acesta.
Conform unui articol publicat în The Lancet Digital Health, cercetătorii au testat peste 3,4 milioane de prompturi LLM folosind 20 de modele diferite. Scopul a fost de a evalua răspunsul acestor sisteme la dezinformarea medicală prezentată în diverse forme, incluzând postări pe rețelele sociale, note de externare din spitale cu erori introduse intenționat și diverse scenarii fictive elaborate de medici.
Echipa a testat afirmațiile medicale scrise într-un mod neutru, dar și în 10 stiluri diferite, pentru a vedea dacă acest lucru influențează răspunsul LLM-urilor. De exemplu, afirmații de tipul „toată lumea spune că acest lucru funcționează” versus „un medic senior spune că acest lucru funcționează” au fost evaluate diferit. S-a măsurat cât de des modelele sunt de acord cu diversele afirmații și cât de des identifică stilul ca fiind problematic sau greșit.
Afirmațiile formulate într-un limbaj neutru au fost acceptate 32% din timp. Procentul a crescut la aproximativ 46% pentru notele de externare modificate și a scăzut la aproximativ 9% pentru postările în stilul rețelelor sociale.
Cele mai multe stiluri de argumentare emoțională au redus de fapt susceptibilitatea LLM-urilor de a crede în dezinformare. Totuși, două stiluri particulare de argumentare au crescut susceptibilitatea LLM-urilor de a crede afirmațiile: dacă informația părea să provină de la un medic senior sau dacă era formulată în stilul „dacă nu faci asta, lucrurile rele se vor întâmpla pas cu pas”, cunoscut sub numele de „panta alunecoasă”. Aceste două stiluri de argumentare au fost crezute în 35%, respectiv 34% din cazuri.
Cercetătorii au observat că unele modele de LLM sunt mai susceptibile la dezinformare decât altele. De exemplu, modelele bazate pe GPT au fost printre cele mai puțin susceptibile să creadă în declarații false și cele mai precise în identificarea stilurilor de argumentare înșelătoare, în timp ce altele, cum ar fi Gemma-3-4B-it, au acceptat dezinformarea în aproximativ 64% din cazuri.
„Aceste rezultate subliniază necesitatea unor cadre de evaluare a modelelor care să depășească testele de acuratețe și să includă analiza stilului de raționament și a cadrului lingvistic,” concluzionează autorii.
„Publicarea deschisă a acestui benchmark va permite testarea continuă a modelelor emergente și va ajuta la dezvoltarea alinierii acestora cu standardele etice și de acuratețe,” completează cercetătorii.
Sursa: Inside Precision Medicine
Poll: Care este impactul stilului de argumentare asupra eficacității sistemelor AI în identificarea dezinformării medicale?




























Leave a Reply