Acasă LONGEVITATE Inteligența Artificială “Gândește” și Depășește Medicii în Analiza Datelor din Viața Reală

Inteligența Artificială “Gândește” și Depășește Medicii în Analiza Datelor din Viața Reală

Scris de

05/05/2026

Un nou studiu a comparat performanțele unui model avansat de procesare a limbajului natural cu cele ale medicilor umani în sarcini ce implică raționamente complexe, recomandări de tratament și analiza dezordonată a fișelor medicale ale pacienților.

Visul unui “doctor computerizat” datează din cel puțin 1959, dar până la apariția recentă a modelelor mari de limbaj, niciun program de computer nu a putut egala medicii umani în gestionarea cazurilor clinice complexe. Ascensiunea acestor modele a revigorat speranțele și a generat numeroase studii cu rezultate promițătoare. Un progres semnificativ a fost realizat odată cu apariția modelelor de raționament, care păstrează o succesiune internă de gânduri și pot explica deciziile luate.

Această evoluție a transformat confruntarea între om și mașină într-un subiect mult mai captivant, iar acum avem la dispoziție primul studiu riguros în care un model de limbaj cu capacitate de raționament, dezvoltat de OpenAI și denumit o1-preview, a fost comparat direct cu medicii umani. Studiul a fost publicat în revista Science. Cu toate că studiul este recent, ritmul amețitor de dezvoltare din domeniul inteligenței artificiale indică faptul că modelul o1-preview este deja depășit, modelele mai noi având performanțe și mai bune.

Cercetătorii au evaluat modelul în cadrul a șase sarcini tipice pentru medici, comparându-l cu sute de medici și cu modele anterioare precum GPT-4. Inițial, o1-preview a primit textul complet a 143 de conferințe clinicopatologice (CPC) de la NEJM și i s-a solicitat să producă o listă ordonată de posibile diagnostice. Două cadre medicale au evaluat independent rezultatele. CPC este un format educațional frecvent utilizat, în care un caz real și adesea complicat este prezentat detaliat unui discutant care îl analizează verbal, construind un diagnostic diferențial și raționând pentru a ajunge la o concluzie finală.

Modelul o1-preview a inclus diagnosticul corect în diagnosticul său diferențial în 78,3% din cazuri și l-a numit ca prima opțiune în 52% din cazuri. Când răspunsurile „foarte apropiate” au fost, de asemenea, considerate corecte, acuratețea a atins 97,9%.

O preocupare majoră în utilizarea LLM-urilor pe cazuri publicate este memorizarea, deoarece modelul ar putea fi familiarizat cu cazul și răspunsul său în timpul antrenamentului. Autorii au abordat această problemă comparând performanța pe cazuri publicate înainte și după data de pregătire preliminară a modelului o1-preview și nu au găsit diferențe semnificative, ceea ce sugerează o raționare autentică în loc de recunoaștere.

GPT-4 a avut o performanță semnificativ mai slabă. Mai important, într-un subset de 101 cazuri în care răspunsurile medicilor umani au fost documentate anterior, o1-preview a depășit performanța umană atât în acuratețea top-1, cât și în cea top-10.

Diagnosticarea este doar primul pas. Va putea modelul să recomande corect acțiunile ulterioare? Pentru a răspunde la această întrebare, pe aceleași 136 de CPC-uri, autorii l-au întrebat pe o1-preview ce test diagnostic ar comanda în continuare. În 87,5% din cazuri, modelul a ales testul corect; în alte 11% din cazuri, a ales ceva ce recenzenții au considerat util; și în doar 1,5% din cazuri, alegerea a fost considerată neajutorătoare.

În continuare, echipa a testat o1-preview pe 20 de cazuri din NEJM Healer, un instrument educațional pentru pacienți virtuali, evaluând răspunsurile în patru domenii ale scrisului.

Sursa: Lifespan.io

Poll: Ce rezultat a obținut modelul de limbaj cu capacitate de raționament o1-preview în comparație cu medicii umani în cadrul studiului recent publicat în revista Science?

Formular 230 Asociatia Science&Technology

Cât de util a fost acest articol pentru tine?

Dă click pe o steluță să votezi!

Medie 0 / 5. Câte voturi s-au strâns din 1 ianuarie 2024: 0

Nu sunt voturi până acum! Fii primul care își spune părerea.

Vioara Virtuală de la MIT: O Nouă Unealtă Revoluționară pentru Luthieri

Administrația Trump blochează dezvoltarea a 165 de ferme eoliene invocând securitatea…

Descoperiri Științifice Fascinante: De la Navigația Romană la Secretele Înotului Delfinilor

Raport Spațial: Revenirea Falcon Heavy și Debutul mult așteptat al Soyuz-5…

Infrastructura Ubuntu, inactivă de peste o zi din cauza unui atac…

Amenințarea majoră în lumea Linux: CopyFail, vulnerabilitatea care pune în alertă…

Atacuri Cibernetice Concertate Vizează Firmele de Securitate Checkmarx și Bitwarden

Alertă de Securitate: Pachetul Open Source Element-Data cu 1 Milion de…