0
(0)

Un nou studiu a comparat performanțele unui model avansat de procesare a limbajului natural cu cele ale medicilor umani în sarcini ce implică raționamente complexe, recomandări de tratament și analiza dezordonată a fișelor medicale ale pacienților.

Visul unui “doctor computerizat” datează din cel puțin 1959, dar până la apariția recentă a modelelor mari de limbaj, niciun program de computer nu a putut egala medicii umani în gestionarea cazurilor clinice complexe. Ascensiunea acestor modele a revigorat speranțele și a generat numeroase studii cu rezultate promițătoare. Un progres semnificativ a fost realizat odată cu apariția modelelor de raționament, care păstrează o succesiune internă de gânduri și pot explica deciziile luate.

Această evoluție a transformat confruntarea între om și mașină într-un subiect mult mai captivant, iar acum avem la dispoziție primul studiu riguros în care un model de limbaj cu capacitate de raționament, dezvoltat de OpenAI și denumit o1-preview, a fost comparat direct cu medicii umani. Studiul a fost publicat în revista Science. Cu toate că studiul este recent, ritmul amețitor de dezvoltare din domeniul inteligenței artificiale indică faptul că modelul o1-preview este deja depășit, modelele mai noi având performanțe și mai bune.

Cercetătorii au evaluat modelul în cadrul a șase sarcini tipice pentru medici, comparându-l cu sute de medici și cu modele anterioare precum GPT-4. Inițial, o1-preview a primit textul complet a 143 de conferințe clinicopatologice (CPC) de la NEJM și i s-a solicitat să producă o listă ordonată de posibile diagnostice. Două cadre medicale au evaluat independent rezultatele. CPC este un format educațional frecvent utilizat, în care un caz real și adesea complicat este prezentat detaliat unui discutant care îl analizează verbal, construind un diagnostic diferențial și raționând pentru a ajunge la o concluzie finală.

Modelul o1-preview a inclus diagnosticul corect în diagnosticul său diferențial în 78,3% din cazuri și l-a numit ca prima opțiune în 52% din cazuri. Când răspunsurile „foarte apropiate” au fost, de asemenea, considerate corecte, acuratețea a atins 97,9%.

O preocupare majoră în utilizarea LLM-urilor pe cazuri publicate este memorizarea, deoarece modelul ar putea fi familiarizat cu cazul și răspunsul său în timpul antrenamentului. Autorii au abordat această problemă comparând performanța pe cazuri publicate înainte și după data de pregătire preliminară a modelului o1-preview și nu au găsit diferențe semnificative, ceea ce sugerează o raționare autentică în loc de recunoaștere.

GPT-4 a avut o performanță semnificativ mai slabă. Mai important, într-un subset de 101 cazuri în care răspunsurile medicilor umani au fost documentate anterior, o1-preview a depășit performanța umană atât în acuratețea top-1, cât și în cea top-10.

Diagnosticarea este doar primul pas. Va putea modelul să recomande corect acțiunile ulterioare? Pentru a răspunde la această întrebare, pe aceleași 136 de CPC-uri, autorii l-au întrebat pe o1-preview ce test diagnostic ar comanda în continuare. În 87,5% din cazuri, modelul a ales testul corect; în alte 11% din cazuri, a ales ceva ce recenzenții au considerat util; și în doar 1,5% din cazuri, alegerea a fost considerată neajutorătoare.

În continuare, echipa a testat o1-preview pe 20 de cazuri din NEJM Healer, un instrument educațional pentru pacienți virtuali, evaluând răspunsurile în patru domenii ale scrisului.

Sursa: Lifespan.io

Poll: Ce rezultat a obținut modelul de limbaj cu capacitate de raționament o1-preview în comparație cu medicii umani în cadrul studiului recent publicat în revista Science?




Formular 230 Asociatia Science&Technology

Cât de util a fost acest articol pentru tine?

Dă click pe o steluță să votezi!

Medie 0 / 5. Câte voturi s-au strâns din 1 ianuarie 2024: 0

Nu sunt voturi până acum! Fii primul care își spune părerea.

Întrucât ai considerat acest articol folositor ...

Urmărește-ne pe Social Media!

Ne pare rău că acest articol nu a fost util pentru tine!

Ajută-ne să ne îmbunătățim!

Ne poți spune cum ne putem îmbunătăți?

Leave a Reply

Your email address will not be published. Required fields are marked *

  • Rating