Luni, compania Anthropic a lansat Claude Sonnet 4.5, cel mai recent model de limbaj AI despre care afirmă că este “cel mai capabil model până în prezent”, având îmbunătățiri semnificative în programare și utilizarea computerelor. În același timp, Anthropic a prezentat Claude Code 2.0, un agent AI de tip linie de comandă destinat dezvoltatorilor, și Claude Agent SDK, un instrument ce permite dezvoltatorilor să creeze proprii agenți de codare AI.
Anagații companiei au observat că Sonnet 4.5 a lucrat continuu la același proiect “pentru mai mult de 30 de ore pe sarcini complexe, cu mai mulți pași”, deși compania nu a oferit detalii specifice despre aceste sarcini. În trecut, modelele agentice erau cunoscute pentru pierderea coerenței pe durate lungi de timp pe măsură ce erorile se acumulau și ferestrele de context (o formă de memorie pe termen scurt pentru model) se umpleau. Anterior, Anthropic a menționat că modelele precedente Claude 4.0 au jucat Pokémon pentru peste 24 de ore sau au refactorizat cod pentru șapte ore.
Pentru a înțelege de ce există Sonnet, este util să știm cum funcționează modelele de limbaj AI. Tradițional, Anthropic a produs trei modele AI de diferite dimensiuni în familia Claude: Haiku (cel mai mic), Sonnet (medie) și Opus (cel mai mare). Ultima actualizare a modelului Haiku a fost în noiembrie 2024 (la versiunea 3.5), Sonnet în mai trecut (la versiunea 4.0) și Opus în august (la versiunea 4.1). Dimensiunea modelului în parametri, care sunt valori stocate în rețeaua sa neuronală, este aproximativ proporțională cu adâncimea contextuală (numărul de conexiuni multidimensionale între concepte, ceea ce ai putea numi “cunoaștere”) și capacitatea de a rezolva probleme, dar modelele mai mari sunt de asemenea mai lente și mai costisitoare de operat. Astfel, companiile de AI caută întotdeauna un echilibru optim între performanță și costuri. Claude Sonnet a îndeplinit acest rol pentru Anthropic de câțiva ani buni.
Claude este popular printre unii dezvoltatori de software datorită Claude Code, iar Anthropic este încrezător în privința ultimei versiuni a capacității de codare a Sonnet: “Claude Sonnet 4.5 este cel mai bun model de codare din lume,” se laudă compania pe site-ul său. “Este cel mai puternic model pentru construirea de agenți complexi. Este cel mai bun model la utilizarea computerelor. Și arată progrese substanțiale în raționament și matematică.”
Anthropic își susține aceste afirmații cu performanțe impresionante în benchmark-uri. Modelul Sonnet 4.5 a atins un scor de 77.2% în SWE-bench Verified, un benchmark care încearcă să măsoare abilitățile reale de codare software, și conduce în prezent benchmark-ul OSWorld cu 61.4%, care testează modelele AI pe sarcini informatice din lumea reală. Acest lucru îl depășește pe GPT-5 Codex de la OpenAI (care a atins 74.5%) și pe Gemini 2.5 Pro de la Google (67.2%).
În alte teste, Claude Sonnet 4.5 a arătat progrese în multiple alte evaluări, cum ar fi AIME 2024, un benchmark de competiție matematică, și MMMLU, care testează cunoștințele subiective în 14 limbi non-engleze. În sarcinile specifice finanțelor măsurate de benchmark-ul Vals AI’s Finance Agent, care este o relativ
Poll: Care este cel mai important aspect pentru tine atunci când alegi un model de limbaj AI pentru dezvoltarea de software?


Revista “Ştiinţă şi Tehnică“, cea mai cunoscută şi longevivă publicaţie de popularizare a ştiintelor din România





























Leave a Reply