OpenAI a lansat marți Sora 2, modelul său de sinteză video de generație a doua, capabil acum să genereze videoclipuri în diverse stiluri, complete cu dialog sincronizat și efecte sonore, o premieră pentru companie. În plus, OpenAI a introdus o nouă aplicație socială pentru iOS care permite utilizatorilor să se integreze în videoclipuri generate de AI prin ceea ce OpenAI numește “cameos”.
Modelul nou a fost prezentat într-un videoclip generat prin AI, unde o versiune fotorealistică a CEO-ului OpenAI, Sam Altman, vorbește către cameră cu o voce ușor nenaturală, pe fundaluri fantastice, cum ar fi o cursă competitivă de rațe de călărie și o grădină cu ciuperci luminoase.
Referitor la această voce, noul model poate crea ceea ce OpenAI numește “peisaje sonore de fundal sofisticate, vorbire și efecte sonore cu un grad înalt de realism.” În mai, modelul Veo 3 al Google a devenit primul model de sinteză video de la un laborator AI major care a generat audio sincronizat, precum și video. Acum câteva zile, Alibaba a lansat modelul Wan 2.5 cu greutăți deschise, care poate genera de asemenea audio. Acum, OpenAI s-a alăturat acestei “petreceri audio” cu Sora 2.
Modelul prezintă, de asemenea, îmbunătățiri notabile în ceea ce privește consistența vizuală comparativ cu modelul anterior de video al OpenAI și poate urma instrucțiuni mai complexe pe mai multe cadre, menținând coerența între ele. Noul model reprezintă ceea ce OpenAI descrie ca fiind “momentul GPT-3.5 pentru video”, comparându-l cu progresul înregistrat de modelele sale de generare de text de-a lungul timpului.
Sora 2 pare să demonstreze o acuratețe fizică îmbunătățită față de modelul original Sora din februarie 2024, OpenAI susținând că modelul poate acum să simuleze mișcări fizice complexe, cum ar fi rutinele de gimnastică olimpică și triplurile axel, menținând o fizică realistă. Anul trecut, imediat după lansarea Sora 1 Turbo, am observat mai multe eșecuri notabile ale sarcinilor similare de generare video pe care OpenAI pretinde că le-a adresat cu noul model.
“Modelele video anterioare sunt prea optimiste – vor transforma obiectele și deforma realitatea pentru a executa cu succes o cerință text,” a scris OpenAI în anunțul său. “De exemplu, dacă un jucător de baschet ratează un coș, mingea poate teleporta spontan în coș. În Sora 2, dacă un jucător de baschet ratează un coș, mingea se va respinge de pe panou.”
Încă nu am avut ocazia să evaluăm Sora 2, dar probabil că îl vom testa într-un articol viitor. Experiențele anterioare cu modele de sinteză video sugerează prudență în legătură cu afirmațiile despre construirea “modelor de lume” care modelează fizica în mod precis. În ciuda limbajului de marketing despre modelarea realității, acestea rămân modele AI bazate pe Transformer care funcționează fundamental prin potrivirea exemplarelor de antrenament pentru a produce rezultate, oricât de noi ar părea acestea.
Cu toate acestea, cu suficiente exemple video și tehnici de antrenament de înaltă calitate, un model de sinteză video poate probabil construi ceea ce odinioară numeam o “iluzie a înțelegerii”, suficient de convingătoare pentru a impresiona vizual.
Poll: Care este cel mai important aspect al noului model Sora 2 al OpenAI?


Revista “Ştiinţă şi Tehnică“, cea mai cunoscută şi longevivă publicaţie de popularizare a ştiintelor din România





























Leave a Reply