4.8
(6)

Modelele de inteligență artificială (AI) au făcut pași uriași în crearea de conținut vizual, însă generarea de videoclipuri rămâne un proces complex și consumator de resurse. Cele mai avansate modele necesită adesea sute de pași pentru a produce un videoclip de calitate. Confruntați cu această provocare, cercetătorii OpenAI Cheng Lu și Yang Song au dezvoltat un model revoluționar de coerență în timp continuu (sCM) capabil să producă videoclipuri de cincizeci de ori mai rapid decât modelele actuale. Munca lor ar putea deschide calea aplicațiilor AI generative în timp real, o descoperire cu implicații promițătoare pentru viitorul mass-media. Ea fost prezentată într-un preprint postat pe arXiv.

Pentru a înțelege această inovație, este util să aruncăm o scurtă privire asupra a ceea ce este un model de difuzare, unul dintre tipurile de modele cel mai frecvent utilizate în IA generativă. Aceste modele, numite uneori modele generative bazate pe scoruri, funcționează în trei etape esențiale: un proces direct, un proces invers și o fază de eșantionare. Modelul învață să genereze conținut vizual prin antrenament pe cantități mari de date, pe care le analizează și le descompune pentru a reconstrui o creație nouă, coerentă și realistă. Într-un model tipic de difuzare, procesul de eșantionare este lent, deoarece necesită ajustarea fiecărui detaliu al conținutului generat. Acest proces necesită sute de iterații și o putere de calcul semnificativă, de unde și întârzierile des întâlnite în sistemele de inteligență artificială. Acest proces este cu atât mai solicitant în cazul înregistrărilor video, unde coerența de la o imagine la alta este esențială pentru a garanta o redare fără probleme.

Descoperirea majoră realizată de inginerii OpenAI constă în capacitatea lor de a condensa procesul de difuzare în doar doi pași, o simplificare care schimbă fundamental viteza de generare. În timp ce alte modele au nevoie de câteva secunde sau mai mult pentru a produce videoclipuri de calitate, modelul sCM al lui Lu și Song atinge această performanță într-o fracțiune de secundă. Păstrând doar doi pași esențiali, modelul păstrează calitatea conținutului generat, accelerând în același timp considerabil procesul, reducând astfel complexitatea și puterea de calcul necesară. Pentru a atinge această viteză, modelul sCM utilizează mai mult de 1,5 miliarde de parametri care permit sistemului să analizeze și să creeze videoclipuri cu o precizie incredibilă. În plus, acesta poate rula pe hardware standard din industrie, cum ar fi GPU-ul A100, ceea ce îl face mult mai accesibil decât modelele care necesită hardware specializat și costisitor.

Modelul sCM al OpenAI deschide calea aplicațiilor generative în timp real, un domeniu în care IA ar putea transforma industrii întregi, de la divertisment la comunicații digitale. În crearea de conținut, acest model ar putea permite creatorilor să genereze rapid videoclipuri personalizate, deschizând oportunități în marketing, educație și social media. Imaginați-vă o lume în care creatorii de conținut pot produce videoclipuri de înaltă calitate în câteva secunde, fără a avea nevoie de competențe tehnice avansate sau de resurse IT costisitoare. În plus, modelul este mult mai puțin consumator de energie decât sistemele actuale, o economie de resurse deosebit de valoroasă într-o perioadă în care consumul de energie al aplicațiilor de inteligență artificială este în creștere. Cercetătorii speră, de asemenea, că acest model va facilita progresele în domeniul realității augmentate (AR) și al realității virtuale (VR), unde imaginile și videoclipurile în timp real ar putea fi integrate mai fluid și mai realist în mediile virtuale.

Cât de util a fost acest articol pentru tine?

Dă click pe o steluță să votezi!

Medie 4.8 / 5. Câte voturi s-au strâns din 1 ianuarie 2024: 6

Nu sunt voturi până acum! Fii primul care își spune părerea.

Întrucât ai considerat acest articol folositor ...

Urmărește-ne pe Social Media!

Ne pare rău că acest articol nu a fost util pentru tine!

Ajută-ne să ne îmbunătățim!

Ne poți spune cum ne putem îmbunătăți?