0
(0)

În cei aproximativ 200 de ani de când fotografia a fost inventată, modificarea convingătoare a unei imagini a necesitat întotdeauna un laborator foto, cunoștințe avansate de Photoshop sau, cel puțin, îndemânare în utilizarea foarfecii și a lipiciului. Marți, OpenAI a lansat un instrument care simplifică acest proces la introducerea unei simple fraze.

Nu este prima companie care face acest lucru. Deși OpenAI dezvolta un model de editare conversațională a imaginilor încă de pe vremea GPT-4o în 2024, Google a ajuns prima pe piață în martie cu un prototip public, ulterior rafinat într-un model popular denumit Nano Banana (și Nano Banana Pro). Reacția entuziastă a comunității AI la modelul de editare a imaginilor dezvoltat de Google a atras atenția OpenAI.

Noul GPT Image 1.5 de la OpenAI este un model de sinteză a imaginilor AI care, conform rapoartelor, generează imagini de până la patru ori mai rapid decât predecesorul său și costă cu aproximativ 20% mai puțin prin intermediul API-ului. Modelul a fost disponibilizat pentru toți utilizatorii ChatGPT marți și reprezintă un pas înainte către transformarea manipulării fotorealiste a imaginilor într-un proces obișnuit, care nu necesită abilități vizuale speciale.

GPT Image 1.5 este remarcabil deoarece este un model de imagine „multimodal nativ”, ceea ce înseamnă că generarea imaginilor are loc în interiorul aceleiași rețele neuronale care procesează comenzile lingvistice. (În contrast, DALL-E 3, un generator de imagini OpenAI anterior integrat în ChatGPT, utiliza o tehnică diferită numită difuzie pentru a genera imagini.)

Acest nou tip de model, despre care am discutat mai detaliat în martie, tratează imaginile și textul ca pe același tip de date: „tokenuri” care trebuie prezise, modele care trebuie completate. Dacă încărcați o fotografie cu tatăl dumneavoastră și scrieți „pune-l într-un smoking la o nuntă”, modelul procesează cuvintele și pixelii imaginii într-un spațiu unitar, apoi generează noi pixeli în același mod în care ar genera următorul cuvânt dintr-o propoziție.

Folosind această tehnică, GPT Image 1.5 poate modifica mai ușor realitatea vizuală decât modelele anterioare de imagini AI, schimbând poza sau poziția cuiva, sau redând o scenă dintr-un unghi ușor diferit, cu diferite grade de succes. Poate de asemenea elimina obiecte, schimba stiluri vizuale, ajusta îmbrăcămintea și rafina zone specifice, păstrând în același timp asemănarea facială de-a lungul editărilor succesive. Puteți conversa cu modelul AI despre o fotografie, rafinând și revizuind, în același mod în care ați lucra la o schiță de email în ChatGPT.

Fidji Simo, CEO al aplicațiilor OpenAI, a scris într-o postare pe blog că interfața de chat a ChatGPT nu a fost niciodată proiectată pentru lucrul vizual. „Crearea și editarea imaginilor este un tip diferit de sarcină și merită un spațiu creat special pentru vizual”, a scris Simo. În acest sens, OpenAI a introdus un spațiu dedicat creării imaginilor în bara laterală a ChatGPT, cu filtre prestabilite și prompturi la modă.

Lansarea pare să fie o reacție directă la progresele tehnice realizate de Google în domeniul AI, inclusiv o creștere masivă a bazei de utilizatori a chatbot-urilor. În special, modelul de imagine Nano Banana de la Google (și Nano Banana Pro) a reprezentat un punct de referință important.

Poll: Ce părere aveți despre noile modele de editare a imaginilor AI lansate de OpenAI și Google?





Formular 230 Asociatia Science&Technology

Cât de util a fost acest articol pentru tine?

Dă click pe o steluță să votezi!

Medie 0 / 5. Câte voturi s-au strâns din 1 ianuarie 2024: 0

Nu sunt voturi până acum! Fii primul care își spune părerea.

Întrucât ai considerat acest articol folositor ...

Urmărește-ne pe Social Media!

Ne pare rău că acest articol nu a fost util pentru tine!

Ajută-ne să ne îmbunătățim!

Ne poți spune cum ne putem îmbunătăți?

Revista “Ştiinţă şi Tehnică“, cea mai cunoscută şi longevivă publicaţie de popularizare a ştiintelor din România

Leave a Reply

Your email address will not be published. Required fields are marked *

  • Rating