0
(0)

Google a dezvăluit joi că anumite entități cu motivații comerciale au încercat să cloneze cunoștințele din chatbotul său AI Gemini, utilizând metoda promptării repetate. Într-o sesiune ostilă, modelul a fost solicitat de peste 100.000 de ori în diverse limbi străine, cu scopul de a colecta răspunsuri pentru antrenarea unui model imitator, mai ieftin.

În cadrul unui raport care servește ca evaluare trimestrială a amenințărilor la adresa produselor sale, Google își asumă rolul de victimă dar și de erou, o abordare destul de comună în aceste analize generate intern. Compania denumește această activitate ilegală „extracția modelului” și o consideră un furt de proprietate intelectuală, o poziție destul de controversată, având în vedere că modelul LLM al Google a fost creat folosind materiale de pe internet, adunate fără permisiune.

Nu este prima dată când Google se confruntă cu practici de imitare. În 2023, publicația The Information a raportat că echipa Bard de la Google a fost acuzată că a folosit răspunsurile ChatGPT de pe ShareGPT, un site public unde utilizatorii împărtășesc conversații cu chatboți, pentru a-și antrena propriul chatbot. Jacob Devlin, un cercetător senior în AI la Google și creatorul influentului model lingvistic BERT, a avertizat conducerea că acest lucru încalcă termenii de serviciu ai OpenAI, apoi a demisionat și s-a alăturat OpenAI. Google a negat acuzațiile, dar se pare că a încetat utilizarea acelor date.

Cu toate acestea, termenii de serviciu ai Google interzic extragerea datelor din modelele sale AI în acest mod, iar raportul oferă o perspectivă asupra tacticii relativ obscure de clonare a modelelor AI. Compania consideră că principalii vinovați sunt companii private și cercetători care caută un avantaj competitiv, menționând că atacurile au provenit din diverse colțuri ale lumii. Google a refuzat să nominalizeze suspecții.

În industrie, această practică de a antrena un nou model pe baza răspunsurilor unui model anterior se numește „distilare”. Procesul funcționează astfel: dacă doriți să construiți propriul model de limbaj mare (LLM) dar nu dispuneți de miliardele de dolari și ani de muncă pe care Google i-a investit în antrenarea Gemini, puteți folosi un LLM antrenat anterior ca ocol.

Pentru aceasta, trebuie să alimentați modelul AI existent cu mii de prompt-uri bine alese, să colectați toate răspunsurile și apoi să folosiți aceste perechi de intrare-ieșire pentru a antrena un model mai mic și mai ieftin. Rezultatul va imita îndeaproape comportamentul modelului părinte, dar va fi, în general, mai mic. Nu este perfect, dar poate fi o tehnică de antrenament mult mai eficientă decât încercarea de a construi un model util doar pe baza datelor aleatorii de pe internet, care include mult zgomot.

Modelul imitator nu vede codul sau datele de antrenament ale Gemini, dar studiind suficiente dintre răspunsurile sale, poate învăța să repl

Google, Gemini AI, clonare AI, extracția modelului, furt de proprietate intelectuală, tehnologia chatbot, model lingvistic BERT, OpenAI, distilare AI, model de limbaj mare, LLM, antrenament AI, ChatGPT, ShareGPT, răspunsuri AI, tehnici de clonare, amenințări cibernetice, tactici AI, cercetare AI, inovație în AI, securitate cibernetică

Sursa: Ars Tehnica Technology

Poll: Ce părere ai despre practicile de clonare AI, precum "distilarea" modelelor existente pentru a antrena modele noi?





Formular 230 Asociatia Science&Technology

Cât de util a fost acest articol pentru tine?

Dă click pe o steluță să votezi!

Medie 0 / 5. Câte voturi s-au strâns din 1 ianuarie 2024: 0

Nu sunt voturi până acum! Fii primul care își spune părerea.

Întrucât ai considerat acest articol folositor ...

Urmărește-ne pe Social Media!

Ne pare rău că acest articol nu a fost util pentru tine!

Ajută-ne să ne îmbunătățim!

Ne poți spune cum ne putem îmbunătăți?

Tentative de Clonare a Chatbotului AI Gemini de la Google, Dezvăluite într-un Raport Recent

Revista “Ştiinţă şi Tehnică“, cea mai cunoscută şi longevivă publicaţie de popularizare a ştiintelor din România

Leave a Reply

Your email address will not be published. Required fields are marked *

  • Rating