Google DeepMind a lansat recent două modele noi de inteligență artificială (IA) care permit roboților să execute sarcini complexe, multistadiale, într-un mod care nu era posibil anterior.
La începutul acestui an, compania a dezvăluit prima iterație a “Gemini Robotics”, un model de IA bazat pe modelul său mare de limbaj, Gemini (LLM) — dar specializat pentru robotică. Acesta a permis mașinilor să raționeze și să execute sarcini simple în spații fizice.
Noile modele, denumite Gemini Robotics 1.5 și Gemini Robotics-ER 1.5, extind semnificativ capacitățile versiunii originale pentru a gestiona sarcini multistadiale de lungă durată și reprezintă un pas important spre asistarea oamenilor de către roboți în cazuri de utilizare din lumea reală.
Un exemplu de bază la care Google face referire este testul bananei. Modelul original de IA era capabil să primească o instrucțiune simplă precum “plasează această banană în coș”, și să ghideze un braț robotic pentru a completa această comandă.
Cu ajutorul celor două modele noi, un robot poate acum să ia o selecție de fructe și să le sorteze în recipiente individuale bazate pe culoare. Într-o demonstrație, o pereche de brațe robotice (robotul companiei Aloha 2) sortează corect o banană, un măr și o lămâie pe trei farfurii de culoarea potrivită. Mai mult, robotul explică în limbaj natural ce face și de ce în timp ce își execută sarcina.
“Îi permitem să gândească”, a declarat Jie Tan, cercetător principal la DeepMind, în videoclip. “Poate percepe mediul, poate gândi pas cu pas și apoi poate finaliza această sarcină multistadială. Deși acest exemplu pare foarte simplu, ideea din spate este cu adevărat puternică. Același model va alimenta roboți umanoizi mai sofisticați pentru a efectua sarcini zilnice mai complicate.”
Deși demonstrația poate părea simplă la suprafață, aceasta demonstrează o serie de capacități sofisticate. Robotul poate localiza spațial fructele și farfuriile, identifica fructele și culoarea tuturor obiectelor, potrivi fructele cu farfuriile conform caracteristicilor comune și oferi o ieșire în limbaj natural descriindu-și raționamentul.
Toate acestea sunt posibile datorită modului în care cele mai noi iterații ale modelelor de IA interacționează. Ele colaborează într-un mod similar modului în care un supervizor și un lucrător cooperează.
Google Robotics-ER 1.5 („creierul”) este un model de vizionare-limbaj (VLM) care colectează informații despre un spațiu și obiectele aflate în el, procesează comenzi în limbaj natural și poate utiliza raționamentul avansat și uneltele pentru a trimite instrucțiuni către Google Robotics 1.5 („mâinile și ochii”), un model de vizionare-limbaj-acțiune (VLA). Google Robotics 1.5 potrivește aceste instrucțiuni cu înțelegerea sa vizuală a spațiului și elaborează un plan înainte de a le executa, oferind feedback despre procesele și raționamentul său pe parcurs.
Aceste două modele sunt mai capabile decât versiunile anterioare și pot utiliza
Poll: Care este opinia ta despre integrarea inteligenței artificiale în roboții folosiți în viața de zi cu zi?






























Leave a Reply