În timp ce majoritatea oamenilor își pot folosi mâinile în mod înnăscut pentru a comunica cu alții sau pentru a apuca și manipula obiecte, multe dintre sistemele robotice existente excelează doar la sarcini manuale simple. În ultimii ani, informaticienii din întreaga lume au dezvoltat modele bazate pe învățarea automată care pot procesa imagini cu oameni îndeplinind sarcini manuale, folosind informațiile dobândite pentru a îmbunătăți manipularea roboților, ceea ce ar putea, la rândul său, să îmbunătățească interacțiunile unui robot atât cu oamenii, cât și cu obiectele din împrejurimi.
De asemenea, modele similare ar putea fi utilizate pentru a crea interfețe om-mașină care se bazează pe viziunea computerizată sau pentru a extinde capacitățile sistemelor de realitate augmentată și virtuală (AR și VR). Pentru a antrena aceste modele de învățare automată, cercetătorii trebuie să aibă acces la seturi de date de înaltă calitate care conțin înregistrări ale oamenilor care îndeplinesc diverse sarcini manuale din lumea reală.
Cercetătorii de la Meta Reality Labs au prezentat recent HOT3D, un nou set de date care ar putea contribui la accelerarea cercetării în domeniul învățării automate pentru a analiza interacțiunile mână-obiect. Acest set de date, prezentat într-o lucrare publicată pe serverul de preprinturi arXiv, conține videoclipuri 3D ego-centrice de înaltă calitate ale utilizatorilor umani care apucă și manipulează diverse obiecte, luate dintr-un punct de vedere egocentric (adică oglindind ceea ce ar vedea persoana care îndeplinește sarcina).
„Prezentăm HOT3D, un set de date disponibil publicului pentru urmărirea egocentrică a mâinilor și obiectelor în 3D”, au scris Prithviraj Banerjee, Sindi Shkodrani și colegii lor în lucrarea lor. „Setul de date oferă peste 833 de minute (mai mult de 3,7 milioane de imagini) de fluxuri de imagini RGB / monocrome multi-view care prezintă 19 subiecți care interacționează cu 33 de obiecte rigide diverse,.”
Noul set de date compilat de echipa de la Meta Reality Labs conține demonstrații simple ale oamenilor care ridică și observă obiecte, precum și care le așază la loc pe o suprafață. Acestea includ, de asemenea, demonstrații mai elaborate care prezintă utilizatori care efectuează acțiuni observate în mod obișnuit în mediul de birou și casnic, cum ar fi ridicarea și utilizarea ustensilelor de bucătărie, manipularea diferitelor alimente, tastarea pe o tastatură și așa mai departe.
Imaginile incluse în setul de date au fost colectate folosind două dispozitive dezvoltate la Meta, și anume ochelarii Project Aria și căștile Quest 3. Proiectul Aria a dus la crearea de prototipuri de ochelari cu senzori ușori pentru aplicații de realitate augmentată (AR). Ochelarii Project Aria pot capta date video și audio, urmărind în același timp mișcările ochilor utilizatorilor care îi poartă și colectând informații despre locația obiectelor din câmpul lor vizual. Quest 3, al doilea dispozitiv utilizat pentru colectarea datelor, este o cască de realitate virtuală (VR) disponibilă în comerț, dezvoltată la Meta. „Pozițiile Ground-truth au fost obținute de un sistem profesional de captare a mișcării folosind mici markeri optici atașați mâinilor și obiectelor”, au scris Banerjee, Shkodrani și colegii lor.
Pentru a evalua potențialul setului de date HOT3D pentru cercetarea în robotică și viziune computerizată, cercetătorii l-au utilizat pentru a antrena modele de referință pe trei sarcini diferite. Ei au constatat că aceste modele au performat semnificativ mai bine atunci când au fost antrenate pe datele multi-view conținute în HOT3D decât atunci când au fost antrenate pe demonstrații care captează un singur punct de vedere.
„În experimentele noastre, am demonstrat eficiența datelor egocentrice multi-view pentru trei sarcini populare: urmărirea mâinii 3D, estimarea poziției obiectului 6DoF și ridicarea 3D a obiectelor necunoscute din mână”, au scris Banerjee, Shkodrani și colegii lor. „Metodele multi-view evaluate, a căror evaluare comparativă este permisă în mod unic de HOT3D, depășesc în mod semnificativ omologii lor cu o singură vedere”.
Setul de date HOT3D este open-source și poate fi descărcat de cercetătorii din întreaga lume de pe site-ul web al proiectului Aria. În viitor, acesta ar putea contribui la dezvoltarea și avansarea diferitelor tehnologii, inclusiv a interfețelor om-mașină, a roboților și a altor sisteme bazate pe viziune computerizată.