Robotul Figure 01 operat de OpenAI a ajuns la apogeul cercetarii in domeniu: face conversație, oferă un măr și curăță gunoiul VIDEO

Postat la: 15.03.2024 07:04 | Scris de: ZIUA NEWS

Startup-ul american de tehnologie AI Figure a dezvăluit joi pe rețelele sociale un robot umanoid operat de OpenAI care face conversație și răspunde la întrebări în timp real. Într-o demonstrație filmată, robotul poate fi văzut punând vasele într-un coș suport special, curățând gunoiul și dând un măr unui om atunci când acesta spune că îi este foame.

Robot umanoid numit Figure 01 a fost operat cu softul de inteligența artificială OpenAI, care îi conferă „raționament vizual și înțelegere a limbajului", potrivit unei postări pe X a fondatorului Figure, Brett Adcock. Acest lucru înseamnă că robotul poate vedea lucruri și poate vorbi cu oamenii din apropiere, potrivit The Daily Beast.

„Văd un măr roșu pe o farfurie în centrul mesei, un suport de uscare cu cești și o farfurie, iar tu stai în apropiere cu mâna pe masă", a răspuns robotul când a fost întrebat ce vede. Figure 01 și-a arătat și abilitățile domestice, curățând gunoiul aruncat de om pe masa din fața sa și punând un pahar și o farfurie pe un suport. Mișcările sale sunt precise.

Abilitățile de „vorbire" ale robotului nu sunt perfecte, ceea ce îl face și mai apropiat de limbajul uman. El are o ușoară întârziere în răspunsuri și mici bâlbe specifice limbajului real.

Adcock a spus că Figure 01 a utilizat „rețele neuronale end-to-end", ceea ce înseamnă că nu s-a bazat pe un operator de la distanță care să controleze robotul. Compania susține că tot ceea ce apare în videoclip a fost realizat doar de Figure 01. „După cum se poate vedea din videoclip, s-a înregistrat o creștere spectaculoasă a vitezei robotului", a explicat Adcock, adăugând că „începem să ne apropiem de viteza umană".

„Alimentăm cu imagini de la camerele robotului și cu textul transcris din vorbirea captată de microfoanele de la bord un model multimodal mare, antrenat de OpenAI, care înțelege atât imaginile, cât și textul", a declarat Corey Lynch, inginer de inteligență artificială la Figure, într-o postare pe X. „Modelul procesează întregul istoric al conversației, inclusiv imaginile anterioare, pentru a veni cu răspunsuri lingvistice, care sunt rostite înapoi către om prin text-to-speech".