[Full article in HTML]
Generalist는 4월 6일(현지시간) 범용 물리 AI 시스템 GEN-1을 공개하며, 이전 단계 모델 대비 ‘생산(Production) 수준’에 가까운 성공률을 달성했다고 주장했다. 회사는 GEN-1이 접기·정렬·정비 같은 반복적이면서도 섬세한 작업에서 성공률 99%에 도달했다고 밝혔고, 동시에 작업 중 예기치 않은 상황(장애·물체 위치 변동)에 대해 훈련 범위를 벗어나도 즉흥적으로 대응할 수 있다고 설명했다. Ars Technica에 따르면, 이 발표는 로봇이 한두 가지 작업에만 특화된 단계를 넘어, 더 넓은 물리 기술을 ‘하나의 모델’로 흡수하려는 시도 가운데 가장 구체적인 성과로 평가된다.
“손의 감각”을 데이터로 옮기다: 데이터 핸드
로봇 공학에서 가장 큰 난관 중 하나는, 대규모 언어모델이 인터넷 텍스트로부터 사실상 끝없는 학습 재료를 확보하는 것과 달리 양질의 ‘물리 상호작용 데이터’가 부족하다는 점이다. Generalist는 이를 해결하기 위해 웨어러블 집게 형태의 장치인 ‘data hands’를 활용했다고 밝혔다. 이 장치는 사람이 물체를 다룰 때 나타나는 미세한 움직임과 시각 정보를 함께 포착해, 로봇 학습에 필요한 물리 데이터를 대량으로 축적하는 데 쓰인다.
회사는 현재까지 50만 시간 이상의 data hands 수집과, 그 결과로 생긴 ‘페타바이트급(petabytes) 물리 상호작용 데이터’를 GEN-1 학습에 활용했다고 말했다. 단순히 시뮬레이션에서 무작정 학습하는 접근을 넘어, 사람이 수행하는 손동작을 훨씬 세밀하게 기록해 로봇이 ‘손 기술’을 흡수할 수 있게 하려는 전략으로 보인다.
반복 작업에서 99% 성공: 지갑에 돈 넣기 급의 ‘정밀도’ 강조
Generalist가 제시한 핵심 수치는 정교하지만 반복적인 기계적 작업에서의 성과다. 회사는 GEN-1이 다음과 같은 작업에서 99% 성공률을 달성했다고 주장했다. 예를 들어 박스 접기, 휴대폰 포장, 로봇 청소기(진공) 서비스 같은 작업이다.
또한 회사는 GEN-1이 이전 모델인 GEN-0보다 약 3배 빠른 속도로 목표 성능에 도달하며, 사전학습(pretraining) 단계에서 이미 구축한 지식을 특정 로봇 하드웨어(‘자신의 구현체’)에 맞게 조정하는 과정에서 약 1시간 정도의 적응(adaptation)만 거쳐 이러한 수치를 낼 수 있다고 설명했다. 이는 “모든 로봇이 각자 전담 프로그램을 새로 짜야 하는” 방식에서 벗어나, 더 표준화된 학습·전환 파이프라인을 만들려는 방향성을 시사한다.
오류를 ‘프로그래밍하지 않아도’ 복구한다는 주장
GEN-1을 차별화하는 요소로 회사는 두 가지를 강조한다. 첫째는 단일 모델이 폭넓은 물리 스킬을 포괄한다는 점, 둘째는 작업 중 문제가 발생하면 단순히 실패하는 대신 즉흥적으로 새로운 동작을 만들어 문제를 푼다는 점이다.
기존 로봇 시스템은 보통 사전에 세밀하게 프로그래밍된 동작 시퀀스에 의존하거나, 특정 과업에만 최적화된 학습을 진행해 변형에 취약한 경우가 많았다. 하지만 Generalist는 GEN-1이 훈련 분포(training distribution)를 벗어난 상황에서도 자연스럽게 대응할 수 있다고 말한다. Ars Technica에 따르면, Forbes와 회사가 공개한 예시 인터뷰/영상에서는 로봇이 의도치 않은 상황을 ‘동작의 논리’를 통해 해결하는 모습이 소개됐다. 예컨대 비닐봉투가 물리적으로 예측과 다르게 움직이면 로봇이 봉투를 흔들어 인형이 들어가게 돕는 식의 대응, 셔츠 접기 도중 물체가 중간에 밀려도 다시 재접기하는 장면 등이 언급된다.
특히 회사 엔지니어 Felix Wang의 발언(영상 맥락에 대한 인용)으로는 “로봇이 실수를 하도록 프로그래밍한 것이 없으니 실수로부터 회복도 프로그래밍하지 않았지만, 그런 능력이 ‘저절로’ 생긴다”는 취지의 설명이 포함됐다. 즉, 데이터와 모델이 물리적 상식과 동작 계획을 학습하는 과정에서 ‘회복’도 함께 나타났다는 논리다.
경쟁 흐름 속 ‘실전형 성과’로 자리잡을까
Generalist만 로봇용 범용 AI를 추진하는 것은 아니다. Ars Technica는 비교 사례로 지난해 Google의 Gemini Robotics 기반 모델이 사용자 행동 프롬프트를 이해하고 대응하는 ‘시각 기반 학습’ 능력을 시연한 점, 그리고 Physical Intelligence가 시뮬레이션된 가정 환경에서 훈련한 로봇 핸즈를 선보이며 주목을 받았다는 흐름을 함께 언급했다. 다만 GEN-1의 경우, 성공률 수치와 ‘적응 시간’ 같은 지표를 전면에 배치하며 생산 현장에 근접한 성능을 정면 주장하고 있다는 점에서 투자·산업 관심을 끌 가능성이 있다.
What’s Next: 검증과 적용의 다음 단계
앞으로 관건은 발표된 성과가 어떤 조건에서 재현 가능한지, 그리고 다양한 물체·환경·로봇 구성에서 얼마나 일관되게 유지되는지에 달려 있다. 회사가 제시한 99% 성공률이 특정 유형의 반복 작업에서 나온 것인지, 혹은 작업 난이도·환경 변동이 커질수록 성능이 어떻게 변하는지 추가 데이터가 필요하다.
또한 ‘약 1시간 적응’이 실제 현장 배치에서도 동일하게 적용될지—즉, 공정 변경, 센서 성능 차이, 물체 품질 편차가 큰 제조·물류 환경에서 적응 시간이 단축되는지—가 다음 평가 포인트다. 로봇이 실수 상황에서 복구할 수 있다는 주장이 산업적으로 설득력을 얻으려면, 그 복구가 안전·품질 기준을 충족하는 방식으로 반복 가능한지 확인되는 과정이 뒤따라야 한다.
댓글 1
사람 손동작 데이터를 50만 시간 이상 수집해 학습했다는 규모가 놀라운데, 그 데이터를 모으는 과정 자체가 이미 엄청난 도전이었겠다는 생각이 드네요.