언어모델 이후, AI 장착한 휴머노이드 성큼 다가와 [뉴스] 젠슨 황 엔비디아 최고경영자(CEO)가 8일 서울 종로구 SK서린빌딩에서 최태원 SK그룹 회장을 만난 뒤 브리핑하고 있다. 2026.6.8 연합뉴스 자료사진
이 글은 제네럴 일렉트릭(GE)의 데이터과학부장인 아너 파우리(Honor Powrie)가 ‘물리학 세계 (Physics World) 에 최근 어떻게 AI가 휴머노이드를 변화시키는가 (How AI is transforming human robots) 제목으로 기고한 글에 기초해 관련 기술의 현재를 파악하려고 정리한 글이다. 마침, 전북 새만금에 휴머노이드 훈련을 위한 AI 데이터센터를 구축한다고 한다. 현대자동차의 미국 자회사 보스턴 다이나믹스 (Boston Dynamics)의 몸에 AI란 두뇌를 붙여 주고자 하는 것으로 보인다. 최근, 젠슨 황의 방한이 이를 확인시켜 준다. 따라서, 이 글은 우리에게도 중요한 시사점을 갖는다.
‘베이징 E-마을 하프 마라톤’ 홈페이지(https://www.beijingetown.com.cn/article/4R6eD3Nezx6) 갈무리
지난 4월 19일 베이징 E-마을 하프 마라톤 (Beijing E-Town half-marathon) 대회에서 중국 스마트폰 회사 아너 (Honor)의 휴머노이드 로봇이 50분 26초이란 놀라운 기록으로 우승하였다. 이는 인간의 기록을 약 7분 단축한 것이라 한다. 이 로봇은 다리 길이가 0.95m로, 걸출한 마라토너와 타조의 특성을 함께 지녀 달리기에 최적화되었다고 한다. 또한, 강력한 액체 냉각 기능도 함께 탑재돼 모터와 전지가 과열되는 문제를 완화시킨 것으로 보인다.
2025년 첫 대회에서 로봇은 2시간 40분 42초의 매우 부진한 기록에 그쳤다는 점에서 이번 기록 경신은 매우 놀라운 일이다. 불과 1년 만에 기록을 무려 3분의 2나 단축시킨 것이다. 참고로, 이번 대회에서는 경기 규칙이 크게 강화되어 원격 조종 대신 외부 간섭 없이 스스로 달리는 로봇에 가산점을 부여하였고, 배터리를 충전하기 위해 코스에서 이탈해야 하는 로봇에게 벌점을 부과했다. 따라서, 필요에 따라 배터리와 냉각수는 모듈 형태로서 경기 도중에 갈아 끼운 것으로 보인다. 불과 1년 전 리모컨으로 원격조정되며 조잡하게 움직였던 로봇이 어떻게 그렇게 스스로 빨리 달리도록 변신할 수 있었을까?
보스턴다이내믹스의 휴머노이드 로봇 아틀라스 가 수준 높은 축구 기술을 어떻게 구현할 수 있었는지를 보여주는 훈련 유튜브 영상 https://www.youtube.com/watch?v=-OSIwNVM5yc
이는 휴머노이드 하드웨어와 이를 구동하기 위한 소프트웨어의 비약적 발전을 의미한다. 특히, 엉덩이와 무릎의 빠른 동작을 위해 모터는 높은 회전력을, 고성능 엑츄에이터 (Actuator)는 빠른 하체 움직임을 구현한다. 땅을 밟을 때는 안정적 자세를 취한다. 이를 위해서, MuJoCo (Multi-Joint dynamics with Contact) 같은 소프트웨어를 이용한 것으로 추측한다. 이는 뉴턴의 운동방정식을 이용하여 여러 관절로 이루어진 로봇이 물체를 잡거나 발을 지면에 닿게 할 때 필요한 물리적 운동을 시뮬레이션하는 엔진으로서, 현재 구글 딥마인드 (DeepMind)에서 누구나 무료로 다운로드 받을 수 있다. 보스턴 다이내믹스에서도 이에 못지않은 고유의 엔진을 구축하고 있을 것이다.
구글 딥마인드의 VLA를 이용해 외부인이 가져온 공을 특정 용기에 넣는 과정을 보여주는 유튜브 화면. 용기 위쪽에 달린 가는 선을 집어 용기를 열고 닫을 수 있다.
이런 면들은 휴머노이드의 하드웨어와 이를 구동하기 위한 소프트웨어가 빠른 속도로 발전하고 있음을 나타낸다. 현재, 자동차 조립 과정에 로봇이 많이 사용된다. 엔진과 차체의 조립을 할 수 있다. 하지만 여전히 매우 정교한 작업은 손작업에 의존해 왔다. 이런 문제를 해결하기 위해 시각-언어-행위(Vision-Language-Action: VLA) 라는 통합 AI 모델이 개발되고 있다. 이는 동영상과 언어적 소통을 이용하여 휴머노이드가 인간이 원하는 동작을 구현하는 다중모달(Multi-modal) AI 로서, 현존하는 시각-언어-모델들(Vision-Language-Models: VLMs)에 기반을 두고 있다. VLA는 최근 구글의 딥마인드 (DeepMind)에서 개발한 것으로서, 완전히 똑같은 동작만 반복하는 공업용 로봇과 달리 사용자의 명령을 이해하고 훈련되지 않은 동작을 수행할 수 있다. 예를 들어, 얇은 실로 이루어진 꼭지를 들어 이 용기를 열고 여기에 외부인이 가져온 공을 집어 넣고 다시 용기를 닫을 수 있다. 초보적인 수준이지만 놀랍기도 하다.
VLA 훈련에서 중요한 과제 하나는 많은 훈련 데이터를 확보하는 것이다. 이를 위해, 컴퓨터 비전에서 많이 쓰이는 방법, 즉 가상의 공간에서 휴머노이드의 디지털 쌍둥이 (Digital twin)를 훈련시키는 방법을 이용하는 것이 일반적이다. 앞서 몇 차례 기술한 바가 있지만, 이를 위한 세계 모델 (World Model)의 구현은 언어모델에 비해 비교할 수 없을 정도로 어렵다. 우선, 물리학의 법칙을 이해해야 한다. 중력의 법칙, 운동량 보존의 법칙뿐만 아니라 과학의 모든 법칙을 이해해야 하는 것이다.
그리고, 이 모델의 훈련에 사용되는 동작 영상 데이터는 언어모델의 데이터에 비해 비교할 수 없는 양이다. 하나의 정지된 장면을 데이터로 표현할 때 작은 픽셀 (pixel) 단위로 구분한다고 생각해 보자. 그러면, 시시각각 움직이고 변하는 환경을 이해하기 위해선 1초에 수십 번씩 얼마나 많은 픽셀들의 변화를 추적해야 할까? 그런데, 인간이 환경을 인식하는 데 있어선 개개 사물의 구체적 모습보다는 이들끼리의 구분 및 시간에 따른 변화가 초래하는 맥락에 초점을 맞춘다. 한 순간 어떤 나무를 본다고 해서 그 나무의 몇 번째 가지, 몇 번째 잎사귀에 무슨 좀이 있는지는 관심의 대상이 아닌 것이다. 즉, 인간은 시각 데이터를 단순화해서 이해하는 데 매우 익숙해 있다. 세계 모델은 이를 어떻게 따라할 수 있을까? 이는 앞서 기술한 현재의 VLA보다 훨씬 더 높은 지능을 요구한다. 컴퓨터 비전의 선구적 연구로 튜링상을 수상했던 얀 르쿤의 JEPA (Joint Embedding Predictive Architecture)도 바로 이런 맥락을 파악하는 방법의 하나이다.
이제, AI는 언어모델 이후의 시대 경쟁에 접어 들었다. 언젠가 인간과 휴머노이드가 공존하며, 경우에 따라 구분할 수 없게 되지 않을까? 몇 년 전까지만 해도 파우리는 자신의 생애에서 도저히 일어날 수 없는 일이라 여겼다고 털어놓았다. 그런데 베이징 E-마을 하프 마라톤의 성과, 그리고 딥마인드의 VLA 시연 과정을 보면 이런 일이 꼭 실현 불가능한 일이 아닌 것 같아 보인다. 우리 인간의 가치가 AI의 비약적 발전에 의해서 훼손되지 않도록 대비해야 하겠다.
참고문헌
1. PhysicsWorld 기사
https://physicsworld.com/a/how-ai-is-transforming-human-robots/
2. Archive에 등록된 Google DeepMind의 VLA관련 논문 초고
https://arxiv.org/pdf/2503.20020
3. DeepMind의 VLA는 훈련에 이용되지 않은 공을 프라스틱 용기에 넣는다
https://www.youtube.com/watch?v=tF8TUnuyFFs강홍석 시민기자 jjhskang@gmail.com