"AI의 다음 프론티어는 피지컬 AI" 엔비디아 CEO 젠슨 황이 CES 2025에서 던진 한 마디 이후로 피지컬 AI가 빅테크 기업들의 화두가 되고 있습니다. 일론 머스크는 그록과 자율주행 로보택시, 휴머노이드 로봇 옵티머스를 결합해 피지컬 AI로 연결하는 전략을 본격화하고 있고, 구글은 휴머노이드 로봇 개발사 앱트로닉에 약 3억 5천만 달러를 투자하며 피지컬 AI 관련 기술 연구를 강화하고 있습니다.
이재명 정부에서도 피지컬 AI는 중요한 정책 방향이 될 것으로 보입니다. 배경훈 과학기술정보통신부 장관 후보자는 인사청문회에서 "지금 에이전틱 AI, 피지컬 AI 시대에 중요한 게 추론 성능"이라고 강조했고, 한성숙 중소벤처기업부 장관 후보자는 “AI 기술과 제조 산업을 결합한 '피지컬 AI'와 산업별 특화형 '버티컬 AI'를 통해 산업 혁신을 가속화하겠다”고 발언했는데요.
피지컬 AI를 향한 현재의 열광은 단순한 유행이 아닙니다. 맥킨지의 보고서에 따르면, 이는 투자, AI, 하드웨어 기술이 동시에 폭발하며 만들어 낸 ‘완벽한 폭풍’에 가깝습니다. 골드만삭스는 2035년 휴머노이드 로봇 시장이 380억 달러에 이를 것으로 예측하며, 미래의 성장 동력임을 분명히 했습니다.
천문학적인 투자: 피지컬 AI 분야 투자는 2022년에서 2024년 사이 5배나 급증했으며, 연간 투자액은 10억 달러를 넘어섰습니다. 마이크로소프트, 엔비디아 등 빅테크 기업들은 휴머노이드 개발사 '피규어 AI'에 약 6억 7,500만 달러를 투자했고 , 중국은 국가적 우선순위로 지정하며 1,380억 달러 규모의 혁신 펀드를 조성했습니다. 한국 역시 「제4차 지능형 로봇 기본계획」(’24)과 「K-휴머노이드 연합」(’25)을 통해 2030년까지 민관합동으로 총 3조 원 이상을 투자, AI 기반 로봇과 핵심 기술 확보, 부품 국산화, 인력 양성 등 로봇 산업 전반의 경쟁력 강화를 추진하고 있습니다.
AI 두뇌의 진화: 거대 언어 모델(LLM)이 챗봇의 대화를 열었다면, 시각-언어-행동(VLA) 기반 모델은 로봇의 ‘두뇌’ 역할을 하고 있습니다. VLA 모델 덕분에 로봇은 이제 시각 정보를 해석하고, 음성 명령을 따르며, 복잡한 행동 순서를 스스로 실행할 수 있게 되었습니다. LLM뿐만 아니라 비전 파운데이션 모델의 발전으로 VLA 모델이 더 정교해지며 더 확장가능성이 높아지고 있습니다. (참고 - 국내 최초 비전 파운데이션 모델 '제로'는?)
하드웨어의 비약적 발전: 로봇은 그 어느 때보다 민첩하고 안정적이며 정교해졌습니다. 불규칙한 형태의 물건을 들어 올리는 등 정형화되지 않은 작업을 처리할 수 있으며, 에너지 변환 장치인 액추에이터와 엣지 컴퓨팅의 발전으로 의사 결정 속도와 에너지 효율이 꾸준히 향상되고 있습니다.
🦾 피지컬 AI의 구체적인 사례 - 로봇 동료의 등장
맥킨지의 범용 로봇 리포트는 피지컬 AI가 '로봇 동료(Robotic Coworkers)'의 등장을 이끌 것이라 전망했습니다. 기술 미래학 싱크탱크 'RethinkX'의 아담 도어는 로봇이 20년 안에 인간의 노동을 쓸모없게 만들어 경제적 개념으로서의 '일'을 없앨 것이라고 예측하기까지 했는데요. 이미 우리 산업 현장 곳곳에 등장하고 있는 로봇 동료들은 다음과 같습니다.
인간을 닮은 휴머노이드: 테슬라의 '옵티머스'는 촉각 센서로 섬세한 물체를 다루고 , 피규어 AI의 '피규어 02'는 BMW 자동차 생산 라인에 투입되어 인간과 협업하는 테스트를 성공적으로 마쳤습니다. 피규어 02는 최대 25kg의 물체를 운반할 수 있고 6개의 RGB 카메라를 통해 시각적으로 추론합니다. BMW 자동차 생산 공장에서 성공적으로 시범 테스트를 마쳤습니다. 또한 '헬릭스(Helix)'라는 AI 모델을 탑재하여, 특정 작업에 대한 사전 프로그래밍 없이도 실시간으로 음성 명령을 이해하고 수행할 수 있습니다.
인간의 능력을 넘어서는 전문가:존스홉킨스 대학의 수술 로봇은 세계 최초로 인간의 원격 조종 없이 담낭 제거 수술의 일부를 100% 정확도로 자율 수행해 의료계에 큰 파장을 일으켰습니다. 돼지 장기를 대상으로 한 8차례의 실험에서 100%의 정확도를 달성했는데요. 기존의 다빈치는 모든 동작을 인간이 원격으로 제어해야 했다면, 이 로봇은 자율적으로 수술을 했다는 점에서 엄청난 혁신을 보여줍니다. 중국의 로봇 개 '블랙 팬서 2.0'은 우사인 볼트에 버금가는 속도로 100미터를 주파하며 기네스북 기록을 눈앞에 두고 있습니다. 우한에서 열린 라이브 시연에서 보스턴 다이내믹스의 스팟을 제치고 100미터 달리기를 완주했죠.
스스로 움직이는 공간: 구글의 자율주행 자회사 웨이모는 멀티모달 모델 'EMMA'를 통해 복잡한 도로 상황을 이해하고 스스로 주행 경로를 생성합니다. 제미나이를 기반으로 센서 데이터로부터 차량의 미래 주행 궤적을 직접 생성하는 모델인데요. 주행경로 예측, 객체 감지, 도로 그래프 이해 등 서로 다른 자율 주행 관련 과제를 하나의 모델에서 통합해 학습해 개별 과제 특화 모델보다 뛰어난 성능을 발휘하고 있습니다. 딜리전스 로보틱스의 로봇 '목시(Moxi)'는 의료진을 도와 물품을 운반하고 엘리베이터를 호출하는 등 지능형 조력자 역할을 톡톡히 해내고 있습니다. AI기반 자율주행,장애물 회피로 복잡한 병원 환경에서 스스로 목적지를 찾아 업무를 완수합니다.
🤔 현실적인 과제: 넘어야 할 4가지 장벽
피지컬 AI가 산업 현장 아직 해결해야 할 현실적인 과제들이 존재합니다. 맥킨지는 피지컬 AI의 대중화를 위해 넘어야 할 주요 장벽으로 소프트웨어, 하드웨어, 경제성, 운영 문제를 지적합니다.
데이터의한계: 범용적인 인터넷의 데이터로 학습한 AI 모델은 물리적 세계의 변수 앞에서 어려움을 겪습니다. 로봇이 식기세척기에 그릇을 넣는 법을 배우려면, 단순한 이미지 데이터가 아닌 수십억 건의 실제 물리적 상호작용 데이터(비디오, 시뮬레이션, 실제 행동)가 필요합니다.
전력및배터리문제: 현재 최고의 휴머노이드 로봇도 통상 2~4시간만 작동 가능해, 산업 현장의 한 교대 근무 시간을 채우지 못합니다. 무거운 물건을 드는 등 큰 힘이 필요한 작업은 배터리를 더 빨리 소모시킵니다.
정교한조작의어려움: 수십 개의 관절과 근육이 상호작용하는 인간의 손과 달리, 로봇 손의 정교함과 속도, 민감도는 아직 부족합니다. 인간의 손은 수십 개의 근육, 뼈, 인대, 관절, 힘줄, 신경 간의 상호작용을 통해 기능합니다. 손은 제대로 작동할 경우 손가락, 엄지손가락, 손목을 포함하여 최대 27개의 자유도(움직일 수 있는 방향의 수)를 가진다고 하는데요. Sanctuary AI의 최첨단 로봇 손도 자유도가 21도에 불과해, 신발 끈을 묶거나 바나나 껍질 벗기기 같은 작업은 여전히 어려운 과제라고 합니다.
높은비용과공급망: 로봇 제작 비용은 대당 3만 달러에서 15만 달러에 달하며, 핵심 부품의 공급망 문제도 상존합니다. 높은 도입 및 유지보수 비용은 투자 수익률(ROI) 회수 기간을 늘려 기업의 도입을 늦추는 요인이 됩니다.
이러한 과제에도 불구하고 피지컬 AI의 거대한 잠재력은 분명합니다. 맥킨지는 2040년까지 관련 시장이 약 3,700억 달러에 이를 것으로 전망합니다.
AI 모델 공유 플랫폼 '허깅페이스'는 최근 스마트폰과 비슷한 가격의 오픈소스 데스크톱 로봇 리치 미니를 출시하며, 더 많은 개발자들이 피지컬 AI에 동참할 수 있는 길을 열었습니다. 리치 미니는 허깅페이스의 170만 개 이상의 AI 모델로 구성된 방대한 아카이브를 활용할 수 있도록 지원합니다.
피지컬 AI 혁명은 이미 시작된 것으로 보입니다. 이재명 정부에서도 과기부, 중기부 등에서 피지컬 AI 정책을 어떤 방식으로 어떻게 실행할지 궁금해지는데요. 피지컬 AI의 핵심이 되는 비전 파운데이션 모델은 슈퍼브에이아이가 제일 잘 하고 있습니다. 산업 현장을 피지컬 AI로 혁신하려면, 슈퍼브에이아이와 함께 하세요.
오픈AI가 SaaS나 API 기반 범용 AI 제품만으로는 다양한 기업 고객별로 원하는 기대 효과를 충족시킬 수 없다는 것을 인정한 것이 아닐까 싶습니다. 강력한 범용 AI가 일상적인 업무들은 대체할 수 있지만, 제조/조선/방산 등 다양한 산업 현장에서 벌어지고 있는 복잡한 문제들을 이해하고 해결하는데는 아직 한계가 있죠. 또한 회사별 특수한 문화와 조직 구성 등의 뉘앙스까지 표준화하고 일반화하는데는 한계가 있기 때문에 일일이 맞춤형 서비스로 대응하겠다는 계획으로 보여집니다.
오픈AI처럼 AGI를 외치던 범용 AI 지향 회사들이 앞으로 이런 B2B 시장을 어떤 방식으로 공략해나갈지 그리고 기존 B2B 소프트웨어와는 DNA적으로 다른 특성을 가진(데이터 기반으로 실시간 진화 및 조련이 가능한) AI가 앞으로 어떠한 새로운 경쟁 양상을 만들어낼지 주목이 됩니다.
이제 소비자용 GPU에서도 고성능 이미지 생성 파이프라인 실행이 가능해 집니다. FLUX.1 Kontext [dev]는 복잡한 프롬프트 없이 점진적인 이미지 편집을 가능케 하는 혁신적인 모델입니다. 특히 모든 단계에서 원본 이미지의 의미론적 무결성을 보존하는 것이 특징입니다.
엔비디아는 NVIDIA RTX GPU에 이 모델을 최적화하여, NVIDIA TensorRT와 저정밀도 양자화 기술로 더 적은 VRAM에서도 빠른 추론 속도를 제공합니다. 특히 트랜스포머 모듈의 저정밀도 양자화를 통해 메모리 사용량을 획기적으로 줄여, 소비자용 GPU에서도 고성능 이미지 편집이 가능하도록 지원합니다.
최근 대한민국 AI 분야의 뜨거운 화두를 꼽으라면 단연 '소버린 AI(Sovereign AI)'일 것입니다. 인공지능이 단순한 기술 발전을 넘어 지정학적 경쟁의 핵심이자 국가 전략의 초석이 되면서, '소버린 AI'는 이제 국가와 기업이 반드시 이해해야 할 새로운 패러다임으로 자리 잡았습니다.
슈퍼브 테크트렌드 - 소버린 AI 시리즈의 첫 번째 편에서는 소버린 AI의 정확한 의미가 무엇인지, 어떤 핵심 원칙을 가지고 있는지 분석해 봤습니다.
특히 표로 정리된 소버린 AI 달성을 위한 다양한 기술적 접근법을 보시면, 조직에 맞는 전략을 고민하시는데 도움이 되실 것입니다.