
숭실대학교는 글로벌미디어학부 김희원 교수 연구팀이 지난 11일부터 15일까지 미국 내슈빌에서 열린 컴퓨터비전 분야 최우수 국제 학술대회 'CVPR 2025(Conference on Computer Vision and Pattern Recognition 2025)'에서 연구 논문을 발표하고, ‘인공지능 로봇 조작 챌린지 세계대회(ARNOLD Challenge)’에서 1위를 차지했다.
이 대회는 CVPR의 세부 프로그램인 ‘Embodied AI 워크숍’ 내에서 개최된 국제 로봇 조작 대회이다. AI 에이전트가 실제 환경과 상호작용하며 복잡한 작업을 수행하는 능력을 겨루는 자리다. 김 교수 연구팀은 지난해 같은 대회에서 3위를 기록한 데 이어, 올해는 최종 1위를 차지했다.
연구팀은 김희원 교수와 이상민·박성용 학생(미디어학과 석사과정)으로 구성됐다. 챌린지에는 김도원 학생(글로벌미디어학부 4학년)과 임채우 학생(메타버스·문화콘텐츠학과 석사과정)이 참여했다. 발표 논문의 제목은 ‘DynScene: Scalable Generation of Dynamic Robotic Manipulation Scenes for Embodied AI’다.
AI 로봇이 다양한 작업을 학습하려면 대규모의 고품질 데이터가 필수적이지만, 실제 환경에서 이러한 데이터를 수집하는 데는 막대한 시간과 비용이 소요된다는 어려움이 있었다. 연구팀은 텍스트 지시만으로 현실감 있는 로봇 조작 장면을 자동 생성하는 프레임워크 ‘DynScene’을 개발해, 대량의 학습 데이터를 효율적으로 확보할 수 있는 방법을 제시했다.
‘DynScene’은 정적인 장면 구성 데이터와 로봇 동작 데이터를 분리해 생성하던 기존 방식에서 벗어나, 두 요소를 동시에 생성함으로써 데이터의 다양성과 현실감을 획기적으로 높인 것이 특징이다. 또한, ▲장면 간 충돌을 피하는 레이아웃 샘플링 ▲물체가 안정적으로 배치되도록 돕는 쿼터니언 양자화 ▲로봇 동작을 유연하게 표현하는 잔차 좌표(residual coordinate) 기반 방식 ▲물리적으로 타당한 장면만을 선별하는 시뮬레이터 기반 검증 등 다양한 핵심 기술이 적용돼, 실제 환경에 부합하는 고품질 데이터를 자동으로 만들어낼 수 있다. 챌린지에서는 이 프레임워크를 기반으로 한 로봇 기초 모델(Robotic Foundation Model)이 다양한 작업에서 높은 일반화 성능과 성공률을 달성함을 입증했다.
연구를 지도한 김희원 교수는 “이 기술은 기초 모델과 생성 모델을 활용해 적은 양의 학습 데이터만으로도 로봇 조작을 정교하게 구현할 수 있다는 점에서 의미가 크다”며 “AI 기반 로봇 기술에 대한 진입장벽을 낮춰, 대규모 데이터 확보가 어려운 기업들에게도 실질적인 도움이 될 것”이라고 말했다.
또한 그는 “이번 논문은 숭실대학교 학생들이 주저자로 참여해 CVPR 본 학회에서 직접 발표한 첫 사례라는 점에서도 더욱 뜻깊다”며, “앞으로도 학생들과 함께 세계 무대에서 경쟁력 있는 연구를 이어가겠다”고 밝혔다.