Embodied AI with Foundation Models for Mobile Service Robots: A Systematic Review
이 논문은 대형 언어 모델 및 멀티모달 모델 등 기초 모델과 embodied AI 를 결합하여 모바일 서비스 로봇의 유연한 이해와 적응적 행동 구현을 도모하는 기술적 진전, 핵심 과제, 실제 응용 사례, 그리고 윤리적·사회적 함의와 향후 연구 방향을 체계적으로 고찰한 최초의 리뷰입니다.
8799 편의 논문
이 논문은 대형 언어 모델 및 멀티모달 모델 등 기초 모델과 embodied AI 를 결합하여 모바일 서비스 로봇의 유연한 이해와 적응적 행동 구현을 도모하는 기술적 진전, 핵심 과제, 실제 응용 사례, 그리고 윤리적·사회적 함의와 향후 연구 방향을 체계적으로 고찰한 최초의 리뷰입니다.
이 논문은 대규모 언어 모델 (LLM) 의 사전 지식과 메타 러닝을 활용하여 다양한 도메인의 시계열 데이터 품질을 효율적이고 정확하게 평가하는 통합 프레임워크인 'TSRating'을 제안합니다.
이 논문은 협력적 다중 에이전트 강화학습의 신용 할당 문제를 해결하기 위해 협력 게임 이론의 코어 (core) 개념을 도입하여 연합별 기여도를 평가하고 할당하는 CORA 알고리즘을 제안하며, 이를 통해 에이전트 간 조율된 최적 행동을 유도하고 기존 방법들보다 우수한 성능을 입증합니다.
이 논문은 실제 세계의 다변량 시계열 데이터에서 발생하는 채널 간 의존성, 비동기적 샘플링, 결측치 문제를 동시에 해결하기 위해 제안된 'ChannelTokenFormer'라는 트랜스포머 기반 프레임워크를 소개하고, 이를 통해 다양한 실제 환경에서 뛰어난 예측 성능과 견고성을 입증했습니다.
이 논문은 저자원 언어의 도메인 불변 표현을 학습하기 위해 지도 대조 학습 (SCL) 기반의 'ConLID'를 제안하여, 고자원 언어의 성능을 유지하면서 저자원 언어의 도메인 외 데이터에서 언어 식별 정확도를 3.2% 포인트 향상시켰다고 요약할 수 있습니다.
이 논문은 LLM 과 MLLM 의 결정학 지식 통합 능력을 평가하기 위해 217 개의 전문가 큐레이션 XRD 질문과 다양한 조건을 포함한 종합 벤치마크 프레임워크 'OPENXRD'를 제안하고, 중규모 모델이 컨텍스트 자료로부터 가장 큰 향상을 보이며 콘텐츠의 질이 양보다 성능 향상에 더 중요함을 입증했습니다.
이 논문은 문제 해결을 신념 업데이트 루프로 모델링하고, 기존 어휘 내에서의 탐색 최적화 (암묵적 개념) 와 새로운 이동 수의 도입 (명시적 개념) 을 구분하며, 명시적 개념의 창안이 수학적 발견의 핵심이자 현재의 AI 가 달성하지 못한 영역임을 주장합니다.
이 논문은 Qiskit 코드 생성의 신뢰성을 높이기 위해 Qwen2.5-Coder-32B 모델을 GRPO 및 ORPO 방법으로 미세 조정하여 일반 목적 모델 대비 Qiskit HumanEval 벤치마크에서 현저히 향상된 성능을 달성했으나, 고급 태스크 해결에는 여전히 한계가 있음을 보여줍니다.
이 논문은 다양한 신체 구조의 데이터를 광학 흐름을 통해 통합하여 세계 모델을 사전 학습한 후, 이를 타겟 로봇의 소량 데이터로 미세 조정하고 가치 함수를 활용해 행동 복제 정책을 최적화함으로써 저데이터 환경에서 로봇 시각-운동 정책의 성능을 획기적으로 향상시키는 '잠재 정책 조종 (LPS)' 방법을 제안합니다.
이 논문은 텍스트 중심의 한계를 극복하고 시각적 구조 지식과 추론 경로를 보존하기 위해 스펙트럼 클러스터링 기반의 SpecLink 를 도입한 해석 가능한 멀티모달 지식 그래프 MMGraphRAG 와 CMEL 데이터셋을 제안하여, 멀티모달 RAG 성능을 획기적으로 개선함을 보여줍니다.
이 논문은 2005 년부터 2025 년까지의 미국 대중의 중국에 대한 태도 변화를 시뮬레이션하기 위해 뉴스 데이터와 소셜 미디어 프로필을 기반으로 한 LLM 에이전트 프레임워크를 개발하고, 사실 도출, 반대 입장 에이전트 도입, 반사실적 노출이라는 세 가지 편향 완화 기법을 통해 주관적 뉴스 프레임보다는 비판적 맥락화 에이전트가 더 효과적인 편향 교정 및 인간과 유사한 의견 형성 메커니즘을 제공함을 입증했습니다.
이 논문은 소스 데이터 없이 중립 표정만 있는 타겟 데이터로 얼굴 표정 인식 모델을 개인화하기 위해, 잠재 공간에서 작동하는 경량화된 '개인화 특징 번역 (SFDA-PFT)' 방법을 제안하고 이를 통해 기존 방법보다 우수한 성능을 입증합니다.
이 논문은 1989 년부터 방영된 이탈리아 TV 프로그램 '블롭 (Blob)'의 편집 철학에서 영감을 받아, 자동 음성 인식과 대규모 언어 모델 (LLM) 을 활용하여 아카이브 영상 데이터를 의미론적으로 재구성하고 새로운 내러티브를 생성하는 실험적 시스템 'AI Blob!'을 소개합니다.
본 논문은 일상 활동에 국한된 기존 벤치마크의 한계를 극복하고 수술, 산업, 극한 스포츠, 동물 시점 등 다양한 도메인 간 일반화 능력을 평가하기 위해 고안된 멀티모달 대규모 언어 모델용 새로운 벤치마크 'EgoCross'를 제안하고, 이를 통해 현재 모델들의 도메인 적응 한계를 분석하고 개선 방안을 모색합니다.
이 논문은 HeyGem 과 같은 오픈소스 도구를 활용해 텍스트 기반 강의 개요를 가상 아바타가 부르는 노래로 변환함으로써 학생들의 참여도와 정보 기억력을 향상시키는 새로운 교수법을 제안하고 그 효과를 입증했습니다.
이 논문은 BERT 기반 모델의 추론 한계를 극복하고 대형 언어 모델 (LLM) 을 직접 전자상거래 관련성 검색에 적용하기 위해 CoT 기반 SFT, DPO, GRPO 등을 결합한 'TaoSR1' 프레임워크를 제안하며, 오프라인 및 온라인 평가에서 기존 모델보다 뛰어난 성능을 입증했습니다.
이 논문은 생성형 에이전트와 가상 민족지 방법을 통합하여 연구자가 가상 사회 환경에 직접 참여하고 개입할 수 있도록 하는 CMASE 프레임워크를 제안하며, 이를 통해 복잡한 사회 현상의 통계적 패턴과 인과적 메커니즘을 동시에 설명하고 예측하는 새로운 사회과학 연구 방법론을 제시합니다.
이 논문은 도메인 특화 데이터의 대량 학습 없이도 수백 개의 샘플로 시각 정보와 텍스트 의존성을 통합한 크로스모달 지식 그래프와 전용 객체 탐지 모델을 통해 마인크래프트 환경에서 최첨단 성능을 보이는 비용 효율적인 에이전트 'VistaWise'를 제안합니다.
이 논문은 긴 사고 과정 (CoT) 이 항상 성능 향상을 보장하지 않는다는 점을 실증적으로 규명하고, 생성된 출력에 기반하여 적응적으로 CoT 를 압축함으로써 지연 시간과 메모리 사용량을 줄이면서도 정확도를 유지하는 새로운 프레임워크인 SEER 를 제안합니다.
이 논문은 LLM 코드 변이 에이전트인 AlphaEvolve 를 활용하여 MAX-CUT, MAX-4-CUT, MAX-3-CUT, 그리고 TSP 등 다양한 조합 최적화 문제의 근사 불가능성 하한을 개선하고, 생성된 구조물의 검증을 가속화하는 새로운 방법을 제시함으로써 인공지능이 복잡성 이론의 발전에 기여할 수 있음을 보여줍니다.