Contact-Aware Refinement of Human Pose Pseudo-Ground Truth via Bioimpedance Sensing

이 논문은 비접촉 상황에서는 정확도가 떨어지는 기존 시각 기반 3D 인간 자세 추정 문제를 해결하기 위해, 웨어러블 생임피던스 센서를 활용하여 피부 간 접촉 정보를 포착하고 이를 반영한 'BioTUCH'라는 새로운 프레임워크를 제안하여 재구성 정확도를 평균 11.7% 향상시켰음을 보여줍니다.

Maria-Paola Forte, Nikos Athanasiou, Giulia Ballardini + 3 more2026-03-13💻 cs

FSAG: Enhancing Human-to-Dexterous-Hand Finger-Specific Affordance Grounding via Diffusion Models

이 논문은 사전 훈련된 생성 확산 모델의 시각 - 언어 사전 지식을 활용하여 인간 시연에서 손가락별 affordance 를 추출하고 3D 기하학적 정보와 융합함으로써, 별도의 로봇 그립 데이터 수집 없이도 다양한 물체와 손 형태에 대해 일반화되는 안정적이고 직관적인 다관절 그립을 생성하는 데이터 효율적 프레임워크인 FSAG 를 제안합니다.

Yifan Han, Yichuan Peng, Pengfei Yi + 5 more2026-03-13💻 cs

Scalable Surface-Based Manipulation Through Modularity and Inter-Module Object Transfer

이 논문은 모듈 간 공유 구동기를 통해 확장성을 극대화하고 계층적 제어 프레임워크로 정밀한 물체 이동을 가능하게 하는 확장 가능한 모듈형 소프트 매니퓰레이션 플랫폼을 제안하여, 기존 기술의 확장성 한계와 모듈 간 경계에서의 물체 이동 문제를 해결합니다.

Pratik Ingle, Jørn Lambertsen, Kasper Støy + 1 more2026-03-13💻 cs

Energy-Aware Metaheuristics

이 논문은 고정된 에너지 예산 하에서 연산자별 수치적 이득과 에너지 소비를 정량화하여 '줄당 기대 개선량 (EI/J)' 점수를 기반으로 탐색과 활용을 동적으로 조절하는 에너지 인식 메타휴리스틱 프레임워크를 제안하며, 이를 다양한 조합 최적화 문제에 적용했을 때 기존 방법과 유사한 성능을 유지하면서 에너지 효율을 크게 향상시켰음을 입증합니다.

Tomohiro Harada, Enrique Alba, Gabriel Luque2026-03-13💻 cs

MedMO: Grounding and Understanding Multimodal Large Language Model for Medical Images

이 논문은 대규모 도메인 특화 데이터와 다단계 학습 전략을 활용하여 의료 이미지 이해, 추론 및 지상화 능력을 획기적으로 향상시킨 새로운 의료용 멀티모달 기초 모델 'MedMO'를 제안하고, 다양한 의료 벤치마크에서 기존 최첨단 모델들을 능가하는 성능을 입증합니다.

Ankan Deria, Komal Kumar, Adinath Madhavrao Dukre + 3 more2026-03-13💻 cs

Understanding and Optimizing Attention-Based Sparse Matching for Diverse Local Features

이 논문은 LightGlue 모델의 성능에 결정적인 영향을 미치는 설계 요소를 규명하고, 다양한 검출기에서 추출된 키포인트를 활용한 미세 조정 기법을 제안하여 어떤 검출기에도 독립적으로 적용 가능한 범용 매칭 모델을 개발함으로써 기존 전용 모델의 정확도를 달성하거나 초과함을 보여줍니다.

Qiang Wang2026-03-13💻 cs

Embed-RL: Reinforcement Learning for Reasoning-Driven Multimodal Embeddings

이 논문은 임베더가 생성된 추론 과정을 직접 지도하는 임베더-가이드 강화학습 (EG-RL) 프레임워크와 검색 관련성을 강화한 증거 기반 추적 추론 (T-CoT) 을 도입하여, 제한된 컴퓨팅 자원으로도 기존 최첨단 모델보다 우수한 범용 멀티모달 임베딩 성능을 달성한 'Embed-RL'을 제안합니다.

Haonan Jiang, Yuji Wang, Yongjie Zhu + 5 more2026-03-13💻 cs

IDSelect: A RL-Based Cost-Aware Selection Agent for Video-based Multi-Modal Person Recognition

이 논문은 비디오 기반 다중 모달 개인 인식에서 정확도와 효율성의 균형을 최적화하기 위해 강화 학습 기반의 비용 인식 선택 에이전트 'IDSelect'를 제안하며, 입력 복잡도에 따라 각 모달리티별 모델을 동적으로 선택하여 기존 고정 앙상블 대비 계산 비용을 대폭 절감하면서도 정확도를 향상시킵니다.

Yuyang Ji, Yixuan Shen, Kien Nguyen + 2 more2026-03-13💻 cs