MM-DeepResearch: A Simple and Effective Multimodal Agentic Search Baseline

이 논문은 검색 집중형 멀티모달 QA 데이터 부족, 효과적인 검색 궤적 부재, 온라인 API 비용 문제라는 세 가지 과제를 해결하기 위해 하이퍼그래프 기반 데이터 생성, 도구별 전문가 최적화 및 트리 탐색을 통한 궤적 재구성, 오프라인 검색 엔진 구축이라는 세 가지 전략을 통해 강력한 멀티모달 심층 연구 에이전트 'MM-DeepResearch'를 제안합니다.

Huanjin Yao, Qixiang Yin, Min Yang + 5 more2026-03-03🤖 cs.AI

Differential privacy representation geometry for medical image analysis

이 논문은 의료 영상 분석에서 차분 프라이버시 (DP) 가 성능 저하를 일으키는 메커니즘을 명확히 규명하기 위해, 표현 공간의 기하학적 변위와 작업 헤드의 활용도 차이를 분석하는 새로운 프레임워크인 DP-RGMI 를 제안하고 이를 통해 DP 가 특징을 균일하게 붕괴시키는 것이 아니라 표현의 이방성을 변화시킨다는 사실을 입증했습니다.

Soroosh Tayebi Arasteh, Marziyeh Mohammadi, Sven Nebelung + 1 more2026-03-03🤖 cs.LG

Egocentric Co-Pilot: Web-Native Smart-Glasses Agents for Assistive Egocentric AI

이 논문은 스마트 안경용 웹 네이티브 신경-상징 프레임워크인 'Egocentric Co-Pilot'을 제안하여, 시계열 추론과 계층적 컨텍스트 압축을 통해 장기간의 1 인칭 비디오 기반 질문 답변 및 의사결정을 지원하고, 실시간 스트리밍 파이프라인을 통해 시각 장애 및 인지 과부하 사용자를 위한 접근성 있는 보조 AI 의 실현 가능성을 입증했습니다.

Sicheng Yang, Yukai Huang, Weitong Cai + 8 more2026-03-03🤖 cs.AI

GroundedSurg: A Multi-Procedure Benchmark for Language-Conditioned Surgical Tool Segmentation

이 논문은 수술 중 특정 도구 인스턴스를 언어로 지칭하여 위치를 파악하는 임상적 요구를 충족시키기 위해, 다양한 수술 유형과 조건을 포괄하는 최초의 언어 기반 수술 도구 분할 벤치마크인 'GroundedSurg'를 제안하고 이를 통해 기존 비전 - 언어 모델의 성능 격차와 임상적 추론의 필요성을 입증했습니다.

Tajamul Ashraf, Abrar Ul Riyaz, Wasif Tak + 4 more2026-03-03💻 cs

Predictive Reasoning with Augmented Anomaly Contrastive Learning for Compositional Visual Relations

이 논문은 구성적 시각 관계 (CVR) 작업에서 세 개의 이미지로 규칙을 학습하고 나머지 이미지의 이상치를 식별하기 위해 예측 및 검증 패러다임과 증강 이상 대비 학습을 결합한 PR-A2^2CL 모델을 제안하여 기존 최첨단 모델보다 뛰어난 성능을 달성했다고 요약할 수 있습니다.

Chengtai Li, Yuting He, Jianfeng Ren + 4 more2026-03-03🤖 cs.AI

Teacher-Guided Causal Interventions for Image Denoising: Orthogonal Content-Noise Disentanglement in Vision Transformers

이 논문은 비전 트랜스포머 프레임워크 내에서 환경 편향 조정, 직교성 기반 콘텐츠-노이즈 분리, 그리고 Nano Banana Pro 를 활용한 인과적 사전 지식 도입을 통해 기존 이미지 잡음 제거 모델의 한계를 극복하고 높은 정확도와 실시간 처리 속도를 달성한 'TCD-Net'을 제안합니다.

Kuai Jiang, Zhaoyan Ding, Guijuan Zhang + 2 more2026-03-03💻 cs

D-REX: Differentiable Real-to-Sim-to-Real Engine for Learning Dexterous Grasping

이 논문은 가우스 스플랫을 활용한 차분 가능한 엔진을 통해 실제 시각 관측과 로봇 제어 신호로부터 물체 질량을 자동으로 식별하고 이를 기반으로 힘 인식 그리핑 정책을 학습함으로써 시뮬레이션과 현실 간의 격차를 효과적으로 해소하는 'D-REX' 시스템을 제안합니다.

Haozhe Lou, Mingtong Zhang, Haoran Geng + 9 more2026-03-03💻 cs