EyeAgent: An Agentic AI System for Multimodal Clinical Decision Support in Ophthalmology

이 논문은 23 가지 영상 모달리티에 걸친 53 개의 검증된 도구를 동적으로 조율하는 대형 언어 모델을 기반으로 하여, 안과 진단 정확도와 보고서 품질을 획기적으로 향상시키고 전문가 수준의 해석 가능성을 제공하는 최초의 다중 모드 임상 의사결정 지원 에이전트 AI 시스템인 'EyeAgent'를 제시합니다.

Danli Shi, Xiaolan Chen, Bingjie Yan, Weiyi Zhang, Pusheng Xu, Jiancheng Yang, Ruoyu Chen, Siyu Huang, Bowen Liu, Xinyuan Wu, Meng Xie, Ziyu Gao, Yue Wu, Senlin Lin, Kai Jin, Xia Gong, Yih Chung Tham, Xiujuan Zhang, Li Dong, Yuzhou Zhang, Jason Yam, Guangming Jin, Xiaohu Ding, Haidong Zou, Yalin Zheng, Zongyuan Ge, Mingguang He2026-03-12💻 cs

MergeVLA: Cross-Skill Model Merging Toward a Generalist Vision-Language-Action Agent

이 논문은 다양한 VLA 전문가 모델을 단일 모델로 통합할 때 발생하는 병합 불가 문제를 해결하기 위해, LoRA 어댑터의 일관성 유지와 행동 전문가의 모듈성 강화를 통해 설계된 'MergeVLA' 아키텍처를 제안하고, 이를 통해 단일 모델이 다양한 작업과 환경에서 개별 전문가 수준의 성능을 발휘함을 입증합니다.

Yuxia Fu, Zhizhen Zhang, Yuqi Zhang, Zijian Wang, Zi Huang, Yadan Luo2026-03-12💻 cs

AD-R1: Closed-Loop Reinforcement Learning for End-to-End Autonomous Driving with Impartial World Models

이 논문은 자율주행의 안전성을 확보하기 위해 충돌 및 탈선과 같은 위험 상황을 정직하게 예측할 수 있도록 훈련된 '공정한 세계 모델 (Impartial World Model)'을 폐루프 강화학습의 내부 비평가로 활용하는 AD-R1 프레임워크를 제안합니다.

Tianyi Yan, Tao Tang, Xingtai Gui, Yongkang Li, Jiasen Zhesng, Weiyao Huang, Lingdong Kong, Wencheng Han, Xia Zhou, Xueyang Zhang, Yifei Zhan, Kun Zhan, Cheng-zhong Xu, Jianbing Shen2026-03-12💻 cs

TEAR: Temporal-aware Automated Red-teaming for Text-to-Video Models

이 논문은 정적 이미지 생성에 국한된 기존 평가 방법의 한계를 극복하고, 텍스트 - 비디오 (T2V) 모델의 동적 시간적 특성을 악용하여 정책 위반 영상을 유도하는 자동화된 적대적 테스트 프레임워크인 'TEAR'을 제안하며, 이를 통해 오픈소스 및 상용 T2V 시스템에서 기존 최고 기록 (57%) 을 크게 상회하는 80% 이상의 공격 성공률을 달성했음을 보여줍니다.

Jiaming He, Guanyu Hou, Hongwei Li, Zhicong Huang, Kangjie Chen, Yi Yu, Wenbo Jiang, Guowen Xu, Tianwei Zhang2026-03-12💻 cs

Near-Linear and Parameterized Approximations for Maximum Cliques in Disk Graphs

이 논문은 단위 원판 그래프와 tt개의 서로 다른 반지름을 가진 일반 원판 그래프에 대해, 각각 O~(n/ε2)\tilde{O}(n/\varepsilon^2)O~(f(t)(1/ε)O(t)n)\tilde{O}(f(t)\cdot (1/\varepsilon)^{O(t)} \cdot n) 시간 복잡도를 갖는 확률적 근사 알고리즘을 제안하여 최대 클릭 문제를 해결하는 새로운 접근법을 제시합니다.

Jie Gao, Pawel Gawrychowski, Panos Giannopoulos, Wolfgang Mulzer, Satyam Singh, Frank Staals, Meirav Zehavi2026-03-12💻 cs

Cosmos-H-Surgical: Learning Surgical Robot Policies from Videos via World Modeling

이 논문은 방대한 레이블이 없는 수술 영상을 활용하여 가상-실제 데이터 쌍을 생성하는 세계 모델 (Cosmos-H-Surgical) 을 학습시킴으로써, 데이터 부족 문제를 해결하고 실제 수술 로봇에서 더 뛰어난 성능을 보이는 자율 수술 정책 개발을 가능하게 합니다.

Yufan He, Pengfei Guo, Mengya Xu, Zhaoshuo Li, Andriy Myronenko, Dillan Imans, Bingjie Liu, Dongren Yang, Mingxue Gu, Yongnan Ji, Yueming Jin, Ren Zhao, Baiyong Shen, Daguang Xu2026-03-12💻 cs

AFTER: Mitigating the Object Hallucination of LVLM via Adaptive Factual-Guided Activation Editing

이 논문은 언어 편향으로 인한 객체 환각을 완화하기 위해 사실적 텍스트 의미로 시각 - 텍스트 연동을 정밀하게 모델링하고 쿼리별 편집을 최적화하는 'AFTER'라는 새로운 적응형 사실 안내 활성화 편집 기법을 제안하여 LVLM 의 신뢰성을 크게 향상시켰음을 보여줍니다.

Tianbo Wang, Yuqing Ma, Kewei Liao + 4 more2026-03-12💻 cs

Don't Mind the Gaps: Implicit Neural Representations for Resolution-Agnostic Retinal OCT Analysis

이 논문은 Implicit Neural Representations (INR) 을 활용하여 OCT 이미지의 비등방성 간격 문제를 해결하고, B-스캔 보간 및 해상도 무관한 망막 아틀라스 구축을 통해 연속적이고 일관된 3 차원 망막 분석을 가능하게 하는 두 가지 프레임워크를 제안합니다.

Bennet Kahrs, Julia Andresen, Fenja Falta, Monty Santarossa, Heinz Handels, Timo Kepp2026-03-12💻 cs

OODEval: Evaluating Large Language Models on Object-Oriented Design

이 논문은 객체 지향 설계 (OOD) 평가를 위한 벤치마크 OODEval 과 인간 평가 데이터셋 OODEval-Human, 그리고 통합 평가 지표 CLUE 를 제안하고, 이를 통해 29 개의 대규모 언어 모델의 OOD 수행 능력을 심층 분석하여 높은 문법적 정확도에도 불구하고 의미적 결함이 존재함을 규명했습니다.

Bingxu Xiao, Yunwei Dong, Yiqi Tang, Manqing Zhang, Yifan Zhou, Chunyan Ma, Yepang Liu2026-03-12💻 cs

PLANING: A Loosely Coupled Triangle-Gaussian Framework for Streaming 3D Reconstruction

이 논문은 명시적 기하학적 원시와 신경 가우시안을 느슨하게 결합한 하이브리드 표현을 통해 스트리밍 3D 재구성에서 기하학적 정밀도와 렌더링 품질을 동시에 달성하면서도 기존 방법들보다 훨씬 빠른 속도로 안정적인 온프레임 재구성을 가능하게 하는 'PLANING' 프레임워크를 제안합니다.

Changjian Jiang, Kerui Ren, Xudong Li, Kaiwen Song, Guanghao Li, Linning Xu, Tao Lu, Junting Dong, Yu Zhang, Bo Dai, Mulin Yu2026-03-12💻 cs

Generating a Paracosm for Training-Free Zero-Shot Composed Image Retrieval

이 논문은 참조 이미지와 수정 텍스트로 구성된 다중 모달 쿼리를 기반으로 실제 이미지 데이터베이스에서 타겟 이미지를 검색하는 제로샷 합성 이미지 검색 (CIR) 과제에서, 기존 텍스트 기반 매칭 대신 대형 다중 모달 모델 (LMM) 을 활용하여 쿼리에 대한 '정신적 이미지'와 데이터베이스 내 각 이미지의 합성 버전을 생성하여 매칭하는 '파라코스 (Paracosm)'라는 새로운 훈련 없는 방법을 제안하고 있습니다.

Tong Wang, Yunhan Zhao, Shu Kong2026-03-12💻 cs

Dull, Dirty, Dangerous: Understanding the Past, Present, and Future of a Key Motivation for Robotics

이 논문은 로봇공학 분야에서 '지루하고, 더럽고, 위험한 (DDD)' 작업에 대한 개념이 어떻게 사용되어 왔는지 실증적으로 분석하고, 사회과학 문헌을 바탕으로 정의를 재정립하며 로봇 기술이 인간 노동에 미치는 영향을 고려할 수 있는 새로운 프레임워크를 제안합니다.

Nozomi Nakajima, Pedro Reynolds-Cuéllar, Caitrin Lynch, Kate Darling2026-03-12💻 cs