RiO-DETR: DETR for Real-time Oriented Object Detection

이 논문은 방향성 객체 탐지 (OBB) 의 고유한 도전 과제를 해결하면서도 실시간 효율성을 유지하는 최초의 실시간 방향성 탐지 트랜스포머인 RiO-DETR 을 제안하고, DOTA-1.0, DIOR-R, FAIR-1M-2.0 등 다양한 데이터셋에서 속도 - 정확도 균형을 크게 개선했음을 입증합니다.

Zhangchi Hu, Yifan Zhao, Yansong Peng, Wenzhang Sun, Xiangchen Yin, Jie Chen, Peixi Wu, Hebei Li, Xinghao Wang, Dongsheng Jiang, Xiaoyan Sun2026-03-11💻 cs

PromptDLA: A Domain-aware Prompt Document Layout Analysis Framework with Descriptive Knowledge as a Cue

이 논문은 다양한 도메인의 문서 레이아웃 분석 (DLA) 에서 발생하는 구조적 차이를 극복하고 일반화 성능을 향상시키기 위해, 도메인 특성에 맞춰 생성된 설명적 지식을 단서로 활용하는 'PromptDLA'라는 새로운 프레임워크를 제안하고 있습니다.

Zirui Zhang, Yaping Zhang, Lu Xiang, Yang Zhao, Feifei Zhai, Yu Zhou, Chengqing Zong2026-03-11🤖 cs.AI

Open-World Motion Forecasting

이 논문은 불완전한 인식과 진화하는 객체 분류를 가진 실제 환경에서 자동주행 차량을 위해 새로운 객체 클래스가 순차적으로 도입되는 '오픈 월드 모션 예측' 설정을 제안하고, 가짜 라벨링과 비전 - 언어 모델, 그리고 쿼리 특징 분산을 활용한 재샘플링 전략을 통해 기존 클래스의 망각을 방지하면서 새로운 클래스에 적응하는 최초의 엔드 - 투 - 엔드 클래스 증분 모션 예측 프레임워크를 제시합니다.

Nicolas Schischka, Nikhil Gosala, B Ravi Kiran, Senthil Yogamani, Abhinav Valada2026-03-11🤖 cs.AI

GIIM: Graph-based Learning of Inter- and Intra-view Dependencies for Multi-view Medical Image Diagnosis

이 논문은 다양한 의료 영상 모드에서 단일 뷰 내의 이상 징후 간 관계와 뷰 간 역동적 변화를 동시에 모델링하고 결측 데이터를 처리하여 진단 정확도와 견고성을 향상시키는 새로운 그래프 기반 학습 프레임워크인 GIIM 을 제안합니다.

Tran Bao Sam, Hung Vu, Dao Trung Kien, Tran Dat Dang, Van Ha Tang, Steven Truong2026-03-11💻 cs

A Guideline-Aware AI Agent for Zero-Shot Target Volume Auto-Delineation

이 논문은 임상 가이드라인을 텍스트로 변환하여 재학습 없이 3 차원 표적 부위를 자동 윤곽화하는 새로운 AI 에이전트 'OncoAgent'를 제안하며, 위암 사례에서 전감시 학습 기반 모델과 유사한 성능과 더 높은 임상적 선호도를 입증했습니다.

Yoon Jo Kim, Wonyoung Cho, Jongmin Lee, Han Joo Chae, Hyunki Park, Sang Hoon Seo, Noh Jae Myung, Kyungmi Yang, Dongryul Oh, Jin Sung Kim2026-03-11🤖 cs.AI

EvoDriveVLA: Evolving Autonomous Driving Vision-Language-Action Model via Collaborative Perception-Planning Distillation

이 논문은 자율주행 비전 - 언어 - 행동 모델의 지각 저하 및 장기 계획 불안정성 문제를 해결하기 위해, 자기 앵커 기반의 시각적 증류와 오라클 가이드 궤적 최적화를 결합한 협업 증류 프레임워크인 EvoDriveVLA 를 제안하여 오픈루프 및 클로즈드루프 평가에서 최첨단 성능을 달성함을 보여줍니다.

Jiajun Cao, Xiaoan Zhang, Xiaobao Wei, Liyuqiu Huang, Wang Zijian, Hanzhen Zhang, Zhengyu Jia, Wei Mao, Hao Wang, Xianming Liu, Shuchang Zhou Liu, Yang Wang, Shanghang Zhang2026-03-11🤖 cs.AI

The Patrologia Graeca Corpus: OCR, Annotation, and Open Release of Noisy Nineteenth-Century Polytonic Greek Editions

이 논문은 19 세기 고대 그리스어 판본의 복잡한 레이아웃과 열화된 문자를 인식하기 위해 전용 OCR 파이프라인을 구축하여 100 만 개 이상의 토큰으로 구성된 대규모 오픈 코퍼스 'Patrologia Graeca Corpus'를 공개하고, 이를 통해 다성조 그리스어 OCR 의 새로운 벤치마크를 제시했다고 요약할 수 있습니다.

Chahan Vidal-Gorène (CJM, LIPN), Bastien Kindt2026-03-11💻 cs

OmniEarth: A Benchmark for Evaluating Vision-Language Models in Geospatial Tasks

이 논문은 원격 탐사 비전 - 언어 모델 (RSVLM) 의 성능을 종합적으로 평가하기 위해 지리 공간적 맥락, 다양한 데이터 소스, 그리고 언어적 편향을 줄이기 위한 엄격한 프로토콜을 포함한 새로운 벤치마크 'OmniEarth'를 제안하고 기존 모델들의 한계를 분석합니다.

Ronghao Fu, Haoran Liu, Weijie Zhang, Zhiwen Lin, Xiao Yang, Peng Zhang, Bo Yang2026-03-11💻 cs

Prune Redundancy, Preserve Essence: Vision Token Compression in VLMs via Synergistic Importance-Diversity

이 논문은 기존 비전 - 언어 모델의 계산 비효율성을 해결하기 위해 훈련 없이 실행 가능한 'PruneSID'를 제안하며, 의미적 중요도와 다양성을 시너지적으로 고려한 두 단계 토큰 압축 기법을 통해 극단적인 토큰 감소율에서도 최첨단 성능과 빠른 처리 속도를 달성함을 보여줍니다.

Zhengyao Fang, Pengyuan Lyu, Chengquan Zhang, Guangming Lu, Jun Yu, Wenjie Pei2026-03-11💻 cs

Component-Aware Sketch-to-Image Generation Using Self-Attention Encoding and Coordinate-Preserving Fusion

본 논문은 자유로운 손으로 그린 스케치를 사실적인 이미지로 변환하는 과제를 해결하기 위해, 구성 요소별 특징을 포착하는 자기주의 인코딩과 좌표 보존 융합 모듈을 활용한 2 단계 프레임워크를 제안하여 기존 GAN 및 확산 모델보다 뛰어난 이미지 충실도와 의미론적 정확도를 달성함을 보여줍니다.

Ali Zia, Muhammad Umer Ramzan, Usman Ali, Muhammad Faheem, Abdelwahed Khamis, Shahnawaz Qureshi2026-03-11💻 cs

Streaming Autoregressive Video Generation via Diagonal Distillation

이 논문은 기존 비디오 생성 모델의 실시간 스트리밍 한계를 극복하기 위해 시간적 맥락을 효과적으로 활용하고 비대칭적 생성 전략을 도입한 '대각선 증류 (Diagonal Distillation)' 기법을 제안하여, 5 초 분량의 비디오를 2.61 초 (초당 31 프레임) 내에 생성하며 기존 모델 대비 277.3 배의 속도 향상을 달성했다고 요약할 수 있습니다.

Jinxiu Liu, Xuanming Liu, Kangfu Mei, Yandong Wen, Ming-HsuanYang, Weiyang Liu2026-03-11💻 cs

SurgFed: Language-guided Multi-Task Federated Learning for Surgical Video Understanding

이 논문은 조직 및 작업 다양성으로 인한 한계를 극복하기 위해 언어 기반 채널 선택과 언어 기반 하이퍼 집계 메커니즘을 도입하여 로봇 보조 최소 침습 수술 비디오 이해를 위한 다작업 연합 학습 프레임워크인 SurgFed 를 제안하고, 다양한 공개 데이터셋에서 기존 최첨단 방법보다 우수한 성능을 입증했습니다.

Zheng Fang, Ziwei Niu, Ziyue Wang, Zhu Zhuo, Haofeng Liu, Shuyang Qian, Jun Xia, Yueming Jin2026-03-11💻 cs

Probing the Reliability of Driving VLMs: From Inconsistent Responses to Grounded Temporal Reasoning

이 논문은 자율주행용 비전 - 언어 모델 (VLM) 이 응답의 불일치와 시간적 추론 부족이라는 한계를 겪고 있음을 지적하고, 이를 해결하기 위해 미래 장면 추론을 평가하는 'FutureVQA' 벤치마크와 시간 레이블 없이도 일관성과 추론 능력을 향상시키는 자기지도 학습 기법을 제안합니다.

Chun-Peng Chang, Chen-Yu Wang, Holger Caesar, Alain Pagani2026-03-11💻 cs

DCAU-Net: Differential Cross Attention and Channel-Spatial Feature Fusion for Medical Image Segmentation

이 논문은 장기적 의존성과 미세한 경계 세부 사항을 모두 효과적으로 모델링하기 위해 차별화된 교차 어텐션 (DCA) 과 채널 - 공간 특징 융합 (CSFF) 전략을 도입하여 계산 복잡성을 줄이고 분별력 있는 구조를 강조하는 새로운 의료 영상 분할 프레임워크인 DCAU-Net 을 제안합니다.

Yanxin Li, Hui Wan, Libin Lan2026-03-11💻 cs