Evidential Perfusion Physics-Informed Neural Networks with Residual Uncertainty Quantification

이 논문은 뇌졸중 평가용 CT 관류 이미징의 비정형 역문제 해결을 위해 물리 법칙과 증거론적 딥러닝을 결합하여 물리 제약 위반에 따른 불확실성을 정량화하고 정확도와 신뢰성을 동시에 향상시킨 'EPPINN' 프레임워크를 제안하고 임상 데이터에서 우수한 성능을 입증했습니다.

Junhyeok Lee, Minseo Choi, Han Jang, Young Hun Jeon, Heeseong Eum, Joon Jang, Chul-Ho Sohn, Kyu Sung ChoiWed, 11 Ma💻 cs

M3GCLR: Multi-View Mini-Max Infinite Skeleton-Data Game Contrastive Learning For Skeleton-Based Action Recognition

이 논문은 기존 자기지도 학습의 한계를 극복하기 위해 다중 뷰 회전 증강과 균형을 기반으로 한 적대적 미니맥스 게임을 도입한 'M3GCLR' 프레임워크를 제안하여, NTU RGB+D 및 PKU-MMD 데이터셋에서 최첨단 성능을 달성한 뼈 기반 동작 인식 연구를 소개합니다.

Yanshan Li, Ke Ma, Miaomiao Wei, Linhui DaiWed, 11 Ma🤖 cs.AI

MIL-PF: Multiple Instance Learning on Precomputed Features for Mammography Classification

이 논문은 제한된 주석과 고해상도 의료 영상 처리의 어려움을 해결하기 위해 프리컴퓨팅된 특징을 활용하고 경량화된 다중 인스턴스 학습 헤드를 결합하여, 대규모 유방 촬영 이미지 분류에서 최상의 성능을 달성하면서도 훈련 복잡성을 획기적으로 줄인 'MIL-PF' 프레임워크를 제안합니다.

Nikola Jovišic, Milica Škipina, Nicola Dall'Asen, Dubravko CulibrkWed, 11 Ma🤖 cs.AI

EventVGGT: Exploring Cross-Modal Distillation for Consistent Event-based Depth Estimation

본 논문은 이벤트 카메라의 고유한 시간적 연속성을 활용하여 비주얼 지오메트리 기반 트랜스포머 (VGGT) 로부터 시공간 및 다중 뷰 기하학적 사전 지식을 3 단계 증류 전략을 통해 전이함으로써, 기존 방법론의 시간적 불일치 문제를 해결하고 정밀한 단안 깊이 추정을 가능하게 하는 새로운 프레임워크인 EventVGGT 를 제안합니다.

Yinrui Ren, Jinjing Zhu, Kanghao Chen, Zhuoxiao Li, Jing Ou, Zidong Cao, Tongyan Hua, Peilun Shi, Yingchun Fu, Wufan Zhao, Hui XiongWed, 11 Ma💻 cs

ICDAR 2025 Competition on End-to-End Document Image Machine Translation Towards Complex Layouts

이 논문은 2024 년 12 월부터 2025 년 4 월까지 진행된 ICDAR 2025 복잡한 레이아웃 문서 이미지 기계 번역 (DIMT) 경연대회에 대한 개요, 데이터셋, 작업 정의, 평가 프로토콜 및 69 개 팀의 참가 결과를 요약하고, 대규모 모델 접근법이 복잡한 레이아웃 문서 번역을 위한 유망한 패러다임을 제시함을 보여줍니다.

Yaping Zhang, Yupu Liang, Zhiyang Zhang, Zhiyuan Chen, Lu Xiang, Yang Zhao, Yu Zhou, Chengqing ZongWed, 11 Ma🤖 cs.AI

Reviving ConvNeXt for Efficient Convolutional Diffusion Models

이 논문은 트랜스포머 기반의 확산 모델에 비해 계산 효율성과 훈련 속도가 월등히 뛰어난 'FCDM(Fully Convolutional Diffusion Model)'을 제안하며, 이를 통해 현대적인 합성곱 설계가 효율적인 생성 모델링을 위한 강력한 대안이 될 수 있음을 입증합니다.

Taesung Kwon, Lorenzo Bianchi, Lennart Wittke, Felix Watine, Fabio Carrara, Jong Chul Ye, Romann Weber, Vinicius AzevedoWed, 11 Ma🤖 cs.AI

RiO-DETR: DETR for Real-time Oriented Object Detection

이 논문은 방향성 객체 탐지 (OBB) 의 고유한 도전 과제를 해결하면서도 실시간 효율성을 유지하는 최초의 실시간 방향성 탐지 트랜스포머인 RiO-DETR 을 제안하고, DOTA-1.0, DIOR-R, FAIR-1M-2.0 등 다양한 데이터셋에서 속도 - 정확도 균형을 크게 개선했음을 입증합니다.

Zhangchi Hu, Yifan Zhao, Yansong Peng, Wenzhang Sun, Xiangchen Yin, Jie Chen, Peixi Wu, Hebei Li, Xinghao Wang, Dongsheng Jiang, Xiaoyan SunWed, 11 Ma💻 cs

PromptDLA: A Domain-aware Prompt Document Layout Analysis Framework with Descriptive Knowledge as a Cue

이 논문은 다양한 도메인의 문서 레이아웃 분석 (DLA) 에서 발생하는 구조적 차이를 극복하고 일반화 성능을 향상시키기 위해, 도메인 특성에 맞춰 생성된 설명적 지식을 단서로 활용하는 'PromptDLA'라는 새로운 프레임워크를 제안하고 있습니다.

Zirui Zhang, Yaping Zhang, Lu Xiang, Yang Zhao, Feifei Zhai, Yu Zhou, Chengqing ZongWed, 11 Ma🤖 cs.AI

Open-World Motion Forecasting

이 논문은 불완전한 인식과 진화하는 객체 분류를 가진 실제 환경에서 자동주행 차량을 위해 새로운 객체 클래스가 순차적으로 도입되는 '오픈 월드 모션 예측' 설정을 제안하고, 가짜 라벨링과 비전 - 언어 모델, 그리고 쿼리 특징 분산을 활용한 재샘플링 전략을 통해 기존 클래스의 망각을 방지하면서 새로운 클래스에 적응하는 최초의 엔드 - 투 - 엔드 클래스 증분 모션 예측 프레임워크를 제시합니다.

Nicolas Schischka, Nikhil Gosala, B Ravi Kiran, Senthil Yogamani, Abhinav ValadaWed, 11 Ma🤖 cs.AI

GIIM: Graph-based Learning of Inter- and Intra-view Dependencies for Multi-view Medical Image Diagnosis

이 논문은 다양한 의료 영상 모드에서 단일 뷰 내의 이상 징후 간 관계와 뷰 간 역동적 변화를 동시에 모델링하고 결측 데이터를 처리하여 진단 정확도와 견고성을 향상시키는 새로운 그래프 기반 학습 프레임워크인 GIIM 을 제안합니다.

Tran Bao Sam, Hung Vu, Dao Trung Kien, Tran Dat Dang, Van Ha Tang, Steven TruongWed, 11 Ma💻 cs

A Guideline-Aware AI Agent for Zero-Shot Target Volume Auto-Delineation

이 논문은 임상 가이드라인을 텍스트로 변환하여 재학습 없이 3 차원 표적 부위를 자동 윤곽화하는 새로운 AI 에이전트 'OncoAgent'를 제안하며, 위암 사례에서 전감시 학습 기반 모델과 유사한 성능과 더 높은 임상적 선호도를 입증했습니다.

Yoon Jo Kim, Wonyoung Cho, Jongmin Lee, Han Joo Chae, Hyunki Park, Sang Hoon Seo, Noh Jae Myung, Kyungmi Yang, Dongryul Oh, Jin Sung KimWed, 11 Ma🤖 cs.AI

EvoDriveVLA: Evolving Autonomous Driving Vision-Language-Action Model via Collaborative Perception-Planning Distillation

이 논문은 자율주행 비전 - 언어 - 행동 모델의 지각 저하 및 장기 계획 불안정성 문제를 해결하기 위해, 자기 앵커 기반의 시각적 증류와 오라클 가이드 궤적 최적화를 결합한 협업 증류 프레임워크인 EvoDriveVLA 를 제안하여 오픈루프 및 클로즈드루프 평가에서 최첨단 성능을 달성함을 보여줍니다.

Jiajun Cao, Xiaoan Zhang, Xiaobao Wei, Liyuqiu Huang, Wang Zijian, Hanzhen Zhang, Zhengyu Jia, Wei Mao, Hao Wang, Xianming Liu, Shuchang Zhou Liu, Yang Wang, Shanghang ZhangWed, 11 Ma🤖 cs.AI

The Patrologia Graeca Corpus: OCR, Annotation, and Open Release of Noisy Nineteenth-Century Polytonic Greek Editions

이 논문은 19 세기 고대 그리스어 판본의 복잡한 레이아웃과 열화된 문자를 인식하기 위해 전용 OCR 파이프라인을 구축하여 100 만 개 이상의 토큰으로 구성된 대규모 오픈 코퍼스 'Patrologia Graeca Corpus'를 공개하고, 이를 통해 다성조 그리스어 OCR 의 새로운 벤치마크를 제시했다고 요약할 수 있습니다.

Chahan Vidal-Gorène (CJM, LIPN), Bastien KindtWed, 11 Ma💻 cs