TIDE: Text-Informed Dynamic Extrapolation with Step-Aware Temperature Control for Diffusion Transformers

이 논문은 확산 트랜스포머 (DiT) 의 고해상도 이미지 생성 시 발생하는 구조적 열화 문제를 해결하기 위해, 텍스트 앵커링 메커니즘과 스펙트럼 진행 패턴을 활용한 동적 온도 제어 방식을 도입하여 추가 샘플링 오버헤드 없이 임의의 해상도와 종횡비를 지원하는 훈련 없는 TIDE 방법을 제안합니다.

Yihua Liu, Fanjiang Ye, Bowen Lin, Rongyu Fang, Chengming ZhangWed, 11 Ma💻 cs

Using Vision Language Foundation Models to Generate Plant Simulation Configurations via In-Context Learning

이 논문은 드론 원격 감지 이미지를 기반으로 비전 언어 모델 (VLM) 을 활용하여 농작물 디지털 트윈을 위한 기능적 - 구조적 식물 모델 (FSPM) 시뮬레이션 설정을 생성하는 새로운 접근법과 이를 평가하기 위한 합성 벤치마크를 제시합니다.

Heesup Yun, Isaac Kazuo Uyehara, Earl Ranario, Lars Lundqvist, Christine H. Diepenbrock, Brian N. Bailey, J. Mason EarlesWed, 11 Ma🤖 cs.AI

PathoScribe: Transforming Pathology Data into a Living Library with a Unified LLM-Driven Framework for Semantic Retrieval and Clinical Integration

이 논문은 7 만 건의 다기관 수술 병리 보고서를 기반으로 자연어 검색, 자동 코호트 구축, 임상 질의 응답 등을 통합하여 정적인 병리 아카이브를 능동적인 임상 지능 플랫폼으로 전환하는 통합 LLM 기반 프레임워크 'PathoScribe'를 제안하고 그 유효성을 입증합니다.

Abdul Rehman Akbar, Samuel Wales-McGrath, Alejadro Levya, Lina Gokhale, Rajendra Singh, Wei Chen, Anil Parwani, Muhammad Khalid Khan NiaziWed, 11 Ma🤖 cs.AI

Can You Hear, Localize, and Segment Continually? An Exemplar-Free Continual Learning Benchmark for Audio-Visual Segmentation

이 논문은 오디오-비주얼 분할 (AVS) 을 위한 최초의 표본 없는 지속적 학습 벤치마크를 제시하고, 저랭크 앵커링 (LRA) 과 오디오 유도 사전 융합 조정을 활용한 ATLAS 라는 강력한 베이스라인을 제안하여 역동적인 환경에서의 지속적 학습과 catastrophic forgetting 문제를 해결합니다.

Siddeshwar Raghavan, Gautham Vinod, Bruce Coburn, Fengqing ZhuWed, 11 Ma⚡ eess

SVG-EAR: Parameter-Free Linear Compensation for Sparse Video Generation via Error-aware Routing

본 논문은 희소 어텐션으로 인한 정보 손실 없이 학습 없이 클러스터 중심점을 기반으로 선형 보상을 수행하고, 보상이 필요한 블록을 정확히 식별하는 오류 인식 라우팅을 도입하여 비디오 생성의 효율성과 품질을 동시에 극대화하는 'SVG-EAR'을 제안합니다.

Xuanyi Zhou, Qiuyang Mang, Shuo Yang, Haocheng Xi, Jintao Zhang, Huanzhi Mao, Joseph E. Gonzalez, Kurt Keutzer, Ion Stoica, Alvin CheungWed, 11 Ma💻 cs

SurgCalib: Gaussian Splatting-Based Hand-Eye Calibration for Robot-Assisted Minimally Invasive Surgery

본 논문은 케이블 구동 수술 로봇의 기구적 오차와 무균 유지 문제를 해결하기 위해 가우스 스플래팅 기반의 마커 없는 자동 손 - 눈 보정 프레임워크 'SurgCalib'을 제안하고, dVRK 벤치마크에서 높은 정확도로 검증된 결과를 제시합니다.

Zijian Wu, Shuojue Yang, Yu Chung Lee, Eitan Prisman, Yueming Jin, Septimiu E. SalcudeanWed, 11 Ma💻 cs

SkipGS: Post-Densification Backward Skipping for Efficient 3DGS Training

SkipGS 는 3D 가우스 스플래팅 (3DGS) 의 학습 시간 중 상당 부분을 차지하는 후 밀도화 (post-densification) 단계에서 손실 감소가 미미한 뷰에 대한 역전파를 적응적으로 건너뛰어 전체 학습 시간을 23.1% 단축하면서도 재구성 품질은 유지하는 플러그인 방식의 효율적 학습 방법을 제안합니다.

Jingxing Li, Yongjae Leeand, Deliang FanWed, 11 Ma💻 cs

Diffusion-Based Authentication of Copy Detection Patterns: A Multimodal Framework with Printer Signature Conditioning

이 논문은 고해상도 스캐너와 생성형 AI 의 발전으로 위협받는 기존 복제 방지 패턴 (CDP) 인증의 한계를 극복하기 위해, 원본 템플릿과 프린터 고유 서명을 결합한 확산 기반 멀티모달 프레임워크를 제안하여 위조품을 효과적으로 식별하고 일반화 성능을 입증했습니다.

Bolutife Atoki, Iuliia Tkachenko, Bertrand Kerautret, Carlos Crispim-JuniorWed, 11 Ma💻 cs

The Coupling Within: Flow Matching via Distilled Normalizing Flows

이 논문은 사전 훈련된 오토리거시티브 정규화 흐름 (AR-NF) 모델의 준결정적 결합 (coupling) 을 증류하여 독립 결합이나 최적 수송 결합보다 우수한 성능을 내면서도 교사 모델 자체를 개선하는 새로운 '정규화 흐름 매칭 (NFM)' 방법을 제안합니다.

David Berthelot, Tianrong Chen, Jiatao Gu, Marco Cuturi, Laurent Dinh, Bhavik Chandna, Michal Klein, Josh Susskind, Shuangfei ZhaiWed, 11 Ma🤖 cs.LG

An accurate flatness measure to estimate the generalization performance of CNN models

이 논문은 완전 연결 네트워크에 국한되거나 근사적인 기존 방법의 한계를 극복하기 위해, 합성곱 신경망 (CNN) 의 기하학적 구조를 정확히 반영하는 폐쇄형 평탄도 측정치를 제안하고 이를 통해 CNN 모델의 일반화 성능을 정밀하게 평가하고 아키텍처 설계에 활용할 수 있음을 입증합니다.

Rahman Taleghani, Maryam Mohammadi, Francesco MarchettiWed, 11 Ma🤖 cs.LG

WS-Net: Weak-Signal Representation Learning and Gated Abundance Reconstruction for Hyperspectral Unmixing via State-Space and Weak Signal Attention Fusion

이 논문은 상태 공간 모델링과 약한 신호 어텐션 융합을 통해 하이퍼스펙트럼 이미지 내 약한 신호의 붕괴 문제를 해결하고, 기존 최첨단 방법들보다 RMSE 와 SAD 를 각각 최대 55% 와 63% 까지 감소시킨 새로운 심층 분해 프레임워크인 WS-Net 을 제안합니다.

Zekun Long, Ali Zia, Guanyiman Fu, Vivien Rolland, Jun ZhouWed, 11 Ma🤖 cs.AI

Intelligent Spatial Estimation for Fire Hazards in Engineering Sites: An Enhanced YOLOv8-Powered Proximity Analysis Framework

이 논문은 9,860 개의 주석 이미지로 학습된 향상된 YOLOv8 기반의 이중 모델 프레임워크를 통해 화재와 연기를 탐지하고 주변 객체와의 거리를 추정하여 정량적 위험 점수를 산출함으로써, 공학 현장의 화재 위험에 대한 지능적인 공간 추정 및 상황 인식 능력을 강화하는 것을 제안합니다.

Ammar K. AlMhdawi, Nonso Nnamoko, Alaa Mashan UbaidWed, 11 Ma💻 cs

GST-VLA: Structured Gaussian Spatial Tokens for 3D Depth-Aware Vision-Language-Action Models

이 논문은 고정된 밀도 깊이와 의미론적 패치 특징을 3D 가우시안 원시 객체로 변환하는 가우시안 공간 토크나이저 (GST) 와 3D 깊이 인식 체인 오브 씽킹 (DA-CoT) 추론을 도입하여 LIBERO 와 SimplerEnv 환경에서 기존 VLA 모델보다 뛰어난 정밀도와 성능을 달성한 GST-VLA 를 제안합니다.

Md Selim Sarowar, Omer Tariq, Sungho KimWed, 11 Ma🤖 cs.AI

Chain of Event-Centric Causal Thought for Physically Plausible Video Generation

이 논문은 물리 법칙을 준수하는 비디오 생성을 위해 물리 공식으로 제약된 사고 연쇄를 통한 사건 체인 추론과 사건 간 연속성을 보장하는 교차 모달 프롬프팅 모듈을 도입하여, 현실적인 물리 현상의 인과적 진화를 효과적으로 모델링하는 새로운 프레임워크를 제안합니다.

Zixuan Wang, Yixin Hu, Haolan Wang, Feng Chen, Yan Liu, Wen Li, Yinjie LeiWed, 11 Ma💻 cs

Reading, Not Thinking: Understanding and Bridging the Modality Gap When Text Becomes Pixels in Multimodal LLMs

본 논문은 멀티모달 LLM 에서 텍스트가 이미지로 변환될 때 발생하는 성능 저하 (모달리티 격차) 를 체계적으로 진단하고, 렌더링 요인의 영향과 오류 유형을 규명하며, 모델의 자체 텍스트 추론 궤적을 활용한 자기 증류법을 통해 시각적 텍스트 이해 능력을 획기적으로 개선하는 방법을 제시합니다.

Kaiser Sun, Xiaochuang Yuan, Hongjun Liu, Chen Zhao, Cheng Zhang, Mark Dredze, Fan BaiWed, 11 Ma💬 cs.CL

MedKCO: Medical Vision-Language Pretraining via Knowledge-Driven Cognitive Orchestration

이 논문은 의료 영상 - 언어 사전학습에서 기존 방법의 인지적 비효율성을 해결하기 위해 진단 민감도와 대표성을 고려한 2 단계 커리큘럼 학습과 비대칭 대비 손실 함수를 도입한 MedKCO 를 제안하며, 이를 통해 다양한 하위 작업에서 기존 베이스라인을 크게 능가하는 성능을 입증했습니다.

Chenran Zhang, Ruiqi Wu, Tao Zhou, Yi ZhouWed, 11 Ma💻 cs