cs.CV 편의 논문 | Gist.Science

TIDE: Text-Informed Dynamic Extrapolation with Step-Aware Temperature Control for Diffusion Transformers

이 논문은 확산 트랜스포머 (DiT) 의 고해상도 이미지 생성 시 발생하는 구조적 열화 문제를 해결하기 위해, 텍스트 앵커링 메커니즘과 스펙트럼 진행 패턴을 활용한 동적 온도 제어 방식을 도입하여 추가 샘플링 오버헤드 없이 임의의 해상도와 종횡비를 지원하는 훈련 없는 TIDE 방법을 제안합니다.

Yihua Liu, Fanjiang Ye, Bowen Lin, Rongyu Fang, Chengming ZhangWed, 11 Ma💻 cs

Using Vision Language Foundation Models to Generate Plant Simulation Configurations via In-Context Learning

이 논문은 드론 원격 감지 이미지를 기반으로 비전 언어 모델 (VLM) 을 활용하여 농작물 디지털 트윈을 위한 기능적 - 구조적 식물 모델 (FSPM) 시뮬레이션 설정을 생성하는 새로운 접근법과 이를 평가하기 위한 합성 벤치마크를 제시합니다.

Heesup Yun, Isaac Kazuo Uyehara, Earl Ranario, Lars Lundqvist, Christine H. Diepenbrock, Brian N. Bailey, J. Mason EarlesWed, 11 Ma🤖 cs.AI

PathoScribe: Transforming Pathology Data into a Living Library with a Unified LLM-Driven Framework for Semantic Retrieval and Clinical Integration

이 논문은 7 만 건의 다기관 수술 병리 보고서를 기반으로 자연어 검색, 자동 코호트 구축, 임상 질의 응답 등을 통합하여 정적인 병리 아카이브를 능동적인 임상 지능 플랫폼으로 전환하는 통합 LLM 기반 프레임워크 'PathoScribe'를 제안하고 그 유효성을 입증합니다.

Abdul Rehman Akbar, Samuel Wales-McGrath, Alejadro Levya, Lina Gokhale, Rajendra Singh, Wei Chen, Anil Parwani, Muhammad Khalid Khan NiaziWed, 11 Ma🤖 cs.AI

BiCLIP: Domain Canonicalization via Structured Geometric Transformation

이 논문은 소수의 앵커를 활용하여 도메인 간 시각 - 언어 특징을 정형화된 기하학적 변환으로 정렬하는 단순하고 매개변수가 적은 BiCLIP 프레임워크를 제안함으로써, 다양한 벤치마크에서 최첨단 성능을 달성하는 도메인 적응 방법을 제시합니다.

Pranav Mantini, Shishir K. ShahWed, 11 Ma🤖 cs.AI

Can You Hear, Localize, and Segment Continually? An Exemplar-Free Continual Learning Benchmark for Audio-Visual Segmentation

이 논문은 오디오-비주얼 분할 (AVS) 을 위한 최초의 표본 없는 지속적 학습 벤치마크를 제시하고, 저랭크 앵커링 (LRA) 과 오디오 유도 사전 융합 조정을 활용한 ATLAS 라는 강력한 베이스라인을 제안하여 역동적인 환경에서의 지속적 학습과 catastrophic forgetting 문제를 해결합니다.

Siddeshwar Raghavan, Gautham Vinod, Bruce Coburn, Fengqing ZhuWed, 11 Ma⚡ eess

SVG-EAR: Parameter-Free Linear Compensation for Sparse Video Generation via Error-aware Routing

본 논문은 희소 어텐션으로 인한 정보 손실 없이 학습 없이 클러스터 중심점을 기반으로 선형 보상을 수행하고, 보상이 필요한 블록을 정확히 식별하는 오류 인식 라우팅을 도입하여 비디오 생성의 효율성과 품질을 동시에 극대화하는 'SVG-EAR'을 제안합니다.

Xuanyi Zhou, Qiuyang Mang, Shuo Yang, Haocheng Xi, Jintao Zhang, Huanzhi Mao, Joseph E. Gonzalez, Kurt Keutzer, Ion Stoica, Alvin CheungWed, 11 Ma💻 cs

SurgCalib: Gaussian Splatting-Based Hand-Eye Calibration for Robot-Assisted Minimally Invasive Surgery

본 논문은 케이블 구동 수술 로봇의 기구적 오차와 무균 유지 문제를 해결하기 위해 가우스 스플래팅 기반의 마커 없는 자동 손 - 눈 보정 프레임워크 'SurgCalib'을 제안하고, dVRK 벤치마크에서 높은 정확도로 검증된 결과를 제시합니다.

Zijian Wu, Shuojue Yang, Yu Chung Lee, Eitan Prisman, Yueming Jin, Septimiu E. SalcudeanWed, 11 Ma💻 cs

SkipGS: Post-Densification Backward Skipping for Efficient 3DGS Training

SkipGS 는 3D 가우스 스플래팅 (3DGS) 의 학습 시간 중 상당 부분을 차지하는 후 밀도화 (post-densification) 단계에서 손실 감소가 미미한 뷰에 대한 역전파를 적응적으로 건너뛰어 전체 학습 시간을 23.1% 단축하면서도 재구성 품질은 유지하는 플러그인 방식의 효율적 학습 방법을 제안합니다.

Jingxing Li, Yongjae Leeand, Deliang FanWed, 11 Ma💻 cs

Diffusion-Based Authentication of Copy Detection Patterns: A Multimodal Framework with Printer Signature Conditioning

이 논문은 고해상도 스캐너와 생성형 AI 의 발전으로 위협받는 기존 복제 방지 패턴 (CDP) 인증의 한계를 극복하기 위해, 원본 템플릿과 프린터 고유 서명을 결합한 확산 기반 멀티모달 프레임워크를 제안하여 위조품을 효과적으로 식별하고 일반화 성능을 입증했습니다.

Bolutife Atoki, Iuliia Tkachenko, Bertrand Kerautret, Carlos Crispim-JuniorWed, 11 Ma💻 cs

The Coupling Within: Flow Matching via Distilled Normalizing Flows

이 논문은 사전 훈련된 오토리거시티브 정규화 흐름 (AR-NF) 모델의 준결정적 결합 (coupling) 을 증류하여 독립 결합이나 최적 수송 결합보다 우수한 성능을 내면서도 교사 모델 자체를 개선하는 새로운 '정규화 흐름 매칭 (NFM)' 방법을 제안합니다.

David Berthelot, Tianrong Chen, Jiatao Gu, Marco Cuturi, Laurent Dinh, Bhavik Chandna, Michal Klein, Josh Susskind, Shuangfei ZhaiWed, 11 Ma🤖 cs.LG

An accurate flatness measure to estimate the generalization performance of CNN models

이 논문은 완전 연결 네트워크에 국한되거나 근사적인 기존 방법의 한계를 극복하기 위해, 합성곱 신경망 (CNN) 의 기하학적 구조를 정확히 반영하는 폐쇄형 평탄도 측정치를 제안하고 이를 통해 CNN 모델의 일반화 성능을 정밀하게 평가하고 아키텍처 설계에 활용할 수 있음을 입증합니다.

Rahman Taleghani, Maryam Mohammadi, Francesco MarchettiWed, 11 Ma🤖 cs.LG

WS-Net: Weak-Signal Representation Learning and Gated Abundance Reconstruction for Hyperspectral Unmixing via State-Space and Weak Signal Attention Fusion

이 논문은 상태 공간 모델링과 약한 신호 어텐션 융합을 통해 하이퍼스펙트럼 이미지 내 약한 신호의 붕괴 문제를 해결하고, 기존 최첨단 방법들보다 RMSE 와 SAD 를 각각 최대 55% 와 63% 까지 감소시킨 새로운 심층 분해 프레임워크인 WS-Net 을 제안합니다.

Zekun Long, Ali Zia, Guanyiman Fu, Vivien Rolland, Jun ZhouWed, 11 Ma🤖 cs.AI

Spectral-Structured Diffusion for Single-Image Rain Removal

이 논문은 방향성과 주파수 특성을 고려한 구조적 스펙트럼 교란을 도입하고 컨볼루션 연산을 곱셈 계층으로 대체하는 풀-프로덕트 U-Net 아키텍처를 제안함으로써, 단일 이미지 강우 제거의 성능과 효율성을 동시에 개선한 'SpectralDiff' 프레임워크를 소개합니다.

Yucheng Xing, Xin WangWed, 11 Ma💻 cs

Intelligent Spatial Estimation for Fire Hazards in Engineering Sites: An Enhanced YOLOv8-Powered Proximity Analysis Framework

이 논문은 9,860 개의 주석 이미지로 학습된 향상된 YOLOv8 기반의 이중 모델 프레임워크를 통해 화재와 연기를 탐지하고 주변 객체와의 거리를 추정하여 정량적 위험 점수를 산출함으로써, 공학 현장의 화재 위험에 대한 지능적인 공간 추정 및 상황 인식 능력을 강화하는 것을 제안합니다.

Ammar K. AlMhdawi, Nonso Nnamoko, Alaa Mashan UbaidWed, 11 Ma💻 cs

← 이전 다음 →

cs.CV