cs.CV 편의 논문 | Gist.Science

ReactDance: Hierarchical Representation for High-Fidelity and Coherent Long-Form Reactive Dance Generation

이 논문은 정교한 공간적 상호작용과 장기적인 시간적 일관성을 동시에 해결하기 위해 계층적 유한 스칼라 양자화 (HFSQ) 와 블록 단위 국소 컨텍스트 (BLC) 전략을 도입한 확산 기반 반응형 댄스 생성 프레임워크인 ReactDance 를 제안합니다.

Jingzhong Lin, Xinru Li, Yuanyuan Qi + 8 more2026-03-06💻 cs

RESAR-BEV: An Explainable Progressive Residual Autoregressive Approach for Camera-Radar Fusion in BEV Segmentation

이 논문은 카메라와 레이더 센서를 융합하여 자율주행 환경 인식을 위한 BEV 시맨틱 분할의 정확도와 견고성을 향상시키기 위해, 점진적 잔차 자기회귀 학습과 이중 경로 볼륨 인코딩을 활용한 설명 가능한 RESAR-BEV 프레임워크를 제안합니다.

Zhiwen Zeng, Yunfei Yin, Zheng Yuan + 2 more2026-03-06💻 cs

DHECA-SuperGaze: Dual Head-Eye Cross-Attention and Super-Resolution for Unconstrained Gaze Estimation

이 논문은 저해상도 환경과 헤드 - 눈 상호작용 모델링의 한계를 극복하기 위해 초해상도 기술과 이중 헤드 - 눈 교차 어텐션 (DHECA) 모듈을 도입한 'DHECA-SuperGaze'를 제안하고, Gaze360 데이터셋의 오라노테이션을 수정하여 기존 최첨단 방법보다 정확도와 일반화 성능을 크게 향상시켰음을 보여줍니다.

Franko Šikić, Donik Vršnak, Sven Lončarić2026-03-06💻 cs

OSPO: Object-Centric Self-Improving Preference Optimization for Text-to-Image Generation

이 논문은 외부 데이터나 모델에 의존하지 않고 객체 중심의 선호도 데이터를 자동 생성하고 주시 기반 마스크와 객체 가중치 SimPO 손실 함수를 활용하여 텍스트 - 이미지 생성의 미세한 정합성을 향상시키고 객체 환각을 줄이는 'OSPO' 프레임워크를 제안합니다.

Yoonjin Oh, Yongjin Kim, Hyomin Kim + 2 more2026-03-06💻 cs

EDITOR: Effective and Interpretable Prompt Inversion for Text-to-Image Diffusion Models

이 논문은 텍스트 - 이미지 확산 모델의 생성된 이미지에서 원본 프롬프트를 효과적이고 해석 가능하게 역추적하는 'EDITOR'라는 새로운 기법을 제안하며, 기존 방법보다 뛰어난 이미지 유사도와 텍스트 정렬 성능을 입증하고 다양한 응용 가능성을 보여줍니다.

Mingzhe Li, Kejing Xia, Gehao Zhang + 5 more2026-03-06💻 cs

HypeVPR: Exploring Hyperbolic Space for Perspective to Equirectangular Visual Place Recognition

이 논문은 시각적 공간의 계층적 특성을 쌍곡선 공간에 효과적으로 매핑하여 퍼스펙티브와 에퀴랙탱귤러 이미지 간의 시각적 장소 인식 (P2E) 성능을 향상시키고, 검색 속도와 저장 공간 효율성을 동시에 개선한 'HypeVPR'을 제안합니다.

Suhan Woo, Seongwon Lee, Jinwoo Jang + 1 more2026-03-06💻 cs

FLAIR-HUB: Large-scale Multimodal Dataset for Land Cover and Crop Mapping

IGN 은 다양한 지구 관측 데이터를 활용한 대규모 다중 모달 데이터셋 'FLAIR-HUB'를 소개하여, 20cm 고해상도 주석과 6 가지 모달리티를 결합한 토지 피복 및 작물 매핑을 위한 벤치마크와 모델 성능을 평가했습니다.

Anatol Garioud, Sébastien Giordano, Nicolas David + 1 more2026-03-06💻 cs

HSG-12M: A Large-Scale Benchmark of Spatial Multigraphs from the Energy Spectra of Non-Hermitian Crystals

본 논문은 비허미션 결정체의 에너지 스펙트럼에서 추출된 1,160 만 개의 정적 및 510 만 개의 동적 공간 다중그래프를 포함하는 대규모 벤치마크 데이터셋 HSG-12M 과 이를 자동 생성하는 오픈소스 파이프라인 Poly2Graph 를 소개하여, 물리학적 발견과 기하학적 인식을 갖춘 그래프 학습의 새로운 지평을 엽니다.

Xianquan Yan, Hakan Akgün, Kenji Kawaguchi + 2 more2026-03-06🔬 cond-mat.mes-hall

InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions

이 논문은 텍스트, 이미지, 오디오와 같은 다중 모달 조건을 기반으로 여러 사람과 객체가 포함된 복잡한 상호작용을 정밀하게 제어할 수 있도록, 각 개체의 공간적·시간적 영역에 조건을 명시적으로 바인딩하는 새로운 인간 애니메이션 프레임워크 'InterActHuman'을 제안합니다.

Zhenzhi Wang, Jiaqi Yang, Jianwen Jiang + 7 more2026-03-06💻 cs

AutoV: Loss-Oriented Ranking for Visual Prompt Retrieval in LVLMs

이 논문은 시각 프롬프트의 성능 한계를 극복하기 위해 손실 기반 순위 매기기를 통해 자동적으로 최적의 시각 프롬프트를 검색하는 경량 프레임워크 'AutoV'를 제안하며, 이는 다양한 LVLM 의 이미지 이해 및 생성 성능을 크게 향상시킵니다.

Yuan Zhang, Chun-Kai Fan, Sicheng Yu + 6 more2026-03-06💻 cs

Traceable Evidence Enhanced Visual Grounded Reasoning: Evaluation and Methodology

이 논문은 복잡한 시각적 추론 능력을 평가하기 위한 'TreeBench' 벤치마크와 강화 학습 기반의 'TreeVGR' 학습 패러다임을 제안하여, 추적 가능한 증거를 통한 시각적 추론의 정확성과 설명 가능성을 크게 향상시켰음을 보여줍니다.

Haochen Wang, Xiangtai Li, Zilong Huang + 9 more2026-03-06💻 cs

Graph-Based Multi-Modal Light-weight Network for Adaptive Brain Tumor Segmentation

이 논문은 4.58M 개의 파라미터로 주요 3D 트랜스포머 대비 98% 적은 자원을 사용하면서도 BraTS 벤치마크에서 최첨단 성능을 달성하는 그래프 기반 경량 뇌종양 분할 네트워크 GMLN-BTS 를 제안합니다.

Guohao Huo, Ruiting Dai, Zitong Wang + 2 more2026-03-06💻 cs

Elucidating the Design Space of Arbitrary-Noise-Based Diffusion Models

이 논문은 고정된 가우시안 노이즈의 한계를 극복하고 다양한 노이즈 패턴을 처리하여 이미지 복원 성능을 향상시키기 위해, 임의의 노이즈를 기반으로 한 확산 모델의 설계 공간을 체계적으로 규명하는 새로운 프레임워크인 EDA 를 제안합니다.

Xingyu Qiu, Mengying Yang, Xinghua Ma + 6 more2026-03-06💻 cs

SAMPO-Path: Segmentation Intent-Aligned Preference Optimization for Pathology Foundation Model Segmentation

이 논문은 조직병리 이미지의 높은 세포 밀도와 이질성, 그리고 임상적 분할 의도 간의 간극을 해결하기 위해, 직접 선호도 최적화 (DPO) 를 순수 비전 기반 모델에 최초로 적용하여 다양한 프롬프트 품질에서도 임상적 의도에 부합하는 정확한 분할을 가능하게 하는 'SAMPO-Path' 프레임워크를 제안합니다.

Yonghuang Wu, Wenwen Zeng, Xuan Xie + 3 more2026-03-06💻 cs

Optimizing Multi-Modality Trackers via Significance-Regularized Tuning

이 논문은 사전 훈련된 모델의 파라미터 중요도를 기반으로 한 정규화 미세 조정 프레임워크를 제안하여, RGB 데이터에 대한 다중 모달리티 추적기의 성능을 기존 최첨단 기법보다 향상시킵니다.

Zhiwen Chen, Jinjian Wu, Zhiyu Zhu + 3 more2026-03-06💻 cs

Quadrotor Navigation using Reinforcement Learning with Privileged Information

이 논문은 시간도달 (ToA) 맵과 같은 우대 정보와 새로운 손실 함수를 활용하여 대규모 장애물 환경에서 기존 방법보다 성능이 뛰어난 강화학습 기반 4 축 헬리콥터 항법 시스템을 제안하고, 이를 시뮬레이션 및 실제 야외 환경에서 성공적으로 검증했습니다.

Jonathan Lee, Abhishek Rathod, Kshitij Goel + 2 more2026-03-06💻 cs

Distant Object Localisation from Noisy Image Segmentation Sequences

이 논문은 제한된 계산 자원과 원거리 물체라는 제약 조건 하에서도 드론 기반 산불 감시와 같은 안전 필수 감시 작업을 위해 노이즈가 포함된 이미지 분할 시퀀스를 활용한 다중 뷰 삼각측량 및 파티클 필터 기반의 3D 물체 국소화 방법의 유효성을 입증합니다.

Julius Pesonen, Arno Solin, Eija Honkavaara2026-03-06💻 cs

BridgeDrive: Diffusion Bridge Policy for Closed-Loop Trajectory Planning in Autonomous Driving

이 논문은 폐루프 자율주행 환경에서 안전하고 반응적인 궤적 계획을 위해 전진 및 역과정의 이론적 일관성을 보장하는 '브릿지드라이브 (BridgeDrive)'라는 새로운 앵커 기반 확산 브리지 정책을 제안하고, Bench2Drive 벤치마크에서 기존 최첨단 방법론보다 성공률을 크게 향상시킨 결과를 제시합니다.

Shu Liu, Wenlin Chen, Weihao Li + 7 more2026-03-06💻 cs

Hyperspherical Latents Improve Continuous-Token Autoregressive Generation

이 논문은 VAE 잠재 공간의 이질적인 분산을 해결하기 위해 초구면 제약 (hyperspherical constraint) 을 도입한 'SphereAR'를 제안하여, 기존 확산 모델이나 마스킹 생성 모델을 능가하는 이미지 생성 성능을 달성한 연속 토큰 자기회귀 (AR) 모델의 새로운 표준을 제시합니다.

Guolin Ke, Hui Xue2026-03-06💻 cs

Continuous Space-Time Video Super-Resolution with 3D Fourier Fields

이 논문은 저해상도 비디오를 3D 푸리에 필드로 연속적으로 표현하여 공간적 세부 사항과 시간적 일관성을 동시에 향상시키고, 기존 방법보다 효율적으로 고품질 비디오 초해상도를 달성하는 새로운 접근법을 제안합니다.

Alexander Becker, Julius Erbach, Dominik Narnhofer + 1 more2026-03-06💻 cs

← 이전 다음 →