cs.CV 편의 논문 | Gist.Science

RapidPoseTriangulation: Multi-view Multi-person Whole-body Human Pose Triangulation in a Millisecond

이 논문은 여러 시점과 다수의 사람에 대한 전신 자세 삼각측량을 밀리초 단위로 수행하면서도 일반화 성능이 뛰어난 새로운 알고리즘 'RapidPoseTriangulation'을 제안하고 있습니다.

Daniel Bermuth, Alexander Poeppel, Wolfgang Reif2026-03-06💻 cs

Noise2Ghost: Self-supervised deep convolutional reconstruction for ghost imaging

이 논문은 청정 참조 데이터 없이도 노이즈가 많은 acquisitions 에서 탁월한 재구성 품질을 제공하는 자기지도 학습 기반의 딥러닝 고스트 이미징 재구성 방법인 'Noise2Ghost'를 제안하며, 이를 통해 저조도 X 선 형광 이미징 등 다양한 첨단 응용 분야에서 신호 대 잡음비 문제를 해결할 수 있음을 보여줍니다.

Mathieu Manni, Dmitry Karpov, K. Joost Batenburg + 2 more2026-03-06🔬 physics

Collaborative Learning of Local 3D Occupancy Prediction and Versatile Global Occupancy Mapping

이 논문은 과거의 전역 점유율 맵을 장기 기억 사전 지식으로 활용하여 국부 3D 점유율 예측의 정확도를 높이고, 동시에 새로운 관측 데이터로 전역 맵을 지속적으로 업데이트하는 'LMPOcc'라는 새로운 프레임워크를 제안합니다.

Shanshuai Yuan, Julong Wei, Muer Tie + 3 more2026-03-06💻 cs

PhysLLM: Harnessing Large Language Models for Cross-Modal Remote Physiological Sensing

이 논문은 rPPG 신호의 조명 변화 및 모션 아티팩트 문제를 해결하기 위해 대규모 언어 모델 (LLM) 과 도메인 특화 rPPG 구성 요소를 시너지 있게 결합한 'PhysLLM' 프레임워크를 제안하고, 텍스트 프로토타입 안내 (TPG) 전략과 듀얼 도메인 정적 (DDS) 알고리즘을 통해 기존 방법보다 뛰어난 정확도와 강건성을 입증했습니다.

Yiping Xie, Bo Zhao, Mingtong Dai + 6 more2026-03-06💻 cs

ReactDance: Hierarchical Representation for High-Fidelity and Coherent Long-Form Reactive Dance Generation

이 논문은 정교한 공간적 상호작용과 장기적인 시간적 일관성을 동시에 해결하기 위해 계층적 유한 스칼라 양자화 (HFSQ) 와 블록 단위 국소 컨텍스트 (BLC) 전략을 도입한 확산 기반 반응형 댄스 생성 프레임워크인 ReactDance 를 제안합니다.

Jingzhong Lin, Xinru Li, Yuanyuan Qi + 8 more2026-03-06💻 cs

RESAR-BEV: An Explainable Progressive Residual Autoregressive Approach for Camera-Radar Fusion in BEV Segmentation

이 논문은 카메라와 레이더 센서를 융합하여 자율주행 환경 인식을 위한 BEV 시맨틱 분할의 정확도와 견고성을 향상시키기 위해, 점진적 잔차 자기회귀 학습과 이중 경로 볼륨 인코딩을 활용한 설명 가능한 RESAR-BEV 프레임워크를 제안합니다.

Zhiwen Zeng, Yunfei Yin, Zheng Yuan + 2 more2026-03-06💻 cs

DHECA-SuperGaze: Dual Head-Eye Cross-Attention and Super-Resolution for Unconstrained Gaze Estimation

이 논문은 저해상도 환경과 헤드 - 눈 상호작용 모델링의 한계를 극복하기 위해 초해상도 기술과 이중 헤드 - 눈 교차 어텐션 (DHECA) 모듈을 도입한 'DHECA-SuperGaze'를 제안하고, Gaze360 데이터셋의 오라노테이션을 수정하여 기존 최첨단 방법보다 정확도와 일반화 성능을 크게 향상시켰음을 보여줍니다.

Franko Šikić, Donik Vršnak, Sven Lončarić2026-03-06💻 cs

OSPO: Object-Centric Self-Improving Preference Optimization for Text-to-Image Generation

이 논문은 외부 데이터나 모델에 의존하지 않고 객체 중심의 선호도 데이터를 자동 생성하고 주시 기반 마스크와 객체 가중치 SimPO 손실 함수를 활용하여 텍스트 - 이미지 생성의 미세한 정합성을 향상시키고 객체 환각을 줄이는 'OSPO' 프레임워크를 제안합니다.

Yoonjin Oh, Yongjin Kim, Hyomin Kim + 2 more2026-03-06💻 cs

EDITOR: Effective and Interpretable Prompt Inversion for Text-to-Image Diffusion Models

이 논문은 텍스트 - 이미지 확산 모델의 생성된 이미지에서 원본 프롬프트를 효과적이고 해석 가능하게 역추적하는 'EDITOR'라는 새로운 기법을 제안하며, 기존 방법보다 뛰어난 이미지 유사도와 텍스트 정렬 성능을 입증하고 다양한 응용 가능성을 보여줍니다.

Mingzhe Li, Kejing Xia, Gehao Zhang + 5 more2026-03-06💻 cs

HypeVPR: Exploring Hyperbolic Space for Perspective to Equirectangular Visual Place Recognition

이 논문은 시각적 공간의 계층적 특성을 쌍곡선 공간에 효과적으로 매핑하여 퍼스펙티브와 에퀴랙탱귤러 이미지 간의 시각적 장소 인식 (P2E) 성능을 향상시키고, 검색 속도와 저장 공간 효율성을 동시에 개선한 'HypeVPR'을 제안합니다.

Suhan Woo, Seongwon Lee, Jinwoo Jang + 1 more2026-03-06💻 cs

FLAIR-HUB: Large-scale Multimodal Dataset for Land Cover and Crop Mapping

IGN 은 다양한 지구 관측 데이터를 활용한 대규모 다중 모달 데이터셋 'FLAIR-HUB'를 소개하여, 20cm 고해상도 주석과 6 가지 모달리티를 결합한 토지 피복 및 작물 매핑을 위한 벤치마크와 모델 성능을 평가했습니다.

Anatol Garioud, Sébastien Giordano, Nicolas David + 1 more2026-03-06💻 cs

HSG-12M: A Large-Scale Benchmark of Spatial Multigraphs from the Energy Spectra of Non-Hermitian Crystals

본 논문은 비허미션 결정체의 에너지 스펙트럼에서 추출된 1,160 만 개의 정적 및 510 만 개의 동적 공간 다중그래프를 포함하는 대규모 벤치마크 데이터셋 HSG-12M 과 이를 자동 생성하는 오픈소스 파이프라인 Poly2Graph 를 소개하여, 물리학적 발견과 기하학적 인식을 갖춘 그래프 학습의 새로운 지평을 엽니다.

Xianquan Yan, Hakan Akgün, Kenji Kawaguchi + 2 more2026-03-06🔬 cond-mat.mes-hall

InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions

이 논문은 텍스트, 이미지, 오디오와 같은 다중 모달 조건을 기반으로 여러 사람과 객체가 포함된 복잡한 상호작용을 정밀하게 제어할 수 있도록, 각 개체의 공간적·시간적 영역에 조건을 명시적으로 바인딩하는 새로운 인간 애니메이션 프레임워크 'InterActHuman'을 제안합니다.

Zhenzhi Wang, Jiaqi Yang, Jianwen Jiang + 7 more2026-03-06💻 cs

AutoV: Loss-Oriented Ranking for Visual Prompt Retrieval in LVLMs

이 논문은 시각 프롬프트의 성능 한계를 극복하기 위해 손실 기반 순위 매기기를 통해 자동적으로 최적의 시각 프롬프트를 검색하는 경량 프레임워크 'AutoV'를 제안하며, 이는 다양한 LVLM 의 이미지 이해 및 생성 성능을 크게 향상시킵니다.

Yuan Zhang, Chun-Kai Fan, Sicheng Yu + 6 more2026-03-06💻 cs

Traceable Evidence Enhanced Visual Grounded Reasoning: Evaluation and Methodology

이 논문은 복잡한 시각적 추론 능력을 평가하기 위한 'TreeBench' 벤치마크와 강화 학습 기반의 'TreeVGR' 학습 패러다임을 제안하여, 추적 가능한 증거를 통한 시각적 추론의 정확성과 설명 가능성을 크게 향상시켰음을 보여줍니다.

Haochen Wang, Xiangtai Li, Zilong Huang + 9 more2026-03-06💻 cs

Graph-Based Multi-Modal Light-weight Network for Adaptive Brain Tumor Segmentation

이 논문은 4.58M 개의 파라미터로 주요 3D 트랜스포머 대비 98% 적은 자원을 사용하면서도 BraTS 벤치마크에서 최첨단 성능을 달성하는 그래프 기반 경량 뇌종양 분할 네트워크 GMLN-BTS 를 제안합니다.

Guohao Huo, Ruiting Dai, Zitong Wang + 2 more2026-03-06💻 cs

Elucidating the Design Space of Arbitrary-Noise-Based Diffusion Models

이 논문은 고정된 가우시안 노이즈의 한계를 극복하고 다양한 노이즈 패턴을 처리하여 이미지 복원 성능을 향상시키기 위해, 임의의 노이즈를 기반으로 한 확산 모델의 설계 공간을 체계적으로 규명하는 새로운 프레임워크인 EDA 를 제안합니다.

Xingyu Qiu, Mengying Yang, Xinghua Ma + 6 more2026-03-06💻 cs

SAMPO-Path: Segmentation Intent-Aligned Preference Optimization for Pathology Foundation Model Segmentation

이 논문은 조직병리 이미지의 높은 세포 밀도와 이질성, 그리고 임상적 분할 의도 간의 간극을 해결하기 위해, 직접 선호도 최적화 (DPO) 를 순수 비전 기반 모델에 최초로 적용하여 다양한 프롬프트 품질에서도 임상적 의도에 부합하는 정확한 분할을 가능하게 하는 'SAMPO-Path' 프레임워크를 제안합니다.

Yonghuang Wu, Wenwen Zeng, Xuan Xie + 3 more2026-03-06💻 cs

Optimizing Multi-Modality Trackers via Significance-Regularized Tuning

이 논문은 사전 훈련된 모델의 파라미터 중요도를 기반으로 한 정규화 미세 조정 프레임워크를 제안하여, RGB 데이터에 대한 다중 모달리티 추적기의 성능을 기존 최첨단 기법보다 향상시킵니다.

Zhiwen Chen, Jinjian Wu, Zhiyu Zhu + 3 more2026-03-06💻 cs

Quadrotor Navigation using Reinforcement Learning with Privileged Information

이 논문은 시간도달 (ToA) 맵과 같은 우대 정보와 새로운 손실 함수를 활용하여 대규모 장애물 환경에서 기존 방법보다 성능이 뛰어난 강화학습 기반 4 축 헬리콥터 항법 시스템을 제안하고, 이를 시뮬레이션 및 실제 야외 환경에서 성공적으로 검증했습니다.

Jonathan Lee, Abhishek Rathod, Kshitij Goel + 2 more2026-03-06💻 cs

← 이전 다음 →