cs.CV 편의 논문 | Gist.Science

DiffWind: Physics-Informed Differentiable Modeling of Wind-Driven Object Dynamics

이 논문은 비디오 관측을 통해 바람과 물체의 상호작용을 물리 법칙에 기반한 미분 가능한 프레임워크인 DiffWind 로 모델링하여, 3D 가우스 스플래팅과 MPM, LBM 을 활용하여 바람의 힘장을 재구성하고 새로운 바람 조건에서의 시뮬레이션 및 바람 리타게팅을 가능하게 하는 WD-Objects 데이터셋을 포함해 기존 방법보다 뛰어난 정확도와 충실도를 달성함을 제시합니다.

Yuanhang Lei, Boming Zhao, Zesong Yang, Xingxuan Li, Tao Cheng, Haocheng Peng, Ru Zhang, Yang Yang, Siyuan Huang, Yujun Shen, Ruizhen Hu, Hujun Bao, Zhaopeng Cui2026-03-11💻 cs

VarSplat: Uncertainty-aware 3D Gaussian Splatting for Robust RGB-D SLAM

이 논문은 저조도 영역이나 반사 표면과 같은 신뢰할 수 없는 측정값으로 인한 드리프트를 줄이기 위해, 3D 가우스 스플래팅 기반 SLAM 시스템이 각 스플랫의 불확실성을 명시적으로 학습하고 이를 통해 신뢰할 수 있는 영역에 초점을 맞춘 강건한 추론 및 매핑을 가능하게 하는 'VarSplat'을 제안합니다.

Anh Thuan Tran, Jana Kosecka2026-03-11💻 cs

Improving 3D Foot Motion Reconstruction in Markerless Monocular Human Motion Capture

이 논문은 부정확한 주석과 제한된 데이터로 인해 기존 방법들이 한계를 보였던 발의 정밀한 3D 모션 재구성을 위해, 2D 발 키포인트를 3D 로 승격시키고 무릎 및 발 모션 맥락을 활용하는 'FootMR'과 복잡한 발 움직임을 평가할 수 있는 새로운 데이터셋 'MOOF'를 제안하여 기존 최첨단 방법보다 발 관절 각도 오차를 최대 30% 까지 줄이는 성과를 거두었다고 요약할 수 있습니다.

Tom Wehrbein, Bodo Rosenhahn2026-03-11💻 cs

AutoViVQA: A Large-Scale Automatically Constructed Dataset for Vietnamese Visual Question Answering

이 논문은 PhoBERT 와 비전 트랜스포머를 활용한 대규모 자동 구축 베트남어 시각 질문 답변 (VQA) 데이터셋 'AutoViVQA'를 제안하고, 다양한 자동 평가 지표와 다국어 설정 하에서 트랜스포머 기반 아키텍처의 성능을 체계적으로 비교 분석합니다.

Nguyen Anh Tuong, Phan Ba Duc, Nguyen Trung Quoc, Tran Dac Thinh, Dang Duy Lan, Nguyen Quoc Thinh, Tung Le2026-03-11🤖 cs.AI

DRIFT: Dual-Representation Inter-Fusion Transformer for Automated Driving Perception with 4D Radar Point Clouds

본 논문은 4D 레이더의 낮은 점군 밀도 문제를 해결하기 위해 국소적 세부 정보와 전역적 맥락 정보를 효과적으로 융합하는 이중 경로 아키텍처 'DRIFT'를 제안하여 객체 감지 및 자유 도로 추정 성능을 크게 향상시켰음을 보여줍니다.

Siqi Pei, Andras Palffy, Dariu M. Gavrila2026-03-11💻 cs

TemporalDoRA: Temporal PEFT for Robust Surgical Video Question Answering

이 논문은 시계열적 인과관계를 명시적으로 모델링하여 외과 영상의 자연스러운 언어적 변형에 강인한 질문 응답을 가능하게 하는 새로운 PEFT 방법론인 TemporalDoRA 를 제안하고, 이를 검증하기 위한 새로운 데이터셋 REAL-Colon-VQA 를 공개합니다.

Luca Carlini, Chiara Lena, Cesare Hassan, Danail Stoyanov, Elena De Momi, Sophia Bano, Mobarak I. Hoque2026-03-11💻 cs

TriFusion-SR: Joint Tri-Modal Medical Image Fusion and SR

이 논문은 MRI, CT, PET 와 같은 3 가지 의료 영상 모달리티의 해상도 저하와 모달리티 간 불일치 문제를 해결하기 위해, 웨이블릿 변환을 기반으로 한 조건부 확산 프레임워크인 TriFusion-SR 을 제안하여 융합과 초해상도 (SR) 를 동시에 수행하고 기존 방법 대비 PSNR 을 4.8~12.4% 향상시킨 성능을 입증합니다.

Fayaz Ali Dharejo, Sharif S. M. A., Aiman Khalil, Nachiket Chaudhary, Rizwan Ali Naqvi, Radu Timofte2026-03-11💻 cs

ProGS: Towards Progressive Coding for 3D Gaussian Splatting

ProGS 는 3D 가우시안 스플래팅 (3DGS) 의 대용량 데이터 저장 및 전송 문제를 해결하기 위해 옥트리 구조를 활용한 점진적 코딩 방식을 도입하여, 파일 크기를 45 배 줄이면서도 렌더링 품질을 10% 이상 향상시킨 스트리밍 친화적 코덱을 제안합니다.

Zhiye Tang, Lingzhuo Liu, Shengjie Jiao, Qiudan Zhang, Junhui Hou, You Yang, Xu Wang2026-03-11💻 cs

GSStream: 3D Gaussian Splatting based Volumetric Scene Streaming System

이 논문은 3D 가우스 스플래팅 (3DGS) 의 대용량 데이터 전송 문제를 해결하기 위해, 다중 사용자의 협업 및 역사적 데이터를 기반으로 한 뷰포트 예측 모듈과 심층 강화 학습 기반의 비트레이트 적응 모듈을 통합한 새로운 볼륨 장면 스트리밍 시스템인 'GSStream'을 제안하고 그 우수성을 입증합니다.

Zhiye Tang, Qiudan Zhang, Lei Zhang, Junhui Hou, You Yang, Xu Wang2026-03-11💻 cs

FrameDiT: Diffusion Transformer with Frame-Level Matrix Attention for Efficient Video Generation

이 논문은 전역 시공간 구조를 보존하면서도 효율성을 유지하기 위해 프레임 단위의 행렬 어텐션 메커니즘을 도입한 'FrameDiT'를 제안하여, 기존 확산 트랜스포머 모델의 성능과 효율성 간의 트레이드오프를 해결하고 비디오 생성 분야에서 최첨단 결과를 달성했다고 요약할 수 있습니다.

Minh Khoa Le, Kien Do, Duc Thanh Nguyen, Truyen Tran2026-03-11💻 cs

EXPLORE-Bench: Egocentric Scene Prediction with Long-Horizon Reasoning

이 논문은 실제 1 인칭 비디오를 기반으로 한 'EXPLORE-Bench' 벤치마크를 제안하여, 다중 모달 대규모 언어 모델이 1 인칭 관점에서 행동의 장기적 물리적 결과를 추론하는 데 여전히 한계가 있음을 규명하고, 단계별 추론을 통한 성능 개선 가능성을 제시합니다.

Chengjun Yu, Xuhan Zhu, Chaoqun Du, Pengfei Yu, Wei Zhai, Yang Cao, Zheng-Jun Zha2026-03-11🤖 cs.AI

FetalAgents: A Multi-Agent System for Fetal Ultrasound Image and Video Analysis

이 논문은 진단, 측정, 분할 및 비디오 스트림 요약 등 다양한 임상 작업을 통합적으로 수행하여 기존 자동화 도구의 한계를 극복하고, 다중 전문가 에이전트 조정을 통해 가장 정확하고 견고한 태아 초음파 분석 및 보고 솔루션을 제시하는 'FetalAgents' 시스템을 제안합니다.

Xiaotian Hu, Junwei Huang, Mingxuan Liu, Kasidit Anmahapong, Yifei Chen, Yitong Luo, Yiming Huang, Xuguang Bai, Zihan Li, Yi Liao, Haibo Qu, Qiyuan Tian2026-03-11💻 cs

$M^2$ -Occ: Resilient 3D Semantic Occupancy Prediction for Autonomous Driving with Incomplete Camera Inputs

이 논문은 실제 자율주행 환경에서 카메라 입력이 불완전한 상황에서도 3D 시맨틱 오큐팬시 예측의 견고성을 확보하기 위해 누락된 뷰의 특징을 복원하고 전역적 의미적 일관성을 유지하는 $M^2$ -Occ 프레임워크를 제안합니다.

Kaixin Lin, Kunyu Peng, Di Wen, Yufan Chen, Ruiping Liu, Kailun Yang2026-03-11⚡ eess

Let's Reward Step-by-Step: Step-Aware Contrastive Alignment for Vision-Language Navigation in Continuous Environments

이 논문은 다중 모달 대형 언어 모델 기반의 연속 환경 비전 - 언어 내비게이션 (VLN-CE) 에서 발생하는 누적 오류와 희소한 보상 문제를 해결하기 위해, 불완전한 궤적에서 밀집된 감독 신호를 추출하여 단계별 정렬을 수행하는 '단계 인식 대비 정렬 (SACA)' 프레임워크를 제안하고 이를 통해 최첨단 성능을 달성함을 보여줍니다.

Haoyuan Li, Rui Liu, Hehe Fan, Yi Yang2026-03-11💻 cs

ENIGMA-360: An Ego-Exo Dataset for Human Behavior Understanding in Industrial Scenarios

이 논문은 산업 환경에서의 인간 행동 이해를 지원하기 위해 실제 산업 현장에서 동기화된 180 개의 자시 (ego) 및 타시 (exo) 시점 비디오와 상세한 주석을 포함한 새로운 데이터셋 'ENIGMA-360'을 제안하고, 이를 기반으로 한 기초 실험을 통해 기존 모델의 한계를 규명했습니다.

Francesco Ragusa, Rosario Leonardi, Michele Mazzamuto, Daniele Di Mauro, Camillo Quattrocchi, Alessandro Passanisi, Irene D'Ambra, Antonino Furnari, Giovanni Maria Farinella2026-03-11💻 cs

LAP: A Language-Aware Planning Model For Procedure Planning In Instructional Videos

이 논문은 시각적 관찰의 모호성을 극복하고 절차 계획의 정확도를 획기적으로 향상시키기 위해, 비전 - 언어 모델을 활용하여 시각 정보를 언어적 표현으로 변환한 후 이를 확산 모델에 적용하는 새로운 '언어 인식 계획 (LAP)' 모델을 제안하고 여러 벤치마크에서 최첨단 성능을 입증했습니다.

Lei Shi, Victor Aregbede, Andreas Persson, Martin Längkvist, Amy Loutfi, Stephanie Lowry2026-03-11💻 cs

LogoDiffuser: Training-Free Multilingual Logo Generation and Stylization via Letter-Aware Attention Control

이 논문은 기존 방법의 한계를 극복하고 추가 학습 없이 다국어 로고 생성 및 스타일화를 가능하게 하는 'LogoDiffuser'라는 새로운 방법을 제안하며, 이를 위해 텍스트 대신 문자 이미지를 입력하고 주의 메커니즘을 제어하여 문자 구조와 시각적 디자인을 통합합니다.

Mingyu Kang, Hyein Seo, Yuna Jeong, Junhyeong Park, Yong Suk Choi2026-03-11💻 cs

PanoAffordanceNet: Towards Holistic Affordance Grounding in 360{\deg} Indoor Environments

이 논문은 360 도 실내 환경에서의 전역적 지각을 위해 왜곡 인식 스펙트럼 모듈레이터와 오미-구형 밀도화 헤드를 갖춘 PanoAffordanceNet 프레임워크와 고품질 데이터셋 360-AGD 를 제안하여, 기존 객체 중심 및 평면 뷰에 국한된 affordance grounding 의 한계를 극복하고 장면 수준의 지각을 위한 강력한 기준을 마련했습니다.

Guoliang Zhu, Wanjun Jia, Caoyang Shao, Yuheng Zhang, Zhiyong Li, Kailun Yang2026-03-11⚡ eess

Ego: Embedding-Guided Personalization of Vision-Language Models

이 논문은 추가적인 학습 단계나 외부 모듈 없이 비전-언어 모델의 내부 주의 메커니즘을 활용해 목표 개념을 나타내는 시각 토큰을 추출하여 메모리로 저장함으로써, 효율적이고 확장 가능한 개인화 기능을 구현하는 'Ego' 방법을 제안합니다.

Soroush Seifi, Simon Gardier, Vaggelis Dorovatas, Daniel Olmeda Reino, Rahaf Aljundi2026-03-11🤖 cs.AI

Removing the Trigger, Not the Backdoor: Alternative Triggers and Latent Backdoors

이 논문은 기존 백도어 방어 기법이 훈련된 트리거를 제거하는 것만으로는 충분하지 않으며, 훈련 트리거와 시각적으로 구별되지만 동일한 백도어를 활성화하는 '대체 트리거'가 존재함을 이론적·실증적으로 증명하고, 이에 따라 입력 공간의 트리거가 아닌 표현 공간의 백도어 방향을 표적으로 하는 새로운 방어 전략의 필요성을 제기합니다.

Gorka Abad, Ermes Franch, Stefanos Koffas, Stjepan Picek2026-03-11💻 cs

← 이전 다음 →

cs.CV