cs.CV 편의 논문 | Gist.Science

Dr. Seg: Revisiting GRPO Training for Visual Large Language Models through Perception-Oriented Design

이 논문은 비전 기반 대형 언어 모델 (VLLM) 의 GRPO 학습에서 추론 중심 접근법의 한계를 지적하고, 더 넓은 출력 공간과 미세한 보상 안정성을 고려한 'Dr. Seg'라는 새로운 프레임워크를 제안하여 복잡한 시각 시나리오에서의 성능을 향상시켰음을 보여줍니다.

Haoxiang Sun, Tao Wang, Chenwei Tang + 2 more2026-03-06💻 cs

AlignVAR: Towards Globally Consistent Visual Autoregression for Image Super-Resolution

이 논문은 국소성 편향과 잔차 기반 학습의 한계를 해결하여 전역적 일관성을 확보하고, 기존 확산 기반 모델 대비 10 배 빠른 추론 속도와 50% 적은 파라미터로 이미지 초해상도 성능을 혁신적으로 개선한 'AlignVAR' 프레임워크를 제안합니다.

Cencen Liu, Dongyang Zhang, Wen Yin + 6 more2026-03-06💻 cs

Improving Text-to-Image Generation with Intrinsic Self-Confidence Rewards

이 논문은 외부 보상 감독 없이 모델이 자체적으로 생성한 노이즈 복구 정확도를 기반으로 한 'SOLACE'라는 자기 신뢰 보상 프레임워크를 제안하여 텍스트 - 이미지 생성 모델의 구성, 텍스트 렌더링 및 정렬 능력을 향상시키고 외부 보상과 결합 시 보상 해킹을 완화함을 보여줍니다.

Seungwook Kim, Minsu Cho2026-03-06💻 cs

Dr.Occ: Depth- and Region-Guided 3D Occupancy from Surround-View Cameras for Autonomous Driving

이 논문은 모호한 깊이 정보와 공간적 불균형 문제를 해결하기 위해 MoGe-2 기반의 깊이 안내 2D-to-3D 뷰 변환기와 혼합 전문가 (MoE) 에서 영감을 받은 지역 안내 전문가 변환기를 도입한 'Dr. Occ' 프레임워크를 제안하여, 순전히 카메라 입력만으로 3D 점유율 예측의 정확도를 획기적으로 향상시킵니다.

Xubo Zhu, Haoyang Zhang, Fei He + 4 more2026-03-06💻 cs

FreeAct: Freeing Activations for LLM Quantization

이 논문은 LLM 양자화 시 정적인 변환 제약에서 벗어나 토큰별 동적 특성을 반영한 변환 행렬을 도입하여 확산 및 멀티모달 LLM 의 성능을 획기적으로 개선하는 'FreeAct' 프레임워크를 제안합니다.

Xiaohao Liu, Xiaobo Xia, Manyi Zhang + 6 more2026-03-06💻 cs

Kiwi-Edit: Versatile Video Editing via Instruction and Reference Guidance

이 논문은 이미지 생성 모델을 활용한 확장 가능한 데이터 생성 파이프라인을 통해 대규모 데이터셋 RefVIE 와 평가 벤치마크를 구축하고, 참조 지시를 통합한 새로운 아키텍처 'Kiwi-Edit'를 제안함으로써 지시 기반 비디오 편집의 정밀도와 제어 가능성을 획기적으로 향상시켰습니다.

Yiqi Lin, Guoqiang Liang, Ziyun Zeng + 3 more2026-03-06💻 cs

Track4World: Feedforward World-centric Dense 3D Tracking of All Pixels

이 논문은 VGGT 스타일의 비전 트랜스포머와 새로운 3D 상관관계 기법을 활용하여 단일 영상에서 모든 픽셀의 2D 및 3D 밀집 흐름을 실시간으로 추정하고 전 세계 좌표계에서 효율적인 3D 추적을 가능하게 하는 'Track4World'라는 피드포워드 모델을 제안합니다.

Jiahao Lu, Jiayi Xu, Wenbo Hu + 5 more2026-03-06💻 cs

Gated Differential Linear Attention: A Linear-Time Decoder for High-Fidelity Medical Segmentation

이 논문은 의료 영상 분할에서 선형 시간 복잡도를 유지하면서도 정밀한 해부학적 경계를 복원하기 위해, 공통 모드 노이즈를 제거하고 관련 맥락을 증폭하는 게이트 차분 선형 어텐션 (GDLA) 메커니즘을 도입한 PVT-GDLA 디코더를 제안합니다.

Hongbo Zheng, Afshin Bozorgpour, Dorit Merhof + 1 more2026-03-06💻 cs

MultiShadow: Multi-Object Shadow Generation for Image Compositing via Diffusion Model

이 논문은 사전 학습된 텍스트 - 이미지 확산 모델의 멀티모달 능력을 활용하여 이미지 합성 시 여러 객체에 대해 기하학적 일관성과 물리적 타당성을 갖춘 그림자를 생성하는 'MultiShadow' 방법을 제안하고, 이를 통해 단일 및 다중 객체 그림자 생성 분야에서 최첨단 성능을 달성함을 보여줍니다.

Waqas Ahmed, Dean Diepeveen, Ferdous Sohel2026-03-06💻 cs

IoUCert: Robustness Verification for Anchor-based Object Detectors

이 논문은 복잡한 비선형 좌표 변환과 IoU(교집합 비율) 지표를 극복하기 위해 IoUCert라는 새로운 형식적 검증 프레임워크를 제안하여, SSD 및 YOLOv2/v3 와 같은 앵커 기반 객체 탐지 모델의 강건성을 최초로 검증할 수 있음을 보여줍니다.

Benedikt Brückner, Alejandro J. Mercado, Yanghao Zhang, Panagiotis Kouvaros, Alessio Lomuscio2026-03-06🔒 cs.CR

DMD-augmented Unpaired Neural Schrödinger Bridge for Ultra-Low Field MRI Enhancement

이 논문은 희귀한 쌍을 이루는 데이터를 극복하기 위해 DMD2 기반 확산 가이드와 해부학적 구조 보존 정규화를 결합한 비쌍합 신경 슈뢰딩거 브리지 프레임워크를 제안하여 초저자장 (64 mT) 뇌 MRI 의 화질을 3T 수준으로 향상시키는 방법을 제시합니다.

Youngmin Kim, Jaeyun Shin, Jeongchan Kim + 5 more2026-03-06💻 cs

TumorFlow: Physics-Guided Longitudinal MRI Synthesis of Glioblastoma Growth

이 논문은 생물물리학적 성장 모델을 생성 모델과 결합하여 뇌종양의 실제 관측을 넘어선 환자별 3D MRI 종양 성장 궤적을 일관되게 합성하고 예측하는 'TumorFlow' 프레임워크를 제안합니다.

Valentin Biller, Niklas Bubeck, Lucas Zimmer + 6 more2026-03-06💻 cs

NOVA3R: Non-pixel-aligned Visual Transformer for Amodal 3D Reconstruction

이 논문은 포즈가 알려지지 않은 이미지들로부터 피크셀 정렬 방식의 한계를 극복하고, 가시 및 비가시 영역을 모두 포함하는 물리적으로 타당한 3D 장면을 재구성하는 새로운 비피크셀 정렬 시각 트랜스포머 모델 'NOVA3R'을 제안합니다.

Weirong Chen, Chuanxia Zheng, Ganlin Zhang + 2 more2026-03-06💻 cs

A Unified Framework for Joint Detection of Lacunes and Enlarged Perivascular Spaces

이 논문은 뇌혈관 질환 표지자 (확장된 혈관주위 공간과 라쿠나) 의 방사학적 유사성으로 인한 과적합 및 클래스 불균형 문제를 해결하기 위해, 형태학적 해리 프레임워크와 혼합 감독 전략을 도입하여 VALDO 2021 및 EPAD 코호트에서 기존 최첨단 모델을 능가하는 정밀한 동시 검출 성능을 입증했습니다.

Lucas He, Krinos Li, Hanyuan Zhang + 7 more2026-03-06💻 cs

Gaussian Wardrobe: Compositional 3D Gaussian Avatars for Free-Form Virtual Try-On

이 논문은 다중 뷰 비디오에서 신체와 의복을 분리하여 학습하는 '가우시안 워드robe' 프레임워크를 제안함으로써, 복잡한 자유형 의복의 동적 표현과 다양한 인체 간 의복 재사용이 가능한 고품질 3D 가상 의상 입기 기술을 구현했습니다.

Zhiyi Chen, Hsuan-I Ho, Tianjian Jiang + 3 more2026-03-06💻 cs

Lost in Translation: How Language Re-Aligns Vision for Cross-Species Pathology

본 논문은 언어 기반 정렬 메커니즘인 '시맨틱 앵커링 (Semantic Anchoring)'을 도입하여 CPath-CLIP 모델이 종간 전이 학습 시 겪는 시맨틱 붕괴 문제를 해결하고, 텍스트가 시각적 특징을 재해석하여 암 진단 성능을 획기적으로 개선함을 입증했습니다.

Ekansh Arora2026-03-06💻 cs

The Thinking Boundary: Quantifying Reasoning Suitability of Multimodal Tasks via Dual Tuning

이 논문은 'Dual Tuning' 프레임워크를 통해 다양한 멀티모달 작업에서 추론의 유익성을 정량화하고 '생각의 경계 (Thinking Boundary)'를 설정함으로써, 모든 작업에 무조건적인 추론을 적용하는 관행에 도전하고 데이터 및 학습 전략을 최적화하는 실용적인 지침을 제시합니다.

Ruobing Zheng, Tianqi Li, Jianing Li + 3 more2026-03-06💻 cs

SkillNet: Create, Evaluate, and Connect AI Skills

이 논문은 에이전트의 장기적 발전과 기술 전수를 위해 20 만 개 이상의 기술을 체계적으로 생성, 평가 및 연결하는 오픈 인프라 'SkillNet'을 제안하며, 이를 통해 에이전트의 성능을 크게 향상시키고 실행 단계를 줄인다는 것을 보여줍니다.

Yuan Liang, Ruobin Zhong, Haoming Xu + 46 more2026-03-06✓ Author reviewed ⓘ💻 cs

Recognition of Daily Activities through Multi-Modal Deep Learning: A Video, Pose, and Object-Aware Approach for Ambient Assisted Living

이 논문은 3D CNN, 그래프 합성곱 네트워크, 그리고 객체 감지 정보를 크로스 어텐션 메커니즘으로 융합한 다중 모달 딥러닝 방식을 제안하여, 고령자의 일상 활동 인식 정확도를 향상시키고 Ambient Assisted Living 시스템의 안전성과 자율성을 강화하는 것을 목표로 합니다.

Kooshan Hashemifard, Pau Climent-Pérez, Francisco Florez-Revuelta2026-03-06💻 cs

InverseNet: Benchmarking Operator Mismatch and Calibration Across Compressive Imaging Modalities

이 논문은 실제 물리적 환경에서 발생하는 연산자 불일치 문제를 정량화하기 위해 CASSI, CACTI, 단일 픽셀 카메라 등 다양한 압축 영상 모달리티를 아우르는 최초의 벤치마크 'InverseNet'을 제안하고, 심층 학습 기반 방법론이 불일치 조건에서 기존 기법 대비 우위를 상실하며 연산자 조건부 아키텍처와 블라인드 보정이 성능 회복에 결정적임을 실험을 통해 입증합니다.

Chengshuai Yang, Xin Yuan2026-03-06💻 cs

← 이전 다음 →