cs.CV 편의 논문 | Gist.Science

MC-INR: Efficient Encoding of Multivariate Scientific Simulation Data using Meta-Learning and Clustered Implicit Neural Representations

이 논문은 메타러닝과 클러스터링을 결합하고 잔차 기반 동적 재클러스터링 및 분기 레이어를 도입하여, 기존 방법의 한계를 극복하고 비정형 격자 위의 다변량 과학 시뮬레이션 데이터를 효율적으로 인코딩하는 새로운 프레임워크인 MC-INR 을 제안합니다.

Hyunsoo Son, Jeonghyun Noh, Suemin Jeon + 2 more2026-03-04🤖 cs.LG

CoBELa: Steering Transparent Generation via Concept Bottlenecks on Energy Landscapes

이 논문은 사전 훈련된 생성기만 활용하고 재학습 없이도 개념 에너지 함수의 가법적 조합을 통해 투명하고 효율적인 생성 및 다중 개념 개입을 가능하게 하는 새로운 에너지 기반 프레임워크인 CoBELa 를 제안합니다.

Sangwon Kim, Kyoungoh Lee, Jeyoun Dong + 1 more2026-03-04🤖 cs.AI

InstructVLA: Vision-Language-Action Instruction Tuning from Understanding to Manipulation

이 논문은 기존 비전 - 언어 - 행동 (VLA) 모델이 겪는 추론 능력 저하와 과적합 문제를 해결하기 위해, 대규모 비전 - 언어 모델의 유연한 추론 능력을 유지하면서 정밀한 조작 성능을 달성하는 새로운 엔드 - 투 - 엔드 모델 'InstructVLA'와 이를 위한 'VLA-IT' 학습 패러다임을 제안하고, 시뮬레이션 및 실제 환경에서 기존 모델들을 크게 앞서는 성능을 입증합니다.

Shuai Yang, Hao Li, Bin Wang + 7 more2026-03-04💻 cs

DMTrack: Spatio-Temporal Multimodal Tracking via Dual-Adapter

이 논문은 스페이셜-타임 멀티모달 추적을 위해 스페이셜-타임 모달리티 어댑터 (STMA) 와 점진적 모달리티 보완 어댑터 (PMCA) 모듈을 도입한 경량화 듀얼 어댑터 아키텍처 'DMTrack'을 제안하며, 5 개 벤치마크에서 최소의 학습 파라미터로 최첨단 성능을 달성함을 보여줍니다.

Weihong Li, Shaohua Dong, Haonan Lu + 3 more2026-03-04🤖 cs.AI

Zero-shot CT Super-Resolution using Diffusion-based 2D Projection Priors and Signed 3D Gaussians

이 논문은 저해상도 CT 스캔에서 고해상도 영상을 생성하기 위해 X-ray 데이터로 학습된 확산 모델을 활용한 2D 투영 사전 지식과 부호화된 3D 가우시안 (NAB-GS) 을 결합한 제로샷 3D CT 초해상도 프레임워크를 제안합니다.

Jeonghyun Noh, Hyun-Jic Oh, Won-Ki Jeong2026-03-04⚡ eess

MMTok: Multimodal Coverage Maximization for Efficient Inference of VLMs

이 논문은 비전 및 텍스트 토큰의 다중 모달 정보를 활용하여 최대 커버리지 기준을 통해 정보량이 풍부한 비전 토큰을 선택함으로써 VLM 의 추론 효율성을 극대화하는 'MMTok'을 제안합니다.

Sixun Dong, Juhua Hu, Mian Zhang + 3 more2026-03-04💻 cs

ConEQsA: Concurrent and Asynchronous Embodied Questions Scheduling and Answering

이 논문은 실시간으로 도착하는 여러 질문의 긴급성을 고려하여 동시 처리하는 에이전트 시스템 'ConEQsA'와 이를 평가하기 위한 새로운 벤치마크 및 지표를 제안함으로써, 기존 단일 질문 기반의 embodied question answering을 넘어선 현실적인 다중 작업 환경을 해결합니다.

Haisheng Wang, Dong Liu, Weiming Zhi2026-03-04🤖 cs.AI

Are VLMs Ready for Lane Topology Awareness in Autonomous Driving?

이 논문은 자율주행의 핵심 요소인 도로 위상 인식을 위해 비전 - 언어 모델 (VLM) 을 체계적으로 평가한 결과, 최신 모델조차 인간이 해결할 수 있는 공간 추론 문제에서 실패하고 있어 현재 VLM 의 공간 추론 능력이 근본적인 병목 현상임을 규명했습니다.

Xin Chen, Jia He, Maozheng Li + 5 more2026-03-04💻 cs

SiNGER: A Clearer Voice Distills Vision Transformers Further

본 논문은 비전 트랜스포머의 고노름 아티팩트를 억제하면서도 유익한 신호를 보존하기 위해 영공간 기반의 교정 및 LoRA 어댑터를 활용한 'SiNGER'이라는 새로운 지식 증류 프레임워크를 제안하여, 학생 모델의 성능과 표현의 명확성을 획기적으로 향상시킵니다.

Geunhyeok Yu, Sunjae Jeong, Yoonyoung Choi + 2 more2026-03-04🤖 cs.AI

Earth-Agent: Unlocking the Full Landscape of Earth Observation with Agents

이 논문은 RGB 및 분광 데이터를 통합하고 전문 도구를 동적으로 활용하여 복잡한 지구 관측 임무를 수행하는 최초의 에이전트 프레임워크인 'Earth-Agent'와 이를 평가하기 위한 'Earth-Bench' 벤치마크를 제안하며, 지구 관측 분석의 새로운 패러다임을 제시합니다.

Peilin Feng, Zhutao Lv, Junyan Ye + 8 more2026-03-04💻 cs

PROFusion: Robust and Accurate Dense Reconstruction via Camera Pose Regression and Optimization

이 논문은 학습 기반의 카메라 포지 회귀 네트워크와 최적화 기반의 정제 기법을 결합하여 불안정한 카메라 운동 하에서도 실시간으로 강인하고 정확한 밀도 재구성을 가능하게 하는 PROFusion 시스템을 제안합니다.

Siyan Dong, Zijun Wang, Lulu Cai + 2 more2026-03-04💻 cs

Proxy-GS: Unified Occlusion Priors for Training and Inference in Structured 3D Gaussian Splatting

이 논문은 1ms 이내의 고속 프록시 시스템을 통해 모든 시점의 가시성을 인식하여 3D 가우스 스플래팅의 불필요한 원시들을 제거하고 학습 중 밀집화를 유도함으로써, 대규모 장면에서 렌더링 속도를 획기적으로 개선하면서도 MLP 기반 모델의 고품질 렌더링 성능을 유지하는 'Proxy-GS'를 제안합니다.

Yuanyuan Gao, Yuning Gong, Yifei Liu + 6 more2026-03-04💻 cs

EchoGen: Generating Visual Echoes in Any Scene via Feed-Forward Subject-Driven Auto-Regressive Model

이 논문은 기존 확산 모델 기반 방법론의 추론 속도 한계를 극복하고, 시각적 자회귀 (VAR) 모델을 기반으로 한 최초의 피드포워드 주체 주도 생성 프레임워크인 'EchoGen'을 제안하며, 이중 경로 주입 전략을 통해 높은 주체 충실도와 이미지 품질을 유지하면서 저지연 추론을 가능하게 합니다.

Ruixiao Dong, Zhendong Wang, Keli Liu + 5 more2026-03-04💻 cs

TTT3R: 3D Reconstruction as Test-Time Training

이 논문은 3D 재구성 모델의 테스트 시간 학습 (TTT) 관점을 도입하여, 메모리 상태와 새로운 관측치 간의 정합 신뢰도를 기반으로 학습률을 유도하는 'TTT3R'을 제안함으로써 훈련 길이를 넘어선 일반화 성능을 획기적으로 향상시키고 실시간 처리가 가능하도록 했습니다.

Xingyu Chen, Yue Chen, Yuliang Xiu + 2 more2026-03-04💻 cs

BindWeave: Subject-Consistent Video Generation via Cross-Modal Integration

이 논문은 다중 모달 대형 언어 모델과 확산 트랜스포머를 통합하여 복잡한 프롬프트의 시맨틱을 구체적인 시각적 주체에 정밀하게 매핑함으로써, 기존 모델들의 한계를 극복하고 일관된 주제를 가진 고품질 비디오 생성을 가능하게 하는 'BindWeave' 프레임워크를 제안합니다.

Zhaoyang Li, Dongjun Qian, Kai Su + 6 more2026-03-04💻 cs

Arbitrary Generative Video Interpolation

이 논문은 기존 생성형 비디오 프레임 보간 방법의 고정된 프레임 수 및 재생 속도 제한을 극복하기 위해, 임의의 시간점과 길이에 따른 보간을 가능하게 하는 'TaRoPE'와 '외관 - 운동 분리 조건화 전략'을 도입한 새로운 프레임워크 'ArbInterp'를 제안합니다.

Guozhen Zhang, Haiguang Wang, Chunyu Wang + 3 more2026-03-04💻 cs

D2E: Scaling Vision-Action Pretraining on Desktop Data for Transfer to Embodied AI

이 논문은 대규모 데스크톱 데이터 (게임 등) 를 활용한 사전 학습 프레임워크인 D2E 를 제안하여, 이를 통해 학습된 센서 - 운동 원리가 실제 물리적 로봇 작업 (LIBERO, CANVAS) 에 효과적으로 전이되어 더 큰 규모의 모델과도 경쟁할 수 있는 성능을 달성함을 입증합니다.

Suhwan Choi, Jaeyoon Jung, Haebin Seong + 7 more2026-03-04🤖 cs.AI

Human3R: Everyone Everywhere All at Once

본 논문은 단일 순방향 통과로 casually 촬영된 모노큘러 비디오에서 전 세계 좌표계 기반의 다중 인간 (SMPL-X), 밀집 3D 장면, 카메라 궤적을 동시에 복원하는 통합 피드포워드 프레임워크 'Human3R'을 제안하며, 기존 다단계 파이프라인과 무거운 의존성을 제거하고 실시간 (15 FPS) 성능을 달성합니다.

Yue Chen, Xingyu Chen, Yuxuan Xue + 3 more2026-03-04💻 cs

MIRAGE: Runtime Scheduling for Multi-Vector Image Retrieval with Hierarchical Decomposition

이 논문은 MLLM 기반 RAG 시스템의 정확도와 효율성을 동시에 향상시키기 위해, 다양한 이미지 객체 정렬을 위한 계층적 분해와 불필요한 연산 최소화를 통한 자동 파라미터 조정이 가능한 새로운 런타임 스케줄링 프레임워크 'MIRAGE'를 제안합니다.

Maoliang Li, Ke Li, Yaoyang Liu + 5 more2026-03-04💻 cs

Reasoning as Representation: Rethinking Visual Reinforcement Learning in Image Quality Assessment

이 논문은 강화학습 기반의 시각적 추론 모델이 일반화 성능을 발휘하는 핵심 메커니즘이 시각적 표현을 일반화 가능한 텍스트 표현으로 변환하는 데 있음을 규명하고, 이를 바탕으로 추론 과정과 대규모 언어 모델 없이도 동등한 일반화 성능을 달성하면서 파라미터와 추론 시간을 5% 미만으로 획기적으로 줄인 새로운 알고리즘 RALI 를 제안합니다.

Shijie Zhao, Xuanyu Zhang, Weiqi Li + 4 more2026-03-04💻 cs

← 이전 다음 →