cs.CV 편의 논문 | Gist.Science

Token Reduction via Local and Global Contexts Optimization for Efficient Video Large Language Models

이 논문은 비디오 대형 언어 모델의 비효율적인 토큰 문제를 해결하기 위해 국소 및 전역 컨텍스트를 최적 수송 (Optimal Transport) 기반으로 통합하는 'AOT'라는 새로운 토큰 축소 기법을 제안하여, 학습 없이도 계산 효율성을 크게 높이면서도 시공간적 충실도를 유지하는 것을 목표로 합니다.

Jinlong Li, Liyuan Jiang, Haonan Zhang + 1 more2026-03-03💻 cs

UniTalking: A Unified Audio-Video Framework for Talking Portrait Generation

이 논문은 오픈 소스 접근성과 성능의 격차를 해소하기 위해 오디오와 비디오 잠재 토큰 간의 미세한 시간적 대응 관계를 공유 자기 주의 메커니즘을 통해 명시적으로 모델링하는 통합 엔드투엔드 확산 프레임워크인 UniTalking 을 제안하며, 이를 통해 고품질의 구두 얼굴 영상 생성과 개인화된 음성 클로닝을 가능하게 합니다.

Hebeizi Li, Zihao Liang, Benyuan Sun + 4 more2026-03-03💻 cs

SeaVIS: Sound-Enhanced Association for Online Audio-Visual Instance Segmentation

이 논문은 연속적인 비디오 스트림에서 실시간으로 개별 소리 발생 객체를 식별하고 추적하는 최초의 온라인 오디오 - 비주얼 인스턴스 분할 프레임워크인 SeaVIS 를 제안하며, 인과적 교차 주의 융합 모듈과 오디오 기반 대비 학습 전략을 통해 기존 오프라인 방법의 한계를 극복하고 성능을 크게 향상시켰습니다.

Yingjian Zhu, Ying Wang, Yuyang Hong + 5 more2026-03-03💻 cs

Unifying Language-Action Understanding and Generation for Autonomous Driving

이 논문은 언어와 행동 토큰을 공유된 이산 코드북으로 통합하고, 행동 이해 보조 목적을 도입하며, 2 단계 정밀도 향상 생성 방식을 적용하여 자율주행의 언어 - 행동 정렬성과 추론 효율성을 동시에 개선한 'LinkVLA' 아키텍처를 제안합니다.

Xinyang Wang, Qian Liu, Wenjie Ding + 7 more2026-03-03💻 cs

Revisiting Global Token Mixing in Task-Dependent MRI Restoration: Insights from Minimal Gated CNN Baselines

이 논문은 MRI 복원 작업의 물리적 특성과 열화 구조에 따라 전역 토큰 혼합 (global token mixing) 의 유용성이 달라지므로, 데이터 일관성 제약이 강한 재구성 작업에서는 경량 CNN 기반이 경쟁력 있는 반면, 공간적 이종성 잡음 제거 작업에서는 전역 토큰 혼합 모델이 더 우수한 성능을 보인다는 점을 규명했습니다.

Xiangjian Hou, Chao Qin, Chang Ni + 3 more2026-03-03⚡ eess

Deepfake Forensics Adapter: A Dual-Stream Network for Generalizable Deepfake Detection

이 논문은 사전 훈련된 CLIP 모델의 파라미터를 수정하지 않고 글로벌 어댑터, 국부 이상 스트림, 상호작용 퓨전 분류기를 결합한 이중 스트림 네트워크인 'Deepfake Forensics Adapter(DFA)'를 제안하여, 기존 방법 대비 DFDC 데이터셋에서 우수한 일반화 성능과 최첨단 검출률을 달성했다고 요약할 수 있습니다.

Jianfeng Liao, Yichen Wei, Raymond Chan Ching Bon + 3 more2026-03-03💻 cs

VidDoS: Universal Denial-of-Service Attack on Video-based Large Language Models

본 논문은 기존 이미지 중심 공격의 한계를 극복하고, 가림된 교사 강제 (masked teacher forcing) 와 거부 패널티 등을 활용한 보편적 에너지 - 지연 공격 프레임워크 'VidDoS'를 제안하여 비디오 LLM 의 추론 지연을 15 배 이상 증가시키고 자율주행 등 안전-중요 응용 분야에서 치명적인 위험을 초래할 수 있음을 입증합니다.

Duoxun Tang, Dasen Dai, Jiyao Wang + 3 more2026-03-03🤖 cs.AI

From Verbatim to Gist: Distilling Pyramidal Multimodal Memory via Semantic Information Bottleneck for Long-Horizon Video Agents

이 논문은 인간의 인지 효율성을 모방하기 위해 퍼지-트레이스 이론에 기반한 MM-Mem 을 제안하여, 멀티모달 비디오 에이전트가 장시간의 비디오를 이해할 때 발생하는 문맥 제한과 기억 한계를 해결하고, 의미 정보 병목 원리를 통해 정밀한 지각 정보를 고차원적 의미 스키마로 점진적으로 압축·추출하는 새로운 메모리 아키텍처를 제시합니다.

Niu Lian, Yuting Wang, Hanshu Yao + 5 more2026-03-03💬 cs.CL

UltraStar: Semantic-Aware Star Graph Modeling for Echocardiography Navigation

이 논문은 잡음이 포함된 탐사 궤적 데이터를 효과적으로 활용하기 위해 기존 순차적 모델링을 넘어, 역사적 핵심 프레임을 공간적 앵커로 직접 연결하는 '별도 그래프 (Star Graph)' 구조와 의미 인식 샘플링 전략을 도입한 초음파 심장 촬영 탐침 항법 시스템인 UltraStar 를 제안합니다.

Teng Wang, Haojun Jiang, Chenxi Li + 6 more2026-03-03💻 cs

WildCross: A Cross-Modal Large Scale Benchmark for Place Recognition and Metric Depth Estimation in Natural Environments

이 논문은 기존 도시 환경 중심의 데이터셋 한계를 극복하기 위해 자연 환경에서 2D 및 3D 장면 이해를 위한 대규모 교차 모달 벤치마크인 WildCross 를 제안하고, 이를 통해 시각, 라이다, 교차 모달 위치 인식 및 메트릭 깊이 추정 과제를 평가할 수 있음을 보여줍니다.

Joshua Knights, Joseph Reid, Kaushik Roy + 3 more2026-03-03💻 cs

SCATR: Mitigating New Instance Suppression in LiDAR-based Tracking-by-Attention via Second Chance Assignment and Track Query Dropout

이 논문은 LiDAR 기반 추적-by-attention 프레임워크의 높은 누락 오류를 해결하기 위해 '두 번째 기회 할당'과 '트랙 쿼리 드롭아웃'이라는 두 가지 새로운 훈련 전략을 도입하여 기존 추적-by-검출 방법과의 성능 격차를 해소하고 최첨단 성능을 달성한 SCATR 모델을 제안합니다.

Brian Cheong, Letian Wang, Sandro Papais + 1 more2026-03-03💻 cs

ATA: Bridging Implicit Reasoning with Attention-Guided and Action-Guided Inference for Vision-Language Action Models

이 논문은 데이터 주석과 추가 학습 없이 주시도 (attention maps) 와 행동 기반 관심 영역 (RoI) 을 결합하여 암묵적 추론을 가능하게 함으로써 비전 - 언어 - 행동 (VLA) 모델의 성능과 효율성을 동시에 향상시키는 새로운 프레임워크인 ATA 를 제안합니다.

Cheng Yang, Jianhao Jiao, Lingyi Huang + 8 more2026-03-03🤖 cs.AI

Radiometrically Consistent Gaussian Surfels for Inverse Rendering

이 논문은 학습되지 않은 시점에서도 간접 조명을 정확하게 모델링할 수 있도록 물리 기반의 '방사측정 일관성' 제약을 도입하여, 기존 가우시안 기반 역렌더링 방법의 정확도를 높이고 재조명 시 빠른 렌더링 속도를 달성하는 'RadioGS' 프레임워크를 제안합니다.

Kyu Beom Han, Jaeyoon Kim, Woo Jae Kim + 2 more2026-03-03💻 cs

PhotoBench: Beyond Visual Matching Towards Personalized Intent-Driven Photo Retrieval

이 논문은 기존 웹 기반 벤치마크의 한계를 극복하고 개인 앨범의 풍부한 맥락을 반영한 'PhotoBench'를 제안하여, 단순한 시각적 매칭을 넘어 다중 소스 정보 융합과 에이전트 추론이 필요한 개인화된 의도 기반 사진 검색의 새로운 방향성을 제시합니다.

Tianyi Xu, Rong Shan, Junjie Wu + 11 more2026-03-03🤖 cs.AI

Rate-Distortion Signatures of Generalization and Information Trade-offs

이 논문은 인간과 기계 비전 시스템의 일반화 및 강건성 간의 균형을 분석하기 위해 정보이론적 레이트-왜곡 (Rate-Distortion) 프레임워크를 도입하여, 기존 정확도 지표로는 포착되지 않는 시스템별 고유한 일반화 기하학적 특성을 규명했습니다.

Leyla Roksan Caglar, Pedro A. M. Mediano, Baihan Lin2026-03-03🧬 q-bio

Downstream Task Inspired Underwater Image Enhancement: A Perception-Aware Study from Dataset Construction to Network Design

이 논문은 인간 시각 모델을 활용하여 하류 작업 (객체 감지, 분할 등) 의 인식 성능을 극대화하기 위해 태스크 인지형 주의를 갖춘 양분지 네트워크와 태스크 기반 데이터셋을 제안하는 'DTI-UIE'프레임워크를 소개합니다.

Bosen Lin, Feng Gao, Yanwei Yu + 2 more2026-03-03⚡ eess

← 이전 다음 →

cs.CV