cs.CV 편의 논문 | Gist.Science

DriverGaze360: OmniDirectional Driver Attention with Object-Level Guidance

이 논문은 전방 시야의 한계를 극복하고 차선 변경 및 보행자 상호작용 등 주변 환경까지 포괄하는 360 도 운전 시선 예측을 위해 대규모 데이터셋 'DriverGaze360' 과 객체 분할을 활용한 'DriverGaze360-Net' 모델을 제안합니다.

Shreedhar Govil, Didier Stricker, Jason Rambach2026-03-06💻 cs

ViRC: Enhancing Visual Interleaved Mathematical CoT with Reason Chunking

이 논문은 Miller 의 법칙과 인간의 문제 해결 패턴에 영감을 받아, 동적 시각 정보 획득과 단계별 추론을 가능하게 하는 'Reason Chunking' 메커니즘을 도입하고 CRUX 데이터셋 및 점진적 학습 전략을 통해 다중 모달 수학 추론 성능을 획기적으로 향상시킨 ViRC 프레임워크를 제안합니다.

Lihong Wang, Liangqi Li, Weiwei Feng + 6 more2026-03-06💻 cs

FluenceFormer: Transformer-Driven Multi-Beam Fluence Map Regression for Radiotherapy Planning

본 논문은 방사선 치료 계획에서 장기 의존성을 효과적으로 포착하고 물리적으로 타당한 조도 맵을 생성하기 위해, 두 단계 설계와 물리 기반 손실 함수를 통합한 트랜스포머 기반 프레임워크인 FluenceFormer 를 제안하고, 전립선 IMRT 데이터셋에서 기존 CNN 및 단일 단계 방법보다 우수한 성능을 입증했습니다.

Ujunwa Mgboh, Rafi Ibn Sultan, Joshua Kim + 2 more2026-03-06💻 cs

Parallel Diffusion Solver via Residual Dirichlet Policy Optimization

이 논문은 병렬 기울기 평가를 통해 적분 오차를 줄이고, 파라미터 효율적인 강화학습 기반의 정책 최적화를 통해 저지연 환경에서도 고품질 텍스트-이미지 생성을 가능하게 하는 새로운 ODE 솔버인 EPD-Solver 를 제안합니다.

Ruoyu Wang, Ziyu Li, Beier Zhu + 5 more2026-03-06💻 cs

PhyGDPO: Physics-Aware Groupwise Direct Preference Optimization for Physically Consistent Text-to-Video Generation

이 논문은 대규모 물리 데이터셋 (PhyVidGen-135K) 구축을 위한 PhyAugPipe 파이프라인과 물리 법칙을 준수하는 비디오 생성을 위한 PhyGDPO 프레임워크를 제안하여, 기존 텍스트 - 비디오 생성 모델의 물리 일관성 문제를 해결하고 물리 벤치마크에서 최첨단 성능을 달성함을 보여줍니다.

Yuanhao Cai, Kunpeng Li, Menglin Jia + 11 more2026-03-06💻 cs

MorphAny3D: Unleashing the Power of Structured Latent in 3D Morphing

이 논문은 구조화된 잠재 표현 (SLAT) 을 활용하여 학습 없이도 의미론적 일관성과 시간적 매끄러움을 갖춘 고품질의 3D 모핑을 가능하게 하는 'MorphAny3D' 프레임워크를 제안합니다.

Xiaokun Sun, Zeyu Cai, Hao Tang + 3 more2026-03-06💻 cs

EmboTeam: Grounding LLM Reasoning into Reactive Behavior Trees via PDDL for Embodied Multi-Robot Collaboration

이 논문은 대형 언어 모델 (LLM) 의 추론 능력을 PDDL 기반의 행동 트리 및 반응형 제어에 통합하여 이종 로봇 팀의 장기적 협업 작업 성공률을 기존 대비 55% 로 획기적으로 향상시킨 'EmboTeam' 프레임워크와 새로운 벤치마크 'MACE-THOR'를 제안합니다.

Haishan Zeng, Mengna Wang, Peng Li2026-03-06💻 cs

Where is the multimodal goal post? On the Ability of Foundation Models to Recognize Contextually Important Moments

이 논문은 축구 하이라이트를 기반으로 중요 순간을 식별하는 새로운 데이터셋을 구축하여, 현재 멀티모달 기반 모델이 중요한 하위 이벤트를 구분하는 데 우연 수준에 머무르며 단일 모달리티에 과도하게 의존하고 있음을 규명하고, 이를 해결하기 위한 모듈식 아키텍처와 교차 모달 시너지를 극대화하는 훈련 절차의 필요성을 강조합니다.

Aditya K Surikuchi, Raquel Fernández, Sandro Pezzelle2026-03-06💻 cs

Agentic Very Long Video Understanding

이 논문은 스마트 글래스 등 웨어러블 기기를 위한 장기간의 자전적 비디오 이해를 위해 개체 장면 그래프와 하이브리드 검색 도구를 활용한 에이전트 프레임워크 'EGAgent'를 제안하여, 기존 방법의 한계를 극복하고 EgoLifeQA 및 Video-MME(Long) 데이터셋에서 최첨단 성능을 달성함을 보여줍니다.

Aniket Rege, Arka Sadhu, Yuliang Li + 5 more2026-03-06💻 cs

MiTA Attention: Efficient Fast-Weight Scaling via a Mixture of Top-k Activations

이 논문은 긴 시퀀스에서의 어텐션 연산 효율성을 높이기 위해 '마이크로 어텐션 (MiTA)'이라는 새로운 메커니즘을 제안하며, 이는 랜드마크 쿼리를 통해 N 폭의 MLP 를 압축하고 각 랜드마크에 대해 최상위 k 개의 활성화된 키-값 쌍을 수집하는 '압축 및 라우팅' 전략을 기반으로 합니다.

Qishuai Wen, Zhiyuan Huang, Xianghan Meng + 2 more2026-03-06💻 cs

DDP-WM: Disentangled Dynamics Prediction for Efficient World Models

이 논문은 기존 밀도 기반 트랜스포머 모델의 계산 과부하 문제를 해결하기 위해 물리적 상호작용과 배경 업데이트를 분리하는 '분리된 역학 예측 (DDP)' 원리를 적용한 효율적인 세계 모델 DDP-WM 을 제안하며, 이를 통해 추론 속도를 약 9 배 향상시키고 계획 성공률을 98% 로 개선함을 보여줍니다.

Shicheng Yin, Kaixuan Yin, Weixing Chen + 3 more2026-03-06💻 cs

Rolling Sink: Bridging Limited-Horizon Training and Open-Ended Testing in Autoregressive Video Diffusion

이 논문은 제한된 길이의 훈련 데이터와 무한한 길이의 테스트 환경 사이의 간극을 해결하기 위해 훈련 없이 적용 가능한 'Rolling Sink'를 제안하여, 5 초 길이의 데이터로 훈련된 자기회귀 비디오 확산 모델을 30 분 이상의 초장편 영상 생성에 성공적으로 확장합니다.

Haodong Li, Shaoteng Liu, Zhe Lin + 1 more2026-03-06💻 cs

Learning to Select Like Humans: Explainable Active Learning for Medical Imaging

이 논문은 예측 불확실성과 라디올로지스트가 정의한 관심 영역 (ROI) 에 대한 주의력 정렬 오차를 결합한 이중 기준 전략을 통해, 의료 영상 분석에서 데이터 효율성과 임상적 해석 가능성을 동시에 향상시키는 설명 가능한 능동 학습 프레임워크를 제안합니다.

Ifrat Ikhtear Uddin, Longwei Wang, Xiao Qin + 2 more2026-03-06💻 cs

Pailitao-VL: Unified Embedding and Reranker for Real-Time Multi-Modal Industrial Search

이 논문은 알리바바 전자상거래 플랫폼의 실시간 산업 검색을 위해 절대 ID 인식 임베딩과 비교·보정 리스트와식 리랭커를 도입하여 정밀도와 효율성을 동시에 극대화한 Pailitao-VL 시스템을 제안하고 그 우수성을 입증했습니다.

Lei Chen, Chen Ju, Xu Chen + 13 more2026-03-06💻 cs

Bidirectional Temporal Dynamics Modeling for EEG-based Driving Fatigue Recognition

이 논문은 EEG 신호의 비정상성과 비대칭적 신경 역학을 해결하기 위해 양방향 델타 모듈과 게이트된 시간 컨볼루션을 결합한 'DeltaGateNet'을 제안하여, 다양한 데이터셋에서 기존 방법보다 우수한 운전 피로 인식 성능을 입증했습니다.

Yip Tin Po, Jianming Wang, Yutao Miao + 5 more2026-03-06💻 cs

EA-Swin: An Embedding-Agnostic Swin Transformer for AI-Generated Video Detection

이 논문은 최신 AI 생성 영상 탐지의 한계를 극복하기 위해 사전 학습된 임베딩을 직접 모델링하는 'EA-Swin'과 대규모 벤치마크 'EA-Video'를 제안하여, 기존 최첨단 방법론보다 정확도와 일반화 성능을 획기적으로 향상시켰음을 보여줍니다.

Hung Mai, Loi Dinh, Duc Hai Nguyen + 6 more2026-03-06💻 cs

CityGuard: Graph-Aware Private Descriptors for Bias-Resilient Identity Search Across Urban Cameras

이 논문은 도시 전역의 분산된 카메라 네트워크에서 사생활 보호를 준수하면서도 시점, 가림, 도메인 변화에 강인한 개인 식별을 가능하게 하는 'CityGuard'라는 위상 인식 트랜스포머 기반의 프라이버시 보존 프레임워크를 제안합니다.

Rong Fu, Yibo Meng, Jia Yee Tan + 5 more2026-03-06💻 cs

CARE: A Molecular-Guided Foundation Model with Adaptive Region Modeling for Whole Slide Image Analysis

이 논문은 자연 이미지 백본의 한계를 극복하고 RNA 및 단백질 프로파일과 같은 분자 정보를 활용하여 적응형 영역을 자동으로 분할하는 새로운 파운데이션 모델 'CARE'를 제안하며, 기존 모델보다 적은 데이터로 다양한 병리학적 태스크에서 우수한 성능을 입증합니다.

Di Zhang, Zhangpeng Gong, Xiaobo Pang + 14 more2026-03-06💻 cs

When LoRA Betrays: Backdooring Text-to-Image Models by Masquerading as Benign Adapters

이 논문은 오픈소스 플랫폼에서 널리 사용되는 LoRA(저랭크 적응) 모듈을 악용해 텍스트-이미지 생성 모델에 은밀한 백도어를 주입하는 'MasqLoRA'라는 새로운 공격 프레임워크를 제안하고, 이를 통해 AI 공급망에 존재하는 심각한 보안 위협을 규명합니다.

Liangwei Lyu, Jiaqi Xu, Jianwei Ding + 1 more2026-03-06💻 cs

RobustVisRAG: Causality-Aware Vision-Based Retrieval-Augmented Generation under Visual Degradations

이 논문은 시각적 왜곡으로 인한 성능 저하를 해결하기 위해 인과성 기반의 이중 경로 프레임워크 'RobustVisRAG'와 새로운 벤치마크 'Distortion-VisRAG'를 제안하여, 의미와 왜곡 요소를 분리함으로써 시각적 열악한 환경에서도 견고한 검색 및 생성 성능을 달성함을 보여줍니다.

I-Hsiang Chen, Yu-Wei Liu, Tse-Yu Wu + 3 more2026-03-06💻 cs

← 이전 다음 →