cs.CV 편의 논문 | Gist.Science

What is Missing? Explaining Neurons Activated by Absent Concepts

이 논문은 기존 설명 가능한 인공지능 (XAI) 방법이 간과해 온 '개념의 부재'가 뉴런 활성화에 미치는 영향을 규명하고, 이를 탐지하기 위한 새로운 기법을 제안하여 모델 해석과 편향 제거를 개선하는 방법을 제시합니다.

Robin Hesse, Simone Schaub-Meyer, Janina Hesse, Bernt Schiele, Stefan Roth2026-03-11🤖 cs.LG

Test-time Ego-Exo-centric Adaptation for Action Anticipation via Multi-Label Prototype Growing and Dual-Clue Consistency

이 논문은 기존 방법의 높은 데이터 및 계산 비용 문제를 해결하기 위해, 멀티-라벨 프로토타입 성장 모듈과 이중 단서 일관성 메커니즘을 통해 테스트 시간 동안 이기-엑소 관점 간 행동 예측을 적응시키는 새로운 프레임워크 (DCPGN) 를 제안합니다.

Zhaofeng Shi, Heqian Qiu, Lanxiao Wang, Qingbo Wu, Fanman Meng, Lili Pan, Hongliang Li2026-03-11💻 cs

RA-SSU: Towards Fine-Grained Audio-Visual Learning with Region-Aware Sound Source Understanding

이 논문은 오디오-비주얼 학습의 정밀도를 높이기 위해 지역 인식 음원 이해 (RA-SSU) 라는 새로운 과제를 정의하고, 이를 위한 두 개의 세부 데이터셋 (f-Music, f-Lifescene) 과 최첨단 성능을 보이는 SSUFormer 모델을 제안합니다.

Muyi Sun, Yixuan Wang, Hong Wang, Chen Su, Man Zhang, Xingqun Qi, Qi Li, Zhenan Sun2026-03-11💻 cs

ConfCtrl: Enabling Precise Camera Control in Video Diffusion via Confidence-Aware Interpolation

이 논문은 두 개의 입력 이미지로 큰 시점 변화를 겪는 새로운 뷰를 합성할 때, 기존 회귀 기반 방법의 한계와 카메라 유도 확산 모델의 불안정성을 해결하기 위해, 신뢰도 가중치와 칼만 필터 기반 예측 - 업데이트 메커니즘을 활용하여 확산 모델이 지시된 카메라 궤적을 따르면서도 보이지 않는 영역을 정확하게 복원하도록 하는 'ConfCtrl' 프레임워크를 제안합니다.

Liudi Yang, George Eskandar, Fengyi Shen, Mohammad Altillawi, Yang Bai, Chi Zhang, Ziyuan Liu, Abhinav Valada2026-03-11💻 cs

BrainSTR: Spatio-Temporal Contrastive Learning for Interpretable Dynamic Brain Network Modeling

이 논문은 진단 신호의 미묘함과 산포로 인한 해석 가능성의 한계를 극복하기 위해, 적응적 위상 분할, 주의를 통한 중요 위상 식별, 이진화 및 희소성 정규화를 통한 그래프 구조 생성, 그리고 시공간 지도 대비 학습을 통합한 'BrainSTR' 프레임워크를 제안하여 자폐 스펙트럼 장애, 양극성 장애, 주요 우울증의 진단에 있어 해석 가능한 동적 뇌 네트워크 모델링을 가능하게 합니다.

Guiliang Guo, Guangqi Wen, Lingwen Liu, Ruoxian Song, Peng Cao, Jinzhu Yang, Fei Wang, Xiaoli Liu, Osmar R. Zaiane2026-03-11💻 cs

VLM-Loc: Localization in Point Cloud Maps via Vision-Language Models

이 논문은 비전 - 언어 모델 (VLM) 의 공간 추론 능력을 활용하여 3D 포인트 클라우드 맵 내 자연어 기반 위치 추정을 개선하기 위해, 포인트 클라우드를 BEV 이미지와 장면 그래프로 변환하고 부분 노드 할당 메커니즘을 도입한 VLM-Loc 프레임워크와 새로운 CityLoc 벤치마크를 제안합니다.

Shuhao Kang, Youqi Liao, Peijie Wang, Wenlong Liao, Qilin Zhang, Benjamin Busam, Xieyuanli Chen, Yun Liu2026-03-11💻 cs

MA-EgoQA: Question Answering over Egocentric Videos from Multiple Embodied Agents

이 논문은 다수의 embodied 에이전트로부터 수집된 장기 시점의 이기중심 비디오를 동시에 이해하는 새로운 문제를 정의하고, 이를 평가하기 위한 MA-EgoQA 벤치마크와 공유 메모리 및 동적 검색을 활용한 EgoMAS 기반 모델을 제안하며, 현재 모델들이 다중 스트림 처리에 한계가 있음을 보여줍니다.

Kangsan Kim, Yanlai Yang, Suji Kim, Woongyeong Yeo, Youngwan Lee, Mengye Ren, Sung Ju Hwang2026-03-11🤖 cs.AI

CycleULM: A unified label-free deep learning framework for ultrasound localisation microscopy

이 논문은 라벨이 없는 데이터로 초음파 국소화 현미경 (ULM) 의 해상도와 국소화 정확도를 획기적으로 향상시키면서도 실시간 처리가 가능한 최초의 통합 딥러닝 프레임워크인 'CycleULM'을 제안합니다.

Su Yan, Clara Rodrigo Gonzalez, Vincent C. H. Leung, Herman Verinaz-Jadan, Jiakang Chen, Matthieu Toulemonde, Kai Riemer, Jipeng Yan, Clotilde Vié, Qingyuan Tan, Peter D. Weinberg, Pier Luigi Dragotti, Kevin G. Murphy, Meng-Xing Tang2026-03-11⚡ eess

MissBench: Benchmarking Multimodal Affective Analysis under Imbalanced Missing Modalities

이 논문은 실제 응용 환경에서 발생할 수 있는 불균형한 결손 모달리티 조건을 평가하기 위해 새로운 벤치마크 'MissBench'와 모달리티 공평성 및 학습 불균형을 측정하는 진단 지표를 제안합니다.

Tien Anh Pham, Phuong-Anh Nguyen, Duc-Trong Le, Cam-Van Thi Nguyen2026-03-11💻 cs

InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing

이 논문은 이해, 추론, 생성 및 편집 기능을 통합하면서도 4B 파라미터의 경량화 구조와 고밀도 의미 데이터 파이프라인을 통해 14B 규모의 기존 모델보다 뛰어난 성능과 효율성을 달성한 범용 멀티모달 모델 'InternVL-U'를 제안합니다.

Changyao Tian, Danni Yang, Guanzhou Chen, Erfei Cui, Zhaokai Wang, Yuchen Duan, Penghao Yin, Sitao Chen, Ganlin Yang, Mingxin Liu, Zirun Zhu, Ziqian Fan, Leyao Gu, Haomin Wang, Qi Wei, Jinhui Yin, Xue Yang, Zhihang Zhong, Qi Qin, Yi Xin, Bin Fu, Yihao Liu, Jiaye Ge, Qipeng Guo, Gen Luo, Hongsheng Li, Yu Qiao, Kai Chen, Hongjie Zhang2026-03-11💻 cs

DISPLAY: Directable Human-Object Interaction Video Generation via Sparse Motion Guidance and Multi-Task Auxiliary

이 논문은 손목 관절 좌표와 물체 바운딩 박스라는 희소 모션 가이드와 객체 스트레스 어텐션, 다중 작업 보조 학습 전략을 통해 유연하고 물리적으로 일관된 인간 - 물체 상호작용 (HOI) 비디오 생성을 가능하게 하는 DISPLAY 프레임워크를 제안합니다.

Jiazhi Guan, Quanwei Yang, Luying Huang, Junhao Liang, Borong Liang, Haocheng Feng, Wei He, Kaisiyuan Wang, Hang Zhou, Jingdong Wang2026-03-11💻 cs

Stepping VLMs onto the Court: Benchmarking Spatial Intelligence in Sports

이 논문은 스포츠 장면의 공간적 지능을 평가하기 위해 100 만 개 이상의 QA 쌍을 포함한 대규모 데이터셋 'CourtSI'와 검증된 벤치마크 'CourtSI-Bench'를 제안하고, 이를 통해 기존 비전 - 언어 모델의 공간 이해 한계를 드러내며 스포츠 특화 파인튜닝이 성능을 획기적으로 개선함을 입증합니다.

Yuchen Yang, Yuqing Shao, Duxiu Huang, Linfeng Dong, Yifei Liu, Suixin Tang, Xiang Zhou, Yuanyuan Gao, Wei Wang, Yue Zhou, Xue Yang, Yanfeng Wang, Xiao Sun, Zhihang Zhong2026-03-11💻 cs

WikiCLIP: An Efficient Contrastive Baseline for Open-domain Visual Entity Recognition

이 논문은 대규모 언어 모델 임베딩과 비전 가이드 지식 어댑터, 그리고 하드 네거티브 합성 메커니즘을 활용하여 오픈 도메인 시각 개체 인식 (VER) 작업에서 기존 생성 기반 모델보다 훨씬 높은 효율성과 성능을 보여주는 'WikiCLIP' 프레임워크를 제안합니다.

Shan Ning, Longtian Qiu, Jiaxuan Sun, Xuming He2026-03-11💻 cs

On the Structural Failure of Chamfer Distance in 3D Shape Optimization

본 논문은 3D 형상 최적화에서 챔퍼 거리의 표준 손실 함수가 국소 정규화만으로는 해결되지 않는 구조적 붕괴를 유발한다는 점을 규명하고, 비국소적 결합 (non-local coupling) 을 통해 이를 억제함으로써 최적화 성공을 보장할 수 있음을 보여줍니다.

Chang-Yong Song, David Hyde2026-03-11💻 cs

Fine-grained Motion Retrieval via Joint-Angle Motion Images and Token-Patch Late Interaction

이 논문은 전구적 임베딩의 한계를 극복하고 해석 가능한 정밀한 대응 관계를 제공하기 위해, 관절 기반 모션 이미지를 사전 학습된 비전 트랜스포머와 호환되도록 설계하고 토큰 단위 후기 상호작용을 통해 텍스트 - 모션 검색의 정확성과 해석 가능성을 동시에 향상시킨 새로운 방법을 제안합니다.

Yao Zhang, Zhuchenyang Liu, Yanlan He, Thomas Ploetz, Yu Xiao2026-03-11💻 cs

Adaptive Clinical-Aware Latent Diffusion for Multimodal Brain Image Generation and Missing Modality Imputation

이 논문은 알츠하이머병 진단을 위한 다중 모달 뇌 영상 데이터의 결측을 해결하기 위해, 임상 메타데이터와 가용 영상을 적응적으로 융합하는 잠재 확산 모델 (ACADiff) 을 제안하여 sMRI, FDG-PET, AV45-PET 간의 고품질 상호 생성 및 결측 모달리티 보강을 가능하게 함을 보여줍니다.

Rong Zhou, Houliang Zhou, Yao Su, Brian Y. Chen, Yu Zhang, Lifang He, Alzheimer's Disease Neuroimaging Initiative2026-03-11🤖 cs.AI

Unsupervised Domain Adaptation with Target-Only Margin Disparity Discrepancy

이 논문은 제한된 공개 데이터로 인한 간 분할의 어려움을 해결하기 위해, CT 데이터를 소스로 활용하고 마진 불일치 불일치 (MDD) 를 기반으로 한 새로운 비지도 도메인 적응 프레임워크를 제안하여 개입 방사선학의 CBCT 영상에서 간 분할 성능을 획기적으로 향상시켰음을 보여줍니다.

Gauthier Miralles, Loïc Le Folgoc, Vincent Jugnon, Pietro Gori2026-03-11💻 cs

No Image, No Problem: End-to-End Multi-Task Cardiac Analysis from Undersampled k-Space

이 논문은 undersampled k-space 데이터에서 직접 심장의 생리학적 라벨을 추출하는 'k-MTR' 프레임워크를 제안하여, 기존 '재구성 후 분석' 방식의 한계를 극복하고 다양한 심장 MRI 분석 작업에서 최첨단 성능을 달성함을 보여줍니다.

Yundi Zhang, Sevgi Gokce Kafali, Niklas Bubeck, Daniel Rueckert, Jiazhen Pan2026-03-11🤖 cs.AI

Leveraging whole slide difficulty in Multiple Instance Learning to improve prostate cancer grading

이 논문은 전문가와 비전문가 간의 진단 불일치를 Whole Slide Difficulty(WSD)로 정의하고, 이를 다중 작업 학습 및 가중 분류 손실 기법을 통해 전립선암 Gleason 등급 분류 (특히 고등급) 의 정확도를 향상시키는 새로운 접근법을 제안합니다.

Marie Arrivat, Rémy Peyret, Elsa Angelini, Pietro Gori2026-03-11💻 cs

From Semantics to Pixels: Coarse-to-Fine Masked Autoencoders for Hierarchical Visual Understanding

이 논문은 의미적, 인스턴스, 픽셀 수준의 세 가지 데이터 세분성을 명시적으로 학습하는 계층적 구조와 점진적 마스킹 커리큘럼을 통해 대비 학습과 마스킹 이미지 모델링 간의 긴장 관계를 해결하고 더 강력하고 일반화 가능한 시각 표현을 학습하는 C2FMAE 를 제안합니다.

Wenzhao Xiang, Yue Wu, Hongyang Yu, Feng Gao, Fan Yang, Xilin Chen2026-03-11🤖 cs.LG

← 이전 다음 →