cs.CV 편의 논문 | Gist.Science

Two Frames Matter: A Temporal Attack for Text-to-Video Model Jailbreaking

이 논문은 텍스트-비디오 생성 모델이 프롬프트의 중간 과정을 명시하지 않고 시작과 종료 프레임만 지정할 때 해로운 중간 프레임을 생성하는 시간적 취약점을 발견하고, 이를 활용한 새로운 재일브 공격 기법인 TFM 을 제안하여 기존 필터를 우회하는 효과를 입증했습니다.

Moyang Chen, Zonghao Ying, Wenzhuo Xu, Quancheng Zou, Deyue Zhang, Dongdong Yang, Xiangzheng Zhang2026-03-10💻 cs

Fine-Grained 3D Facial Reconstruction for Micro-Expressions

이 논문은 거시 표정 데이터의 사전 지식을 활용하고 2D 운동, 얼굴 사전 지식, 3D 기하학적 정보를 통합한 동적 인코딩 모듈과 동적 유도 메시 변형 모듈을 통해, 기존에 탐구되지 않았던 미세 표정의 3D 얼굴 재구성을 정밀하게 수행하는 새로운 방법을 제안합니다.

Che Sun, Xinjie Zhang, Rui Gao, Xu Chen, Yuwei Wu, Yunde Jia2026-03-10💻 cs

Looking Back and Forth: Cross-Image Attention Calibration and Attentive Preference Learning for Multi-Image Hallucination Mitigation

이 논문은 교차 이미지 어텐션 보정과 선호도 학습 (CAPL) 을 도입하여 다중 이미지 작업에서 발생하는 환각 현상을 완화하고, 모델이 실제 시각적 증거에 기반한 정확한 추론을 하도록 돕는 새로운 프레임워크를 제안합니다.

Xiaochen Yang, Hao Fang, Jiawei Kong, Yaoxin Mao, Bin Chen, Shu-Tao Xia2026-03-10💻 cs

SODA: Sensitivity-Oriented Dynamic Acceleration for Diffusion Transformer

이 논문은 Diffusion Transformer 의 추론 효율성을 높이면서도 생성 품질을 유지하기 위해, 단계별·레이어별·모듈별 미세 감도 분석을 기반으로 캐싱 및 프루닝 전략을 동적으로 최적화하는 'SODA'라는 새로운 가속화 방법을 제안합니다.

Tong Shao, Yusen Fu, Guoying Sun, Jingde Kong, Zhuotao Tian, Jingyong Su2026-03-10💻 cs

MedSteer: Counterfactual Endoscopic Synthesis via Training-Free Activation Steering

이 논문은 엔도스코프 이미지 생성 시 해부학적 구조를 유지하면서 병변 개념만 정밀하게 변경할 수 있는 훈련 없는 활성화 조종 프레임워크인 'MedSteer'를 제안하고, 이를 통해 기존 방법보다 우수한 반사실적 데이터 생성 및 하류 진단 성능 향상을 입증했습니다.

Trong-Thang Pham, Loc Nguyen, Anh Nguyen, Hien Nguyen, Ngan Le2026-03-10💻 cs

VirtueBench: Evaluating Trustworthiness under Uncertainty in Long Video Understanding

이 논문은 긴 비디오 이해에서 불확실성 하에 모델의 신뢰성을 평가하기 위해, 답변이 불가능한 경우 정직하게 거절하는 능력을 측정하는 새로운 벤치마크인 VirtueBench 를 제안하고 다양한 비전 - 언어 모델의 신뢰성 부족을 입증합니다.

Xueqing Yu, Bohan Li, Yan Li, Zhenheng Yang2026-03-10💻 cs

Physics-Guided VLM Priors for All-Cloud Removal

이 논문은 비전 - 언어 모델 (VLM) 의 시맨틱 사전 지식을 물리적 산란 매개변수와 할루시네이션 신뢰도 지도로 변환하여, 얇은 구름의 보정과 두꺼운 구름의 재구성을 명시적 경계 없이 통합적으로 수행하는 'PhyVLM-CR'이라는 새로운 구름 제거 방법을 제안합니다.

Liying Xu, Huifang Li, Huanfeng Shen2026-03-10💻 cs

Retinex Meets Language: A Physics-Semantics-Guided Underwater Image Enhancement Network

이 논문은 기존 물리 기반 및 학습 기반 방법의 한계를 극복하기 위해 CLIP 모델의 텍스트 시맨틱 정보를 활용한 물리-시맨틱 가이드 underwater 이미지 향상 네트워크 (PSG-UIENet) 와 대규모 멀티모달 데이터셋을 제안하여, 기존 최첨단 방법들보다 우수한 성능을 입증했습니다.

Shixuan Xu, Yabo Liu, Junyu Dong, Xinghui Dong2026-03-10💻 cs

Aligning What EEG Can See: Structural Representations for Brain-Vision Matching

이 논문은 뇌 신호와 시각 모델 간의 정보 불일치를 해결하기 위해 '신경 가시성' 개념을 도입하여 중간 시각 계층을 정렬하고 계층적 보완 융합 (HCF) 프레임워크를 제안함으로써 제로샷 시각 디코딩 성능을 획기적으로 향상시켰습니다.

Jingyi Tang, Shuai Jiang, Fei Su, Zhicheng Zhao2026-03-10💻 cs

mAVE: A Watermark for Joint Audio-Visual Generation Models

이 논문은 기존 오디오 - 비주얼 생성 모델의 교차 모달 취약점을 해결하고, 오디오와 비디오 잠재 공간을 암호학적으로 결합하여 스왑 공격에 대한 강력한 방어와 저작권 보호를 제공하는 새로운 워터마킹 프레임워크인 mAVE 를 제안합니다.

Luyang Si, Leyi Pan, Lijie Wen2026-03-10💻 cs

Facial Expression Generation Aligned with Human Preference for Natural Dyadic Interaction

이 논문은 화자의 다중 모달 신호를 3D 모달 모델의 표현으로 매핑하는 시맨틱 액션 학습 프레임워크와 인간 피드백 기반 강화 학습을 결합하여, 자연스러운 대화 상호작용에 부합하는 인간 선호도 정렬 얼굴 표정 생성을 가능하게 하는 방법을 제안합니다.

Xu Chen, Rui Gao, Xinjie Zhang, Haoyu Zhang, Che Sun, Zhi Gao, Yuwei Wu, Yunde Jia2026-03-10💻 cs

NuNext: Reframing Nucleus Detection as Next-Point Detection

이 논문은 기존 방법들의 한계를 극복하기 위해 멀티모달 대규모 언어 모델을 활용하여 조직병리학적 핵 탐지를 '다음 점 예측' 문제로 재정의하고, 공간 인식 소프트 감독과 강화 학습 기반의 정교한 보상 전략을 통해 탐지 성능을 획기적으로 개선한 'NuNext'를 제안합니다.

Zhongyi Shui, Honglin Li, Xiaozhong Ji, Ye Zhang, Zijiang Yang, Chenglu Zhu, Yuxuan Sun, Kai Yao, Conghui He, Cheng Tan2026-03-10💻 cs

Efficient Chest X-ray Representation Learning via Semantic-Partitioned Contrastive Learning

이 논문은 기존 자기지도학습의 한계를 극복하고, 손작업 증강이나 보조 디코더 없이 단일 Chest X-ray 이미지를 의미 있는 패치 집합으로 분할하여 상호 일치성을 학습하는 '의미 분할 대비 학습 (S-PCL)'을 제안함으로써, 낮은 계산 비용으로 우수한 성능을 달성하는 효율적인 Chest X-ray 표현 학습 프레임워크를 제시합니다.

Wangyu Feng, Shawn Young, Lijian Xu2026-03-10💻 cs

TIQA: Human-Aligned Text Quality Assessment in Generated Images

이 논문은 생성된 이미지의 텍스트 품질을 인간 평가와 정렬되게 측정하는 새로운 태스크인 TIQA 와 이를 위한 데이터셋, 그리고 OCR 이나 VLM 기반 평가보다 인간 판단과 더 높은 상관관계를 보이는 경량 평가 모델 ANTIQA 를 제안합니다.

Kirill Koltsov, Aleksandr Gushchin, Dmitriy Vatolin, Anastasia Antsiferova2026-03-10💻 cs

Inter-Image Pixel Shuffling for Multi-focus Image Fusion

이 논문은 실제 다초점 이미지 데이터 없이도 원본 이미지와 저주파 필터링 이미지를 픽셀 단위로 섞어 학습 데이터를 생성하는 '이미지 간 픽셀 셔플링 (IPS)' 기법을 제안하고, 합성곱 신경망과 상태 공간 모델을 결합한 네트워크를 통해 기존 방법보다 우수한 다초점 이미지 융합 성능을 달성함을 보여줍니다.

Huangxing Lin, Rongrong Ma, Cheng Wang2026-03-10💻 cs

Deep Expert Injection for Anchoring Retinal VLMs with Domain-Specific Knowledge

이 논문은 일반적 시각 인코더의 한계와 언어 선입견에 의한 환각 문제를 해결하기 위해, 전문 지식을 시각적 앵커로 주입하는 'EyExIn' 프레임워크를 제안하여 안과 진단용 대규모 시각-언어 모델의 신뢰성과 정확도를 획기적으로 향상시켰습니다.

Shuai Lu, Meng Wang, Jia Guo, Jiawei Du, Bo Liu, Shengzhu Yang, Weihang Zhang, Huazhu Fu, Huiqi Li2026-03-10💻 cs

The Model Knows Which Tokens Matter: Automatic Token Selection via Noise Gating

이 논문은 추가적인 보조 목표나 주석 없이 기존 VLM 에 경량 스코어와 노이즈 게이트를 결합하여 시각 토큰의 중요도를 학습하고, 추론 시 상위 K 개의 토큰만 선택함으로써 정확도를 유지하면서 LLM 프리필 속도를 2.85 배 가속화하는 'AutoSelect'를 제안합니다.

Landi He, Xiaoyu Yang, Lijian Xu2026-03-10💻 cs

PDD: Manifold-Prior Diverse Distillation for Medical Anomaly Detection

이 논문은 의료 영상 이상 탐지의 어려움을 해결하기 위해 VMamba 와 Wide-ResNet 의 이원적 사전 지식을 매니폴드 차원에서 통합하고 이를 상보적인 두 개의 학생 모델로 증류하는 'PDD' 프레임워크를 제안하여 기존 최첨단 방법들을 크게 능가하는 성능을 달성했다고 요약할 수 있습니다.

Xijun Lu, Hongying Liu, Fanhua Shang, Yanming Hui, Liang Wan2026-03-10💻 cs

CanoVerse: 3D Object Scalable Canonicalization and Dataset for Generation and Pose

이 논문은 32 만 개의 3D 객체로 구성된 대규모 정규화 (canonicalization) 데이터셋 'CanoVerse'와 이를 자동화하는 프레임워크를 제안하여, 3D 생성의 안정성 향상, 정밀한 3D 형상 검색, 그리고 제로샷 포인트 클라우드 방향 추정 등 다양한 3D 학습 태스크의 성능을 획기적으로 개선합니다.

Li Jin, Yuchen Yang, Weikai Chen, Yujie Wang, Dehao Hao, Tanghui Jia, Yingda Yin, Zeyu Hu, Runze Zhang, Keyang Luo, Li Yuan, Long Quan, Xin Wang, Xueying Qin2026-03-10💻 cs

LiveWorld: Simulating Out-of-Sight Dynamics in Generative Video World Models

이 논문은 시야 밖의 객체 상태가 고정되는 기존 생성형 비디오 월드 모델의 한계를 해결하기 위해, 관찰되지 않는 동안에도 객체가 진화하는 지속 가능한 글로벌 상태를 모델링하는 'LiveWorld' 프레임워크와 이를 평가하는 'LiveBench' 벤치마크를 제안합니다.

Zicheng Duan, Jiatong Xia, Zeyu Zhang, Wenbo Zhang, Gengze Zhou, Chenhui Gou, Yefei He, Feng Chen, Xinyu Zhang, Lingqiao Liu2026-03-10💻 cs

← 이전 다음 →