Two Frames Matter: A Temporal Attack for Text-to-Video Model Jailbreaking

이 논문은 텍스트-비디오 생성 모델이 프롬프트의 중간 과정을 명시하지 않고 시작과 종료 프레임만 지정할 때 해로운 중간 프레임을 생성하는 시간적 취약점을 발견하고, 이를 활용한 새로운 재일브 공격 기법인 TFM 을 제안하여 기존 필터를 우회하는 효과를 입증했습니다.

Moyang Chen, Zonghao Ying, Wenzhuo Xu, Quancheng Zou, Deyue Zhang, Dongdong Yang, Xiangzheng Zhang2026-03-10💻 cs

Looking Back and Forth: Cross-Image Attention Calibration and Attentive Preference Learning for Multi-Image Hallucination Mitigation

이 논문은 교차 이미지 어텐션 보정과 선호도 학습 (CAPL) 을 도입하여 다중 이미지 작업에서 발생하는 환각 현상을 완화하고, 모델이 실제 시각적 증거에 기반한 정확한 추론을 하도록 돕는 새로운 프레임워크를 제안합니다.

Xiaochen Yang, Hao Fang, Jiawei Kong, Yaoxin Mao, Bin Chen, Shu-Tao Xia2026-03-10💻 cs

MedSteer: Counterfactual Endoscopic Synthesis via Training-Free Activation Steering

이 논문은 엔도스코프 이미지 생성 시 해부학적 구조를 유지하면서 병변 개념만 정밀하게 변경할 수 있는 훈련 없는 활성화 조종 프레임워크인 'MedSteer'를 제안하고, 이를 통해 기존 방법보다 우수한 반사실적 데이터 생성 및 하류 진단 성능 향상을 입증했습니다.

Trong-Thang Pham, Loc Nguyen, Anh Nguyen, Hien Nguyen, Ngan Le2026-03-10💻 cs

Retinex Meets Language: A Physics-Semantics-Guided Underwater Image Enhancement Network

이 논문은 기존 물리 기반 및 학습 기반 방법의 한계를 극복하기 위해 CLIP 모델의 텍스트 시맨틱 정보를 활용한 물리-시맨틱 가이드 underwater 이미지 향상 네트워크 (PSG-UIENet) 와 대규모 멀티모달 데이터셋을 제안하여, 기존 최첨단 방법들보다 우수한 성능을 입증했습니다.

Shixuan Xu, Yabo Liu, Junyu Dong, Xinghui Dong2026-03-10💻 cs

Facial Expression Generation Aligned with Human Preference for Natural Dyadic Interaction

이 논문은 화자의 다중 모달 신호를 3D 모달 모델의 표현으로 매핑하는 시맨틱 액션 학습 프레임워크와 인간 피드백 기반 강화 학습을 결합하여, 자연스러운 대화 상호작용에 부합하는 인간 선호도 정렬 얼굴 표정 생성을 가능하게 하는 방법을 제안합니다.

Xu Chen, Rui Gao, Xinjie Zhang, Haoyu Zhang, Che Sun, Zhi Gao, Yuwei Wu, Yunde Jia2026-03-10💻 cs

NuNext: Reframing Nucleus Detection as Next-Point Detection

이 논문은 기존 방법들의 한계를 극복하기 위해 멀티모달 대규모 언어 모델을 활용하여 조직병리학적 핵 탐지를 '다음 점 예측' 문제로 재정의하고, 공간 인식 소프트 감독과 강화 학습 기반의 정교한 보상 전략을 통해 탐지 성능을 획기적으로 개선한 'NuNext'를 제안합니다.

Zhongyi Shui, Honglin Li, Xiaozhong Ji, Ye Zhang, Zijiang Yang, Chenglu Zhu, Yuxuan Sun, Kai Yao, Conghui He, Cheng Tan2026-03-10💻 cs

Efficient Chest X-ray Representation Learning via Semantic-Partitioned Contrastive Learning

이 논문은 기존 자기지도학습의 한계를 극복하고, 손작업 증강이나 보조 디코더 없이 단일 Chest X-ray 이미지를 의미 있는 패치 집합으로 분할하여 상호 일치성을 학습하는 '의미 분할 대비 학습 (S-PCL)'을 제안함으로써, 낮은 계산 비용으로 우수한 성능을 달성하는 효율적인 Chest X-ray 표현 학습 프레임워크를 제시합니다.

Wangyu Feng, Shawn Young, Lijian Xu2026-03-10💻 cs

Inter-Image Pixel Shuffling for Multi-focus Image Fusion

이 논문은 실제 다초점 이미지 데이터 없이도 원본 이미지와 저주파 필터링 이미지를 픽셀 단위로 섞어 학습 데이터를 생성하는 '이미지 간 픽셀 셔플링 (IPS)' 기법을 제안하고, 합성곱 신경망과 상태 공간 모델을 결합한 네트워크를 통해 기존 방법보다 우수한 다초점 이미지 융합 성능을 달성함을 보여줍니다.

Huangxing Lin, Rongrong Ma, Cheng Wang2026-03-10💻 cs

Deep Expert Injection for Anchoring Retinal VLMs with Domain-Specific Knowledge

이 논문은 일반적 시각 인코더의 한계와 언어 선입견에 의한 환각 문제를 해결하기 위해, 전문 지식을 시각적 앵커로 주입하는 'EyExIn' 프레임워크를 제안하여 안과 진단용 대규모 시각-언어 모델의 신뢰성과 정확도를 획기적으로 향상시켰습니다.

Shuai Lu, Meng Wang, Jia Guo, Jiawei Du, Bo Liu, Shengzhu Yang, Weihang Zhang, Huazhu Fu, Huiqi Li2026-03-10💻 cs

PDD: Manifold-Prior Diverse Distillation for Medical Anomaly Detection

이 논문은 의료 영상 이상 탐지의 어려움을 해결하기 위해 VMamba 와 Wide-ResNet 의 이원적 사전 지식을 매니폴드 차원에서 통합하고 이를 상보적인 두 개의 학생 모델로 증류하는 'PDD' 프레임워크를 제안하여 기존 최첨단 방법들을 크게 능가하는 성능을 달성했다고 요약할 수 있습니다.

Xijun Lu, Hongying Liu, Fanhua Shang, Yanming Hui, Liang Wan2026-03-10💻 cs

CanoVerse: 3D Object Scalable Canonicalization and Dataset for Generation and Pose

이 논문은 32 만 개의 3D 객체로 구성된 대규모 정규화 (canonicalization) 데이터셋 'CanoVerse'와 이를 자동화하는 프레임워크를 제안하여, 3D 생성의 안정성 향상, 정밀한 3D 형상 검색, 그리고 제로샷 포인트 클라우드 방향 추정 등 다양한 3D 학습 태스크의 성능을 획기적으로 개선합니다.

Li Jin, Yuchen Yang, Weikai Chen, Yujie Wang, Dehao Hao, Tanghui Jia, Yingda Yin, Zeyu Hu, Runze Zhang, Keyang Luo, Li Yuan, Long Quan, Xin Wang, Xueying Qin2026-03-10💻 cs

LiveWorld: Simulating Out-of-Sight Dynamics in Generative Video World Models

이 논문은 시야 밖의 객체 상태가 고정되는 기존 생성형 비디오 월드 모델의 한계를 해결하기 위해, 관찰되지 않는 동안에도 객체가 진화하는 지속 가능한 글로벌 상태를 모델링하는 'LiveWorld' 프레임워크와 이를 평가하는 'LiveBench' 벤치마크를 제안합니다.

Zicheng Duan, Jiatong Xia, Zeyu Zhang, Wenbo Zhang, Gengze Zhou, Chenhui Gou, Yefei He, Feng Chen, Xinyu Zhang, Lingqiao Liu2026-03-10💻 cs