AdaGen: Learning Adaptive Policy for Image Synthesis

본 논문은 기존 이미지 생성 모델의 고정된 단계별 스케줄링 한계를 극복하기 위해 강화학습과 적대적 보상 설계를 도입하여 각 샘플에 맞춰 적응적으로 생성 과정을 최적화하는 'AdaGen' 프레임워크를 제안하고, 다양한 생성 패러다임에서 성능 향상과 추론 비용 절감을 입증합니다.

Zanlin Ni, Yulin Wang, Yeguo Hua, Renping Zhou, Jiayi Guo, Jun Song, Bo Zheng, Gao Huang2026-03-10💻 cs

TrajPred: Trajectory-Conditioned Joint Embedding Prediction for Surgical Instrument-Tissue Interaction Recognition in Vision-Language Models

이 논문은 로봇 수술에서 시계열 운동 정보를 활용하고 시각 - 텍스트 정렬을 개선하기 위해 궤적 기반의 결합 임베딩 예측 프레임워크인 TrajPred 를 제안하여, CholecT50 벤치마크에서 수술 도구와 조직 간 상호작용 인식 성능을 향상시켰음을 보여줍니다.

Jiajun Cheng, Xiaofan Yu, Subarna, Sainan Liu, Shan Lin2026-03-10💻 cs

OV-DEIM: Real-time DETR-Style Open-Vocabulary Object Detection with GridSynthetic Augmentation

이 논문은 YOLO 기반의 기존 실시간 오픈 보카불러리 객체 탐지 방법의 한계를 극복하고, DEIMv2 프레임워크에 기반한 OV-DEIM 과 GridSynthetic 데이터 증강 기법을 통해 실시간 성능과 희귀 클래스 탐지 정확도를 동시에 향상시킨 새로운 DETR 스타일의 오픈 보카불러리 탐지 모델을 제안합니다.

Leilei Wang, Longfei Liu, Xi Shen, Xuanlong Yu, Ying Tiffany He, Fei Richard Yu, Yingyi Chen2026-03-10💻 cs

Two Frames Matter: A Temporal Attack for Text-to-Video Model Jailbreaking

이 논문은 텍스트-비디오 생성 모델이 프롬프트의 중간 과정을 명시하지 않고 시작과 종료 프레임만 지정할 때 해로운 중간 프레임을 생성하는 시간적 취약점을 발견하고, 이를 활용한 새로운 재일브 공격 기법인 TFM 을 제안하여 기존 필터를 우회하는 효과를 입증했습니다.

Moyang Chen, Zonghao Ying, Wenzhuo Xu, Quancheng Zou, Deyue Zhang, Dongdong Yang, Xiangzheng Zhang2026-03-10💻 cs

Looking Back and Forth: Cross-Image Attention Calibration and Attentive Preference Learning for Multi-Image Hallucination Mitigation

이 논문은 교차 이미지 어텐션 보정과 선호도 학습 (CAPL) 을 도입하여 다중 이미지 작업에서 발생하는 환각 현상을 완화하고, 모델이 실제 시각적 증거에 기반한 정확한 추론을 하도록 돕는 새로운 프레임워크를 제안합니다.

Xiaochen Yang, Hao Fang, Jiawei Kong, Yaoxin Mao, Bin Chen, Shu-Tao Xia2026-03-10💻 cs

MedSteer: Counterfactual Endoscopic Synthesis via Training-Free Activation Steering

이 논문은 엔도스코프 이미지 생성 시 해부학적 구조를 유지하면서 병변 개념만 정밀하게 변경할 수 있는 훈련 없는 활성화 조종 프레임워크인 'MedSteer'를 제안하고, 이를 통해 기존 방법보다 우수한 반사실적 데이터 생성 및 하류 진단 성능 향상을 입증했습니다.

Trong-Thang Pham, Loc Nguyen, Anh Nguyen, Hien Nguyen, Ngan Le2026-03-10💻 cs

Retinex Meets Language: A Physics-Semantics-Guided Underwater Image Enhancement Network

이 논문은 기존 물리 기반 및 학습 기반 방법의 한계를 극복하기 위해 CLIP 모델의 텍스트 시맨틱 정보를 활용한 물리-시맨틱 가이드 underwater 이미지 향상 네트워크 (PSG-UIENet) 와 대규모 멀티모달 데이터셋을 제안하여, 기존 최첨단 방법들보다 우수한 성능을 입증했습니다.

Shixuan Xu, Yabo Liu, Junyu Dong, Xinghui Dong2026-03-10💻 cs

Facial Expression Generation Aligned with Human Preference for Natural Dyadic Interaction

이 논문은 화자의 다중 모달 신호를 3D 모달 모델의 표현으로 매핑하는 시맨틱 액션 학습 프레임워크와 인간 피드백 기반 강화 학습을 결합하여, 자연스러운 대화 상호작용에 부합하는 인간 선호도 정렬 얼굴 표정 생성을 가능하게 하는 방법을 제안합니다.

Xu Chen, Rui Gao, Xinjie Zhang, Haoyu Zhang, Che Sun, Zhi Gao, Yuwei Wu, Yunde Jia2026-03-10💻 cs

NuNext: Reframing Nucleus Detection as Next-Point Detection

이 논문은 기존 방법들의 한계를 극복하기 위해 멀티모달 대규모 언어 모델을 활용하여 조직병리학적 핵 탐지를 '다음 점 예측' 문제로 재정의하고, 공간 인식 소프트 감독과 강화 학습 기반의 정교한 보상 전략을 통해 탐지 성능을 획기적으로 개선한 'NuNext'를 제안합니다.

Zhongyi Shui, Honglin Li, Xiaozhong Ji, Ye Zhang, Zijiang Yang, Chenglu Zhu, Yuxuan Sun, Kai Yao, Conghui He, Cheng Tan2026-03-10💻 cs

Efficient Chest X-ray Representation Learning via Semantic-Partitioned Contrastive Learning

이 논문은 기존 자기지도학습의 한계를 극복하고, 손작업 증강이나 보조 디코더 없이 단일 Chest X-ray 이미지를 의미 있는 패치 집합으로 분할하여 상호 일치성을 학습하는 '의미 분할 대비 학습 (S-PCL)'을 제안함으로써, 낮은 계산 비용으로 우수한 성능을 달성하는 효율적인 Chest X-ray 표현 학습 프레임워크를 제시합니다.

Wangyu Feng, Shawn Young, Lijian Xu2026-03-10💻 cs

Inter-Image Pixel Shuffling for Multi-focus Image Fusion

이 논문은 실제 다초점 이미지 데이터 없이도 원본 이미지와 저주파 필터링 이미지를 픽셀 단위로 섞어 학습 데이터를 생성하는 '이미지 간 픽셀 셔플링 (IPS)' 기법을 제안하고, 합성곱 신경망과 상태 공간 모델을 결합한 네트워크를 통해 기존 방법보다 우수한 다초점 이미지 융합 성능을 달성함을 보여줍니다.

Huangxing Lin, Rongrong Ma, Cheng Wang2026-03-10💻 cs

Deep Expert Injection for Anchoring Retinal VLMs with Domain-Specific Knowledge

이 논문은 일반적 시각 인코더의 한계와 언어 선입견에 의한 환각 문제를 해결하기 위해, 전문 지식을 시각적 앵커로 주입하는 'EyExIn' 프레임워크를 제안하여 안과 진단용 대규모 시각-언어 모델의 신뢰성과 정확도를 획기적으로 향상시켰습니다.

Shuai Lu, Meng Wang, Jia Guo, Jiawei Du, Bo Liu, Shengzhu Yang, Weihang Zhang, Huazhu Fu, Huiqi Li2026-03-10💻 cs