Two Frames Matter: A Temporal Attack for Text-to-Video Model Jailbreaking

Este artigo apresenta o TFM, um novo método de ataque que explora a vulnerabilidade temporal dos modelos de texto-para-vídeo ao solicitar apenas quadros inicial e final, permitindo que o modelo gere autonomamente conteúdo nocivo nos quadros intermediários e contorne assim os filtros de segurança tradicionais.

Moyang Chen, Zonghao Ying, Wenzhuo Xu, Quancheng Zou, Deyue Zhang, Dongdong Yang, Xiangzheng Zhang2026-03-10💻 cs

Looking Back and Forth: Cross-Image Attention Calibration and Attentive Preference Learning for Multi-Image Hallucination Mitigation

O artigo propõe o framework CAPL, que combina calibração de atenção inter-imagem e aprendizado por preferência para mitigar alucinações em modelos de linguagem e visão grandes, melhorando a modelagem de associações entre múltiplas imagens e a fundamentação em evidências visuais autênticas.

Xiaochen Yang, Hao Fang, Jiawei Kong, Yaoxin Mao, Bin Chen, Shu-Tao Xia2026-03-10💻 cs

MedSteer: Counterfactual Endoscopic Synthesis via Training-Free Activation Steering

O artigo apresenta o MedSteer, um framework de direção de ativação sem treinamento para síntese endoscópica que gera pares contrafactuais preservando a estrutura anatômica ao identificar e manipular vetores de patologia nas camadas de atenção cruzada de modelos de difusão, superando métodos existentes na geração de dados causais e melhorando o desempenho na detecção de pólipos.

Trong-Thang Pham, Loc Nguyen, Anh Nguyen, Hien Nguyen, Ngan Le2026-03-10💻 cs

Physics-Guided VLM Priors for All-Cloud Removal

O artigo apresenta o PhyVLM-CR, uma abordagem inovadora que integra as capacidades semânticas de um Modelo Visão-Linguagem (VLM) a um modelo de restauração física para realizar a remoção unificada e de alta fidelidade de nuvens finas e espessas em imagens de sensoriamento remoto, eliminando a necessidade de decisões explícitas sobre o tipo de nuvem e garantindo resultados coerentes e livres de alucinações.

Liying Xu, Huifang Li, Huanfeng Shen2026-03-10💻 cs

Retinex Meets Language: A Physics-Semantics-Guided Underwater Image Enhancement Network

Este artigo apresenta o PSG-UIENet, uma rede de aprimoramento de imagens subaquáticas que integra correção de iluminação baseada em Retinex com orientações semânticas de linguagem, acompanhada pela criação do primeiro conjunto de dados multimodais (LUIQD-TD) e de uma função de perda específica para garantir consistência semântica entre texto e imagem.

Shixuan Xu, Yabo Liu, Junyu Dong, Xinghui Dong2026-03-10💻 cs

NuNext: Reframing Nucleus Detection as Next-Point Detection

O artigo NuNext reformula a detecção de núcleos em histopatologia como uma tarefa de previsão do próximo ponto, utilizando um modelo de linguagem multimodal grande com treinamento em duas etapas (supervisão suave e ajuste fino por reforço) para gerar diretamente os centróides dos núcleos e superar os desequilíbrios e complexidades das abordagens existentes.

Zhongyi Shui, Honglin Li, Xiaozhong Ji, Ye Zhang, Zijiang Yang, Chenglu Zhu, Yuxuan Sun, Kai Yao, Conghui He, Cheng Tan2026-03-10💻 cs

Deep Expert Injection for Anchoring Retinal VLMs with Domain-Specific Knowledge

O artigo apresenta o EyExIn, um framework eficiente em dados que utiliza um mecanismo de injeção profunda de especialistas para ancorar modelos de linguagem visual em conhecimento oftalmológico específico, superando lacunas de percepção e raciocínio e alcançando desempenho superior em diagnósticos de retina.

Shuai Lu, Meng Wang, Jia Guo, Jiawei Du, Bo Liu, Shengzhu Yang, Weihang Zhang, Huazhu Fu, Huiqi Li2026-03-10💻 cs

The Model Knows Which Tokens Matter: Automatic Token Selection via Noise Gating

O artigo apresenta o AutoSelect, um método que reformula a poda de tokens visuais como um problema de comunicação com restrição de capacidade, utilizando um mecanismo de "gate" de ruído e um denoiser para treinar um seletor leve em modelos VLM congelados, permitindo a seleção automática dos tokens mais importantes durante a inferência com ganhos significativos de velocidade e precisão quase total.

Landi He, Xiaoyu Yang, Lijian Xu2026-03-10💻 cs

CanoVerse: 3D Object Scalable Canonicalization and Dataset for Generation and Pose

O artigo apresenta o CanoVerse, um novo framework de canonicização e um massivo dataset de 320 mil objetos 3D que resolvem a ambiguidade de rotação, permitindo geração mais estável, recuperação precisa de formas e estimativa de orientação zero-shot.

Li Jin, Yuchen Yang, Weikai Chen, Yujie Wang, Dehao Hao, Tanghui Jia, Yingda Yin, Zeyu Hu, Runze Zhang, Keyang Luo, Li Yuan, Long Quan, Xin Wang, Xueying Qin2026-03-10💻 cs