Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models

O artigo apresenta o Vision-DeepResearch, um novo paradigma para Modelos de Linguagem Multimodal (MLLMs) que, por meio de treinamento supervisionado e por reforço, internaliza capacidades de pesquisa profunda multi-turno e multi-escala para superar ruído visual e resolver questões complexas, superando tanto modelos existentes quanto fluxos de trabalho baseados em fundações proprietárias de ponta.

Wenxuan Huang, Yu Zeng, Qiuchen Wang + 13 more2026-03-03🤖 cs.AI

Gradient-Aligned Calibration for Post-Training Quantization of Diffusion Models

Este artigo propõe um novo método de quantização pós-treinamento para modelos de difusão que otimiza a atribuição de pesos às amostras de calibração para alinhar os gradientes entre os diferentes timesteps, superando as limitações das abordagens uniformes existentes e melhorando significativamente a eficiência e a qualidade da geração de imagens.

Dung Anh Hoang, Cuong Pham anh Trung Le, Jianfei Cai + 1 more2026-03-03🤖 cs.LG

Contribution-aware Token Compression for Efficient Video Understanding via Reinforcement Learning

O artigo apresenta o CaCoVID, um novo algoritmo de compressão de tokens para modelos de linguagem grandes em vídeo que utiliza aprendizado por reforço para otimizar ativamente a seleção de tokens com base em sua contribuição direta para respostas corretas, superando as limitações dos métodos tradicionais baseados em scores de atenção.

Yinchao Ma, Qiang Zhou, Zhibin Wang + 4 more2026-03-03🤖 cs.AI

Vision-DeepResearch Benchmark: Rethinking Visual and Textual Search for Multimodal Large Language Models

Este artigo apresenta o VDR-Bench, um novo benchmark de 2.000 instâncias projetado para superar as limitações de avaliações anteriores ao focar em cenários realistas de pesquisa visual e textual para Modelos de Linguagem Multimodal, além de propor um fluxo de trabalho de busca com recortes múltiplos que melhora significativamente o desempenho desses sistemas.

Yu Zeng, Wenxuan Huang, Zhen Fang + 14 more2026-03-03💬 cs.CL

Single-Slice-to-3D Reconstruction in Medical Imaging and Natural Objects: A Comparative Benchmark with SAM 3D

Este estudo compara cinco modelos de reconstrução 3D a partir de imagens 2D, demonstrando que, embora todos enfrentem limitações fundamentais de sobreposição volumétrica devido à ambiguidade de profundidade em dados médicos, o SAM 3D destaca-se por capturar melhor a similaridade topológica, evidenciando a necessidade de adaptação específica ao domínio para reconstruções médicas confiáveis.

Yan Luo, Advaith Ravishankar, Serena Liu + 2 more2026-03-03💻 cs

EchoTorrent: Towards Swift, Sustained, and Streaming Multi-Modal Video Generation

O artigo apresenta o EchoTorrent, um novo esquema de geração de vídeo multimodal em streaming que supera os desafios de latência e estabilidade temporal através de uma arquitetura inovadora combinando treinamento multi-professor, calibração adaptativa de CFG, forçamento híbrido de cauda longa e refinamento do decodificador VAE, resultando em uma geração rápida, consistente e sincronizada com áudio.

Rang Meng, Yingjie Yin, Yuming Li + 1 more2026-03-03💻 cs

OmniCT: Towards a Unified Slice-Volume LVLM for Comprehensive CT Analysis

O artigo apresenta o OmniCT, um modelo unificado de visão e linguagem para análise de tomografia computadorizada que integra características de fatias e volumes para superar as limitações existentes na consistência espacial e granularidade, oferecendo desempenho superior em tarefas clínicas e estabelecendo um novo paradigma para a compreensão de imagens médicas.

Tianwei Lin, Zhongwei Qiu, Wenqiao Zhang + 12 more2026-03-03🤖 cs.AI

Prefer-DAS: Learning from Local Preferences and Sparse Prompts for Domain Adaptive Segmentation of Electron Microscopy

O artigo apresenta o Prefer-DAS, um modelo inovador de segmentação adaptativa de domínio para microscopia eletrônica que supera as limitações das estratégias não supervisionadas ao integrar prompts esparsos e otimização de preferência local, alcançando desempenho superior ou comparável a modelos supervisionados com mínima anotação humana.

Jiabao Chen, Shan Xiong, Jialin Peng2026-03-03💻 cs

Leveraging Causal Reasoning Method for Explaining Medical Image Segmentation Models

Este artigo apresenta um modelo explicativo para segmentação de imagens médicas baseado em raciocínio causal, que utiliza o efeito médio do tratamento (ATE) para quantificar a influência de regiões de entrada e componentes da rede, demonstrando maior fidelidade nas explicações e revelando heterogeneidade nas estratégias perceptivas de diferentes modelos.

Limai Jiang, Ruitao Xie, Bokai Yang + 6 more2026-03-03💻 cs

VII: Visual Instruction Injection for Jailbreaking Image-to-Video Generation Models

Este trabalho propõe o Visual Instruction Injection (VII), um framework de jailbreak sem treinamento e transferível que explora a capacidade de seguir instruções visuais em modelos de geração de imagem para vídeo, disfarçando intenções maliciosas de prompts de texto inseguros como instruções visuais benignas em imagens de referência para induzir a geração de conteúdo nocivo com alta taxa de sucesso.

Bowen Zheng, Yongli Xiang, Ziming Hong + 4 more2026-03-03💻 cs