cs.CV artigos | Gist.Science

AdaGen: Learning Adaptive Policy for Image Synthesis

O artigo apresenta o AdaGen, um framework geral e adaptável que utiliza aprendizado por reforço com recompensas adversariais para otimizar automaticamente o agendamento de parâmetros em processos de síntese de imagem iterativos, superando as limitações de regras manuais e melhorando significativamente a qualidade e a eficiência de diversos modelos generativos.

Zanlin Ni, Yulin Wang, Yeguo Hua, Renping Zhou, Jiayi Guo, Jun Song, Bo Zheng, Gao Huang2026-03-10💻 cs

TrajPred: Trajectory-Conditioned Joint Embedding Prediction for Surgical Instrument-Tissue Interaction Recognition in Vision-Language Models

O artigo apresenta o TrajPred, um framework que melhora o reconhecimento de interações entre instrumentos e tecidos em cirurgias robóticas ao codificar trajetórias instrumentais para capturar informações temporais e gerar embeddings visuais mais precisos, resultando em melhor desempenho e alinhamento semântico no benchmark CholecT50.

Jiajun Cheng, Xiaofan Yu, Subarna, Sainan Liu, Shan Lin2026-03-10💻 cs

OV-DEIM: Real-time DETR-Style Open-Vocabulary Object Detection with GridSynthetic Augmentation

O artigo apresenta o OV-DEIM, um detector de objetos em tempo real baseado em arquitetura DETR que alcança desempenho de ponta em detecção de vocabulário aberto através da integração do framework DEIMv2, uma estratégia de suplementação de consultas e uma técnica de aumento de dados chamada GridSynthetic para melhorar a discriminação semântica e a eficiência.

Leilei Wang, Longfei Liu, Xi Shen, Xuanlong Yu, Ying Tiffany He, Fei Richard Yu, Yingyi Chen2026-03-10💻 cs

Two Frames Matter: A Temporal Attack for Text-to-Video Model Jailbreaking

Este artigo apresenta o TFM, um novo método de ataque que explora a vulnerabilidade temporal dos modelos de texto-para-vídeo ao solicitar apenas quadros inicial e final, permitindo que o modelo gere autonomamente conteúdo nocivo nos quadros intermediários e contorne assim os filtros de segurança tradicionais.

Moyang Chen, Zonghao Ying, Wenzhuo Xu, Quancheng Zou, Deyue Zhang, Dongdong Yang, Xiangzheng Zhang2026-03-10💻 cs

Fine-Grained 3D Facial Reconstruction for Micro-Expressions

Este artigo propõe um método inovador de reconstrução 3D de microexpressões faciais que integra características dinâmicas globais e locais enriquecidas para superar os desafios da natureza sutil e transitória dessas expressões, superando os métodos atuais em precisão geométrica e detalhe perceptual.

Che Sun, Xinjie Zhang, Rui Gao, Xu Chen, Yuwei Wu, Yunde Jia2026-03-10💻 cs

Looking Back and Forth: Cross-Image Attention Calibration and Attentive Preference Learning for Multi-Image Hallucination Mitigation

O artigo propõe o framework CAPL, que combina calibração de atenção inter-imagem e aprendizado por preferência para mitigar alucinações em modelos de linguagem e visão grandes, melhorando a modelagem de associações entre múltiplas imagens e a fundamentação em evidências visuais autênticas.

Xiaochen Yang, Hao Fang, Jiawei Kong, Yaoxin Mao, Bin Chen, Shu-Tao Xia2026-03-10💻 cs

SODA: Sensitivity-Oriented Dynamic Acceleration for Diffusion Transformer

O artigo propõe o SODA, um método de aceleração dinâmica orientado à sensibilidade que otimiza o cache e a poda em Transformers de Difusão com base em modelagem de erro de sensibilidade granular, alcançando fidelidade de geração superior em comparação com métodos existentes.

Tong Shao, Yusen Fu, Guoying Sun, Jingde Kong, Zhuotao Tian, Jingyong Su2026-03-10💻 cs

MedSteer: Counterfactual Endoscopic Synthesis via Training-Free Activation Steering

O artigo apresenta o MedSteer, um framework de direção de ativação sem treinamento para síntese endoscópica que gera pares contrafactuais preservando a estrutura anatômica ao identificar e manipular vetores de patologia nas camadas de atenção cruzada de modelos de difusão, superando métodos existentes na geração de dados causais e melhorando o desempenho na detecção de pólipos.

Trong-Thang Pham, Loc Nguyen, Anh Nguyen, Hien Nguyen, Ngan Le2026-03-10💻 cs

VirtueBench: Evaluating Trustworthiness under Uncertainty in Long Video Understanding

O artigo apresenta o VirtueBench, um novo benchmark projetado para avaliar a confiabilidade de Modelos Visão-Linguagem em vídeos longos ao distinguir entre casos respondíveis e não respondíveis, revelando que a maioria dos modelos atuais tende a adivinhar em vez de recusar respostas honestamente sob incerteza.

Xueqing Yu, Bohan Li, Yan Li, Zhenheng Yang2026-03-10💻 cs

Physics-Guided VLM Priors for All-Cloud Removal

O artigo apresenta o PhyVLM-CR, uma abordagem inovadora que integra as capacidades semânticas de um Modelo Visão-Linguagem (VLM) a um modelo de restauração física para realizar a remoção unificada e de alta fidelidade de nuvens finas e espessas em imagens de sensoriamento remoto, eliminando a necessidade de decisões explícitas sobre o tipo de nuvem e garantindo resultados coerentes e livres de alucinações.

Liying Xu, Huifang Li, Huanfeng Shen2026-03-10💻 cs

Retinex Meets Language: A Physics-Semantics-Guided Underwater Image Enhancement Network

Este artigo apresenta o PSG-UIENet, uma rede de aprimoramento de imagens subaquáticas que integra correção de iluminação baseada em Retinex com orientações semânticas de linguagem, acompanhada pela criação do primeiro conjunto de dados multimodais (LUIQD-TD) e de uma função de perda específica para garantir consistência semântica entre texto e imagem.

Shixuan Xu, Yabo Liu, Junyu Dong, Xinghui Dong2026-03-10💻 cs

Aligning What EEG Can See: Structural Representations for Brain-Vision Matching

Este trabalho propõe uma nova estratégia de seleção de camadas visíveis para EEG e um framework de fusão hierarquicamente complementar que alinham sinais cerebrais com representações visuais intermediárias, alcançando desempenho state-of-the-art na decodificação visual zero-shot ao mitigar o desajuste de informações entre modalidades.

Jingyi Tang, Shuai Jiang, Fei Su, Zhicheng Zhao2026-03-10💻 cs

mAVE: A Watermark for Joint Audio-Visual Generation Models

O artigo apresenta o mAVE, um novo framework de marca d'água projetado nativamente para modelos de geração áudio-visual conjunta que, ao criptograficamente vincular os latentes de áudio e vídeo, elimina a vulnerabilidade de ataques de troca e protege a reputação e os direitos autorais dos fornecedores com integridade de ligação superior a 99%.

Luyang Si, Leyi Pan, Lijie Wen2026-03-10💻 cs

Facial Expression Generation Aligned with Human Preference for Natural Dyadic Interaction

Este artigo propõe um método de geração de expressões faciais para interação diádica natural que alinha as respostas do ouvinte às preferências humanas, utilizando um modelo de visão-linguagem-ação e aprendizado por reforço com feedback humano para garantir a adequação emocional e contextual.

Xu Chen, Rui Gao, Xinjie Zhang, Haoyu Zhang, Che Sun, Zhi Gao, Yuwei Wu, Yunde Jia2026-03-10💻 cs

NuNext: Reframing Nucleus Detection as Next-Point Detection

O artigo NuNext reformula a detecção de núcleos em histopatologia como uma tarefa de previsão do próximo ponto, utilizando um modelo de linguagem multimodal grande com treinamento em duas etapas (supervisão suave e ajuste fino por reforço) para gerar diretamente os centróides dos núcleos e superar os desequilíbrios e complexidades das abordagens existentes.

Zhongyi Shui, Honglin Li, Xiaozhong Ji, Ye Zhang, Zijiang Yang, Chenglu Zhu, Yuxuan Sun, Kai Yao, Conghui He, Cheng Tan2026-03-10💻 cs

Efficient Chest X-ray Representation Learning via Semantic-Partitioned Contrastive Learning

O artigo apresenta a S-PCL, um framework de aprendizado auto-supervisionado eficiente para radiografias de tórax que, ao particionar semanticamente os tokens de imagem sem depender de aumentos agressivos ou decodificadores auxiliares, alcança desempenho competitivo com menor custo computacional em diversos benchmarks médicos.

Wangyu Feng, Shawn Young, Lijian Xu2026-03-10💻 cs

TIQA: Human-Aligned Text Quality Assessment in Generated Images

O artigo apresenta o TIQA, uma nova tarefa e conjunto de dados para avaliação da qualidade de texto em imagens geradas, juntamente com o método leve ANTIQA, que supera métricas existentes ao alinhar-se melhor aos julgamentos humanos e demonstrar valor prático na filtragem e reclassificação de gerações de modelos de texto-para-imagem.

Kirill Koltsov, Aleksandr Gushchin, Dmitriy Vatolin, Anastasia Antsiferova2026-03-10💻 cs

Inter-Image Pixel Shuffling for Multi-focus Image Fusion

O artigo apresenta o Inter-image Pixel Shuffling (IPS), um método inovador que permite a fusão de imagens multi-foco sem necessidade de dados de treinamento reais, reformulando a tarefa como um problema de classificação de pixels e utilizando uma rede de fusão híbrida que combina redes neurais convolucionais com modelos de espaço de estado para superar os métodos existentes.

Huangxing Lin, Rongrong Ma, Cheng Wang2026-03-10💻 cs

Deep Expert Injection for Anchoring Retinal VLMs with Domain-Specific Knowledge

O artigo apresenta o EyExIn, um framework eficiente em dados que utiliza um mecanismo de injeção profunda de especialistas para ancorar modelos de linguagem visual em conhecimento oftalmológico específico, superando lacunas de percepção e raciocínio e alcançando desempenho superior em diagnósticos de retina.

Shuai Lu, Meng Wang, Jia Guo, Jiawei Du, Bo Liu, Shengzhu Yang, Weihang Zhang, Huazhu Fu, Huiqi Li2026-03-10💻 cs

The Model Knows Which Tokens Matter: Automatic Token Selection via Noise Gating

O artigo apresenta o AutoSelect, um método que reformula a poda de tokens visuais como um problema de comunicação com restrição de capacidade, utilizando um mecanismo de "gate" de ruído e um denoiser para treinar um seletor leve em modelos VLM congelados, permitindo a seleção automática dos tokens mais importantes durante a inferência com ganhos significativos de velocidade e precisão quase total.

Landi He, Xiaoyu Yang, Lijian Xu2026-03-10💻 cs

← Anterior Próximo →