cs.CV artigos | Gist.Science

RAFM: Retrieval-Augmented Flow Matching for Unpaired CBCT-to-CT Translation

Este artigo apresenta o RAFM, um novo método de tradução não pareada de CBCT para CT que utiliza correspondência de fluxo retificado aprimorada por recuperação para gerar imagens sintéticas de alta qualidade e estáveis, superando os métodos existentes em métricas de avaliação e viabilidade para cálculo de dose em radioterapia.

Xianhao Zhou, Jianghao Wu, Lanfeng Zhong + 4 more2026-03-03💻 cs

Multiple Inputs and Mixwd data for Alzheimer's Disease Classification Based on 3D Vision Transformer

Este estudo propõe o modelo MIMD-3DVT, uma nova abordagem baseada em Vision Transformer 3D que integra múltiplas entradas de imagens de ressonância magnética e dados mistos (demográficos e cognitivos) para superar as limitações dos métodos atuais e alcançar uma precisão de 97,14% na classificação da Doença de Alzheimer.

Juan A. Castro-Silva, Maria N. Moreno Garcia, Diego H. Peluffo-Ordoñez2026-03-03💻 cs

Advancing Multimodal Judge Models through a Capability-Oriented Benchmark and MCTS-Driven Data Generation

Este trabalho apresenta o M-JudgeBench, um benchmark orientado a capacidades com dez dimensões para avaliar criticamente modelos de julgamento multimodal, e propõe o framework Judge-MCTS para gerar dados de treinamento que resultam no M-Judger, um modelo de julgamento superior que supera os sistemas existentes.

Zeyu Chen, Huanjin Yao, Ziwang Zhao + 1 more2026-03-03🤖 cs.AI

Weakly Supervised Video Anomaly Detection with Anomaly-Connected Components and Intention Reasoning

O artigo apresenta o LAS-VAD, um novo framework para detecção de anomalias em vídeos com supervisão fraca que supera as limitações atuais ao integrar mecanismos de componentes conectados e raciocínio de intenção, além de utilizar atributos de anomalia para aprimorar a semântica e a precisão da detecção.

Yu Wang, Shengjie Zhao2026-03-03💻 cs

Geometry OR Tracker: Universal Geometric Operating Room Tracking

O artigo apresenta o "Geometry OR Tracker", um pipeline de duas etapas que corrige inconsistências geométricas e de calibração em salas cirúrgicas para permitir um rastreamento 3D robusto e em escala métrica unificada, resultando em ganhos significativos de precisão no benchmark MM-OR.

Yihua Shao, Kang Chen, Feng Xue + 6 more2026-03-03🤖 cs.AI

MIDAS: Multi-Image Dispersion and Semantic Reconstruction for Jailbreaking MLLMs

O artigo propõe o MIDAS, um novo framework de jailbreak para Modelos de Linguagem Multimodais (MLLMs) que contorna mecanismos de segurança ao decompor intenções maliciosas em subunidades dispersas por múltiplas imagens e reconstruí-las gradualmente por meio de raciocínio visual cruzado, alcançando uma taxa de sucesso média de 81,46% em modelos fechados de última geração.

Yilian Liu, Xiaojun Jia, Guoshun Nan + 6 more2026-03-03🤖 cs.AI

Decoupling Stability and Plasticity for Multi-Modal Test-Time Adaptation

O artigo propõe o DASP, um novo quadro de adaptação em tempo de teste para modelos multimodais que desacopla estabilidade e plasticidade em componentes assimétricos para mitigar a transferência negativa e o esquecimento catastrófico, superando assim os métodos atuais em diversos benchmarks.

Yongbo He, Zirun Guo, Tao Jin2026-03-03🤖 cs.AI

MicroVerse: A Preliminary Exploration Toward a Micro-World Simulation

Este trabalho apresenta o MicroVerse, um modelo de geração de vídeo especializado em simulações de microcosmos, fundamentado no benchmark MicroWorldBench e no conjunto de dados MicroSim-10K, para superar as limitações atuais na representação fiel de fenômenos biológicos em escala microscópica.

Rongsheng Wang, Minghao Wu, Hongru Zhou + 4 more2026-03-03🤖 cs.AI

LangGap: Diagnosing and Closing the Language Gap in Vision-Language-Action Models

O artigo apresenta o LangGap, um novo benchmark que expõe a incapacidade dos atuais modelos Visão-Linguagem-Ação de compreender instruções linguísticas diversas e demonstra que, embora a augmentação de dados possa melhorar o desempenho em tarefas específicas, a capacidade de aprendizado desses modelos permanece insuficiente para lidar com a diversidade semântica complexa.

Yuchen Hou, Lin Zhao2026-03-03💬 cs.CL

UNICBench: UNIfied Counting Benchmark for MLLM

O artigo apresenta o UNICBench, um benchmark unificado e rigoroso com 5.300 imagens, 872 documentos e 2.069 áudios, além de um toolkit de avaliação, para medir e comparar o desempenho de 45 modelos de linguagem multimodais (MLLMs) na tarefa de contagem, revelando lacunas significativas em tarefas complexas de raciocínio.

Chenggang Rong, Tao Han, Zhiyuan Zhao + 5 more2026-03-03💻 cs

Data-Centric Benchmark for Label Noise Estimation and Ranking in Remote Sensing Image Segmentation

Este artigo apresenta um novo benchmark centrado em dados, um conjunto de dados público e duas técnicas inovadoras que superam os métodos existentes na identificação, quantificação e classificação de amostras de treinamento com ruído de rótulo em segmentação semântica de imagens de sensoriamento remoto.

Keiller Nogueira, Codrut-Andrei Diaconu, Dávid Kerekes + 9 more2026-03-03💻 cs

IdGlow: Dynamic Identity Modulation for Multi-Subject Generation

O artigo apresenta o IdGlow, um framework inovador sem máscaras baseado em dois estágios que resolve o dilema estabilidade-plasticidade na geração de imagens com múltiplos sujeitos, harmonizando identidades diversas e transformações estruturais complexas, como o envelhecimento, através de agendamento adaptativo de timesteps, síntese de prompts orientada por VLM e otimização direta de preferências (DPO).

Honghao Cai, Xiangyuan Wang, Yunhao Bai + 10 more2026-03-03🤖 cs.AI

Linking Modality Isolation in Heterogeneous Collaborative Perception

O artigo apresenta o CodeAlign, um novo framework de alinhamento eficiente e livre de co-ocorrência que supera o isolamento de modalidades na percepção colaborativa heterogênea através de tradução de características via códigos, alcançando desempenho superior com parâmetros reduzidos e menor carga de comunicação.

Changxing Liu, Zichen Chao, Siheng Chen2026-03-03💻 cs

Exploring Spatiotemporal Feature Propagation for Video-Level Compressive Spectral Reconstruction: Dataset, Model and Benchmark

Este artigo apresenta o primeiro conjunto de dados dinâmicos de imagens hiperespectrais (DynaSpec), um novo modelo de transformação baseado em propagação de características (PG-SVRT) e um benchmark para reconstrução espectral compressiva em nível de vídeo, superando as limitações de consistência temporal e qualidade de reconstrução dos métodos baseados em imagens.

Lijing Cai, Zhan Shi, Chenglong Huang + 6 more2026-03-03💻 cs

Exploring 3D Dataset Pruning

Este trabalho aborda o desafio da poda de conjuntos de dados 3D, caracterizados por distribuições de classes de cauda longa que tornam conflitantes as métricas de precisão global e média, propondo um método inovador de seleção de subconjuntos com cotas de retenção por classe e supervisão de professores invariante a priores para otimizar simultaneamente ambas as métricas.

Xiaohan Zhao, Xinyi Shang, Jiacheng Liu + 1 more2026-03-03🤖 cs.LG

RC-GeoCP: Geometric Consensus for Radar-Camera Collaborative Perception

O artigo apresenta o RC-GeoCP, o primeiro framework de percepção colaborativa que funde dados de radar 4D e câmeras através de um consenso geométrico para corrigir desalinhamentos e otimizar a comunicação, alcançando desempenho superior com menor sobrecarga de dados.

Xiaokai Bai, Lianqing Zheng, Runwei Guan + 2 more2026-03-03💻 cs

Stateful Cross-layer Vision Modulation

O artigo propõe o SCVM, um novo quadro de visão modulado por memória que controla a evolução das representações visuais através de um estado de memória recursivo e modulação entre camadas, permitindo melhorias consistentes em tarefas multimodais sem a necessidade de expandir tokens visuais, adicionar codificadores ou ajustar o modelo de linguagem.

Ying Liu, Yudong Han, Kean Shi + 1 more2026-03-03💻 cs

Act Like a Pathologist: Tissue-Aware Whole Slide Image Reasoning

O artigo apresenta o HistoSelect, um framework de recuperação do grosseiro ao fino orientado por perguntas que imita o processo de exame dos patologistas ao selecionar regiões de tecido e patches informativos em imagens de lâminas inteiras, resultando em maior eficiência e precisão nas respostas de modelos de linguagem visual para patologia.

Wentao Huang, Weimin Lyu, Peiliang Lou + 8 more2026-03-03💻 cs

Direct low-field MRI super-resolution using undersampled k-space

Este trabalho propõe um novo framework baseado em uma rede U-Net de duplo canal no espaço k para reconstruir diretamente imagens de ressonância magnética de baixo campo com super-resolução a partir de dados subamostrados, superando métodos baseados no domínio espacial e alcançando qualidade comparável a aquisições completas.

Daniel Tweneboah Anyimadu, Mohammed M. Abdelsamea, Ahmed Karam Eldaly2026-03-03💻 cs

Specializing Foundation Models via Mixture of Low-Rank Experts for Comprehensive Head CT Analysis

O artigo propõe o framework MoLRE, que especializa modelos fundamentais de imagem médica através de uma mistura de adaptadores de baixo rank e roteamento suave, demonstrando melhorias consistentes na detecção de achados em tomografias computadorizadas de crânio ao longo de seis modelos de ponta, com ganhos particularmente expressivos em modelos de domínio geral e médico.

Youngjin Yoo, Han Liu, Bogdan Georgescu + 14 more2026-03-03💻 cs

← Anterior Próximo →