cs.CV artigos | Gist.Science

LLaDA-MedV: Exploring Large Language Diffusion Models for Biomedical Image Understanding

Este artigo apresenta o LLaDA-MedV, o primeiro modelo de difusão de linguagem grande adaptado para a compreensão de imagens biomédicas, que supera os modelos autoregressivos existentes em tarefas de conversação visual e perguntas e respostas, estabelecendo novos patamares de desempenho e oferecendo insights sobre estratégias de treinamento e inferência.

Xuanzhao Dong, Wenhui Zhu, Xiwen Chen + 5 more2026-02-26💻 cs

Lang2Lift: A Language-Guided Autonomous Forklift System for Outdoor Industrial Pallet Handling

O artigo apresenta o Lang2Lift, um sistema autônomo de empilhadeira guiado por linguagem natural que integra percepção visual baseada em modelos fundamentais e planejamento de movimento para realizar a identificação, estimativa de pose e manuseio autônomo de paletes em ambientes industriais externos não estruturados.

Huy Hoang Nguyen, Johannes Huemer, Markus Murschitz + 3 more2026-02-26💻 cs

Voxel Densification for Serialized 3D Object Detection: Mitigating Sparsity via Pre-serialization Expansion

Este artigo propõe o Módulo de Densificação de Voxel (VDM), uma abordagem inovadora que expande espacialmente os voxels antes da serialização para mitigar a esparsidade e melhorar a detecção de objetos 3D em frameworks baseados em Transformers e Modelos de Espaço de Estado, alcançando resultados superiores em múltiplos benchmarks.

Qifeng Liu, Dawei Zhao, Yabo Dong + 6 more2026-02-26💻 cs

Variation-aware Vision Token Dropping for Faster Large Vision-Language Models

O artigo apresenta o V²Drop, um método inovador de eliminação dinâmica de tokens visuais baseado na variação que acelera significativamente a inferência de Grandes Modelos Visuais-Linguísticos mantendo alto desempenho em tarefas de imagem e vídeo.

Junjie Chen, Xuyang Liu, Zichen Wen + 3 more2026-02-26💻 cs

MedicalPatchNet: A Patch-Based Self-Explainable AI Architecture for Chest X-ray Classification

O artigo apresenta o MedicalPatchNet, uma arquitetura de IA autoexplicável baseada em patches para classificação de radiografias de tórax que, mantendo desempenho comparável aos modelos de ponta, oferece localizações de patologias mais precisas e transparentes, eliminando a necessidade de técnicas de explicação pós-hoc e aumentando a confiança clínica.

Patrick Wienholt, Christiane Kuhl, Jakob Nikolas Kather + 2 more2026-02-26🤖 cs.LG

JanusVLN: Decoupling Semantics and Spatiality with Dual Implicit Memory for Vision-Language Navigation

O artigo apresenta o JanusVLN, um novo framework de navegação visão-linguagem que supera métodos anteriores ao empregar uma memória neural implícita dual para desacoplar e representar de forma compacta informações espaciais e semânticas, alcançando desempenho de ponta (SOTA) com maior eficiência computacional.

Shuang Zeng, Dekang Qi, Xinyuan Chang + 7 more2026-02-26💻 cs

Uncovering Grounding IDs: How External Cues Shape Multimodal Binding

Este artigo propõe o conceito de "Grounding IDs" como identificadores latentes induzidos por pistas externas que, ao alinhar objetos com suas respectivas partições no espaço de embedding e reduzir a lacuna entre modalidades, explicam mecanicamente como estruturas visuais melhoram a ligação multimodal e reduzem alucinações em modelos de linguagem e visão grandes.

Hosein Hasani, Amirmohammad Izadi, Fatemeh Askari + 4 more2026-02-26🤖 cs.AI

Hallucination Filtering in Radiology Vision-Language Models Using Discrete Semantic Entropy

Este estudo demonstra que o uso da entropia semântica discreta para filtrar perguntas com alta inconsistência semântica melhora significativamente a precisão de modelos de linguagem visão-linguagem de caixa-preta na resposta a questões visuais em radiologia, oferecendo uma estratégia eficaz para detectar e reduzir alucinações em aplicações clínicas.

Patrick Wienholt, Sophie Caselitz, Robert Siepmann + 6 more2026-02-26💻 cs

ImpMIA: Leveraging Implicit Bias for Membership Inference Attack

O artigo apresenta o ImpMIA, um ataque de inferência de associação que explora o viés implícito de redes neurais para identificar dados de treinamento sem a necessidade de modelos de referência ou suposições sobre o processo de treinamento, superando os métodos atuais em cenários onde apenas os pesos do modelo e um superset dos dados estão disponíveis.

Yuval Golbari, Navve Wasserman, Gal Vardi + 1 more2026-02-26🤖 cs.LG

Uni-MMMU: A Massive Multi-discipline Multimodal Unified Benchmark

O artigo apresenta o Uni-MMMU, um benchmark abrangente e multidisciplinar que avalia a sinergia bidirecional entre compreensão e geração visual em oito domínios de raciocínio, preenchendo a lacuna das avaliações atuais que tratam essas capacidades de forma isolada.

Kai Zou, Ziqi Huang, Yuhao Dong + 7 more2026-02-26💻 cs

Caption-Driven Explainability: Probing CNNs for Bias via CLIP

Este artigo propõe um método de IA explicativa baseado em legendas que integra modelos de visão computacional ao CLIP por meio de uma abordagem de cirurgia de rede para identificar conceitos dominantes, mitigando assim riscos de viés e melhorando a robustez dos modelos.

Patrick Koller, Amil V. Dravid, Guido M. Schuster + 1 more2026-02-26⚡ eess

World Simulation with Video Foundation Models for Physical AI

O artigo apresenta o Cosmos-Predict2.5 e o Cosmos-Transfer2.5, modelos de fundação de mundo aprimorados para IA física que unificam a geração de cenários a partir de texto, imagem e vídeo, oferecendo maior fidelidade e controle para simulação, geração de dados sintéticos e inteligência corporificada, com recursos de código aberto disponibilizados pela NVIDIA.

NVIDIA, :, Arslan Ali + 87 more2026-02-26🤖 cs.AI

Compression then Matching: An Efficient Pre-training Paradigm for Multimodal Embedding

O artigo propõe o CoMa, um novo paradigma de pré-treinamento que desacopla a compressão de dados da aprendizagem por contraste, permitindo transformar modelos de linguagem multimodal (MLLMs) em modelos de incorporação competitivos e eficientes com poucos dados e alcançando resultados de última geração.

Da Li, Yuxiao Luo, Keping Bi + 7 more2026-02-26💻 cs

Seeing the Forest and the Trees: Query-Aware Tokenizer for Long-Video Multimodal Language Models

O artigo apresenta o QTSplus, um módulo leve de seleção de tokens visuais que, ao analisar dinamicamente a complexidade da consulta textual e preservar a ordem temporal, reduz drasticamente a latência e o custo computacional na compreensão de vídeos longos por modelos multimodais, mantendo ou até melhorando a precisão em tarefas de localização e ordenação.

Siyou Li, Huanan Wu, Juexi Shao + 10 more2026-02-26💻 cs

RobustGait: Robustness Analysis for Appearance Based Gait Recognition

O artigo apresenta o RobustGait, um framework abrangente que avalia a robustez de sistemas de reconhecimento de marcha baseados em aparência frente a diversas perturbações do mundo real, revelando a sensibilidade desses modelos a vieses na extração de silhuetas e propondo estratégias de treinamento para melhorar seu desempenho em cenários de implantação.

Reeshoon Sayera, Akash Kumar, Sirshapan Mitra + 2 more2026-02-26💻 cs

NTK-Guided Implicit Neural Teaching

O artigo propõe o NINT, um método que acelera o treinamento de Representações Neurais Implícitas ao selecionar dinamicamente coordenadas com base no Kernel Tangente Neural, reduzindo o tempo de treinamento em quase metade enquanto mantém ou melhora a qualidade da representação.

Chen Zhang, Wei Zuo, Bingyang Cheng + 4 more2026-02-26🤖 cs.LG

MIRA: Multimodal Iterative Reasoning Agent for Image Editing

O artigo apresenta o MIRA, um agente de raciocínio multimodal iterativo e leve que melhora significativamente a edição de imagens guiada por instruções complexas ao simular interações humano-modelo em múltiplos turnos, utilizando um ciclo de percepção, raciocínio e ação com feedback visual para alcançar resultados competitivos com sistemas proprietários.

Ziyun Zeng, Hang Hua, Jiebo Luo2026-02-26💻 cs

Aerial Vision-Language Navigation with a Unified Framework for Spatial, Temporal and Embodied Reasoning

Este artigo apresenta um quadro unificado para a navegação aérea visão-linguagem que permite a UAVs navegar em ambientes urbanos complexos baseando-se exclusivamente em instruções de linguagem natural e observações monoculares RGB, alcançando desempenho superior através de uma abordagem de previsão de próximo token que otimiza conjuntamente a percepção espacial, o raciocínio de trajetória e a previsão de ações.

Huilin Xu, Zhuoyang Liu, Yixiang Luomei + 1 more2026-02-26🤖 cs.AI

KD-OCT: Efficient Knowledge Distillation for Clinical-Grade Retinal OCT Classification

Este artigo apresenta o KD-OCT, um novo framework de distilação de conhecimento que comprime um modelo ConvNeXtV2-Large pesado em um modelo EfficientNet-B2 leve, mantendo desempenho diagnóstico clínico de alta precisão para a classificação de OCT retiniano e permitindo a implantação em tempo real para triagem de degeneração macular relacionada à idade.

Erfan Nourbakhsh, Nasrin Sanjari, Ali Nourbakhsh2026-02-26🤖 cs.AI

VULCA-Bench: A Multicultural Vision-Language Benchmark for Evaluating Cultural Understanding

Este artigo apresenta o VULCA-Bench, um benchmark multicultural de arte e crítica que avalia a compreensão cultural de Modelos Visuais-Linguísticos através de um framework de cinco camadas, indo além da percepção visual superficial para abranger interpretações filosóficas e estéticas em oito tradições culturais.

Haorui Yu, Diji Yang, Hang He + 2 more2026-02-26💬 cs.CL

← Anterior Próximo →