Estimation of Confidence Bounds in Binary Classification using Wilson Score Kernel Density Estimation

Este artigo apresenta o Wilson Score Kernel Density Classification, um método inovador baseado em kernels para estimar limites de confiança em classificações binárias que oferece desempenho comparável aos Processos Gaussianos com menor complexidade computacional, permitindo sua aplicação como cabeçalho de classificação em modelos de visão foundation.

Thorbjørn Mosekjær Iversen, Zebin Duan, Frederik Hagelskjær2026-02-25🤖 cs.LG

From Perception to Action: An Interactive Benchmark for Vision Reasoning

Este artigo apresenta o CHAIN, um benchmark interativo 3D e baseado em física que avalia a capacidade de modelos de visão e linguagem de raciocinar sobre estruturas físicas e planejar sequências de ações, revelando que os modelos atuais ainda têm dificuldades significativas em internalizar restrições causais e geométricas para resolver problemas de longo prazo.

Yuhao Wu, Maojia Song, Yihuai Lan + 8 more2026-02-25💻 cs

MIP Candy: A Modular PyTorch Framework for Medical Image Processing

O MIP Candy é um framework modular e de código aberto baseado em PyTorch que simplifica o processamento de imagens médicas ao oferecer um pipeline completo e flexível, permitindo que pesquisadores implementem fluxos de trabalho funcionais com um único método enquanto mantêm controle granular sobre componentes como configuração de camadas, validação cruzada e rastreamento de experimentos.

Tianhao Fu, Yucheng Chen2026-02-25🤖 cs.AI

Not Just What's There: Enabling CLIP to Comprehend Negated Visual Descriptions Without Fine-tuning

O artigo propõe o CLIPGlasses, uma estrutura plug-and-play que aprimora a compreensão de descrições visuais negadas pelo modelo CLIP sem necessidade de ajuste fino, utilizando módulos de lente e moldura para dissecar semânticas negadas e penalizar alinhamentos incorretos, resultando em desempenho superior, especialmente em generalização entre domínios e cenários com poucos recursos.

Junhao Xiao, Zhiyu Wu, Hao Lin + 5 more2026-02-25💻 cs

VAUQ: Vision-Aware Uncertainty Quantification for LVLM Self-Evaluation

O artigo apresenta o VAUQ, um framework de quantificação de incerteza consciente da visão que utiliza uma pontuação baseada na redução de incerteza preditiva devido à entrada visual e uma estratégia de mascaramento de regiões centrais para permitir uma autoavaliação precisa e sem treinamento de respostas geradas por Modelos de Linguagem e Visão Grandes (LVLMs), superando os métodos existentes ao mitigar alucinações.

Seongheon Park, Changdae Oh, Hyeong Kyu Choi + 2 more2026-02-25💬 cs.CL

ProxyFL: A Proxy-Guided Framework for Federated Semi-Supervised Learning

O artigo propõe o ProxyFL, um novo framework de aprendizado federado semi-supervisionado que utiliza pesos aprendíveis de um classificador como "proxy" unificado para mitigar simultaneamente a heterogeneidade externa entre clientes e a interna entre dados rotulados e não rotulados, otimizando a agregação global e reintegrando amostras descartadas para melhorar o desempenho e a convergência.

Duowen Chen, Yan Wang2026-02-25🤖 cs.LG

UDVideoQA: A Traffic Video Question Answering Dataset for Multi-Object Spatio-Temporal Reasoning in Urban Dynamics

Este artigo apresenta o UDVideoQA, um novo conjunto de dados e benchmark para perguntas e respostas em vídeos de tráfego urbano, projetado para avaliar e aprimorar a capacidade de raciocínio espaciotemporal e causal de modelos de linguagem visual em cenários dinâmicos do mundo real, preservando a privacidade através de técnicas de desfoque dinâmico.

Joseph Raj Vishal, Nagasiri Poluri, Katha Naik + 7 more2026-02-25💻 cs

SynthRender and IRIS: Open-Source Framework and Dataset for Bidirectional Sim-Real Transfer in Industrial Object Perception

Este trabalho apresenta o SynthRender, um framework de código aberto para geração de imagens sintéticas com randomização de domínio guiada, e o conjunto de dados IRIS, demonstrando que a combinação dessas ferramentas com técnicas de transferência Sim-Real permite criar dados de treinamento transferíveis e de baixo custo para percepção de objetos industriais, alcançando desempenho superior em benchmarks públicos e automotivos.

Jose Moises Araya-Martinez, Thushar Tom, Adrián Sanchis Reig + 3 more2026-02-25💻 cs

SPRITETOMESH: Automatic Mesh Generation for 2D Skeletal Animation Using Learned Segmentation and Contour-Aware Vertex Placement

O artigo apresenta o SPRITETOMESH, um pipeline automático que converte sprites 2D em malhas triangulares para animação esquelética combinando segmentação aprendida e algoritmos de contorno, alcançando uma aceleração de 300x a 1200x em relação ao processo manual e demonstrando que a previsão direta de vértices por rede neural é inviável devido à natureza subjetiva do posicionamento artístico.

Bastien Gimbert2026-02-25💻 cs

Seeing Through Words: Controlling Visual Retrieval Quality with Language Models

O artigo propõe um novo paradigma de recuperação visual controlável que utiliza modelos de linguagem generativos para expandir consultas curtas e ambíguas em descrições detalhadas e conscientes da qualidade, melhorando significativamente os resultados da recuperação imagem-texto sem a necessidade de modificar modelos de linguagem-vision pré-treinados.

Jianglin Lu, Simon Jenni, Kushal Kafle + 3 more2026-02-25💻 cs

XMorph: Explainable Brain Tumor Analysis Via LLM-Assisted Hybrid Deep Intelligence

O artigo apresenta o XMorph, um framework de inteligência artificial explicável e eficiente que combina normalização de bordas ponderada por informações e um módulo híbrido de IA com modelos de linguagem para classificar com 96% de precisão três tipos de tumores cerebrais, traduzindo o raciocínio do modelo em insights clinicamente interpretáveis.

Sepehr Salem Ghahfarokhi, M. Moein Esfahani, Raj Sunderraman + 2 more2026-02-25🤖 cs.AI

Mask-HybridGNet: Graph-based segmentation with emergent anatomical correspondence from pixel-level supervision

O artigo apresenta o Mask-HybridGNet, um framework de segmentação médica baseado em grafos que elimina a necessidade de anotações manuais de marcos anatômicos ao treinar modelos diretamente com máscaras de pixels, gerando emergentemente correspondências anatômicas consistentes e preservando a integridade topológica das estruturas.

Nicolás Gaggion, Maria J. Ledesma-Carbayo, Stergios Christodoulidis + 2 more2026-02-25💻 cs