VAUQ: Vision-Aware Uncertainty Quantification for LVLM Self-Evaluation

O artigo apresenta o VAUQ, um framework de quantificação de incerteza consciente da visão que utiliza uma pontuação baseada na redução de incerteza preditiva devido à entrada visual e uma estratégia de mascaramento de regiões centrais para permitir uma autoavaliação precisa e sem treinamento de respostas geradas por Modelos de Linguagem e Visão Grandes (LVLMs), superando os métodos existentes ao mitigar alucinações.

Seongheon Park, Changdae Oh, Hyeong Kyu Choi + 2 more2026-02-25💬 cs.CL

ProxyFL: A Proxy-Guided Framework for Federated Semi-Supervised Learning

O artigo propõe o ProxyFL, um novo framework de aprendizado federado semi-supervisionado que utiliza pesos aprendíveis de um classificador como "proxy" unificado para mitigar simultaneamente a heterogeneidade externa entre clientes e a interna entre dados rotulados e não rotulados, otimizando a agregação global e reintegrando amostras descartadas para melhorar o desempenho e a convergência.

Duowen Chen, Yan Wang2026-02-25🤖 cs.LG

UDVideoQA: A Traffic Video Question Answering Dataset for Multi-Object Spatio-Temporal Reasoning in Urban Dynamics

Este artigo apresenta o UDVideoQA, um novo conjunto de dados e benchmark para perguntas e respostas em vídeos de tráfego urbano, projetado para avaliar e aprimorar a capacidade de raciocínio espaciotemporal e causal de modelos de linguagem visual em cenários dinâmicos do mundo real, preservando a privacidade através de técnicas de desfoque dinâmico.

Joseph Raj Vishal, Nagasiri Poluri, Katha Naik + 7 more2026-02-25💻 cs

SynthRender and IRIS: Open-Source Framework and Dataset for Bidirectional Sim-Real Transfer in Industrial Object Perception

Este trabalho apresenta o SynthRender, um framework de código aberto para geração de imagens sintéticas com randomização de domínio guiada, e o conjunto de dados IRIS, demonstrando que a combinação dessas ferramentas com técnicas de transferência Sim-Real permite criar dados de treinamento transferíveis e de baixo custo para percepção de objetos industriais, alcançando desempenho superior em benchmarks públicos e automotivos.

Jose Moises Araya-Martinez, Thushar Tom, Adrián Sanchis Reig + 3 more2026-02-25💻 cs

SPRITETOMESH: Automatic Mesh Generation for 2D Skeletal Animation Using Learned Segmentation and Contour-Aware Vertex Placement

O artigo apresenta o SPRITETOMESH, um pipeline automático que converte sprites 2D em malhas triangulares para animação esquelética combinando segmentação aprendida e algoritmos de contorno, alcançando uma aceleração de 300x a 1200x em relação ao processo manual e demonstrando que a previsão direta de vértices por rede neural é inviável devido à natureza subjetiva do posicionamento artístico.

Bastien Gimbert2026-02-25💻 cs

Seeing Through Words: Controlling Visual Retrieval Quality with Language Models

O artigo propõe um novo paradigma de recuperação visual controlável que utiliza modelos de linguagem generativos para expandir consultas curtas e ambíguas em descrições detalhadas e conscientes da qualidade, melhorando significativamente os resultados da recuperação imagem-texto sem a necessidade de modificar modelos de linguagem-vision pré-treinados.

Jianglin Lu, Simon Jenni, Kushal Kafle + 3 more2026-02-25💻 cs

XMorph: Explainable Brain Tumor Analysis Via LLM-Assisted Hybrid Deep Intelligence

O artigo apresenta o XMorph, um framework de inteligência artificial explicável e eficiente que combina normalização de bordas ponderada por informações e um módulo híbrido de IA com modelos de linguagem para classificar com 96% de precisão três tipos de tumores cerebrais, traduzindo o raciocínio do modelo em insights clinicamente interpretáveis.

Sepehr Salem Ghahfarokhi, M. Moein Esfahani, Raj Sunderraman + 2 more2026-02-25🤖 cs.AI

Mask-HybridGNet: Graph-based segmentation with emergent anatomical correspondence from pixel-level supervision

O artigo apresenta o Mask-HybridGNet, um framework de segmentação médica baseado em grafos que elimina a necessidade de anotações manuais de marcos anatômicos ao treinar modelos diretamente com máscaras de pixels, gerando emergentemente correspondências anatômicas consistentes e preservando a integridade topológica das estruturas.

Nicolás Gaggion, Maria J. Ledesma-Carbayo, Stergios Christodoulidis + 2 more2026-02-25💻 cs

Learning from Trials and Errors: Reflective Test-Time Planning for Embodied LLMs

Este artigo apresenta o "Planejamento Reflexivo em Tempo de Teste", um novo paradigma para LLMs corporificados que integra reflexão durante a ação, reflexão pós-ação e reflexão retrospectiva para permitir que robôs aprendam com erros e melhorem seu desempenho em tarefas de longo prazo, superando significativamente os modelos de base em benchmarks de tarefas domésticas e de manipulação.

Yining Hong, Huang Huang, Manling Li + 3 more2026-02-25💬 cs.CL

Squint: Fast Visual Reinforcement Learning for Sim-to-Real Robotics

O artigo apresenta o Squint, um método de aprendizado por reforço visual baseado em Soft Actor Critic que, ao empregar técnicas como simulação paralela e "resolução squinting", alcança um tempo de treinamento mais rápido que métodos anteriores e permite a transferência bem-sucedida de políticas treinadas em simulação para um robô real em apenas 15 minutos.

Abdulaziz Almuzairee, Henrik I. Christensen2026-02-25🤖 cs.LG

Learning to See the Elephant in the Room: Self-Supervised Context Reasoning in Humans and AI

Este artigo combina experimentos psicofísicos humanos e modelagem computacional para demonstrar que tanto humanos quanto o modelo biologicamente inspirado SeCo podem aprender rapidamente a inferir objetos ocultos a partir de contextos visuais sem supervisão, destacando o papel fundamental das associações contextuais na compreensão de cenas.

Xiao Liu, Soumick Sarker, Ankur Sikarwar + 4 more2026-02-24🤖 cs.AI