cs.CV artigos | Gist.Science

VAUQ: Vision-Aware Uncertainty Quantification for LVLM Self-Evaluation

O artigo apresenta o VAUQ, um framework de quantificação de incerteza consciente da visão que utiliza uma pontuação baseada na redução de incerteza preditiva devido à entrada visual e uma estratégia de mascaramento de regiões centrais para permitir uma autoavaliação precisa e sem treinamento de respostas geradas por Modelos de Linguagem e Visão Grandes (LVLMs), superando os métodos existentes ao mitigar alucinações.

Seongheon Park, Changdae Oh, Hyeong Kyu Choi + 2 more2026-02-25💬 cs.CL

Motivation is Something You Need

Este trabalho apresenta um novo paradigma de treinamento inspirado na neurociência afetiva, que utiliza um modelo dual alternado entre uma base contínua e uma versão motivada esporádica para melhorar o desempenho e a eficiência no treinamento de modelos de classificação de imagens, permitindo o desenvolvimento simultâneo de arquiteturas escaláveis com custos reduzidos.

Mehdi Acheli, Walid Gaaloul2026-02-25🤖 cs.AI

ProxyFL: A Proxy-Guided Framework for Federated Semi-Supervised Learning

O artigo propõe o ProxyFL, um novo framework de aprendizado federado semi-supervisionado que utiliza pesos aprendíveis de um classificador como "proxy" unificado para mitigar simultaneamente a heterogeneidade externa entre clientes e a interna entre dados rotulados e não rotulados, otimizando a agregação global e reintegrando amostras descartadas para melhorar o desempenho e a convergência.

Duowen Chen, Yan Wang2026-02-25🤖 cs.LG

Optimizing Occupancy Sensor Placement in Smart Environments

Este artigo propõe um método automático de posicionamento de sensores, baseado em simulação de trajetórias e programação linear inteira, para otimizar a precisão na contagem de ocupantes em ambientes comerciais, garantindo privacidade e eficiência energética.

Hao Lu, Richard J. Radke2026-02-25💻 cs

UDVideoQA: A Traffic Video Question Answering Dataset for Multi-Object Spatio-Temporal Reasoning in Urban Dynamics

Este artigo apresenta o UDVideoQA, um novo conjunto de dados e benchmark para perguntas e respostas em vídeos de tráfego urbano, projetado para avaliar e aprimorar a capacidade de raciocínio espaciotemporal e causal de modelos de linguagem visual em cenários dinâmicos do mundo real, preservando a privacidade através de técnicas de desfoque dinâmico.

Joseph Raj Vishal, Nagasiri Poluri, Katha Naik + 7 more2026-02-25💻 cs

SynthRender and IRIS: Open-Source Framework and Dataset for Bidirectional Sim-Real Transfer in Industrial Object Perception

Este trabalho apresenta o SynthRender, um framework de código aberto para geração de imagens sintéticas com randomização de domínio guiada, e o conjunto de dados IRIS, demonstrando que a combinação dessas ferramentas com técnicas de transferência Sim-Real permite criar dados de treinamento transferíveis e de baixo custo para percepção de objetos industriais, alcançando desempenho superior em benchmarks públicos e automotivos.

Jose Moises Araya-Martinez, Thushar Tom, Adrián Sanchis Reig + 3 more2026-02-25💻 cs

LUMEN: Longitudinal Multi-Modal Radiology Model for Prognosis and Diagnosis

O artigo apresenta o LUMEN, um novo modelo de linguagem e visão treinado com ajuste fino instrucional para interpretar longitudinalmente radiografias de tórax, demonstrando melhorias significativas em tarefas de diagnóstico e prognóstico ao analisar mudanças temporais nos exames.

Zhifan Jiang, Dong Yang, Vishwesh Nath + 7 more2026-02-25🤖 cs.LG

SPRITETOMESH: Automatic Mesh Generation for 2D Skeletal Animation Using Learned Segmentation and Contour-Aware Vertex Placement

O artigo apresenta o SPRITETOMESH, um pipeline automático que converte sprites 2D em malhas triangulares para animação esquelética combinando segmentação aprendida e algoritmos de contorno, alcançando uma aceleração de 300x a 1200x em relação ao processo manual e demonstrando que a previsão direta de vértices por rede neural é inviável devido à natureza subjetiva do posicionamento artístico.

Bastien Gimbert2026-02-25💻 cs

Seeing Through Words: Controlling Visual Retrieval Quality with Language Models

O artigo propõe um novo paradigma de recuperação visual controlável que utiliza modelos de linguagem generativos para expandir consultas curtas e ambíguas em descrições detalhadas e conscientes da qualidade, melhorando significativamente os resultados da recuperação imagem-texto sem a necessidade de modificar modelos de linguagem-vision pré-treinados.

Jianglin Lu, Simon Jenni, Kushal Kafle + 3 more2026-02-25💻 cs

XMorph: Explainable Brain Tumor Analysis Via LLM-Assisted Hybrid Deep Intelligence

O artigo apresenta o XMorph, um framework de inteligência artificial explicável e eficiente que combina normalização de bordas ponderada por informações e um módulo híbrido de IA com modelos de linguagem para classificar com 96% de precisão três tipos de tumores cerebrais, traduzindo o raciocínio do modelo em insights clinicamente interpretáveis.

Sepehr Salem Ghahfarokhi, M. Moein Esfahani, Raj Sunderraman + 2 more2026-02-25🤖 cs.AI

Mask-HybridGNet: Graph-based segmentation with emergent anatomical correspondence from pixel-level supervision

O artigo apresenta o Mask-HybridGNet, um framework de segmentação médica baseado em grafos que elimina a necessidade de anotações manuais de marcos anatômicos ao treinar modelos diretamente com máscaras de pixels, gerando emergentemente correspondências anatômicas consistentes e preservando a integridade topológica das estruturas.

Nicolás Gaggion, Maria J. Ledesma-Carbayo, Stergios Christodoulidis + 2 more2026-02-25💻 cs

Spa3R: Predictive Spatial Field Modeling for 3D Visual Reasoning

O artigo apresenta o Spa3R, um framework auto-supervisionado que utiliza o paradigma de Modelagem de Campo Espacial Preditivo (PSFM) para aprender representações espaciais unificadas a partir de imagens 2D não calibradas, permitindo que modelos de linguagem e visão (VLMs) alcancem um raciocínio espacial 3D superior sem depender de modalidades 3D explícitas.

Haoyi Jiang, Liu Liu, Xinjie Wang + 5 more2026-02-25💻 cs

Human Video Generation from a Single Image with 3D Pose and View Control

O artigo apresenta o HVG, um modelo de difusão de vídeo latente que gera vídeos humanos de alta qualidade, consistentes no espaço e no tempo, a partir de uma única imagem, permitindo controle preciso de pose 3D e viewpoint através de modulação articulada de pose, alinhamento de viewpoints e amostragem espaço-temporal progressiva.

Tiantian Wang, Chun-Han Yao, Tao Hu + 3 more2026-02-25💻 cs

Region of Interest Segmentation and Morphological Analysis for Membranes in Cryo-Electron Tomography

Os autores desenvolveram o framework TomoROIS-SurfORA, que combina segmentação direta de regiões de interesse por aprendizado profundo e análise morfológica de superfícies para permitir a quantificação automática de características de membranas em imagens de criomicroscopia eletrônica de tomografia.

Xingyi Cheng, Julien Maufront, Aurélie Di Cicco + 3 more2026-02-25💻 cs

Learning from Trials and Errors: Reflective Test-Time Planning for Embodied LLMs

Este artigo apresenta o "Planejamento Reflexivo em Tempo de Teste", um novo paradigma para LLMs corporificados que integra reflexão durante a ação, reflexão pós-ação e reflexão retrospectiva para permitir que robôs aprendam com erros e melhorem seu desempenho em tarefas de longo prazo, superando significativamente os modelos de base em benchmarks de tarefas domésticas e de manipulação.

Yining Hong, Huang Huang, Manling Li + 3 more2026-02-25💬 cs.CL

Multi-Vector Index Compression in Any Modality

Este artigo apresenta o método de agrupamento guiado por atenção (AGC) como uma técnica eficiente para compressão de índices de vetores múltiplos em qualquer modalidade, superando outros métodos de compressão e mantendo o desempenho competitivo em tarefas de recuperação de texto, documentos visuais e vídeo.

Hanxiang Qin, Alexander Martin, Rohan Jha + 3 more2026-02-25💬 cs.CL

Squint: Fast Visual Reinforcement Learning for Sim-to-Real Robotics

O artigo apresenta o Squint, um método de aprendizado por reforço visual baseado em Soft Actor Critic que, ao empregar técnicas como simulação paralela e "resolução squinting", alcança um tempo de treinamento mais rápido que métodos anteriores e permite a transferência bem-sucedida de políticas treinadas em simulação para um robô real em apenas 15 minutos.

Abdulaziz Almuzairee, Henrik I. Christensen2026-02-25🤖 cs.LG

Label-free segmentation from cardiac ultrasound using self-supervised learning

Os autores desenvolveram um pipeline de aprendizado auto-supervisionado que realiza segmentação de câmaras cardíacas em ultrassons sem necessidade de anotações manuais, alcançando precisão clínica comparável aos métodos supervisionados e ao padrão-ouro de ressonância magnética.

Danielle L. Ferreira, Connor Lau, Zaynaf Salaymang + 1 more2026-02-24⚡ eess

Face Pyramid Vision Transformer

O artigo propõe o Face Pyramid Vision Transformer (FPVT), uma nova arquitetura que combina mecanismos de atenção espacial e redes feed-forward convolucionais para criar representações faciais discriminativas em múltiplas escalas, alcançando desempenho superior em reconhecimento e verificação facial com menos parâmetros que os métodos existentes.

Khawar Islam, Muhammad Zaigham Zaheer, Arif Mahmood2026-02-24💻 cs

Learning to See the Elephant in the Room: Self-Supervised Context Reasoning in Humans and AI

Este artigo combina experimentos psicofísicos humanos e modelagem computacional para demonstrar que tanto humanos quanto o modelo biologicamente inspirado SeCo podem aprender rapidamente a inferir objetos ocultos a partir de contextos visuais sem supervisão, destacando o papel fundamental das associações contextuais na compreensão de cenas.

Xiao Liu, Soumick Sarker, Ankur Sikarwar + 4 more2026-02-24🤖 cs.AI

← Anterior Próximo →