cs.CV artigos | Gist.Science

MIP Candy: A Modular PyTorch Framework for Medical Image Processing

O MIP Candy é um framework modular e de código aberto baseado em PyTorch que simplifica o processamento de imagens médicas ao oferecer um pipeline completo e flexível, permitindo que pesquisadores implementem fluxos de trabalho funcionais com um único método enquanto mantêm controle granular sobre componentes como configuração de camadas, validação cruzada e rastreamento de experimentos.

Tianhao Fu, Yucheng Chen2026-02-25🤖 cs.AI

Not Just What's There: Enabling CLIP to Comprehend Negated Visual Descriptions Without Fine-tuning

O artigo propõe o CLIPGlasses, uma estrutura plug-and-play que aprimora a compreensão de descrições visuais negadas pelo modelo CLIP sem necessidade de ajuste fino, utilizando módulos de lente e moldura para dissecar semânticas negadas e penalizar alinhamentos incorretos, resultando em desempenho superior, especialmente em generalização entre domínios e cenários com poucos recursos.

Junhao Xiao, Zhiyu Wu, Hao Lin + 5 more2026-02-25💻 cs

OmniOCR: Generalist OCR for Ethnic Minority Languages

O artigo apresenta o OmniOCR, um framework universal que utiliza Adaptação Dinâmica de Baixo RANK (Dynamic LoRA) com regularização de esparsidade para alcançar reconhecimento óptico de caracteres de alta precisão e eficiência em línguas de minorias étnicas com poucos recursos, superando significativamente os modelos existentes.

Bonan Liu, Zeyu Zhang, Bingbing Meng + 5 more2026-02-25💻 cs

OCR-Agent: Agentic OCR with Capability and Memory Reflection

O artigo apresenta o OCR-Agent, um novo framework iterativo de auto-correção que utiliza Reflexão de Capacidade e Reflexão de Memória para aprimorar o raciocínio de modelos de linguagem visuais em tarefas de OCR, alcançando resultados state-of-the-art no benchmark OCRBench v2 sem necessidade de treinamento adicional.

Shimin Wen, Zeyu Zhang, Xingdou Bian + 5 more2026-02-25💻 cs

VAUQ: Vision-Aware Uncertainty Quantification for LVLM Self-Evaluation

O artigo apresenta o VAUQ, um framework de quantificação de incerteza consciente da visão que utiliza uma pontuação baseada na redução de incerteza preditiva devido à entrada visual e uma estratégia de mascaramento de regiões centrais para permitir uma autoavaliação precisa e sem treinamento de respostas geradas por Modelos de Linguagem e Visão Grandes (LVLMs), superando os métodos existentes ao mitigar alucinações.

Seongheon Park, Changdae Oh, Hyeong Kyu Choi + 2 more2026-02-25💬 cs.CL

Motivation is Something You Need

Este trabalho apresenta um novo paradigma de treinamento inspirado na neurociência afetiva, que utiliza um modelo dual alternado entre uma base contínua e uma versão motivada esporádica para melhorar o desempenho e a eficiência no treinamento de modelos de classificação de imagens, permitindo o desenvolvimento simultâneo de arquiteturas escaláveis com custos reduzidos.

Mehdi Acheli, Walid Gaaloul2026-02-25🤖 cs.AI

ProxyFL: A Proxy-Guided Framework for Federated Semi-Supervised Learning

O artigo propõe o ProxyFL, um novo framework de aprendizado federado semi-supervisionado que utiliza pesos aprendíveis de um classificador como "proxy" unificado para mitigar simultaneamente a heterogeneidade externa entre clientes e a interna entre dados rotulados e não rotulados, otimizando a agregação global e reintegrando amostras descartadas para melhorar o desempenho e a convergência.

Duowen Chen, Yan Wang2026-02-25🤖 cs.LG

Optimizing Occupancy Sensor Placement in Smart Environments

Este artigo propõe um método automático de posicionamento de sensores, baseado em simulação de trajetórias e programação linear inteira, para otimizar a precisão na contagem de ocupantes em ambientes comerciais, garantindo privacidade e eficiência energética.

Hao Lu, Richard J. Radke2026-02-25💻 cs

UDVideoQA: A Traffic Video Question Answering Dataset for Multi-Object Spatio-Temporal Reasoning in Urban Dynamics

Este artigo apresenta o UDVideoQA, um novo conjunto de dados e benchmark para perguntas e respostas em vídeos de tráfego urbano, projetado para avaliar e aprimorar a capacidade de raciocínio espaciotemporal e causal de modelos de linguagem visual em cenários dinâmicos do mundo real, preservando a privacidade através de técnicas de desfoque dinâmico.

Joseph Raj Vishal, Nagasiri Poluri, Katha Naik + 7 more2026-02-25💻 cs

SynthRender and IRIS: Open-Source Framework and Dataset for Bidirectional Sim-Real Transfer in Industrial Object Perception

Este trabalho apresenta o SynthRender, um framework de código aberto para geração de imagens sintéticas com randomização de domínio guiada, e o conjunto de dados IRIS, demonstrando que a combinação dessas ferramentas com técnicas de transferência Sim-Real permite criar dados de treinamento transferíveis e de baixo custo para percepção de objetos industriais, alcançando desempenho superior em benchmarks públicos e automotivos.

Jose Moises Araya-Martinez, Thushar Tom, Adrián Sanchis Reig + 3 more2026-02-25💻 cs

LUMEN: Longitudinal Multi-Modal Radiology Model for Prognosis and Diagnosis

O artigo apresenta o LUMEN, um novo modelo de linguagem e visão treinado com ajuste fino instrucional para interpretar longitudinalmente radiografias de tórax, demonstrando melhorias significativas em tarefas de diagnóstico e prognóstico ao analisar mudanças temporais nos exames.

Zhifan Jiang, Dong Yang, Vishwesh Nath + 7 more2026-02-25🤖 cs.LG

SPRITETOMESH: Automatic Mesh Generation for 2D Skeletal Animation Using Learned Segmentation and Contour-Aware Vertex Placement

O artigo apresenta o SPRITETOMESH, um pipeline automático que converte sprites 2D em malhas triangulares para animação esquelética combinando segmentação aprendida e algoritmos de contorno, alcançando uma aceleração de 300x a 1200x em relação ao processo manual e demonstrando que a previsão direta de vértices por rede neural é inviável devido à natureza subjetiva do posicionamento artístico.

Bastien Gimbert2026-02-25💻 cs

Seeing Through Words: Controlling Visual Retrieval Quality with Language Models

O artigo propõe um novo paradigma de recuperação visual controlável que utiliza modelos de linguagem generativos para expandir consultas curtas e ambíguas em descrições detalhadas e conscientes da qualidade, melhorando significativamente os resultados da recuperação imagem-texto sem a necessidade de modificar modelos de linguagem-vision pré-treinados.

Jianglin Lu, Simon Jenni, Kushal Kafle + 3 more2026-02-25💻 cs

XMorph: Explainable Brain Tumor Analysis Via LLM-Assisted Hybrid Deep Intelligence

O artigo apresenta o XMorph, um framework de inteligência artificial explicável e eficiente que combina normalização de bordas ponderada por informações e um módulo híbrido de IA com modelos de linguagem para classificar com 96% de precisão três tipos de tumores cerebrais, traduzindo o raciocínio do modelo em insights clinicamente interpretáveis.

Sepehr Salem Ghahfarokhi, M. Moein Esfahani, Raj Sunderraman + 2 more2026-02-25🤖 cs.AI

Mask-HybridGNet: Graph-based segmentation with emergent anatomical correspondence from pixel-level supervision

O artigo apresenta o Mask-HybridGNet, um framework de segmentação médica baseado em grafos que elimina a necessidade de anotações manuais de marcos anatômicos ao treinar modelos diretamente com máscaras de pixels, gerando emergentemente correspondências anatômicas consistentes e preservando a integridade topológica das estruturas.

Nicolás Gaggion, Maria J. Ledesma-Carbayo, Stergios Christodoulidis + 2 more2026-02-25💻 cs

Spa3R: Predictive Spatial Field Modeling for 3D Visual Reasoning

O artigo apresenta o Spa3R, um framework auto-supervisionado que utiliza o paradigma de Modelagem de Campo Espacial Preditivo (PSFM) para aprender representações espaciais unificadas a partir de imagens 2D não calibradas, permitindo que modelos de linguagem e visão (VLMs) alcancem um raciocínio espacial 3D superior sem depender de modalidades 3D explícitas.

Haoyi Jiang, Liu Liu, Xinjie Wang + 5 more2026-02-25💻 cs

Human Video Generation from a Single Image with 3D Pose and View Control

O artigo apresenta o HVG, um modelo de difusão de vídeo latente que gera vídeos humanos de alta qualidade, consistentes no espaço e no tempo, a partir de uma única imagem, permitindo controle preciso de pose 3D e viewpoint através de modulação articulada de pose, alinhamento de viewpoints e amostragem espaço-temporal progressiva.

Tiantian Wang, Chun-Han Yao, Tao Hu + 3 more2026-02-25💻 cs

Region of Interest Segmentation and Morphological Analysis for Membranes in Cryo-Electron Tomography

Os autores desenvolveram o framework TomoROIS-SurfORA, que combina segmentação direta de regiões de interesse por aprendizado profundo e análise morfológica de superfícies para permitir a quantificação automática de características de membranas em imagens de criomicroscopia eletrônica de tomografia.

Xingyi Cheng, Julien Maufront, Aurélie Di Cicco + 3 more2026-02-25💻 cs

Learning from Trials and Errors: Reflective Test-Time Planning for Embodied LLMs

Este artigo apresenta o "Planejamento Reflexivo em Tempo de Teste", um novo paradigma para LLMs corporificados que integra reflexão durante a ação, reflexão pós-ação e reflexão retrospectiva para permitir que robôs aprendam com erros e melhorem seu desempenho em tarefas de longo prazo, superando significativamente os modelos de base em benchmarks de tarefas domésticas e de manipulação.

Yining Hong, Huang Huang, Manling Li + 3 more2026-02-25💬 cs.CL

Multi-Vector Index Compression in Any Modality

Este artigo apresenta o método de agrupamento guiado por atenção (AGC) como uma técnica eficiente para compressão de índices de vetores múltiplos em qualquer modalidade, superando outros métodos de compressão e mantendo o desempenho competitivo em tarefas de recuperação de texto, documentos visuais e vídeo.

Hanxiang Qin, Alexander Martin, Rohan Jha + 3 more2026-02-25💬 cs.CL

← Anterior Próximo →