cs.CV artigos | Gist.Science

Estimation of Confidence Bounds in Binary Classification using Wilson Score Kernel Density Estimation

Este artigo apresenta o Wilson Score Kernel Density Classification, um método inovador baseado em kernels para estimar limites de confiança em classificações binárias que oferece desempenho comparável aos Processos Gaussianos com menor complexidade computacional, permitindo sua aplicação como cabeçalho de classificação em modelos de visão foundation.

Thorbjørn Mosekjær Iversen, Zebin Duan, Frederik Hagelskjær2026-02-25🤖 cs.LG

Are Multimodal Large Language Models Good Annotators for Image Tagging?

Este artigo propõe o framework TagLLM, que utiliza modelos de linguagem multimodal para automatizar a anotação de imagens com custos drasticamente reduzidos e alta eficácia em tarefas downstream, fechando a maior parte da lacuna de desempenho em relação à anotação humana.

Ming-Kun Xie, Jia-Hao Xiao, Zhiqiang Kou + 3 more2026-02-25💻 cs

Multimodal MRI Report Findings Supervised Brain Lesion Segmentation with Substructures

Este artigo propõe o MS-RSuper, um método de segmentação supervisionada por relatórios que integra achados quantitativos e qualitativos hierárquicos de ressonância magnética multimodal com prioridade anatômica e mecanismos de incerteza para superar as limitações de métodos anteriores na segmentação de lesões cerebrais e suas subestruturas.

Yubin Ge, Yongsong Huang, Xiaofeng Liu2026-02-25⚡ eess

Le-DETR: Revisiting Real-Time Detection Transformer with Efficient Encoder Design

O artigo apresenta o Le-DETR, um modelo de detecção em tempo real que alcança desempenho de ponta (SOTA) com custos de pré-treinamento drasticamente reduzidos, graças ao uso de uma arquitetura de codificador híbrido eficiente e do novo backbone EfficientNAT.

Jiannan Huang, Aditya Kane, Fengzhe Zhou + 2 more2026-02-25💻 cs

From Perception to Action: An Interactive Benchmark for Vision Reasoning

Este artigo apresenta o CHAIN, um benchmark interativo 3D e baseado em física que avalia a capacidade de modelos de visão e linguagem de raciocinar sobre estruturas físicas e planejar sequências de ações, revelando que os modelos atuais ainda têm dificuldades significativas em internalizar restrições causais e geométricas para resolver problemas de longo prazo.

Yuhao Wu, Maojia Song, Yihuai Lan + 8 more2026-02-25💻 cs

MIP Candy: A Modular PyTorch Framework for Medical Image Processing

O MIP Candy é um framework modular e de código aberto baseado em PyTorch que simplifica o processamento de imagens médicas ao oferecer um pipeline completo e flexível, permitindo que pesquisadores implementem fluxos de trabalho funcionais com um único método enquanto mantêm controle granular sobre componentes como configuração de camadas, validação cruzada e rastreamento de experimentos.

Tianhao Fu, Yucheng Chen2026-02-25🤖 cs.AI

Not Just What's There: Enabling CLIP to Comprehend Negated Visual Descriptions Without Fine-tuning

O artigo propõe o CLIPGlasses, uma estrutura plug-and-play que aprimora a compreensão de descrições visuais negadas pelo modelo CLIP sem necessidade de ajuste fino, utilizando módulos de lente e moldura para dissecar semânticas negadas e penalizar alinhamentos incorretos, resultando em desempenho superior, especialmente em generalização entre domínios e cenários com poucos recursos.

Junhao Xiao, Zhiyu Wu, Hao Lin + 5 more2026-02-25💻 cs

OmniOCR: Generalist OCR for Ethnic Minority Languages

O artigo apresenta o OmniOCR, um framework universal que utiliza Adaptação Dinâmica de Baixo RANK (Dynamic LoRA) com regularização de esparsidade para alcançar reconhecimento óptico de caracteres de alta precisão e eficiência em línguas de minorias étnicas com poucos recursos, superando significativamente os modelos existentes.

Bonan Liu, Zeyu Zhang, Bingbing Meng + 5 more2026-02-25💻 cs

OCR-Agent: Agentic OCR with Capability and Memory Reflection

O artigo apresenta o OCR-Agent, um novo framework iterativo de auto-correção que utiliza Reflexão de Capacidade e Reflexão de Memória para aprimorar o raciocínio de modelos de linguagem visuais em tarefas de OCR, alcançando resultados state-of-the-art no benchmark OCRBench v2 sem necessidade de treinamento adicional.

Shimin Wen, Zeyu Zhang, Xingdou Bian + 5 more2026-02-25💻 cs

VAUQ: Vision-Aware Uncertainty Quantification for LVLM Self-Evaluation

O artigo apresenta o VAUQ, um framework de quantificação de incerteza consciente da visão que utiliza uma pontuação baseada na redução de incerteza preditiva devido à entrada visual e uma estratégia de mascaramento de regiões centrais para permitir uma autoavaliação precisa e sem treinamento de respostas geradas por Modelos de Linguagem e Visão Grandes (LVLMs), superando os métodos existentes ao mitigar alucinações.

Seongheon Park, Changdae Oh, Hyeong Kyu Choi + 2 more2026-02-25💬 cs.CL

Motivation is Something You Need

Este trabalho apresenta um novo paradigma de treinamento inspirado na neurociência afetiva, que utiliza um modelo dual alternado entre uma base contínua e uma versão motivada esporádica para melhorar o desempenho e a eficiência no treinamento de modelos de classificação de imagens, permitindo o desenvolvimento simultâneo de arquiteturas escaláveis com custos reduzidos.

Mehdi Acheli, Walid Gaaloul2026-02-25🤖 cs.AI

ProxyFL: A Proxy-Guided Framework for Federated Semi-Supervised Learning

O artigo propõe o ProxyFL, um novo framework de aprendizado federado semi-supervisionado que utiliza pesos aprendíveis de um classificador como "proxy" unificado para mitigar simultaneamente a heterogeneidade externa entre clientes e a interna entre dados rotulados e não rotulados, otimizando a agregação global e reintegrando amostras descartadas para melhorar o desempenho e a convergência.

Duowen Chen, Yan Wang2026-02-25🤖 cs.LG

Optimizing Occupancy Sensor Placement in Smart Environments

Este artigo propõe um método automático de posicionamento de sensores, baseado em simulação de trajetórias e programação linear inteira, para otimizar a precisão na contagem de ocupantes em ambientes comerciais, garantindo privacidade e eficiência energética.

Hao Lu, Richard J. Radke2026-02-25💻 cs

UDVideoQA: A Traffic Video Question Answering Dataset for Multi-Object Spatio-Temporal Reasoning in Urban Dynamics

Este artigo apresenta o UDVideoQA, um novo conjunto de dados e benchmark para perguntas e respostas em vídeos de tráfego urbano, projetado para avaliar e aprimorar a capacidade de raciocínio espaciotemporal e causal de modelos de linguagem visual em cenários dinâmicos do mundo real, preservando a privacidade através de técnicas de desfoque dinâmico.

Joseph Raj Vishal, Nagasiri Poluri, Katha Naik + 7 more2026-02-25💻 cs

SynthRender and IRIS: Open-Source Framework and Dataset for Bidirectional Sim-Real Transfer in Industrial Object Perception

Este trabalho apresenta o SynthRender, um framework de código aberto para geração de imagens sintéticas com randomização de domínio guiada, e o conjunto de dados IRIS, demonstrando que a combinação dessas ferramentas com técnicas de transferência Sim-Real permite criar dados de treinamento transferíveis e de baixo custo para percepção de objetos industriais, alcançando desempenho superior em benchmarks públicos e automotivos.

Jose Moises Araya-Martinez, Thushar Tom, Adrián Sanchis Reig + 3 more2026-02-25💻 cs

LUMEN: Longitudinal Multi-Modal Radiology Model for Prognosis and Diagnosis

O artigo apresenta o LUMEN, um novo modelo de linguagem e visão treinado com ajuste fino instrucional para interpretar longitudinalmente radiografias de tórax, demonstrando melhorias significativas em tarefas de diagnóstico e prognóstico ao analisar mudanças temporais nos exames.

Zhifan Jiang, Dong Yang, Vishwesh Nath + 7 more2026-02-25🤖 cs.LG

SPRITETOMESH: Automatic Mesh Generation for 2D Skeletal Animation Using Learned Segmentation and Contour-Aware Vertex Placement

O artigo apresenta o SPRITETOMESH, um pipeline automático que converte sprites 2D em malhas triangulares para animação esquelética combinando segmentação aprendida e algoritmos de contorno, alcançando uma aceleração de 300x a 1200x em relação ao processo manual e demonstrando que a previsão direta de vértices por rede neural é inviável devido à natureza subjetiva do posicionamento artístico.

Bastien Gimbert2026-02-25💻 cs

Seeing Through Words: Controlling Visual Retrieval Quality with Language Models

O artigo propõe um novo paradigma de recuperação visual controlável que utiliza modelos de linguagem generativos para expandir consultas curtas e ambíguas em descrições detalhadas e conscientes da qualidade, melhorando significativamente os resultados da recuperação imagem-texto sem a necessidade de modificar modelos de linguagem-vision pré-treinados.

Jianglin Lu, Simon Jenni, Kushal Kafle + 3 more2026-02-25💻 cs

XMorph: Explainable Brain Tumor Analysis Via LLM-Assisted Hybrid Deep Intelligence

O artigo apresenta o XMorph, um framework de inteligência artificial explicável e eficiente que combina normalização de bordas ponderada por informações e um módulo híbrido de IA com modelos de linguagem para classificar com 96% de precisão três tipos de tumores cerebrais, traduzindo o raciocínio do modelo em insights clinicamente interpretáveis.

Sepehr Salem Ghahfarokhi, M. Moein Esfahani, Raj Sunderraman + 2 more2026-02-25🤖 cs.AI

Mask-HybridGNet: Graph-based segmentation with emergent anatomical correspondence from pixel-level supervision

O artigo apresenta o Mask-HybridGNet, um framework de segmentação médica baseado em grafos que elimina a necessidade de anotações manuais de marcos anatômicos ao treinar modelos diretamente com máscaras de pixels, gerando emergentemente correspondências anatômicas consistentes e preservando a integridade topológica das estruturas.

Nicolás Gaggion, Maria J. Ledesma-Carbayo, Stergios Christodoulidis + 2 more2026-02-25💻 cs

← Anterior Próximo →