cs.CV artigos | Gist.Science

RT-RMOT: A Dataset and Framework for RGB-Thermal Referring Multi-Object Tracking

Este artigo apresenta o RT-RMOT, uma nova tarefa de rastreamento de múltiplos objetos referenciados que combina dados RGB e térmicos, juntamente com o primeiro conjunto de dados multimodal (RefRT) e o framework RTrack baseado em modelos de linguagem grandes multimodais, que utiliza estratégias de otimização de política e recompensas estruturadas para melhorar o rastreamento em condições de baixa visibilidade.

Yanqiu Yu, Zhifan Jin, Sijia Chen + 4 more2026-02-26💻 cs

SPGen: Stochastic scanpath generation for paintings using unsupervised domain adaptation

O artigo apresenta o SPGen, um modelo de aprendizado profundo que utiliza adaptação de domínio não supervisionada e amostragem estocástica para prever com precisão os padrões de varredura ocular de espectadores ao observar pinturas, superando as limitações dos métodos existentes e auxiliando na preservação do patrimônio cultural.

Mohamed Amine Kerkouri, Marouane Tliba, Aladine Chetouani + 1 more2026-02-26💻 cs

AutoSew: A Geometric Approach to Stitching Prediction with Graph Neural Networks

O artigo apresenta o AutoSew, uma abordagem totalmente automática baseada em geometria e Redes Neurais em Grafos que prevê correspondências de costura diretamente a partir de contornos de padrões 2D, alcançando alta precisão e permitindo a montagem escalável de roupas sem necessidade de entrada manual ou anotações semânticas.

Pablo Ríos-Navarro, Elena Garces, Jorge Lopez-Moreno2026-02-26💻 cs

NESTOR: A Nested MOE-based Neural Operator for Large-Scale PDE Pre-Training

O artigo apresenta o NESTOR, um operador neural pré-treinado em grande escala baseado em uma arquitetura aninhada de Mistura de Especialistas (MoE) que combina dependências globais e locais para superar as limitações de arquiteturas únicas e melhorar a generalização na resolução de sistemas de EDPs heterogêneos.

Dengdi Sun, Xiaoya Zhou, Xiao Wang + 4 more2026-02-26🤖 cs.AI

AdaSpot: Spend Resolution Where It Matters for Precise Event Spotting

O artigo apresenta o AdaSpot, um framework eficiente para a localização precisa de eventos em vídeos que combina o processamento de baixa resolução com a seleção adaptativa e não supervisionada de regiões de interesse de alta resolução, alcançando desempenho superior em benchmarks padrão sem custos computacionais significativos.

Artur Xarles, Sergio Escalera, Thomas B. Moeslund + 1 more2026-02-26💻 cs

WeatherCity: Urban Scene Reconstruction with Controllable Multi-Weather Transformation

O artigo apresenta o WeatherCity, um novo framework para reconstrução de cenas urbanas 4D que permite a transformação e edição controlada de múltiplas condições climáticas com alta fidelidade e consistência temporal, superando as limitações de métodos existentes para simulação de clima em cenários autônomos.

Wenhua Wu, Huai Guan, Zhe Liu + 1 more2026-02-26💻 cs

Brain3D: Brain Report Automation via Inflated Vision Transformers in 3D

O artigo apresenta o Brain3D, um framework de visão-linguagem em três estágios que utiliza transformadores inflados nativos em 3D para gerar relatórios radiológicos automatizados de ressonâncias magnéticas cerebrais, superando significativamente as abordagens baseadas em 2D ao preservar o contexto espacial crítico para a neurorradiologia.

Mariano Barone, Francesco Di Serio, Giuseppe Riccio + 4 more2026-02-26💻 cs

GeoDiv: Framework For Measuring Geographical Diversity In Text-To-Image Models

O artigo apresenta o GeoDiv, um novo framework que utiliza modelos de linguagem e visão para medir a diversidade geográfica em geradores de imagens, revelando que modelos como Stable Diffusion e FLUX.1-dev frequentemente perpetuam estereótipos socioeconômicos e retratam países como Índia, Nigéria e Colômbia de forma desproporcionalmente empobrecida.

Abhipsa Basu, Mohana Singh, Shashank Agnihotri + 2 more2026-02-26💻 cs

Lumosaic: Hyperspectral Video via Active Illumination and Coded-Exposure Pixels

O artigo apresenta o Lumosaic, um sistema ativo de vídeo hiperespectral compacto que combina uma matriz de LEDs de banda estreita com uma câmera de exposição codificada por pixel para capturar, em tempo real, vídeos hiperespectrais de 30 quadros por segundo com alta fidelidade espectral e estabilidade temporal, superando as limitações dos sistemas passivos ao sincronizar a iluminação e a exposição para lidar com cenas dinâmicas.

Dhruv Verma, Andrew Qiu, Roberto Rangel + 8 more2026-02-26⚡ eess

WeaveTime: Stream from Earlier Frames into Emergent Memory in VideoLLMs

O artigo apresenta o WeaveTime, um framework leve e agnóstico ao modelo que aprimora a compreensão temporal em VideoLLMs para cenários de streaming ao ensinar a percepção de ordem por meio de um objetivo de reconstrução temporal e gerenciar dinamicamente o foco entre o passado e o presente durante a inferência, resultando em maior precisão e menor latência sem alterações arquiteturais.

Yulin Zhang, Cheng Shi, Sibei Yang2026-02-26💻 cs

MedTri: A Platform for Structured Medical Report Normalization to Enhance Vision-Language Pretraining

O artigo apresenta o MedTri, uma plataforma de normalização que converte relatórios médicos livres em tripletas estruturadas baseadas em anatomia, demonstrando que essa padronização melhora significativamente a qualidade do pré-treinamento visão-linguagem em radiologia ao eliminar ruídos estilísticos e preservar informações essenciais.

Yuetan Chu, Xinhua Ma, Xinran Jin + 2 more2026-02-26💻 cs

NoLan: Mitigating Object Hallucinations in Large Vision-Language Models via Dynamic Suppression of Language Priors

O artigo apresenta o NoLan, um framework sem treinamento que mitiga alucinações de objetos em Modelos de Linguagem e Visão Grandes (LVLMs) suprimindo dinamicamente os priores linguísticos do decodificador, identificando-os como a principal causa do problema.

Lingfeng Ren, Weihao Yu, Runpeng Yu + 1 more2026-02-26💬 cs.CL

CASR: A Robust Cyclic Framework for Arbitrary Large-Scale Super-Resolution with Distribution Alignment and Self-Similarity Awareness

O CASR é um framework cíclico simples e eficiente que supera as limitações de deslocamento de distribuição na super-resolução de escala arbitrária, alinhando estruturas e restaurando texturas por meio de módulos de agregação de superpixels e auto-similaridade para garantir inferência estável e generalização superior em ampliações extremas.

Wenhao Guo, Zhaoran Zhao, Peng Lu + 3 more2026-02-26💻 cs

Mixed Magnification Aggregation for Generalizable Region-Level Representations in Computational Pathology

Este artigo propõe um codificador de agregação de região em múltiplas ampliações que funde representações de tiles de imagens de patologia usando modelagem de mascaramento de embeddings, demonstrando melhorias no desempenho preditivo para biomarcadores ao capturar contextos espaciais e features multi-resolução.

Eric Zimmermann, Julian Viret, Michal Zelechowski + 7 more2026-02-26💻 cs

Off-The-Shelf Image-to-Image Models Are All You Need To Defeat Image Protection Schemes

Este artigo demonstra que modelos de geração de imagem pré-treinados e de uso geral podem ser facilmente reconfigurados para remover eficazmente perturbações protetoras de imagens, superando ataques especializados e revelando uma vulnerabilidade crítica nas atuais estratégias de proteção.

Xavier Pleimling, Sifat Muhammad Abdullah, Gunjan Balde + 4 more2026-02-26🤖 cs.AI

WHOLE: World-Grounded Hand-Object Lifted from Egocentric Videos

O artigo apresenta o WHOLE, um método que reconstrói holisticamente os movimentos da mão e do objeto no espaço mundial a partir de vídeos egocêntricos, utilizando um prior generativo aprendido para superar os desafios de oclusão e inconsistência que limitam as abordagens atuais que tratam os elementos de forma isolada.

Yufei Ye, Jiaman Li, Ryan Rong + 1 more2026-02-26💻 cs

Towards Attributions of Input Variables in a Coalition

Este artigo aborda o desafio de particionar variáveis de entrada em métodos de atribuição para IA explicável, propondo uma extensão do valor de Shapley e métricas para avaliar a fidelidade de coalizões, a fim de resolver conflitos de atribuição e alinhar os resultados com a intuição humana.

Xinhao Zheng, Huiqi Deng, Quanshi Zhang2026-02-25🤖 cs.AI

Interpretable Medical Image Classification using Prototype Learning and Privileged Information

Este artigo apresenta o Proto-Caps, um modelo inovador que combina redes de cápsulas, aprendizado por protótipos e informações privilegiadas para alcançar desempenho superior ao estado da arte e maior interpretabilidade na classificação de imagens médicas, validado no conjunto de dados LIDC-IDRI.

Luisa Gallee, Meinrad Beer, Michael Goetz2026-02-25🤖 cs.AI

Coherent and Multi-modality Image Inpainting via Latent Space Optimization

O artigo apresenta o PILOT, um método de otimização no espaço latente que utiliza centralização semântica e perda de preservação de fundo para gerar preenchimentos de imagem coerentes e multi-modais em modelos de difusão pré-treinados sem necessidade de ajuste fino.

Lingzhi Pan, Tong Zhang, Bingyuan Chen + 4 more2026-02-25💻 cs

ScaleDepth: Decomposing Metric Depth Estimation into Scale Prediction and Relative Depth Estimation

O artigo apresenta o ScaleDepth, um método inovador de estimativa de profundidade monoculométrica que decompõe a tarefa em predição de escala e estimativa de profundidade relativa, permitindo uma generalização superior e unificada para cenas internas e externas sem necessidade de ajuste fino ou definição prévia de faixas de profundidade.

Ruijie Zhu, Chuxin Wang, Ziyang Song + 3 more2026-02-25💻 cs

← Anterior Próximo →