cs.CV artigos | Gist.Science

MI-DETR: A Strong Baseline for Moving Infrared Small Target Detection with Bio-Inspired Motion Integration

O artigo apresenta o MI-DETR, um detector bio-inspirado que integra explicitamente mapas de movimento e aparência através de um mecanismo celular e de interconexão parvocelular-magnocelular, alcançando desempenho superior na detecção de pequenos alvos infravermelhos em benchmarks padrão sem a necessidade de rótulos ou módulos de alinhamento adicionais.

Nian Liu, Jin Gao, Shubo Lin + 8 more2026-03-06💻 cs

UniM: A Unified Any-to-Any Interleaved Multimodal Benchmark

Este artigo apresenta o UniM, o primeiro benchmark unificado de multimodalidade "qualquer-para-qualquer" com dados intercalados, juntamente com sua suite de avaliação e um modelo baseline chamado UniMA, para impulsionar o desenvolvimento de modelos de linguagem multimodal capazes de compreender e gerar entradas e saídas multimodais arbitrariamente combinadas.

Yanlin Li, Minghui Guo, Kaiwen Zhang + 13 more2026-03-06💻 cs

MoRe: Motion-aware Feed-forward 4D Reconstruction Transformer

O MoRe é uma rede de reconstrução 4D feed-forward eficiente que utiliza uma estratégia de atenção forçada e atenção causal agrupada para recuperar cenas dinâmicas de vídeos monoculares com alta qualidade e robustez, superando as limitações computacionais dos métodos de otimização existentes.

Juntong Fang, Zequn Chen, Weiqi Zhang + 4 more2026-03-06💻 cs

Orthogonal Spatial-temporal Distributional Transfer for 4D Generation

Este artigo propõe o Orster, um novo mecanismo de transferência de distribuição espacial-temporal ortogonal que integra priores espaciais e temporais de modelos 3D e de vídeo em um modelo de difusão 4D desentrelaçado, superando a escassez de dados para gerar conteúdo 4D de alta qualidade com consistência superior.

Wei Liu, Shengqiong Wu, Bobo Li + 4 more2026-03-06💻 cs

Axiomatic On-Manifold Shapley via Optimal Generative Flows

Este artigo propõe uma teoria formal de atribuições Aumann-Shapley em variedades baseada em fluxos generativos ótimos, que resolve artefatos fora da variedade ao definir um caminho de atribuição canônico como a geodésica de Wasserstein-2 que minimiza a energia cinética, garantindo invariância de reparametrização e superior alinhamento semântico em comparação com métodos existentes.

Cenwei Zhang, Lin Zhu, Manxi Lin + 1 more2026-03-06🤖 cs.AI

GEM-TFL: Bridging Weak and Full Supervision for Forgery Localization through EM-Guided Decomposition and Temporal Refinement

O artigo apresenta o GEM-TFL, um framework de localização de falsificações temporais que supera as limitações da supervisão fraca ao integrar otimização EM para atributos latentes, refinamento temporal sem treinamento e um módulo baseado em grafos, alcançando desempenho próximo ao de métodos totalmente supervisionados.

Xiaodong Zhu, Yuanming Zheng, Suting Wang + 4 more2026-03-06🤖 cs.AI

Diff-ES: Stage-wise Structural Diffusion Pruning via Evolutionary Search

O artigo apresenta o Diff-ES, um framework de poda estrutural para modelos de difusão que utiliza busca evolutiva para otimizar automaticamente agendamentos de esparsidade por estágio e ativação dinâmica de pesos, alcançando aceleração de tempo real e alta qualidade de geração sem a sobrecarga de memória de métodos anteriores.

Zongfang Liu, Shengkun Tang, Zongliang Wu + 2 more2026-03-06💻 cs

BLINK: Behavioral Latent Modeling of NK Cell Cytotoxicity

O artigo apresenta o BLINK, um modelo de espaço de estados recorrente baseado em trajetórias que aprende a dinâmica latente das interações entre células NK e tumor para prever resultados citotóxicos e fornecer uma representação interpretável do comportamento celular.

Iman Nematollahi, Jose Francisco Villena-Ossa, Alina Moter + 6 more2026-03-06🤖 cs.LG

UniPAR: A Unified Framework for Pedestrian Attribute Recognition

O artigo apresenta o UniPAR, um framework unificado baseado em Transformer que supera as limitações do paradigma "um modelo por conjunto de dados" ao permitir o processamento simultâneo de dados heterogêneos (RGB, vídeo e fluxos de eventos) de múltiplas fontes, alcançando desempenho comparável aos métodos especializados e melhorando a generalização em cenários extremos.

Minghe Xu, Rouying Wu, Jiarui Xu + 5 more2026-03-06🤖 cs.AI

SRasP: Self-Reorientation Adversarial Style Perturbation for Cross-Domain Few-Shot Learning

O artigo apresenta o SRasP, uma nova rede de perturbação de estilo adversarial que utiliza orientação automática e otimização multi-objetivo para estabilizar o treinamento e melhorar a generalização em tarefas de Aprendizado Pouco Amostrado entre Domínios (CD-FSL).

Wenqian Li, Pengfei Fang, Hui Xue2026-03-06🤖 cs.LG

Act, Think or Abstain: Complexity-Aware Adaptive Inference for Vision-Language-Action Models

Este artigo propõe um quadro adaptativo para Modelos Visão-Linguagem-Ação que, inspirado na cognição humana, classifica dinamicamente a complexidade da tarefa utilizando apenas embeddings visuais para decidir entre executar, raciocinar ou abster-se, otimizando assim o uso de recursos e prevenindo falhas em cenários fora de distribuição.

Riccardo Andrea Izzo, Gianluca Bardaro, Matteo Matteucci2026-03-06💻 cs

SSR-GS: Separating Specular Reflection in Gaussian Splatting for Glossy Surface Reconstruction

O artigo propõe o SSR-GS, uma nova estrutura para a reconstrução de superfícies brilhantes que combina cubemaps pré-filtrados e um módulo IndiASG para modelar reflexões especulares diretas e indiretas, além de utilizar Priors de Geometria Visual para mitigar o impacto de regiões dominadas por reflexões, alcançando desempenho superior na síntese de novas vistas.

Ningjing Fan, Yiqun Wang2026-03-06🤖 cs.AI

The Impact of Preprocessing Methods on Racial Encoding and Model Robustness in CXR Diagnosis

O estudo demonstra que o recorte simples das imagens de raio-X torácico para isolar os pulmões é uma estratégia eficaz para reduzir o aprendizado de atalhos raciais e mitigar vieses diagnósticos, mantendo a precisão do modelo sem comprometer a equidade.

Dishantkumar Sutariya, Eike Petersen2026-03-06🤖 cs.LG

Generic Camera Calibration using Blurry Images

Este artigo propõe um método pioneiro para calibrar câmeras genéricas utilizando imagens desfocadas, estimando simultaneamente as localizações dos recursos e as funções de espalhamento de ponto variáveis espacialmente para superar a necessidade de um grande número de imagens nítidas.

Zezhun Shi2026-03-06💻 cs

Mario: Multimodal Graph Reasoning with Large Language Models

O artigo apresenta o Mario, um framework unificado que permite o raciocínio em grafos multimodais por meio de modelos de linguagem grandes, superando desafios de consistência e preferência de modalidade através de um design de VLM condicionado ao grafo e de um mecanismo de ajuste de instruções adaptativo, alcançando desempenho superior em tarefas de classificação de nós e previsão de links.

Yuanfu Sun, Kang Li, Pengkang Guo + 2 more2026-03-06💻 cs

Logi-PAR: Logic-Infused Patient Activity Recognition via Differentiable Rule

O artigo apresenta o Logi-PAR, um novo framework de reconhecimento de atividades de pacientes que integra regras lógicas diferenciáveis para inferir riscos de forma explicável e auditable, superando os modelos atuais em precisão e capacidade de raciocínio causal em ambientes clínicos.

Muhammad Zarar, MingZheng Zhang, Xiaowang Zhang + 3 more2026-03-06🤖 cs.AI

Semantic Class Distribution Learning for Debiasing Semi-Supervised Medical Image Segmentation

Este artigo propõe o framework SCDL, um módulo plug-and-play que mitiga vieses de supervisão e representação em segmentação médica semi-supervisionada ao aprender distribuições estruturadas de características condicionais às classes, resultando em desempenho superior, especialmente para classes minoritárias.

Yingxue Su, Yiheng Zhong, Keying Zhu + 5 more2026-03-06💻 cs

SPyCer: Semi-Supervised Physics-Guided Contextual Attention for Near-Surface Air Temperature Estimation from Satellite Imagery

O artigo apresenta o SPyCer, uma rede semissupervisionada guiada por princípios físicos que utiliza atenção contextual e imagens de satélite para estimar com precisão e coerência física a temperatura do ar próxima à superfície, superando as limitações da distribuição esparsa de sensores terrestres.

Sofiane Bouaziz, Adel Hafiane, Raphael Canals + 1 more2026-03-06🤖 cs.AI

Digital Twin Driven Textile Classification and Foreign Object Recognition in Automated Sorting Systems

Este trabalho apresenta um sistema robótico de triagem têxtil automatizada e acionado por gêmeo digital que integra percepção multimodal e modelos de linguagem visuais (VLMs) para classificar roupas e detectar objetos estranhos em tempo real, demonstrando a viabilidade de soluções escaláveis para reciclagem sustentável em ambientes industriais.

Serkan Ergun, Tobias Mitterer, Hubert Zangl2026-03-06💻 cs

ICHOR: A Robust Representation Learning Approach for ASL CBF Maps with Self-Supervised Masked Autoencoders

O artigo apresenta o ICHOR, uma abordagem de aprendizado de representação auto-supervisionada baseada em autoencoders mascarados 3D que, ao ser pré-treinada em um grande conjunto de dados de mapas de fluxo sanguíneo cerebral (CBF) obtidos por marcação de spin arterial (ASL), supera os métodos existentes em tarefas de classificação diagnóstica e previsão de qualidade, superando desafios como variações entre sites e a escassez de dados rotulados.

Xavier Beltran-Urbano, Yiran Li, Xinglin Zeng + 10 more2026-03-06🔬 physics

← Anterior Próximo →