cs.CV artigos | Gist.Science

Diff-ES: Stage-wise Structural Diffusion Pruning via Evolutionary Search

O artigo apresenta o Diff-ES, um framework de poda estrutural para modelos de difusão que utiliza busca evolutiva para otimizar automaticamente agendamentos de esparsidade por estágio e ativação dinâmica de pesos, alcançando aceleração de tempo real e alta qualidade de geração sem a sobrecarga de memória de métodos anteriores.

Zongfang Liu, Shengkun Tang, Zongliang Wu + 2 more2026-03-06💻 cs

BLINK: Behavioral Latent Modeling of NK Cell Cytotoxicity

O artigo apresenta o BLINK, um modelo de espaço de estados recorrente baseado em trajetórias que aprende a dinâmica latente das interações entre células NK e tumor para prever resultados citotóxicos e fornecer uma representação interpretável do comportamento celular.

Iman Nematollahi, Jose Francisco Villena-Ossa, Alina Moter + 6 more2026-03-06🤖 cs.LG

UniPAR: A Unified Framework for Pedestrian Attribute Recognition

O artigo apresenta o UniPAR, um framework unificado baseado em Transformer que supera as limitações do paradigma "um modelo por conjunto de dados" ao permitir o processamento simultâneo de dados heterogêneos (RGB, vídeo e fluxos de eventos) de múltiplas fontes, alcançando desempenho comparável aos métodos especializados e melhorando a generalização em cenários extremos.

Minghe Xu, Rouying Wu, Jiarui Xu + 5 more2026-03-06🤖 cs.AI

SRasP: Self-Reorientation Adversarial Style Perturbation for Cross-Domain Few-Shot Learning

O artigo apresenta o SRasP, uma nova rede de perturbação de estilo adversarial que utiliza orientação automática e otimização multi-objetivo para estabilizar o treinamento e melhorar a generalização em tarefas de Aprendizado Pouco Amostrado entre Domínios (CD-FSL).

Wenqian Li, Pengfei Fang, Hui Xue2026-03-06🤖 cs.LG

Act, Think or Abstain: Complexity-Aware Adaptive Inference for Vision-Language-Action Models

Este artigo propõe um quadro adaptativo para Modelos Visão-Linguagem-Ação que, inspirado na cognição humana, classifica dinamicamente a complexidade da tarefa utilizando apenas embeddings visuais para decidir entre executar, raciocinar ou abster-se, otimizando assim o uso de recursos e prevenindo falhas em cenários fora de distribuição.

Riccardo Andrea Izzo, Gianluca Bardaro, Matteo Matteucci2026-03-06💻 cs

SSR-GS: Separating Specular Reflection in Gaussian Splatting for Glossy Surface Reconstruction

O artigo propõe o SSR-GS, uma nova estrutura para a reconstrução de superfícies brilhantes que combina cubemaps pré-filtrados e um módulo IndiASG para modelar reflexões especulares diretas e indiretas, além de utilizar Priors de Geometria Visual para mitigar o impacto de regiões dominadas por reflexões, alcançando desempenho superior na síntese de novas vistas.

Ningjing Fan, Yiqun Wang2026-03-06🤖 cs.AI

The Impact of Preprocessing Methods on Racial Encoding and Model Robustness in CXR Diagnosis

O estudo demonstra que o recorte simples das imagens de raio-X torácico para isolar os pulmões é uma estratégia eficaz para reduzir o aprendizado de atalhos raciais e mitigar vieses diagnósticos, mantendo a precisão do modelo sem comprometer a equidade.

Dishantkumar Sutariya, Eike Petersen2026-03-06🤖 cs.LG

Generic Camera Calibration using Blurry Images

Este artigo propõe um método pioneiro para calibrar câmeras genéricas utilizando imagens desfocadas, estimando simultaneamente as localizações dos recursos e as funções de espalhamento de ponto variáveis espacialmente para superar a necessidade de um grande número de imagens nítidas.

Zezhun Shi2026-03-06💻 cs

Mario: Multimodal Graph Reasoning with Large Language Models

O artigo apresenta o Mario, um framework unificado que permite o raciocínio em grafos multimodais por meio de modelos de linguagem grandes, superando desafios de consistência e preferência de modalidade através de um design de VLM condicionado ao grafo e de um mecanismo de ajuste de instruções adaptativo, alcançando desempenho superior em tarefas de classificação de nós e previsão de links.

Yuanfu Sun, Kang Li, Pengkang Guo + 2 more2026-03-06💻 cs

Logi-PAR: Logic-Infused Patient Activity Recognition via Differentiable Rule

O artigo apresenta o Logi-PAR, um novo framework de reconhecimento de atividades de pacientes que integra regras lógicas diferenciáveis para inferir riscos de forma explicável e auditable, superando os modelos atuais em precisão e capacidade de raciocínio causal em ambientes clínicos.

Muhammad Zarar, MingZheng Zhang, Xiaowang Zhang + 3 more2026-03-06🤖 cs.AI

Semantic Class Distribution Learning for Debiasing Semi-Supervised Medical Image Segmentation

Este artigo propõe o framework SCDL, um módulo plug-and-play que mitiga vieses de supervisão e representação em segmentação médica semi-supervisionada ao aprender distribuições estruturadas de características condicionais às classes, resultando em desempenho superior, especialmente para classes minoritárias.

Yingxue Su, Yiheng Zhong, Keying Zhu + 5 more2026-03-06💻 cs

SPyCer: Semi-Supervised Physics-Guided Contextual Attention for Near-Surface Air Temperature Estimation from Satellite Imagery

O artigo apresenta o SPyCer, uma rede semissupervisionada guiada por princípios físicos que utiliza atenção contextual e imagens de satélite para estimar com precisão e coerência física a temperatura do ar próxima à superfície, superando as limitações da distribuição esparsa de sensores terrestres.

Sofiane Bouaziz, Adel Hafiane, Raphael Canals + 1 more2026-03-06🤖 cs.AI

Digital Twin Driven Textile Classification and Foreign Object Recognition in Automated Sorting Systems

Este trabalho apresenta um sistema robótico de triagem têxtil automatizada e acionado por gêmeo digital que integra percepção multimodal e modelos de linguagem visuais (VLMs) para classificar roupas e detectar objetos estranhos em tempo real, demonstrando a viabilidade de soluções escaláveis para reciclagem sustentável em ambientes industriais.

Serkan Ergun, Tobias Mitterer, Hubert Zangl2026-03-06💻 cs

ICHOR: A Robust Representation Learning Approach for ASL CBF Maps with Self-Supervised Masked Autoencoders

O artigo apresenta o ICHOR, uma abordagem de aprendizado de representação auto-supervisionada baseada em autoencoders mascarados 3D que, ao ser pré-treinada em um grande conjunto de dados de mapas de fluxo sanguíneo cerebral (CBF) obtidos por marcação de spin arterial (ASL), supera os métodos existentes em tarefas de classificação diagnóstica e previsão de qualidade, superando desafios como variações entre sites e a escassez de dados rotulados.

Xavier Beltran-Urbano, Yiran Li, Xinglin Zeng + 10 more2026-03-06🔬 physics

CATNet: Collaborative Alignment and Transformation Network for Cooperative Perception

O artigo apresenta o CATNet, uma rede adaptativa que supera os desafios de latência temporal e ruído em sistemas de percepção cooperativa através de sincronização espaço-temporal, remoção de ruído baseada em wavelets e seleção dinâmica de características, demonstrando superior robustez em cenários de tráfego complexos.

Gong Chen, Chaokun Zhang, Tao Tang + 3 more2026-03-06💻 cs

Wiki-R1: Incentivizing Multimodal Reasoning for Knowledge-based VQA via Data and Sampling Curriculum

O artigo apresenta o Wiki-R1, um framework de aprendizado por reforço com currículo baseado em geração de dados que otimiza o raciocínio multimodal para Resposta a Perguntas Visuais Baseadas em Conhecimento (KB-VQA) ao alinhar distribuições de treinamento com a evolução da capacidade do modelo, alcançando resultados state-of-the-art nos benchmarks Encyclopedic VQA e InfoSeek.

Shan Ning, Longtian Qiu, Xuming He2026-03-06💻 cs

Layer by layer, module by module: Choose both for optimal OOD probing of ViT

Este estudo demonstra que, para otimizar a detecção de distribuição fora do domínio (OOD) em Vision Transformers, a melhor estratégia é combinar a sondagem de camadas intermediárias com a seleção específica de módulos, utilizando as ativações da rede feedforward sob grandes deslocamentos de distribuição e a saída normalizada da atenção multi-cabeça quando o deslocamento é fraco.

Ambroise Odonnat, Vasilii Feofanov, Laetitia Chapel + 2 more2026-03-06🤖 cs.LG

WebChain: A Large-Scale Human-Annotated Dataset of Real-World Web Interaction Traces

O artigo apresenta o WebChain, o maior conjunto de dados de código aberto com trajetórias de interação humana em websites reais, e propõe uma metodologia de treinamento que alcança desempenho superior na criação e avaliação de agentes web escaláveis.

Sicheng Fan, Rui Wan, Yifei Leng + 4 more2026-03-06🤖 cs.AI

Fusion4CA: Boosting 3D Object Detection via Comprehensive Image Exploitation

O artigo apresenta o Fusion4CA, um método que aprimora a detecção de objetos 3D em sistemas autônomos ao explorar integralmente dados visuais através de módulos de alinhamento contrastivo, ramos auxiliares e adaptadores cognitivos, alcançando desempenho superior no conjunto de dados nuScenes e validando sua eficácia em ambientes lunares simulados.

Kang Luo, Xin Chen, Yangyi Xiao + 1 more2026-03-06💻 cs

Frequency-Aware Error-Bounded Caching for Accelerating Diffusion Transformers

O artigo apresenta o SpectralCache, uma técnica de cache livre de treinamento que acelera a inferência de Diffusion Transformers ao explorar a não uniformidade temporal, em profundidade e de características do processo de denoising, alcançando um aumento de velocidade de 2,46x com qualidade de imagem comparável ao estado da arte.

Guandong Li2026-03-06💻 cs

← Anterior Próximo →