cs.CV artigos | Gist.Science

Crab $^{+}$ : A Scalable and Unified Audio-Visual Scene Understanding Model with Explicit Cooperation

O artigo apresenta o Crab+, um modelo unificado e escalável de compreensão de cenas áudio-visuais que supera o problema de transferência negativa através da criação do dataset AV-UIE v2 e da proposta do mecanismo I-LoRA, permitindo uma cooperação explícita entre tarefas heterogêneas e alcançando desempenho superior em 88% dos casos em comparação com abordagens de tarefa única.

Dongnuan Cai, Henghui Du, Chang Zhou + 5 more2026-03-05🤖 cs.AI

Mask-Guided Attention Regulation for Anatomically Consistent Counterfactual CXR Synthesis

O artigo apresenta um framework de regulação de atenção em tempo de inferência que utiliza máscaras anatômicas e correções latentes orientadas por patologia para gerar raios-X torácicos contrafactuais com consistência estrutural aprimorada e localização precisa de lesões.

Zichun Zhang, Weizhi Nie, Honglin Guo + 1 more2026-03-05💻 cs

HBRB-BoW: A Retrained Bag-of-Words Vocabulary for ORB-SLAM via Hierarchical BRB-KMeans

Este artigo propõe o HBRB-BoW, um algoritmo de treinamento de vocabulário hierárquico que integra fluxos de valores reais durante o agrupamento para preservar a fidelidade dos descritores e mitigar a perda de precisão inerente aos métodos binários tradicionais, resultando em um vocabulário visual mais discriminativo que melhora o fechamento de laços e a relocalização no ORB-SLAM.

Minjae Lee, Sang-Min Choi, Gun-Woo Kim + 1 more2026-03-05💻 cs

LISTA-Transformer Model Based on Sparse Coding and Attention Mechanism and Its Application in Fault Diagnosis

Este artigo apresenta o modelo LISTA-Transformer, que integra codificação esparsa baseada no algoritmo LISTA e mecanismos de atenção para superar as limitações de CNNs e Transformers tradicionais na modelagem de características locais e globais, alcançando uma taxa de reconhecimento de falhas de 98,5% no conjunto de dados CWRU.

Shuang Liu, Lina Zhao, Tian Wang + 1 more2026-03-05💻 cs

Degradation-based augmented training for robust individual animal re-identification

Este trabalho apresenta um framework de treinamento aumentado que aplica degradações artificiais a um subconjunto de imagens para melhorar a robustez e a precisão da re-identificação individual de animais selvagens em condições de imagem degradadas, estabelecendo novos benchmarks e recursos públicos para a área.

Thanos Polychronou, Lukáš Adam, Viktor Penchev + 1 more2026-03-05💻 cs

PlaneCycle: Training-Free 2D-to-3D Lifting of Foundation Models Without Adapters

O artigo apresenta o PlaneCycle, um operador livre de treinamento e adaptadores que permite a elevação de modelos de base 2D para tarefas 3D, reutilizando backbones pré-treinados através de uma agregação espacial cíclica em planos ortogonais para alcançar desempenho competitivo sem modificar a arquitetura ou re-treinar o modelo.

Yinghong Yu, Guangyuan Li, Jiancheng Yang2026-03-05🤖 cs.AI

Beyond Mixtures and Products for Ensemble Aggregation: A Likelihood Perspective on Generalized Means

Este artigo apresenta uma perspectiva baseada na verossimilhança para a agregação de densidades em ensembles, demonstrando que a média generalizada normalizada com ordem $r \in [0,1]$ é a única que garante melhorias sistemáticas sobre distribuições individuais, o que justifica teoricamente o uso prático das poolings linear e geométrica.

Raphaël Razafindralambo, Rémy Sun, Frédéric Precioso + 2 more2026-03-05🤖 cs.LG

Real5-OmniDocBench: A Full-Scale Physical Reconstruction Benchmark for Robust Document Parsing in the Wild

O artigo apresenta o Real5-OmniDocBench, o primeiro benchmark de reconstrução física em escala total que replica integralmente o OmniDocBench v1.5 em cinco cenários do mundo real para avaliar e diagnosticar as limitações dos modelos de linguagem visuais na interpretação de documentos fora do ambiente digital.

Changda Zhou, Ziyue Gao, Xueqing Wang + 4 more2026-03-05💻 cs

Nearest-Neighbor Density Estimation for Dependency Suppression

Este trabalho propõe um método baseado em autoencoders variacionais que utiliza estimativa de densidade por vizinhos mais próximos para aprender representações de dados independentes de variáveis sensíveis, superando técnicas existentes ao otimizar diretamente a independência estatística sem depender de decorrelação ou aprendizado adversarial.

Kathleen Anderson, Thomas Martinetz2026-03-05🤖 cs.LG

DiverseDiT: Towards Diverse Representation Learning in Diffusion Transformers

O artigo propõe o DiverseDiT, um novo quadro de trabalho que melhora o aprendizado de representações em Transformers de Difusão ao promover explicitamente a diversidade de representações entre blocos por meio de conexões residuais longas e uma função de perda específica, resultando em ganhos consistentes de desempenho e aceleração de convergência.

Mengping Yang, Zhiyu Tan, Binglei Li + 3 more2026-03-05💻 cs

DeNuC: Decoupling Nuclei Detection and Classification in Histopathology

O artigo apresenta o DeNuC, um método que supera as limitações dos Modelos de Fundação em Patologia ao desacoplar a detecção e a classificação de núcleos, utilizando um modelo leve para localização e o modelo de fundo para extração de características, resultando em desempenho superior e maior eficiência computacional em benchmarks de histopatologia.

Zijiang Yang, Chen Kuang, Dongmei Fu2026-03-05💻 cs

EmbodiedSplat: Online Feed-Forward Semantic 3DGS for Open-Vocabulary 3D Scene Understanding

O artigo apresenta o EmbodiedSplat, um método de feed-forward online que utiliza 3D Gaussian Splatting para realizar simultaneamente a reconstrução 3D e a compreensão semântica de cenas em tempo real a partir de imagens em fluxo, superando as limitações de métodos anteriores que exigiam otimização offline ou por cena.

Seungjun Lee, Zihan Wang, Yunsong Wang + 1 more2026-03-05💻 cs

A Hypertoroidal Covering for Perfect Color Equivariance

Este artigo apresenta uma arquitetura neural de cobertura hipertoroidal que eleva as transformações de saturação e luminosidade de translações lineares para rotações circulares, eliminando artefatos de aproximação e superando métodos anteriores em robustez, interpretabilidade e desempenho em tarefas como classificação fina e imagens médicas.

Yulong Yang, Zhikun Xu, Yaojun Li + 1 more2026-03-05💻 cs

ViterbiPlanNet: Injecting Procedural Knowledge via Differentiable Viterbi for Planning in Instructional Videos

O artigo apresenta o ViterbiPlanNet, um framework inovador que integra conhecimento procedural explícito em um modelo de planejamento de vídeos instrucionais através de uma Camada de Viterbi Diferenciável, alcançando desempenho de última geração com maior eficiência de amostragem e menor custo computacional em comparação a abordagens baseadas em grandes modelos.

Luigi Seminara, Davide Moltisanti, Antonino Furnari2026-03-05💻 cs

SSR: A Generic Framework for Text-Aided Map Compression for Localization

O artigo propõe o SSR, um novo framework de compressão que utiliza descrições textuais combinadas com vetores de imagem compactos para reduzir significativamente o uso de memória e largura de banda em mapas robóticos, mantendo a alta fidelidade necessária para tarefas de localização.

Mohammad Omama, Po-han Li, Harsh Goel + 6 more2026-03-05💻 cs

A multi-center analysis of deep learning methods for video polyp detection and segmentation

Este estudo apresenta uma análise multicêntrica que avalia a eficácia de métodos de aprendizado profundo utilizando dados sequenciais e informações temporais para aprimorar a detecção e segmentação de pólipos colônicos em tempo real, visando reduzir as taxas de detecção falha e melhorar os resultados clínicos.

Noha Ghatwary, Pedro Chavarias Solano, Mohamed Ramzy Ibrahim + 24 more2026-03-05💻 cs

CubeComposer: Spatio-Temporal Autoregressive 4K 360° Video Generation from Perspective Video

O artigo apresenta o CubeComposer, um modelo de difusão autoregressivo espaço-temporal inovador que gera nativamente vídeos 360° em resolução 4K a partir de vídeos em perspectiva, superando as limitações de resolução e eficiência computacional dos métodos existentes para aplicações de realidade virtual.

Lingen Li, Guangzhi Wang, Xiaoyu Li + 5 more2026-03-05🤖 cs.AI

Motion Manipulation via Unsupervised Keypoint Positioning in Face Animation

O artigo apresenta o MMFA, um novo método que supera as limitações das abordagens anteriores de animação facial ao utilizar aprendizado auto-supervisionado e um codificador variacional para desacoplar a identidade dos movimentos, permitindo o controle arbitrário e a interpolação de expressões faciais em um framework não supervisionado.

Hong Li, Boyu Liu, Xuhui Liu + 1 more2026-03-05💻 cs

Dual Diffusion Models for Multi-modal Guided 3D Avatar Generation

O artigo apresenta o PromptAvatar, um framework inovador que utiliza modelos de difusão dupla e um novo conjunto de dados em larga escala para gerar avatares 3D de alta fidelidade a partir de prompts de texto ou imagem em menos de 10 segundos, superando as limitações de controle e eficiência dos métodos existentes.

Hong Li, Yutang Feng, Minqi Meng + 3 more2026-03-05💻 cs

CRESTomics: Analyzing Carotid Plaques in the CREST-2 Trial with a New Additive Classification Model

Este estudo apresenta o modelo CRESTomics, uma nova classificação aditiva baseada em kernel que analisa imagens de ultrassom de placas carotídeas do ensaio clínico CREST-2 para identificar marcadores radiômicos interpretáveis associados a riscos clínicos elevados de AVC.

Pranav Kulkarni, Brajesh K. Lal, Georges Jreij + 11 more2026-03-05🤖 cs.AI

← Anterior Próximo →

cs.CV

Crab+^{+}+: A Scalable and Unified Audio-Visual Scene Understanding Model with Explicit Cooperation