Crab+^{+}: A Scalable and Unified Audio-Visual Scene Understanding Model with Explicit Cooperation

O artigo apresenta o Crab+, um modelo unificado e escalável de compreensão de cenas áudio-visuais que supera o problema de transferência negativa através da criação do dataset AV-UIE v2 e da proposta do mecanismo I-LoRA, permitindo uma cooperação explícita entre tarefas heterogêneas e alcançando desempenho superior em 88% dos casos em comparação com abordagens de tarefa única.

Dongnuan Cai, Henghui Du, Chang Zhou + 5 more2026-03-05🤖 cs.AI

HBRB-BoW: A Retrained Bag-of-Words Vocabulary for ORB-SLAM via Hierarchical BRB-KMeans

Este artigo propõe o HBRB-BoW, um algoritmo de treinamento de vocabulário hierárquico que integra fluxos de valores reais durante o agrupamento para preservar a fidelidade dos descritores e mitigar a perda de precisão inerente aos métodos binários tradicionais, resultando em um vocabulário visual mais discriminativo que melhora o fechamento de laços e a relocalização no ORB-SLAM.

Minjae Lee, Sang-Min Choi, Gun-Woo Kim + 1 more2026-03-05💻 cs

LISTA-Transformer Model Based on Sparse Coding and Attention Mechanism and Its Application in Fault Diagnosis

Este artigo apresenta o modelo LISTA-Transformer, que integra codificação esparsa baseada no algoritmo LISTA e mecanismos de atenção para superar as limitações de CNNs e Transformers tradicionais na modelagem de características locais e globais, alcançando uma taxa de reconhecimento de falhas de 98,5% no conjunto de dados CWRU.

Shuang Liu, Lina Zhao, Tian Wang + 1 more2026-03-05💻 cs

Beyond Mixtures and Products for Ensemble Aggregation: A Likelihood Perspective on Generalized Means

Este artigo apresenta uma perspectiva baseada na verossimilhança para a agregação de densidades em ensembles, demonstrando que a média generalizada normalizada com ordem r[0,1]r \in [0,1] é a única que garante melhorias sistemáticas sobre distribuições individuais, o que justifica teoricamente o uso prático das poolings linear e geométrica.

Raphaël Razafindralambo, Rémy Sun, Frédéric Precioso + 2 more2026-03-05🤖 cs.LG

DiverseDiT: Towards Diverse Representation Learning in Diffusion Transformers

O artigo propõe o DiverseDiT, um novo quadro de trabalho que melhora o aprendizado de representações em Transformers de Difusão ao promover explicitamente a diversidade de representações entre blocos por meio de conexões residuais longas e uma função de perda específica, resultando em ganhos consistentes de desempenho e aceleração de convergência.

Mengping Yang, Zhiyu Tan, Binglei Li + 3 more2026-03-05💻 cs

ViterbiPlanNet: Injecting Procedural Knowledge via Differentiable Viterbi for Planning in Instructional Videos

O artigo apresenta o ViterbiPlanNet, um framework inovador que integra conhecimento procedural explícito em um modelo de planejamento de vídeos instrucionais através de uma Camada de Viterbi Diferenciável, alcançando desempenho de última geração com maior eficiência de amostragem e menor custo computacional em comparação a abordagens baseadas em grandes modelos.

Luigi Seminara, Davide Moltisanti, Antonino Furnari2026-03-05💻 cs

A multi-center analysis of deep learning methods for video polyp detection and segmentation

Este estudo apresenta uma análise multicêntrica que avalia a eficácia de métodos de aprendizado profundo utilizando dados sequenciais e informações temporais para aprimorar a detecção e segmentação de pólipos colônicos em tempo real, visando reduzir as taxas de detecção falha e melhorar os resultados clínicos.

Noha Ghatwary, Pedro Chavarias Solano, Mohamed Ramzy Ibrahim + 24 more2026-03-05💻 cs