MM-TS: Multi-Modal Temperature and Margin Schedules for Contrastive Learning with Long-Tail Data

O artigo apresenta o MM-TS, um método que melhora o aprendizado contrastivo multimodal com dados de cauda longa ao introduzir agendamentos dinâmicos de temperatura e margem que adaptam as forças de atração e repulsão com base na distribuição local das amostras, unificando as abordagens InfoNCE e de margem máxima para alcançar resultados state-of-the-art em diversos conjuntos de dados de imagem e vídeo.

Siarhei Sheludzko, Dhimitrios Duka, Bernt Schiele, Hilde Kuehne, Anna Kukleva2026-03-10💻 cs

Alignment-Aware and Reliability-Gated Multimodal Fusion for Unmanned Aerial Vehicle Detection Across Heterogeneous Thermal-Visual Sensors

Este estudo propõe duas estratégias de fusão multimodal, RGIF e RGMAF, que combinam registro espacial e mecanismos de atenção ponderados por confiabilidade para superar as limitações de sensores heterogêneos e melhorar significativamente a detecção de veículos aéreos não tripulados (UAVs) em ambientes complexos.

Ishrat Jahan, Molla E Majid, M Murugappan, Muhammad E. H. Chowdhury, N. B. Prakash, Saad Bin Abul Kashem, Balamurugan Balusamy, Amith Khandakar2026-03-10💻 cs

Multi-Objective Evolutionary Optimization of Chance-Constrained Multiple-Choice Knapsack Problems with Implicit Probability Distributions

Este artigo propõe o algoritmo híbrido NHILS, que integra o método OPERA-MC para avaliação eficiente de restrições de chance com distribuições implícitas, demonstrando superioridade na otimização multiobjetivo do Problema da Mochila de Escolha Múltipla (MCKP) em benchmarks sintéticos e de configuração de redes 5G.

Xuanfeng Li, Shengcai Liu, Wenjie Chen, Yew-Soon Ong, Ke Tang2026-03-10💻 cs

Video2LoRA: Unified Semantic-Controlled Video Generation via Per-Reference-Video LoRA

O artigo apresenta o Video2LoRA, um framework escalável e eficiente que utiliza uma hiper-rede leve para prever pesos LoRA personalizados a partir de vídeos de referência, permitindo a geração de vídeos semanticamente alinhados com alta generalização e sem necessidade de treinamento adicional por condição.

Zexi Wu, Qinghe Wang, Jing Dai, Baolu Li, Yiming Zhang, Yue Ma, Xu Jia, Hongming Xu2026-03-10💻 cs

Re-evaluating Position and Velocity Decoding for Hand Pose Estimation with Surface Electromyography

Este artigo revisa o benchmark emg2pose e demonstra que, ao ajustar um parâmetro crítico do decodificador e utilizar um treinamento multi-tarefa, a decodificação direta de posição supera a de velocidade em precisão e robustez para estimativa de pose da mão baseada em sEMG, estabelecendo um novo estado da arte.

Nima Hadidi, Johannes Lee, Ebrahim Feghhi, Michael Yuan, Jonathan C. Kao2026-03-10💻 cs

A Comparative Study of Recent Advances in Internet of Intrusion Detection Things

Este artigo apresenta um estudo comparativo abrangente sobre as técnicas avançadas, arquiteturas, classificações e metodologias de avaliação dos sistemas de detecção de intrusão para a Internet das Coisas (IoT), visando abordar os desafios de segurança emergentes nesse domínio.

Marianna Rezk (IRIMAS), Hassan Harb (IRIMAS), Ismail Bennis (IRIMAS), Sebastien Bindel (IRIMAS), Hafid Abouaissa (IRIMAS)2026-03-10💻 cs

SAVE: Speech-Aware Video Representation Learning for Video-Text Retrieval

O artigo apresenta o SAVE, um método de aprendizado de representação de vídeo que supera os atuais métodos de ponta ao incorporar uma ramificação dedicada para processar o conteúdo de fala e utilizar o soft-ALBEF para alinhamento precoce entre visão e áudio, resultando em melhorias significativas em cinco benchmarks de recuperação vídeo-texto.

Ruixiang Zhao, Zhihao Xu, Bangxiang Lan, Zijie Xin, Jingyu Liu, Xirong Li2026-03-10💻 cs

GarmentPainter: Efficient 3D Garment Texture Synthesis with Character-Guided Diffusion Model

O artigo apresenta o GarmentPainter, um framework eficiente que utiliza um modelo de difusão guiado por características do personagem e mapas de posição UV para sintetizar texturas de roupas 3D de alta fidelidade e consistentes, superando métodos existentes sem exigir alinhamento espacial rígido ou modificações na arquitetura do modelo.

Jinbo Wu, Xiaobo Gao, Xing Liu, Chen Zhao, Jialun Liu2026-03-10💻 cs

Disentangling Reasoning in Large Audio-Language Models for Ambiguous Emotion Prediction

Este trabalho reformula o reconhecimento de emoções ambíguas como um problema de raciocínio distribucional em Modelos de Linguagem e Áudio Grandes (LALMs), introduzindo um framework com objetivos alinhados a distribuições perceptivas humanas e supervisão estruturada de cadeia de pensamento que demonstra melhorias consistentes em tarefas de previsão de emoções ambíguas.

Xiaofeng Yu, Jiaheng Dong, Jean Honorio, Abhirup Ghosh, Hong Jia, Ting Dang2026-03-10💻 cs

A General Lie-Group Framework for Continuum Soft Robot Modeling

Este artigo apresenta uma nova estrutura unificada baseada em grupos de Lie e na teoria de hastes de Cosserat para modelar robôs macios contínuos, superando limitações de métodos existentes ao oferecer expressões analíticas unificadas para cinemática, estática e dinâmica, além de suportar estruturas complexas e garantir eficiência computacional para simulação e controle em tempo real.

Lingxiao Xun, Benoît Rosa, Jérôme Szewczyk, Brahim Tamadazte2026-03-10💻 cs

Exploring Deep Learning and Ultra-Widefield Imaging for Diabetic Retinopathy and Macular Edema

Este estudo utiliza métodos de aprendizado profundo avançados e imagens ultra-widefield para avaliar a qualidade de imagem, detectar retinopatia diabética referível e edema macular diabético, demonstrando o alto desempenho de modelos como Vision Transformers e a eficácia da fusão de características e representações no domínio da frequência.

Pablo Jimenez-Lizcano, Sergio Romero-Tapiador, Ruben Tolosana, Aythami Morales, Guillermo González de Rivera, Ruben Vera-Rodriguez, Julian Fierrez2026-03-10💻 cs

Why Learn What Physics Already Knows? Realizing Agile mmWave-based Human Pose Estimation via Physics-Guided Preprocessing

Este artigo propõe uma abordagem de estimativa de pose humana baseada em ondas milimétricas que substitui módulos de pré-processamento puramente orientados a dados por princípios físicos explícitos, resultando em um modelo significativamente mais leve e eficiente que mantém a precisão competitiva e permite a execução em tempo real em dispositivos de baixo custo como o Raspberry Pi.

Shuntian Zheng, Jiaqi Li, Minzhe Ni, Xiaoman Lu, Yu Guan2026-03-10💻 cs

Topologically Stable Hough Transform

Este artigo propõe uma reformulação topologicamente estável da Transformada de Hough para detecção de linhas em nuvens de pontos, substituindo o esquema de votação discretizado por uma função de pontuação contínua cujas características persistentes, identificadas via homologia persistente, geram um conjunto de linhas candidatas calculadas eficientemente por um novo algoritmo.

Stefan Huber, Kristóf Huszár, Michael Kerber, Martin Uray2026-03-10💻 cs

DynamicVGGT: Learning Dynamic Point Maps for 4D Scene Reconstruction in Autonomous Driving

O artigo propõe o DynamicVGGT, um framework unificado de feed-forward que estende a percepção 3D estática para a reconstrução dinâmica 4D em direção autônoma, utilizando atenção temporal consciente do movimento e um cabeçalho de Gaussian Splatting 3D para modelar e otimizar o movimento de pontos com alta precisão.

Zhuolin He, Jing Li, Guanghao Li, Xiaolei Chen, Jiacheng Tang, Siyang Zhang, Zhounan Jin, Feipeng Cai, Bin Li, Jian Pu, Jia Cai, Xiangyang Xue2026-03-10💻 cs