Tether: Autonomous Functional Play with Correspondence-Driven Trajectory Warping

O artigo apresenta o Tether, um método que permite a um robô realizar brincadeiras funcionais autônomas em ambientes reais, utilizando correspondências de keypoints semânticos para adaptar poucas demonstrações a novos cenários e um ciclo guiado por modelos de visão-linguagem para gerar continuamente dados de alta qualidade que superam políticas de imitação tradicionais.

William Liang, Sam Wang, Hung-Ju Wang + 3 more2026-03-04🤖 cs.AI

ULTRA: Unified Multimodal Control for Autonomous Humanoid Whole-Body Loco-Manipulation

O artigo apresenta o ULTRA, um framework unificado que supera as limitações dos métodos existentes ao permitir o loco-manipulação autônoma e versátil em humanoides, combinando um algoritmo de retargeting neural baseado em física com um controlador multimodal capaz de gerar comportamentos coordenados a partir de percepção egocêntrica e especificações de tarefas de alto nível, sem depender de referências de movimento pré-definidas durante o teste.

Xialin He, Sirui Xu, Xinyao Li + 4 more2026-03-04💻 cs

Towards Accurate One-Stage Object Detection with AP-Loss

Este artigo propõe um novo framework para detectores de objetos em uma única etapa que substitui a tarefa de classificação por uma de classificação de ranking utilizando a perda de precisão média (AP-loss), combinada com um algoritmo de otimização inovador que supera as limitações de não diferenciabilidade e não convexidade, resultando em melhorias significativas de desempenho em diversos benchmarks sem alterar a arquitetura da rede.

Kean Chen, Jianguo Li, Weiyao Lin + 6 more2026-03-03💻 cs

AP-Loss for Accurate One-Stage Object Detection

Este artigo propõe um novo framework para detecção de objetos em uma etapa que substitui a tarefa de classificação por uma de classificação por ranqueamento utilizando a perda de Precisão Média (AP-loss), combinada com um algoritmo de otimização inovador que supera as limitações de não diferenciabilidade e não convexidade, resultando em desempenho superior ao estado da arte em benchmarks padrão.

Kean Chen, Weiyao Lin, Jianguo Li + 3 more2026-03-03💻 cs

RFAConv: Receptive-Field Attention Convolution for Improving Convolutional Neural Networks

Este trabalho propõe a Receptive-Field Attention Convolution (RFAConv), um novo mecanismo de atenção que supera as limitações das abordagens espaciais atuais ao focar nas características do campo receptivo para otimizar kernels de convolução grandes, melhorando significativamente o desempenho das redes neurais com um custo computacional e de parâmetros quase insignificante.

Xin Zhang, Chen Liu, Degang Yang + 4 more2026-03-03💻 cs

Beyond DAGs: A Latent Partial Causal Model for Multimodal Learning

Este trabalho propõe um novo modelo causal parcial latente para aprendizado multimodal que, ao superar as limitações dos DAGs tradicionais, estabelece a identificabilidade teórica do aprendizado contrastivo multimodal (MMCL) e demonstra sua eficácia prática na obtenção de representações desentrelaçadas que melhoram a generalização de domínio e o aprendizado com poucos exemplos.

Yuhang Liu, Zhen Zhang, Dong Gong + 6 more2026-03-03🤖 cs.LG

Towards Precision Cardiovascular Analysis in Zebrafish: The ZACAF Paradigm

Este trabalho apresenta o aprimoramento do framework ZACAF para a análise cardiovascular automatizada em zebrafish, demonstrando que o uso de aprendizado por transferência e técnicas de aumento de dados permite adaptar o modelo a novos equipamentos e tipos de mutantes, superando as limitações de generalização dos métodos supervisionados tradicionais.

Amir Mohammad Naderi, Jennifer G. Casey, Mao-Hsiang Huang + 5 more2026-03-03⚡ eess

FiLo: Zero-Shot Anomaly Detection by Fine-Grained Description and High-Quality Localization

O artigo apresenta o FiLo, um novo método de detecção de anomalias zero-shot que utiliza descrições de anomalias de alta granularidade geradas por LLMs e um módulo de interação multimodal para melhorar a precisão na detecção e localização de anomalias em diversos tamanhos e formas, alcançando desempenho state-of-the-art nos conjuntos de dados MVTec e VisA.

Zhaopeng Gu, Bingke Zhu, Guibo Zhu + 4 more2026-03-03🤖 cs.LG