cs.LG artigos | Gist.Science

ViTaPEs: Visuotactile Position Encodings for Cross-Modal Alignment in Multimodal Transformers

O artigo apresenta o ViTaPEs, uma arquitetura baseada em transformers que utiliza codificações de posição visotáteis em dois estágios para aprender representações multimodais robustas e generalizáveis, superando os métodos atuais em tarefas de reconhecimento e manipulação robótica sem depender de modelos pré-treinados de visão e linguagem.

Fotios Lygerakis, Ozan Özdenizci, Elmar Rückert2026-03-10🤖 cs.LG

LoFT: Low-Rank Adaptation That Behaves Like Full Fine-Tuning

O artigo apresenta o LoFT, um método de adaptação de baixo rank que alinha as dinâmicas internas do otimizador com as atualizações de ajuste fino completo, superando o desempenho do LoRA padrão e eliminando a necessidade de hiperparâmetros adicionais sem aumentar o custo de inferência.

Nurbek Tastan, Stefanos Laskaridis, Martin Takac, Karthik Nandakumar, Samuel Horvath2026-03-10🤖 cs.LG

Rethinking Continual Learning with Progressive Neural Collapse

O artigo propõe o "Progressive Neural Collapse" (ProNC), um novo framework para aprendizado contínuo que supera as limitações de abordagens anteriores ao expandir progressivamente e de forma principial o alvo de colapso neural (ETF) para novas tarefas, eliminando a necessidade de um ETF global fixo e mitigando eficazmente o esquecimento catastrófico.

Zheng Wang, Wanhao Yu, Li Yang, Sen Lin2026-03-10🤖 cs.LG

Adaptive Correction for Ensuring Conservation Laws in Neural Operators

Este trabalho propõe uma abordagem de correção adaptativa e plug-and-play que utiliza um operador leve aprendível para garantir a estrita conservação de leis físicas fundamentais em operadores neurais, superando as limitações de flexibilidade dos métodos existentes e demonstrando superioridade em precisão e estabilidade em diversos benchmarks de EDPs.

Chaoyu Liu, Yangming Li, Zhongying Deng, Chris Budd, Carola-Bibiane Schönlieb2026-03-10🤖 cs.LG

ActivePusher: Active Learning and Planning with Residual Physics for Nonprehensile Manipulation

O artigo apresenta o ActivePusher, um novo quadro que combina modelagem de física residual com aprendizado ativo baseado em incerteza para melhorar a eficiência de dados e a confiabilidade do planejamento em tarefas de manipulação não preênseis, tanto em simulação quanto no mundo real.

Zhuoyun Zhong, Seyedali Golestaneh, Constantinos Chamzas2026-03-10🤖 cs.LG

MMTU: A Massive Multi-Task Table Understanding and Reasoning Benchmark

O artigo apresenta o MMTU, um benchmark em larga escala com mais de 28 mil questões em 25 tarefas do mundo real, projetado para avaliar de forma abrangente a capacidade de modelos de linguagem de entender, raciocinar e manipular tabelas em nível especializado, revelando que mesmo os modelos mais avançados atuais enfrentam desafios significativos nessa área.

Junjie Xing, Yeye He, Mengyu Zhou, Haoyu Dong, Shi Han, Lingjiao Chen, Dongmei Zhang, Surajit Chaudhuri, H. V. Jagadish2026-03-10🤖 cs.LG

Leveraging chaotic transients in the training of artificial neural networks

O artigo demonstra que utilizar taxas de aprendizado suficientemente altas para induzir transientes caóticos no treinamento de redes neurais, criando um equilíbrio entre exploração e exploração, pode acelerar significativamente a convergência para uma precisão aceitável em diversas arquiteturas e tarefas de aprendizado supervisionado.

Pedro Jiménez-González, Miguel C. Soriano, Lucas Lacasa2026-03-10🤖 cs.LG

EROICA: Online Performance Troubleshooting for Large-scale Model Training

O artigo apresenta o EROICA, o primeiro sistema de diagnóstico online que utiliza perfis de execução e observabilidade diferencial para identificar e resolver problemas de desempenho em clusters de treinamento de grandes modelos com até 100.000 GPUs, alcançando uma taxa de sucesso de 97,5% em ambientes de produção.

Yu Guan, Zhiyu Yin, Haoyu Chen, Sheng Cheng, Chaojie Yang, Kun Qian, Tianyin Xu, Pengcheng Zhang, Yang Zhang, Hanyu Zhao, Yong Li, Wei Lin, Dennis Cai, Ennan Zhai2026-03-10🤖 cs.LG

BemaGANv2: Discriminator Combination Strategies for GAN-based Vocoders in Long-Term Audio Generation

O artigo apresenta o BemaGANv2, um vocoder baseado em GAN aprimorado para geração de áudio de longo prazo, que substitui blocos Res por módulos AMP com função de ativação Snake e integra o Discriminador Multi-Envelope (MED) ao Discriminador Multi-Resolução (MRD) para otimizar a coerência temporal e a estrutura harmônica através de uma avaliação sistemática de estratégias de combinação de discriminadores.

Taesoo Park, Mungwi Jeong, Mingyu Park, Narae Kim, Junyoung Kim, Mujung Kim, Jisang Yoo, Hoyun Lee, Sanghoon Kim, Soonchul Kwon2026-03-10🤖 cs.LG

Co-LoRA: Collaborative Model Personalization on Heterogeneous Multi-Modal Clients

O artigo propõe o Co-LoRA, um método de aprendizado federado personalizado que utiliza uma estratégia de agregação consciente da relevância da tarefa e um módulo invariante de dimensão para superar a heterogeneidade de dados e modelos em cenários multi-modais, superando os métodos atuais e introduzindo um novo benchmark abrangente.

Minhyuk Seo, Taeheon Kim, Hankook Lee, Jonghyun Choi, Tinne Tuytelaars2026-03-10🤖 cs.LG

Efficient Algorithms for Logistic Contextual Slate Bandits with Bandit Feedback

Este artigo propõe e valida os algoritmos Slate-GLM-OFU e Slate-GLM-TS para o problema de Bandit Contextual de Slates Logístico, os quais alcançam baixo arrependimento e eficiência computacional através de planejamento local e aprendizado global, demonstrando eficácia tanto em ambientes sintéticos quanto na seleção de exemplos para prompts de modelos de linguagem.

Tanmay Goyal, Gaurav Sinha2026-03-10🤖 cs.LG

Sharpness-Aware Machine Unlearning

O artigo propõe o método "Sharp MinMax", que combina minimização e maximização de sensibilidade (sharpness) para melhorar o desaprendizado de máquina, permitindo que modelos aprendam com menos dados de retenção enquanto apagam efetivamente informações indesejadas, resultando em menor entrelaçamento de características e maior resistência a ataques de inferência de associação.

Haoran Tang, Rajiv Khanna2026-03-10🤖 cs.LG

Kolmogorov-Arnold Energy Models: Fast, Interpretable Generative Modeling

O artigo apresenta o Modelo de Energia Kolmogorov-Arnold (KAEM), uma nova abordagem de modelagem generativa que equilibra eficiência e interpretabilidade ao utilizar uma estrutura de latência univariada para permitir inferência exata e rápida, complementada por estratégias de amostragem avançadas para superar limitações comuns em modelos baseados em energia.

Prithvi Raj2026-03-10🤖 cs.LG

From Semantic To Instance: A Semi-Self-Supervised Learning Approach

Este artigo apresenta o GLMask, uma abordagem de aprendizado semi-autossupervisionado que transforma segmentação semântica em segmentação de instâncias com mínima anotação manual, alcançando desempenho superior tanto na detecção de espigas de trigo quanto no conjunto de dados COCO.

Keyhan Najafian, Farhad Maleki, Lingling Jin, Ian Stavness2026-03-10🤖 cs.LG

Adaptive Batch-Wise Sample Scheduling for Direct Preference Optimization

Este trabalho apresenta o SamS, um algoritmo eficiente que otimiza o alinhamento de modelos de linguagem com preferências humanas através da seleção adaptativa de amostras por lote durante o processo de Otimização Direta de Preferência (DPO), melhorando significativamente o desempenho sem alterar o algoritmo central ou adicionar custos computacionais substanciais.

Zixuan Huang, Yikun Ban, Lean Fu, Xiaojie Li, Zhongxiang Dai, Jianxin Li, Deqing Wang2026-03-10🤖 cs.LG

DemoDiffusion: One-Shot Human Imitation using pre-trained Diffusion Policy

O artigo apresenta o DemoDiffusion, um método simples que permite a robôs realizar tarefas de manipulação imitando uma única demonstração humana, combinando a redestinação cinemática com uma política de difusão pré-treinada para gerar trajetórias robustas sem necessidade de treinamento específico ou dados pareados.

Sungjae Park, Homanga Bharadhwaj, Shubham Tulsiani2026-03-10🤖 cs.LG

Adopting a human developmental visual diet yields robust, shape-based AI vision

Este artigo demonstra que orientar sistemas de IA através de uma "dieta visual" inspirada no desenvolvimento humano, focada na maturação da acuidade, sensibilidade ao contraste e cor, resulta em modelos de visão artificial mais robustos, que priorizam a forma em vez da textura e apresentam maior resiliência a distorções e ataques adversariais.

Zejin Lu, Sushrut Thorat, Radoslaw M Cichy, Tim C Kietzmann2026-03-10🤖 cs.LG

Noisy PDE Training Requires Bigger PINNs

O artigo demonstra que, na presença de dados ruidosos, as Redes Neurais Informadas por Física (PINNs) exigem um tamanho de modelo significativamente maior para reduzir o risco empírico abaixo da variância do ruído, estabelecendo limites inferiores quantitativos para o número de parâmetros necessários em equações como Hamilton-Jacobi-Bellman, Poisson e Navier-Stokes.

Sebastien Andre-Sloan, Anirbit Mukherjee, Matthew Colbrook2026-03-10🤖 cs.LG

Towards Practical Benchmarking of Data Cleaning Techniques: On Generating Authentic Errors via Large Language Models

Este trabalho apresenta o TableEG, um framework que utiliza modelos de linguagem grandes (LLMs) ajustados para gerar erros sintéticos autênticos em tabelas, preenchendo a lacuna entre dados reais e sintéticos e estabelecendo um benchmark robusto para a avaliação de técnicas de detecção e correção de erros.

Xinyuan Liu, Jiahui Chen, Bocheng Hu, Yu Sun, Xinyang Chen, Shaoxu Song, Yongxin Tong2026-03-10🤖 cs.LG

A Robust Incomplete Multimodal Low-Rank Adaptation Approach for Emotion Recognition

Este artigo apresenta o MCULoRA, uma abordagem inovadora de adaptação de baixo rank que decopla informações compartilhadas e ajusta dinamicamente o treinamento para superar conflitos de gradientes e melhorar o reconhecimento de emoções em cenários multimodais incompletos.

Xinkui Zhao, Jinsong Shu, Yangyang Wu, Guanjie Cheng, Zihe Liu, Naibo Wang, Shuiguang Deng, Zhongle Xie, Jianwei Yin2026-03-10💻 cs

← Anterior Próximo →