Feed m Birds with One Scone: Accelerating Multi-task Gradient Balancing via Bi-level Optimization

Este artigo apresenta o MARIGOLD, um novo framework unificado que resolve problemas de aprendizado multi-tarefa de forma eficiente ao modelar o equilíbrio de gradientes como um problema de otimização bi-nível e aplicando métodos de ordem zero para superar as limitações computacionais de abordagens anteriores.

Xuxing Chen, Yun He, Jiayi Xu, Minhui Huang, Xiaoyi Liu, Boyang Liu, Fei Tian, Xiaohan Wei, Rong Jin, Sem Park, Bo Long, Xue Feng2026-03-10🤖 cs.LG

Context Channel Capacity: An Information-Theoretic Framework for Understanding Catastrophic Forgetting

Este artigo propõe um novo quadro teórico baseado na "Capacidade do Canal de Contexto" para explicar e prever o esquecimento catastrófico na aprendizagem contínua, demonstrando que arquiteturas que garantem um caminho de contexto estruturalmente obrigatório (como HyperNetworks) superam as limitações teóricas de métodos baseados em algoritmos e alcançam a retenção perfeita de tarefas.

Ran Cheng2026-03-10🤖 cs.LG

Generalization in Online Reinforcement Learning for Mobile Agents

Este trabalho apresenta o benchmark AndroidWorld-Generalization e um sistema de treinamento de aprendizado por reforço baseado em GRPO para avaliar e melhorar a generalização zero-shot de agentes móveis baseados em modelos de linguagem e visão, demonstrando ganhos significativos em instâncias não vistas, mas desafios persistentes na generalização para novos aplicativos e templates.

Li Gu, Zihuan Jiang, Zhixiang Chi, Huan Liu, Ziqiang Wang, Yuanhao Yu, Glen Berseth, Yang Wang2026-03-10🤖 cs.LG

Data Agent: Learning to Select Data via End-to-End Dynamic Optimization

O artigo apresenta o "Data Agent", um quadro de seleção de dados dinâmico e de ponta a ponta que formula a seleção como um problema de decisão sequencial orientada pelo treinamento, aprendendo uma política de amostragem que evolui junto com a otimização do modelo para acelerar o treinamento e reduzir custos em mais de 50% sem perda de desempenho em diversas tarefas e arquiteturas.

Suorong Yang, Fangjian Su, Hai Gan, Ziqi Ye, Jie Li, Baile Xu, Furao Shen, Soujanya Poria2026-03-10🤖 cs.LG

Cost-Driven Representation Learning for Linear Quadratic Gaussian Control: Part II

Este artigo apresenta garantias de amostragem finita para o aprendizado de representações de estado orientado a custos no controle Linear Quadrático Gaussiano (LQG) de horizonte infinito, explorando duas abordagens distintas — uma com dinâmica latente explícita e outra implícita, semelhante ao MuZero — e estabelecendo uma contribuição técnica fundamental sobre a persistência de excitação em um novo processo estocástico.

Yi Tian, Kaiqing Zhang, Russ Tedrake, Suvrit Sra2026-03-10🤖 cs.LG

Dial: A Knowledge-Grounded Dialect-Specific NL2SQL System

O artigo apresenta o Dial, um sistema de NL2SQL baseado em conhecimento que supera as limitações dos métodos existentes ao gerar consultas SQL semanticamente corretas e executáveis em diversos dialetos de banco de dados, utilizando planejamento lógico consciente de dialeto, uma base de conhecimento hierárquica e um ciclo de depuração orientado à execução.

Xiang Zhang, Hongming Xu, Le Zhou, Wei Zhou, Xuanhe Zhou, Guoliang Li, Yuyu Luo, Changdong Liu, Guorun Chen, Jiang Liao, Fan Wu2026-03-10🤖 cs.LG

Towards Lightweight Adaptation of Speech Enhancement Models in Real-World Environments

Este trabalho propõe um framework leve para adaptação on-device de modelos de aprimoramento de fala em ambientes acústicos dinâmicos, que atualiza menos de 1% dos parâmetros do modelo base via adaptadores de baixo posto e treinamento auto-supervisionado, alcançando melhorias significativas na qualidade perceptiva com rápida convergência em cenários de ruído desafiadores.

Longbiao Cheng, Shih-Chii Liu2026-03-10🤖 cs.LG