EsoLang-Bench: Evaluating Genuine Reasoning in Large Language Models via Esoteric Programming Languages

O artigo apresenta o EsoLang-Bench, um novo benchmark que utiliza linguagens de programação esotéricas para avaliar o raciocínio genuíno de modelos de linguagem, revelando que, apesar de seu alto desempenho em tarefas de codificação convencionais, eles falham drasticamente ao aprender novas linguagens a partir de documentação, indicando que seus resultados anteriores derivam mais de memorização do que de capacidade de raciocínio transferível.

Aman Sharma, Paras Chopra2026-03-11🤖 cs.AI

On Catastrophic Forgetting in Low-Rank Decomposition-Based Parameter-Efficient Fine-Tuning

Este trabalho demonstra que o esquecimento catastrófico no ajuste fino eficiente de parâmetros baseado em decomposição de baixo posto é fortemente influenciado pela geometria e parametrização do subespaço de atualização, destacando que abordagens tensoriais e alinhadas estruturalmente mitigam esse problema ao preservar representações pré-treinadas em cenários de aprendizado sequencial.

Muhammad Ahmad, Jingjing Zheng, Yankai Cao2026-03-11🤖 cs.LG

ActiveUltraFeedback: Efficient Preference Data Generation using Active Learning

O artigo apresenta o ActiveUltraFeedback, um pipeline de aprendizado ativo que utiliza estimativas de incerteza e métodos inovadores de seleção de pares de respostas para gerar dados de preferência de alta qualidade, permitindo o alinhamento eficiente de modelos de linguagem com até seis vezes menos dados anotados em comparação com baselines estáticas.

Davit Melikidze, Marian Schneider, Jessica Lam, Martin Wertich, Ido Hakimi, Barna Pásztor, Andreas Krause2026-03-11🤖 cs.AI

Mousse: Rectifying the Geometry of Muon with Curvature-Aware Preconditioning

O artigo apresenta o Mousse, um novo otimizador que melhora o método Muon ao incorporar a estimativa estrutural do Shampoo para criar um sistema de coordenadas branqueado, permitindo atualizações espectrais adaptativas à curvatura que reduzem o número de etapas de treinamento em cerca de 12% com custo computacional insignificante.

Yechen Zhang, Shuhao Xing, Junhao Huang, Kai Lv, Yunhua Zhou, Xipeng Qiu, Qipeng Guo, Kai Chen2026-03-11🤖 cs.AI

A Multi-Prototype-Guided Federated Knowledge Distillation Approach in AI-RAN Enabled Multi-Access Edge Computing System

Este artigo propõe uma abordagem de destilação de conhecimento federada guiada por múltiplos protótipos (MP-FedKD) para sistemas de computação de borda multiacesso habilitados por IA-RAN, que utiliza agrupamento hierárquico aglomerativo condicional e uma nova função de perda para mitigar a heterogeneidade de dados não independentes e identicamente distribuídos (não-IID) e evitar a perda de informações inerente às estratégias de protótipo único.

Luyao Zou, Hayoung Oh, Chu Myaet Thwal, Apurba Adhikary, Seohyeon Hong, Zhu Han2026-03-11🤖 cs.LG

Upper Generalization Bounds for Neural Oscillators

Este artigo estabelece limites superiores de generalização para osciladores neurais baseados em equações diferenciais de segunda ordem, demonstrando teoricamente que seus erros de estimação crescem polinomialmente com o tamanho da rede e o tempo, evitando a maldição da complexidade paramétrica, e validando que a regularização das constantes de Lipschitz melhora o desempenho em sistemas não lineares sob excitação sísmica estocástica.

Zifeng Huang, Konstantin M. Zuev, Yong Xia, Michael Beer2026-03-11🤖 cs.LG

Global universality via discrete-time signatures

O artigo estabelece teoremas de aproximação universal global para funcionais de trajetórias lineares por partes, demonstrando que os funcionais lineares das assinaturas correspondentes são densos sob certas condições de integrabilidade, o que permite obter resultados de aproximação para funcionais dependentes de trajetória, equações diferenciais ordinárias aleatórias e equações diferenciais estocásticas impulsionadas por movimento browniano.

Mihriban Ceylan, David J. Prömel2026-03-11🤖 cs.LG

What is Missing? Explaining Neurons Activated by Absent Concepts

Este artigo demonstra que conceitos ausentes, cuja falta ativa neurônios, são comuns em redes neurais e frequentemente ignorados pelos métodos padrão de IA explicável, propondo extensões simples para técnicas de atribuição e visualização de recursos a fim de revelar e explorar essas "ausências codificadas" para melhorar a interpretabilidade e a mitigação de viés.

Robin Hesse, Simone Schaub-Meyer, Janina Hesse, Bernt Schiele, Stefan Roth2026-03-11🤖 cs.LG

Good Reasoning Makes Good Demonstrations: Implicit Reasoning Quality Supervision via In-Context Reinforcement Learning

O artigo propõe o "In-Context RLVR", um método que utiliza a capacidade de aprendizado em contexto do próprio modelo para medir a utilidade das demonstrações e reponderar implicitamente as recompensas, priorizando traços de raciocínio de alta qualidade e melhorando assim tanto a precisão quanto a qualidade do raciocínio em benchmarks matemáticos.

Tiehua Mei, Minxuan Lv, Leiyu Pan, Zhenpeng Su, Hongru Hou, Hengrui Chen, Ao Xu, Deqing Yang2026-03-11🤖 cs.LG

A Unified Hierarchical Multi-Task Multi-Fidelity Framework for Data-Efficient Surrogate Modeling in Manufacturing

Este artigo apresenta um novo framework hierárquico de aprendizado multi-tarefa e multi-fidelidade baseado em processos gaussianos que unifica a exploração de similaridades entre tarefas e a heterogeneidade dos dados para criar modelos substitutos mais precisos e eficientes em termos de dados para sistemas de manufatura.

Manan Mehta, Zhiqiao Dong, Yuhang Yang, Chenhui Shao2026-03-11🤖 cs.LG

GAST: Gradient-aligned Sparse Tuning of Large Language Models with Data-layer Selection

O artigo apresenta o GAST, um método inovador de ajuste fino eficiente em parâmetros que otimiza simultaneamente a seleção de dados e de camadas em modelos de linguagem grandes, superando as abordagens existentes ao adaptar dinamicamente os pontos de dados mais impactantes para cada camada específica.

Kai Yao, Zhenghan Song, Kaixin Wu, Mingjie Zhong, Danzhao Cheng, Zhaorui Tan, Yixin Ji, Penglei Gao2026-03-11🤖 cs.LG

CarbonBench: A Global Benchmark for Upscaling of Carbon Fluxes Using Zero-Shot Learning

O artigo apresenta o CarbonBench, o primeiro benchmark global padronizado que utiliza mais de 1,3 milhão de observações de fluxos de carbono para avaliar e comparar rigorosamente métodos de aprendizado zero-shot na generalização espacial de modelos de troca de carbono terrestre entre diferentes ecossistemas e regimes climáticos.

Aleksei Rozanov, Arvind Renganathan, Yimeng Zhang, Vipin Kumar2026-03-11🤖 cs.LG