cs.LG artigos | Gist.Science

EsoLang-Bench: Evaluating Genuine Reasoning in Large Language Models via Esoteric Programming Languages

O artigo apresenta o EsoLang-Bench, um novo benchmark que utiliza linguagens de programação esotéricas para avaliar o raciocínio genuíno de modelos de linguagem, revelando que, apesar de seu alto desempenho em tarefas de codificação convencionais, eles falham drasticamente ao aprender novas linguagens a partir de documentação, indicando que seus resultados anteriores derivam mais de memorização do que de capacidade de raciocínio transferível.

Aman Sharma, Paras Chopra2026-03-11🤖 cs.AI

On Catastrophic Forgetting in Low-Rank Decomposition-Based Parameter-Efficient Fine-Tuning

Este trabalho demonstra que o esquecimento catastrófico no ajuste fino eficiente de parâmetros baseado em decomposição de baixo posto é fortemente influenciado pela geometria e parametrização do subespaço de atualização, destacando que abordagens tensoriais e alinhadas estruturalmente mitigam esse problema ao preservar representações pré-treinadas em cenários de aprendizado sequencial.

Muhammad Ahmad, Jingjing Zheng, Yankai Cao2026-03-11🤖 cs.LG

ActiveUltraFeedback: Efficient Preference Data Generation using Active Learning

O artigo apresenta o ActiveUltraFeedback, um pipeline de aprendizado ativo que utiliza estimativas de incerteza e métodos inovadores de seleção de pares de respostas para gerar dados de preferência de alta qualidade, permitindo o alinhamento eficiente de modelos de linguagem com até seis vezes menos dados anotados em comparação com baselines estáticas.

Davit Melikidze, Marian Schneider, Jessica Lam, Martin Wertich, Ido Hakimi, Barna Pásztor, Andreas Krause2026-03-11🤖 cs.AI

Physics-informed neural operator for predictive parametric phase-field modelling

Este trabalho apresenta o PF-PINO, um operador neural informado pela física que supera os métodos convencionais ao garantir maior precisão, generalização e estabilidade de longo prazo na modelagem paramétrica de evolução microestrutural complexa, como corrosão e solidificação.

Nanxi Chen, Airong Chen, Rujin Ma2026-03-11🔬 cond-mat.mtrl-sci

Mousse: Rectifying the Geometry of Muon with Curvature-Aware Preconditioning

O artigo apresenta o Mousse, um novo otimizador que melhora o método Muon ao incorporar a estimativa estrutural do Shampoo para criar um sistema de coordenadas branqueado, permitindo atualizações espectrais adaptativas à curvatura que reduzem o número de etapas de treinamento em cerca de 12% com custo computacional insignificante.

Yechen Zhang, Shuhao Xing, Junhao Huang, Kai Lv, Yunhua Zhou, Xipeng Qiu, Qipeng Guo, Kai Chen2026-03-11🤖 cs.AI

A Multi-Prototype-Guided Federated Knowledge Distillation Approach in AI-RAN Enabled Multi-Access Edge Computing System

Este artigo propõe uma abordagem de destilação de conhecimento federada guiada por múltiplos protótipos (MP-FedKD) para sistemas de computação de borda multiacesso habilitados por IA-RAN, que utiliza agrupamento hierárquico aglomerativo condicional e uma nova função de perda para mitigar a heterogeneidade de dados não independentes e identicamente distribuídos (não-IID) e evitar a perda de informações inerente às estratégias de protótipo único.

Luyao Zou, Hayoung Oh, Chu Myaet Thwal, Apurba Adhikary, Seohyeon Hong, Zhu Han2026-03-11🤖 cs.LG

Upper Generalization Bounds for Neural Oscillators

Este artigo estabelece limites superiores de generalização para osciladores neurais baseados em equações diferenciais de segunda ordem, demonstrando teoricamente que seus erros de estimação crescem polinomialmente com o tamanho da rede e o tempo, evitando a maldição da complexidade paramétrica, e validando que a regularização das constantes de Lipschitz melhora o desempenho em sistemas não lineares sob excitação sísmica estocástica.

Zifeng Huang, Konstantin M. Zuev, Yong Xia, Michael Beer2026-03-11🤖 cs.LG

Global universality via discrete-time signatures

O artigo estabelece teoremas de aproximação universal global para funcionais de trajetórias lineares por partes, demonstrando que os funcionais lineares das assinaturas correspondentes são densos sob certas condições de integrabilidade, o que permite obter resultados de aproximação para funcionais dependentes de trajetória, equações diferenciais ordinárias aleatórias e equações diferenciais estocásticas impulsionadas por movimento browniano.

Mihriban Ceylan, David J. Prömel2026-03-11🤖 cs.LG

What is Missing? Explaining Neurons Activated by Absent Concepts

Este artigo demonstra que conceitos ausentes, cuja falta ativa neurônios, são comuns em redes neurais e frequentemente ignorados pelos métodos padrão de IA explicável, propondo extensões simples para técnicas de atribuição e visualização de recursos a fim de revelar e explorar essas "ausências codificadas" para melhorar a interpretabilidade e a mitigação de viés.

Robin Hesse, Simone Schaub-Meyer, Janina Hesse, Bernt Schiele, Stefan Roth2026-03-11🤖 cs.LG

A Hybrid Quantum-Classical Framework for Financial Volatility Forecasting Based on Quantum Circuit Born Machines

Este artigo propõe e valida um framework híbrido quântico-clássico que combina redes LSTM com Máquinas de Nascimento de Circuitos Quânticos (QCBM) para prever a volatilidade financeira, demonstrando superioridade em métricas de erro em comparação com modelos puramente clássicos em dados reais do mercado chinês.

Yixiong Chen2026-03-11⚛️ quant-ph

Exploiting Label-Aware Channel Scoring for Adaptive Channel Pruning in Split Learning

Este artigo propõe o esquema ACP-SL, que utiliza um módulo de pontuação de importância de canais sensível ao rótulo para realizar a poda adaptativa de canais no aprendizado dividido, reduzindo assim a sobrecarga de comunicação sem comprometer a precisão.

Jialei Tan, Zheng Lin, Xiangming Cai, Ruoxi Zhu, Zihan Fang, Pingping Chen, Wei Ni2026-03-11🤖 cs.AI

Information Theoretic Bayesian Optimization over the Probability Simplex

Este artigo apresenta o $\alpha$ -GaBO, uma nova família de algoritmos de otimização bayesiana fundamentada na geometria da informação para otimizar funções no simplex de probabilidade, demonstrando superioridade em relação às abordagens euclidianas convencionais em diversas aplicações reais.

Federico Pavesi, Antonio Candelieri, Noémie Jaquier2026-03-11🤖 cs.LG

Good Reasoning Makes Good Demonstrations: Implicit Reasoning Quality Supervision via In-Context Reinforcement Learning

O artigo propõe o "In-Context RLVR", um método que utiliza a capacidade de aprendizado em contexto do próprio modelo para medir a utilidade das demonstrações e reponderar implicitamente as recompensas, priorizando traços de raciocínio de alta qualidade e melhorando assim tanto a precisão quanto a qualidade do raciocínio em benchmarks matemáticos.

Tiehua Mei, Minxuan Lv, Leiyu Pan, Zhenpeng Su, Hongru Hou, Hengrui Chen, Ao Xu, Deqing Yang2026-03-11🤖 cs.LG

Correction of Transformer-Based Models with Smoothing Pseudo-Projector

Este artigo apresenta o "pseudo-projetor", uma modificação leve inspirada no paradigma multigrid que atua como um corretor de representações ocultas para reduzir a sensibilidade ao ruído e melhorar a dinâmica de treinamento e a robustez em modelos baseados em transformers, sem alterar sua arquitetura central.

Vitaly Bulgakov2026-03-11🤖 cs.AI

A Unified Hierarchical Multi-Task Multi-Fidelity Framework for Data-Efficient Surrogate Modeling in Manufacturing

Este artigo apresenta um novo framework hierárquico de aprendizado multi-tarefa e multi-fidelidade baseado em processos gaussianos que unifica a exploração de similaridades entre tarefas e a heterogeneidade dos dados para criar modelos substitutos mais precisos e eficientes em termos de dados para sistemas de manufatura.

Manan Mehta, Zhiqiao Dong, Yuhang Yang, Chenhui Shao2026-03-11🤖 cs.LG

A Graph-Based Approach to Spectrum Demand Prediction Using Hierarchical Attention Networks

Este artigo apresenta o HR-GAT, um modelo de rede de atenção hierárquica baseado em grafos que utiliza dados geoespaciais para prever a demanda de espectro com 21% mais precisão que modelos existentes, superando desafios de autocorrelação espacial em cinco cidades canadenses.

Mohamad Alkadamani, Halim Yanikomeroglu, Amir Ghasemi2026-03-11🤖 cs.AI

GAST: Gradient-aligned Sparse Tuning of Large Language Models with Data-layer Selection

O artigo apresenta o GAST, um método inovador de ajuste fino eficiente em parâmetros que otimiza simultaneamente a seleção de dados e de camadas em modelos de linguagem grandes, superando as abordagens existentes ao adaptar dinamicamente os pontos de dados mais impactantes para cada camada específica.

Kai Yao, Zhenghan Song, Kaixin Wu, Mingjie Zhong, Danzhao Cheng, Zhaorui Tan, Yixin Ji, Penglei Gao2026-03-11🤖 cs.LG

CarbonBench: A Global Benchmark for Upscaling of Carbon Fluxes Using Zero-Shot Learning

O artigo apresenta o CarbonBench, o primeiro benchmark global padronizado que utiliza mais de 1,3 milhão de observações de fluxos de carbono para avaliar e comparar rigorosamente métodos de aprendizado zero-shot na generalização espacial de modelos de troca de carbono terrestre entre diferentes ecossistemas e regimes climáticos.

Aleksei Rozanov, Arvind Renganathan, Yimeng Zhang, Vipin Kumar2026-03-11🤖 cs.LG

MSSR: Memory-Aware Adaptive Replay for Continual LLM Fine-Tuning

O artigo propõe o MSSR, um framework de replay adaptativo que estima a força de memória em nível de amostra e agenda a reutilização de dados em intervalos dinâmicos para mitigar o esquecimento catastrófico durante o ajuste contínuo de grandes modelos de linguagem, superando os métodos existentes em eficiência e desempenho.

Yiyang Lu, Yu He, Jianlong Chen, Hongyuan Zha2026-03-11🤖 cs.AI

OptEMA: Adaptive Exponential Moving Average for Stochastic Optimization with Zero-Noise Optimality

O artigo apresenta o OptEMA, um otimizador adaptativo baseado em Média Móvel Exponencial que, ao eliminar a necessidade de constantes de Lipschitz e parâmetros pré-definidos, garante taxas de convergência quase ótimas no regime sem ruído e adaptativas ao nível de ruído sob condições padrão de descida de gradiente estocástica.

Ganzhao Yuan2026-03-11🤖 cs.LG

← Anterior Próximo →