Scaling Agentic Capabilities, Not Context: Efficient Reinforcement Finetuning for Large Toolspaces

O artigo apresenta o ATLAS, um framework de ajuste fino por reforço que permite que modelos de linguagem pequenos operem eficazmente em grandes ecossistemas de ferramentas, tratando o controle de contexto e a estrutura de execução como decisões aprendíveis e utilizando um refinamento baseado em rubricas para superar limitações de contexto e recompensas esparsas.

Karan Gupta, Pranav Vajreshwari, Yash Pandya, Raghav Magazine, Akshay Nambi, Ahmed Awadallah2026-03-10🤖 cs.LG

From Statistical Fidelity to Clinical Consistency: Scalable Generation and Auditing of Synthetic Patient Trajectories

Este artigo apresenta um pipeline integrado que combina geração de alta fidelidade e auditoria automatizada com modelos de linguagem para produzir trajetórias de pacientes sintéticos clinicamente consistentes e seguros, superando as limitações de métodos anteriores e permitindo o treinamento eficaz de modelos downstream sem riscos de privacidade.

Guanglin Zhou, Armin Catic, Motahare Shabestari, Matthew Young, Chaiquan Li, Katrina Poppe, Sebastiano Barbieri2026-03-10🤖 cs.LG

Regression Models Meet Foundation Models: A Hybrid-AI Approach to Practical Electricity Price Forecasting

O artigo propõe o FutureBoosting, uma abordagem híbrida que integra previsões de modelos fundacionais de séries temporais como recursos enriquecidos em modelos de regressão, resultando em uma melhoria superior a 30% na precisão da previsão de preços de eletricidade em comparação com os métodos mais avançados.

Yunzhong Qiu, Binzhu Li, Hao Wei, Shenglin Weng, Chen Wang, Zhongyi Pei, Mingsheng Long, Jianmin Wang2026-03-10🤖 cs.LG

Safe Transformer: An Explicit Safety Bit For Interpretable And Controllable Alignment

O artigo propõe o "Safe Transformer", uma abordagem modular que insere um "bit de segurança" explícito e controlável entre as camadas de modelos de linguagem pré-treinados, permitindo que a decisão de segurança seja diretamente interpretável e manipulável sem a necessidade de um pré-treinamento do zero, enquanto mantém a capacidade de geração e alcança taxas de sucesso de ataque próximas de zero em benchmarks de teste de segurança.

Jingyuan Feng, Andrew Gambardella, Gouki Minegishi, Takeshi Kojima, Yusuke Iwasawa, Yutaka Matsuo2026-03-10🤖 cs.LG

Orion: Characterizing and Programming Apple's Neural Engine for LLM Training and Inference

O artigo apresenta o Orion, o primeiro sistema de ponta a ponta que permite o treinamento e inferência estáveis de modelos de linguagem diretamente na Neural Engine da Apple, contornando as limitações do CoreML através de APIs privadas, descobrindo novas restrições de hardware e otimizando o processo de treinamento ao reduzir drasticamente o tempo de recompilação de pesos.

Ramchand Kumaresan2026-03-10🤖 cs.LG

Don't Freeze, Don't Crash: Extending the Safe Operating Range of Neural Navigation in Dense Crowds

O artigo propõe uma abordagem de aprendizado por reforço que utiliza codificação de observação invariante à densidade e recompensas adaptativas para permitir que agentes de navegação social generalizem com sucesso para multidões mais densas do que as vistas no treinamento, evitando tanto colisões quanto o congelamento em interações complexas.

Jiefu Zhang, Yang Xu, Vaneet Aggarwal2026-03-10🤖 cs.LG

PolyBlocks: A Compiler Infrastructure for AI Chips and Programming Frameworks

O artigo apresenta o PolyBlocks, uma infraestrutura de compilador modular baseada em MLIR para frameworks e chips de IA, que utiliza pipelines de passagens e modelos de custo analíticos para gerar automaticamente código de alto desempenho, demonstrando resultados competitivos com soluções como Torch Inductor e XLA em GPUs NVIDIA.

Uday Bondhugula, Akshay Baviskar, Navdeep Katel, Vimal Patel, Anoop JS, Arnab Dutta2026-03-10🤖 cs.LG

Calibrated Credit Intelligence: Shift-Robust and Fair Risk Scoring with Bayesian Uncertainty and Gradient Boosting

O artigo propõe o framework Calibrated Credit Intelligence (CCI), que combina pontuação neural bayesiana, gradient boosting com restrições de justiça e uma estratégia de fusão adaptada a mudanças de distribuição para gerar pontuações de risco de crédito precisas, bem calibradas e equitativas em cenários de implantação real com desvio temporal.

Srikumar Nayak2026-03-10🤖 cs.LG

Rank-Factorized Implicit Neural Bias: Scaling Super-Resolution Transformer with FlashAttention

O artigo propõe o viés neural implícito fatorado por posto (RIB), uma alternativa ao viés posicional relativo que permite o uso do FlashAttention em Transformers de super-resolução, possibilitando o escalonamento de janelas de atenção e patches de treinamento para alcançar desempenho superior com redução significativa no tempo de treinamento e inferência.

Dongheon Lee, Seokju Yun, Jaegyun Im, Youngmin Ro2026-03-10🤖 cs.LG

Heterogeneous Decentralized Diffusion Models

Este artigo apresenta um framework eficiente para modelos de difusão descentralizados heterogêneos que permite o treinamento de especialistas com objetivos distintos (DDPM e Flow Matching) sem sincronização, reduzindo drasticamente os requisitos computacionais e de dados em comparação com abordagens anteriores enquanto mantém ou melhora a qualidade e a diversidade das imagens geradas.

Zhiying Jiang, Raihan Seraj, Marcos Villagra, Bidhan Roy2026-03-10🤖 cs.LG

Stabilizing Reinforcement Learning for Diffusion Language Models

O artigo propõe o StableDRL, um método de otimização de política reformulado que utiliza clipping incondicional e auto-normalização para estabilizar o treinamento de modelos de linguagem difusivos com GRPO, superando o colapso de recompensa causado pela incompatibilidade entre as estimativas ruidosas de razão de importância e a formulação padrão do algoritmo.

Jianyuan Zhong, Kaibo Wang, Ding Ding, Zijin Feng, Haoli Bai, Yang Xiang, Jiacheng Sun, Qiang Xu2026-03-10🤖 cs.LG

Enhancing Instruction Following of LLMs via Activation Steering with Dynamic Rejection

O artigo apresenta o DIRECTER, um novo método de direcionamento de ativação que utiliza um loop de decodificação guiado por plausibilidade e uma análise de sensibilidade leve para modular dinamicamente a força do direcionamento, melhorando significativamente a capacidade de seguir instruções de modelos de linguagem sem comprometer a qualidade do texto ou a fidelidade da tarefa.

Minjae Kang, Jaehyung Kim2026-03-10🤖 cs.LG

Implementation of Quantum Implicit Neural Representation in Deterministic and Probabilistic Autoencoders for Image Reconstruction/Generation Tasks

Este artigo propõe e valida autoencoders e autoencoders variacionais híbridos quântico-clássicos baseados em Representação Neural Implícita Quântica (QINR), demonstrando que essa arquitetura supera modelos como QGANs na geração e reconstrução de imagens ao produzir detalhes nítidos e maior diversidade com poucos parâmetros e dados.

Saadet Müzehher Eren2026-03-10⚛️ quant-ph

Learning Unbiased Cluster Descriptors for Interpretable Imbalanced Concept Drift Detection

O artigo propõe o método ICD3, uma abordagem de detecção de mudança de conceito baseada em descritores de cluster imparciais que identifica e monitora individualmente conceitos minoritários em dados desbalanceados, superando o efeito de mascaramento causado por grandes clusters e oferecendo alta interpretabilidade.

Yiqun Zhang, Zhanpei Huang, Mingjie Zhao, Chuyao Zhang, Yang Lu, Yuzhu Ji, Fangqing Gu, An Zeng2026-03-10🤖 cs.LG