cs.LG artigos | Gist.Science

Code-Space Response Oracles: Generating Interpretable Multi-Agent Policies with Large Language Models

O artigo apresenta o Code-Space Response Oracles (CSRO), um novo framework que substitui os oráculos de aprendizado por reforço tradicionais por Grandes Modelos de Linguagem (LLMs) para gerar políticas multiagente interpretáveis na forma de código, permitindo a descoberta de estratégias complexas e explicáveis com desempenho competitivo.

Daniel Hennes, Zun Li, John Schultz, Marc Lanctot2026-03-12🤖 cs.AI

Denoising the US Census: Succinct Block Hierarchical Regression

Este trabalho apresenta o BlueDown, um novo método de pós-processamento que utiliza regressão hierárquica de mínimos quadrados generalizados e operações algébricas concisas para gerar estimativas demográficas mais precisas e consistentes do que o método TopDown atual, mantendo as mesmas garantias de privacidade e restrições estruturais do Sistema de Evitação de Divulgação do Censo dos EUA.

Badih Ghazi, Pritish Kamath, Ravi Kumar, Pasin Manurangsi, Adam Sealfon2026-03-12🤖 cs.LG

Hardware Efficient Approximate Convolution with Tunable Error Tolerance for CNNs

O artigo propõe uma nova abordagem de "esparsidade suave" baseada em um proxy de bit significativo mais alto (MSB) integrada como instrução RISC-V personalizada, que reduz drasticamente as operações de multiplicação e acumulação (MACs) e o consumo de energia em CNNs para inferência em dispositivos de borda, superando significativamente os métodos tradicionais de esparsidade rígida sem perda de precisão.

Vishal Shashidhar, Anupam Kumari, Roy P Paily2026-03-12🤖 cs.LG

CLIPO: Contrastive Learning in Policy Optimization Generalizes RLVR

O artigo apresenta o CLIPO, um método que generaliza o Aprendizado por Reforço com Recompensas Verificáveis (RLVR) ao incorporar aprendizado contrastivo na otimização de políticas, permitindo que modelos de linguagem capturem a estrutura invariante de raciocínios corretos e, assim, mitiguem inconsistências e alucinações em etapas intermediárias, resultando em melhor generalização e robustez.

Sijia Cui, Pengyu Cheng, Jiajun Song, Yongbo Gai, Guojun Zhang, Zhechao Yu, Jianhe Lin, Xiaoxi Jiang, Guanjun Jiang2026-03-12🤖 cs.LG

Lost in the Middle at Birth: An Exact Theory of Transformer Position Bias

Este artigo demonstra que o fenômeno "Lost in the Middle" em modelos de linguagem é uma propriedade geométrica intrínseca dos decodificadores causais com conexões residuais, presente já na inicialização do modelo antes de qualquer treinamento ou uso de codificações posicionais, criando uma zona de influência negligenciável no meio do contexto devido à divergência logarítmica no início e a um ancoragem isolada no final.

Borun D Chowdhury2026-03-12🤖 cs.LG

Unbalanced Optimal Transport Dictionary Learning for Unsupervised Hyperspectral Image Clustering

Este artigo propõe um método de aprendizado de dicionário para agrupamento não supervisionado de imagens hiperespectrais que utiliza barycentros de Wasserstein desbalanceados para aprender uma representação de baixa dimensão, superando as limitações de métodos anteriores ao evitar o desbalanceamento dos perfis espectrais e aumentar a robustez a ruídos e outliers.

Joshua Lentz, Nicholas Karris, Alex Cloninger, James M. Murphy2026-03-12📊 stat

A neural operator for predicting vibration frequency response curves from limited data

Este artigo apresenta um operador neural integrado a um esquema numérico implícito que, ao aprender as dinâmicas do espaço de estado a partir de dados limitados, prevê com 99,87% de precisão as curvas de resposta à frequência de vibração sem a necessidade de funções de perda regularizadoras baseadas em princípios físicos.

D. Bluedorn, A. Badawy, B. E. Saunders, D. Roettgen, A. Abdelkefi2026-03-12🤖 cs.LG

Mashup Learning: Faster Finetuning by Remixing Past Checkpoints

O artigo propõe o "Mashup Learning", um método que acelera o ajuste fino de modelos de linguagem ao identificar e fundir checkpoints históricos relevantes, resultando em maior precisão e redução significativa no tempo de treinamento em comparação com o treinamento a partir do zero.

Sofia Maria Lo Cicero Vaina, Artem Chumachenko, Max Ryabinin2026-03-12🤖 cs.LG

ReMix: Reinforcement routing for mixtures of LoRAs in LLM finetuning

O artigo apresenta o ReMix, um novo método de roteamento baseado em aprendizado por reforço para Mixture-of-LoRAs em modelos de linguagem grandes, que utiliza pesos de roteamento não aprendíveis e um estimador de gradiente RLOO para garantir que todos os LoRAs ativos sejam igualmente eficazes, superando os métodos atuais de ajuste fino eficiente em parâmetros.

Ruizhong Qiu, Hanqing Zeng, Yinglong Xia, Yiwen Meng, Ren Chen, Jiarui Feng, Dongqi Fu, Qifan Wang, Jiayi Liu, Jun Xiao, Xiangjun Fan, Benyu Zhang, Hong Li, Zhining Liu, Hyunsik Yoo, Zhichen Zeng, Tianxin Wei, Hanghang Tong2026-03-12🤖 cs.LG

DT-BEHRT: Disease Trajectory-aware Transformer for Interpretable Patient Representation Learning

O artigo apresenta o DT-BEHRT, uma arquitetura de Transformer aprimorada por grafos que utiliza modelagem de trajetórias de doenças e pré-treinamento orientado por ontologia para gerar representações de pacientes interpretáveis e robustas a partir de registros eletrônicos de saúde.

Deyi Li, Zijun Yao, Qi Xu, Muxuan Liang, Lingyao Li, Zijian Xu, Mei Liu2026-03-12🤖 cs.LG

Stability and Robustness via Regularization: Bandit Inference via Regularized Stochastic Mirror Descent

Este artigo estabelece uma teoria unificada de estabilidade para inferência estatística em dados de bandit baseada no Descenso Espelhado Estocástico, demonstrando que algoritmos regularizados como o Regularized-EXP3 garantem simultaneamente intervalos de confiança válidos, ótimo arrependimento e robustez a corrupções.

Budhaditya Halder, Ishan Sengupta, Koustav Chowdhury, Koulik Khamaru2026-03-12📊 stat

ARCHE: Autoregressive Residual Compression with Hyperprior and Excitation

O artigo apresenta o ARCHE, um framework de compressão de imagens aprendido de ponta a ponta que equilibra precisão de modelagem e eficiência computacional ao unificar priores hierárquicos, espaciais e de canal sem depender de componentes recorrentes ou baseados em transformers, alcançando eficiência taxa-distorção superior a codecs tradicionais e existentes com parâmetros moderados e tempo de execução rápido.

Sofia Iliopoulou, Dimitris Ampeliotis, Athanassios Skodras2026-03-12⚡ eess

Adaptive Activation Cancellation for Hallucination Mitigation in Large Language Models

O artigo propõe a Cancelamento Adaptativo de Ativações (AAC), um framework de inferência em tempo real que mitiga alucinações em Grandes Modelos de Linguagem ao identificar e suprimir seletivamente ativações neurais associadas a erros, melhorando a precisão factual sem degradar a capacidade geral do modelo ou exigir ajuste fino.

Eric Yocam, Varghese Vaidyan, Gurcan Comert, Paris Kalathas, Yong Wang, Judith L. Mwakalonge2026-03-12💬 cs.CL

Actor-Accelerated Policy Dual Averaging for Reinforcement Learning in Continuous Action Spaces

Este artigo propõe o "Actor-Accelerated PDA", um método que utiliza uma rede de políticas aprendida para aproximar subproblemas de otimização no Policy Dual Averaging, permitindo sua aplicação eficiente em espaços de ação contínua com garantias de convergência e desempenho superior ao PPO em benchmarks de robótica e controle.

Ji Gao, Caleb Ju, Guanghui Lan, Zhaohui Tong2026-03-12🤖 cs.LG

Hybrid Hidden Markov Model for Modeling Equity Excess Growth Rate Dynamics: A Discrete-State Approach with Jump-Diffusion

O artigo propõe um modelo híbrido de Markov Oculto que combina estados de mercado definidos por quantis de Laplace com um mecanismo de saltos de Poisson para gerar séries temporais financeiras sintéticas que superam modelos existentes ao preservar simultaneamente a fidelidade distributiva, a estrutura temporal e a cobertura de caudas dos dados reais.

Abdulrahman Alswaidan, Jeffrey D. Varner2026-03-12💰 q-fin

Flexible Cutoff Learning: Optimizing Machine Learning Potentials After Training

O artigo apresenta o Aprendizado de Corte Flexível (FCL), um método que permite ajustar os raios de corte de potenciais interatômicos de aprendizado de máquina após o treinamento, otimizando o equilíbrio entre custo computacional e precisão para aplicações específicas sem a necessidade de retreinar o modelo.

Rick Oerder (Institute for Numerical Simulation, University of Bonn, Fraunhofer Institute for Algorithms and Scientific Computing SCAI), Jan Hamaekers (Fraunhofer Institute for Algorithms and Scientific Computing SCAI)2026-03-12🔬 cond-mat.mtrl-sci

FusionNet: a frame interpolation network for 4D heart models

O artigo apresenta o FusionNet, uma rede neural que gera modelos cardíacos 4D com alta resolução temporal a partir de imagens de ressonância magnética de curta duração, superando métodos existentes com um coeficiente Dice superior a 0,897.

Chujie Chang, Shoko Miyauchi, Ken'ichi Morooka, Ryo Kurazume, Oscar Martinez Mozos2026-03-12🤖 cs.LG

SDSR: A Spectral Divide-and-Conquer Approach for Species Tree Reconstruction

O artigo apresenta o SDSR, um método escalável de dividir-e-conquistar baseado em teoria espectral de grafos para reconstrução de árvores filogenéticas, que oferece ganhos significativos de velocidade sem comprometer a precisão ao lidar com grandes conjuntos de dados e discordância genética.

Ortal Reshef (Hebrew University of Jerusalem), Ofer Glassman (Weizmann Institute of Science), Or Zuk (Hebrew University of Jerusalem), Yariv Aizenbud (Tel Aviv University), Boaz Nadler (Weizmann Institute of Science), Ariel Jaffe (Hebrew University of Jerusalem)2026-03-12🧬 q-bio

A Diffusion Analysis of Policy Gradient for Stochastic Bandits

Este artigo analisa uma aproximação por difusão em tempo contínuo do gradiente de política para bandits estocásticos, provando que um aprendizado com taxa $\eta = O(\Delta^2/\log(n))$ resulta em arrependimento logarítmico, enquanto demonstra que taxas maiores levam a arrependimento linear em certos cenários.

Tor Lattimore2026-03-12📊 stat

Rethinking the Harmonic Loss via Non-Euclidean Distance Layers

Este artigo propõe uma reavaliação da perda harmônica ao investigar sistematicamente diversas métricas de distância não euclidianas em modelos de visão e linguagem, demonstrando que a distância cosseno oferece o melhor equilíbrio entre desempenho, interpretabilidade e sustentabilidade, reduzindo emissões de carbono e melhorando a estabilidade do aprendizado em comparação com a perda de entropia cruzada tradicional.

Maxwell Miller-Golub, Kamil Faber, Marcin Pietron, Panpan Zheng, Pasquale Minervini, Roberto Corizzo2026-03-12🤖 cs.LG

← Anterior Próximo →