cs.LG artigos | Gist.Science

Graph-GRPO: Training Graph Flow Models with Reinforcement Learning

O artigo apresenta o Graph-GRPO, um quadro de aprendizado por reforço online que otimiza modelos de fluxo gráfico através de uma expressão analítica para probabilidade de transição e uma estratégia de refinamento local, alcançando desempenho superior em tarefas de geração e otimização molecular.

Baoheng Zhu, Deyu Bo, Delvin Ce Zhang, Xiao Wang2026-03-12🤖 cs.LG

On the Learning Dynamics of Two-layer Linear Networks with Label Noise SGD

Este artigo investiga a dinâmica de aprendizado de redes lineares de duas camadas treinadas com SGD e ruído de rótulos, revelando um comportamento bifásico no qual o ruído impulsiona a transição do regime "lazy" para o "rich", melhorando a generalização e oferecendo insights aplicáveis a algoritmos como SAM.

Tongcheng Zhang, Zhanpeng Zhou, Mingze Wang, Andi Han, Wei Huang, Taiji Suzuki, Junchi Yan2026-03-12🤖 cs.LG

Designing Service Systems from Textual Evidence

Este artigo apresenta o algoritmo PP-LUCB, que otimiza a seleção de configurações de sistemas de serviço baseando-se em evidências textuais ao combinar avaliações de modelos de linguagem com auditorias humanas seletivas para corrigir vieses sistemáticos e reduzir significativamente os custos de verificação.

Ruicheng Ao, Hongyu Chen, Siyang Gao, Hanwei Li, David Simchi-Levi2026-03-12🤖 cs.LG

Effective Dataset Distillation for Spatio-Temporal Forecasting with Bi-dimensional Compression

O artigo apresenta o STemDist, o primeiro método de destilação de dados especializado para previsão espaço-temporal, que comprime simultaneamente as dimensões espacial e temporal para reduzir significativamente o tempo de treinamento e o uso de memória, mantendo ou melhorando a precisão das previsões.

Taehyung Kwon, Yeonje Choi, Yeongho Kim, Kijung Shin2026-03-12🤖 cs.LG

Domain-Adaptive Health Indicator Learning with Degradation-Stage Synchronized Sampling and Cross-Domain Autoencoder

Este artigo propõe um framework de aprendizado adaptativo de domínio que combina amostragem de lotes sincronizada por estágio de degradação e um autoencoder de fusão alinhada com mecanismos de atenção cruzada para superar as discrepâncias de distribuição e capturar dependências temporais de longo prazo, resultando em indicadores de saúde significativamente mais precisos para monitoramento de condições industriais.

Jungho Choo, Hanbyeol Park, Gawon Lee, Yunkyung Park, Hyerim Bae2026-03-12🤖 cs.LG

Adaptive Active Learning for Regression via Reinforcement Learning

O artigo propõe o Weighted improved Greedy Sampling (WiGS), um método de aprendizado ativo para regressão que utiliza aprendizado por reforço para adaptar dinamicamente o equilíbrio entre exploração e investigação, superando os métodos existentes em precisão e eficiência de rotulagem, especialmente em domínios com densidade de dados irregular.

Simon D. Nguyen, Troy Russo, Kentaro Hoffman, Tyler H. McCormick2026-03-12📊 stat

GGMPs: Generalized Gaussian Mixture Processes

O artigo apresenta os Processos de Mistura Gaussiana Generalizada (GGMPs), um método baseado em Processos Gaussianos que permite a estimativa de densidades condicionais multimodais e heterocedásticas através de uma combinação de ajuste local de misturas, alinhamento de componentes e treinamento por GP, oferecendo uma solução escalável e com forma fechada para cenários complexos não gaussianos.

Vardaan Tekriwal, Mark D. Risser, Hengrui Luo, Marcus M. Noack2026-03-12🤖 cs.LG

The Curse and Blessing of Mean Bias in FP4-Quantized LLM Training

O artigo demonstra que a remoção simples do viés de média (mean bias), que é o principal fator de instabilidade numérica e anisotropia no treinamento de LLMs com baixa precisão (FP4), restaura a estabilidade e o desempenho do modelo de forma eficiente, eliminando a necessidade de métodos espectrais complexos como SVD.

Hengjie Cao, Zhendong Huang, Mengyi Chen, Yifeng Yang, Fanqi Yu, Ruijun Huang, Fang Dong, Xin Zhang, Jixian Zhou, Anrui Chen, Mingzhi Dong, Yujiang Wang, Jinlong Hou, Qin Lv, Yuan Cheng, Tun Lu, Fan Yang, Li Shang2026-03-12🤖 cs.LG

Unlearning the Unpromptable: Prompt-free Instance Unlearning in Diffusion Models

Este artigo apresenta um método inovador de "desaprendizado" baseado em surrogates para modelos de difusão que permite remover seletivamente saídas indesejadas e não passíveis de prompt (como rostos específicos ou representações culturalmente imprecisas) sem comprometer a integridade do modelo, oferecendo uma solução prática para privacidade e conformidade ética.

Kyungryeol Lee, Kyeonghyun Lee, Seongmin Hong, Byung Hyun Lee, Se Young Chun2026-03-12🤖 cs.LG

Brenier Isotonic Regression

Este artigo propõe a "regressão isotônica de Brenier", uma extensão da regressão isotônica para múltiplas saídas que utiliza o transporte ótimo de Kantorovich para garantir a monotonicidade cíclica, demonstrando desempenho superior em tarefas como calibração de probabilidades.

Han Bao, Amirreza Eshraghi, Yutong Wang2026-03-12📊 stat

Spatio-Temporal Forecasting of Retaining Wall Deformation: Mitigating Error Accumulation via Multi-Resolution ConvLSTM Stacking Ensemble

Este estudo propõe um framework de ensemble baseado em múltiplas resoluções de ConvLSTM que integra modelos treinados com diferentes escalas temporais para mitigar a acumulação de erros e melhorar a precisão na previsão de longo prazo da deformação de paredes de contenção durante escavações em etapas.

Jihoon Kim (Department of Civil,Environmental Engineering, Hongik University, Seoul, Republic of Korea), Heejung Youn (Department of Civil,Environmental Engineering, Hongik University, Seoul, Republic of Korea)2026-03-12🤖 cs.LG

Beam-Plasma Collective Oscillations in Intense Charged-Particle Beams: Dielectric Response Theory, Langmuir Wave Dispersion, and Unsupervised Detection via Prometheus

Este artigo desenvolve uma estrutura teórica e computacional para oscilações coletivas em feixes de partículas carregadas intensas, derivando relações de dispersão de ondas de Langmuir via teoria de resposta dielétrica e validando-as com o modelo de aprendizado não supervisionado Prometheus, demonstrando a existência de modos não amortecidos acima de uma densidade crítica e a universalidade de Ising da transição feixe-plasma.

Brandon Yee, Wilson Collins, Michael Iofin, Jiayi Fu2026-03-12🔬 physics

Muscle Synergy Priors Enhance Biomechanical Fidelity in Predictive Musculoskeletal Locomotion Simulation

Este artigo apresenta um framework de aprendizado por reforço informado pela fisiologia que utiliza sinergias musculares para restringir o controle em simulações musculosqueléticas, resultando em uma maior fidelidade biomecânica e generalização na locomoção humana em diversas condições com dados experimentais limitados.

Ilseung Park (Carnegie Mellon University), Eunsik Choi (Seoul National University), Jangwhan Ahn (UNC-Chapel Hill and NC State University), Jooeun Ahn (Seoul National University)2026-03-12🤖 cs.LG

Dual Space Preconditioning for Gradient Descent in the Overparameterized Regime

Este trabalho demonstra que o Gradiente Descente Pré-condicionado no Espaço Dual, ao treinar modelos lineares superparametrizados, converge para uma solução que interpola os dados e, no caso de pré-condicionadores isotrópicos, minimiza a distância de Frobenius em relação à inicialização, comportando-se de forma análoga ao Gradiente Descente padrão.

Reza Ghane, Danil Akhtiamov, Babak Hassibi2026-03-12📊 stat

JEDI: Jointly Embedded Inference of Neural Dynamics

O artigo apresenta o JEDI, um modelo hierárquico que infere dinâmicas neurais generalizáveis e específicas de contexto a partir de gravações experimentais, aprendendo um espaço de incorporação compartilhado sobre pesos de redes neurais recorrentes para superar as limitações de métodos anteriores em tarefas múltiplas.

Anirudh Jamkhandi, Ali Korojy, Olivier Codol, Guillaume Lajoie, Matthew G. Perich2026-03-12🧬 q-bio

A Universal Nearest-Neighbor Estimator for Intrinsic Dimensionality

Este artigo apresenta um novo estimador universal de dimensionalidade intrínseca baseado em razões de distância entre vizinhos mais próximos, que oferece cálculos simples, resultados de última geração e convergência teórica para a dimensionalidade verdadeira independentemente da distribuição dos dados.

Eng-Jon Ong, Omer Bobrowski, Gesine Reinert, Primoz Skraba2026-03-12🤖 cs.LG

VERI-DPO: Evidence-Aware Alignment for Clinical Summarization via Claim Verification and Direct Preference Optimization

O artigo apresenta o VERI-DPO, um método de alinhamento para sumarização clínica que utiliza verificação de afirmações e Otimização Direta de Preferências (DPO) para reduzir drasticamente afirmações não suportadas e melhorar a fidelidade dos resumos de evolução hospitalar em relação às evidências dos prontuários eletrônicos.

Weixin Liu, Congning Ni, Qingyuan Song, Susannah L. Rose, Christopher Symons, Murat Kantarcioglu, Bradley A. Malin, Zhijun Yin2026-03-12💬 cs.CL

A New Tensor Network: Tubal Tensor Train and Its Applications

Este artigo apresenta a decomposição "tubal tensor train" (TTT), um novo modelo de rede tensorial que combina a álgebra do produto-t com a estrutura de baixo núcleo do formato tensor train, oferecendo escalabilidade linear no armazenamento e demonstrando eficácia em tarefas como compressão de imagens e vídeos, completamento de tensores e imageamento hiperespectral.

Salman Ahmadi-Asl, Valentin Leplat, Anh-Huy Phan, Andrzej Cichocki2026-03-12🔢 math

Resource-constrained Amazons chess decision framework integrating large language models and graph attention

Este artigo propõe um framework híbrido leve para o jogo das Amazonas que integra um Autoencoder de Atenção em Grafos e o GPT-4o-mini para superar limitações de recursos, alcançando desempenho superior ao modelo base e a métodos tradicionais através de filtragem estrutural e dados sintéticos.

Tianhao Qian, Zhuoxuan Li, Jinde Cao, Xinli Shi, Hanjie Liu, Leszek Rutkowski2026-03-12🤖 cs.AI

IH-Challenge: A Training Dataset to Improve Instruction Hierarchy on Frontier LLMs

O artigo apresenta o IH-Challenge, um conjunto de dados de aprendizado por reforço projetado para melhorar a hierarquia de instruções em modelos de linguagem de ponta, resultando em maior robustez contra ataques de segurança, redução de comportamentos inseguros e manutenção da utilidade do modelo.

Chuan Guo (Michael Pokorny), Juan Felipe Ceron Uribe (Michael Pokorny), Sicheng Zhu (Michael Pokorny), Christopher A. Choquette-Choo (Michael Pokorny), Steph Lin (Michael Pokorny), Nikhil Kandpal (Michael Pokorny), Milad Nasr (Michael Pokorny), Rai (Michael Pokorny), Sam Toyer, Miles Wang, Yaodong Yu, Alex Beutel, Kai Xiao2026-03-12🤖 cs.AI

← Anterior Próximo →