cs.LG artigos | Gist.Science

From ARIMA to Attention: Power Load Forecasting Using Temporal Deep Learning

Este artigo avalia empiricamente modelos estatísticos e de aprendizado profundo para previsão de carga de energia, demonstrando que a arquitetura Transformer, baseada em mecanismos de atenção, supera modelos tradicionais como ARIMA e LSTM ao alcançar a maior precisão e robustez na previsão de consumo de energia da PJM.

Suhasnadh Reddy Veluru, Sai Teja Erukude, Viswa Chaitanya Marella2026-03-10🤖 cs.LG

Advances in GRPO for Generation Models: A Survey

Esta pesquisa oferece uma revisão abrangente do Flow-GRPO, detalhando seus avanços metodológicos e suas extensões em diversas modalidades generativas, posicionando-o como um quadro geral para o alinhamento de modelos de geração de grande escala com preferências humanas.

Zexiang Liu, Xianglong He, Yangguang Li2026-03-10🤖 cs.LG

Exploration Space Theory: Formal Foundations for Prerequisite-Aware Location-Based Recommendation

O artigo apresenta a Teoria do Espaço de Exploração (EST), uma estrutura formal baseada em reticulados que adapta a Teoria do Espaço de Conhecimento para sistemas de recomendação de localização, garantindo matematicamente que as sugestões respeitem dependências de pré-requisitos entre pontos de interesse e ofereçam explicações estruturais válidas.

Madjid Sadallah2026-03-10🤖 cs.LG

Pavement Missing Condition Data Imputation through Collective Learning-Based Graph Neural Networks

Este artigo propõe um modelo de Redes Neurais em Grafos baseado em aprendizado coletivo para imputar dados faltantes de condições de pavimento, integrando características de seções adjacentes e dependências entre elas para superar as limitações dos métodos tradicionais e fornecer avaliações mais precisas para a manutenção rodoviária.

Ke Yu, Lu Gao2026-03-10🤖 cs.LG

Grouter: Decoupling Routing from Representation for Accelerated MoE Training

O artigo apresenta o Grouter, um método de roteamento preemptivo que desacopla a otimização estrutural da atualização de pesos em modelos Mixture-of-Experts (MoE), acelerando significativamente a convergência e o throughput do treinamento ao utilizar estruturas pré-otimizadas.

Yuqi Xu, Rizhen Hu, Zihan Liu, Mou Sun, Kun Yuan2026-03-10🤖 cs.LG

T-REX: Transformer-Based Category Sequence Generation for Grocery Basket Recommendation

O artigo propõe o T-REX, uma arquitetura baseada em transformadores que gera recomendações de categorias personalizadas para o comércio eletrônico de supermercados, superando limitações de modelos anteriores ao combinar dependências de curto prazo, preferências de longo prazo e um esquema de mascaramento causal para prever com precisão os próximos itens em cestas de compras.

Soroush Mokhtari, Muhammad Tayyab Asif, Sergiy Zubatiy2026-03-10🤖 cs.LG

Leakage Safe Graph Features for Interpretable Fraud Detection in Temporal Transaction Networks

Este artigo apresenta um protocolo de extração de características de grafos causal e seguro contra vazamento de dados para detecção de fraudes em redes de transações temporais, demonstrando que, embora os atributos das transações sejam predominantes, os indicadores estruturais do grafo fornecem uma interpretabilidade valiosa e melhoram a análise de risco em pipelines de detecção de fraudes.

Hamideh Khaleghpour, Brett McKinney2026-03-10🤖 cs.LG

A new Uncertainty Principle in Machine Learning

O artigo propõe um novo princípio de incerteza na aprendizagem de máquina, análogo ao da análise de Fourier, que descreve como a degenerescência fatal das expansões de Heaviside e sigmoides cria vales suaves que impedem a convergência para mínimos profundos, revelando que muitos desafios científicos nessa área são fundamentalmente problemas de física e não de ciência da computação.

V. Dolotin, A. Morozov2026-03-10🤖 cs.LG

Graph Property Inference in Small Language Models: Effects of Representation and Inference Strategy

O estudo demonstra que a capacidade de modelos de linguagem pequenos inferirem propriedades de grafos depende criticamente da organização da representação dos dados e da estratégia de raciocínio, sendo que representações que preservam a estrutura de vizinhança e o raciocínio multi-ramo melhoram significativamente a estabilidade e a consistência das previsões.

Michal Podstawski2026-03-10🤖 cs.LG

SmartBench: Evaluating LLMs in Smart Homes with Anomalous Device States and Behavioral Contexts

O artigo apresenta o SmartBench, o primeiro conjunto de dados e benchmark projetado para avaliar a capacidade de modelos de linguagem grandes (LLMs) de detectar e responder a estados anômalos em ambientes domésticos inteligentes, revelando que os modelos atuais ainda possuem desempenho insuficiente para essa tarefa crítica.

Qingsong Zou, Zhi Yan, Zhiyao Xu, Kuofeng Gao, Jingyu Xiao, Yong Jiang2026-03-10🤖 cs.LG

HEARTS: Benchmarking LLM Reasoning on Health Time Series

O artigo apresenta o HEARTS, um benchmark unificado que avalia a capacidade de raciocínio hierárquico de modelos de linguagem grandes (LLMs) em séries temporais de saúde, revelando que eles ainda superam significativamente os modelos especializados e dependem excessivamente de heurísticas simples, indicando que o aumento de escala por si só é insuficiente para lidar com a complexidade temporal real.

Sirui Li, Shuhan Xiao, Mihir Joshi, Ahmed Metwally, Daniel McDuff, Wei Wang, Yuzhe Yang2026-03-10🤖 cs.LG

RECAP: Local Hebbian Prototype Learning as a Self-Organizing Readout for Reservoir Dynamics

O artigo apresenta o RECAP, uma estratégia de aprendizado bioinspirada que combina dinâmicas de reservatório não treinadas com um mecanismo de leitura de protótipos auto-organizado baseado em Hebbian, permitindo classificação robusta de imagens sem o uso de retropropagação de erro.

Heng Zhang2026-03-10🤖 cs.LG

Roots Beneath the Cut: Uncovering the Risk of Concept Revival in Pruning-Based Unlearning for Diffusion Models

Este artigo revela que a técnica de "unlearning" baseada em poda em modelos de difusão é vulnerável a um ataque de revivescência de conceitos, onde a simples localização dos pesos removidos atua como um canal lateral que permite recuperar informações apagadas sem necessidade de dados ou retreinamento, exigindo assim o desenvolvimento de mecanismos de poda mais seguros que ocultem essas localizações.

Ci Zhang, Zhaojun Ding, Chence Yang, Jun Liu, Xiaoming Zhai, Shaoyi Huang, Beiwen Li, Xiaolong Ma, Jin Lu, Geng Yuan2026-03-10🤖 cs.LG

SR-TTT: Surprisal-Aware Residual Test-Time Training

O artigo apresenta o SR-TTT, uma abordagem que resolve as falhas de recuperação de modelos de linguagem com Treinamento em Tempo de Teste (TTT) ao integrar um mecanismo de memória residual esparsa e controlada por perda, que roteia dinamicamente apenas tokens altamente surpreendentes para um cache de atenção exata, preservando assim a eficiência de memória O(1) para o contexto geral enquanto garante a retenção precisa de informações críticas.

Swamynathan V P2026-03-10🤖 cs.LG

Quantum Deep Learning: A Comprehensive Review

Este artigo de revisão define o aprendizado profundo quântico (QDL), apresenta uma taxonomia de quatro paradigmas, analisa seus fundamentos teóricos e implementações experimentais em diversas plataformas de hardware, avalia criticamente as alegações de vantagem quântica e traça um roteiro para sua evolução rumo a implementações escaláveis e tolerantes a falhas.

Yanjun Ji, Zhao-Yun Chen, Marco Roth, David A. Kreplin, Christian Schiffer, Martin King, Oliver Anton, M. Sahnawaz Alam, Markus Krutzik, Dennis Willsch, Ludwig Mathey, Frank K. Wilhelm, Guo-Ping Guo2026-03-10⚛️ quant-ph

Trust Aware Federated Learning for Secure Bone Healing Stage Interpretation in e-Health

Este artigo apresenta um framework de aprendizado federado consciente de confiança que utiliza pontuação adaptativa e filtragem para garantir a segurança e a precisão na interpretação de estágios de cicatrização óssea em ambientes de saúde eletrônica, mitigando os efeitos de participantes não confiáveis ou adversários.

Paul Shepherd, Tasos Dagiuklas, Bugra Alkan, Joaquim Bastos, Jonathan Rodriguez2026-03-10🤖 cs.LG

HURRI-GAN: A Novel Approach for Hurricane Bias-Correction Beyond Gauge Stations using Generative Adversarial Networks

O artigo apresenta o HURRI-GAN, uma abordagem inovadora baseada em Redes Adversariais Generativas (GANs) que corrige vieses sistemáticos do modelo de simulação física ADCIRC para prever com precisão impactos de furacões em regiões costeiras além das estações de medição, permitindo previsões mais rápidas e eficientes sem perda de acurácia.

Noujoud Nadera, Hadi Majed, Stefanos Giaremis, Rola El Osta, Clint Dawson, Carola Kaiser, Hartmut Kaiser2026-03-10🤖 cs.LG

Geodesic Gradient Descent: A Generic and Learning-rate-free Optimizer on Objective Function-induced Manifolds

O artigo propõe o Descenso de Gradiente Geodésico (GGD), um otimizador genérico e sem taxa de aprendizado que utiliza esferas n-dimensionais para aproximar a geometria local da função objetivo, garantindo que as trajetórias de atualização permaneçam na hipersuperfície e demonstrando reduções significativas no erro em comparação ao algoritmo Adam em conjuntos de dados como Burgers' e MNIST.

Liwei Hu, Guangyao Li, Wenyong Wang, Xiaoming Zhang, Yu Xiang2026-03-10🤖 cs.LG

How the Graph Construction Technique Shapes Performance in IoT Botnet Detection

Este estudo avalia como diferentes técnicas de construção de grafos impactam a detecção de botnets IoT usando Redes Neurais de Atenção em Grafos (GAT) e Autoencoders Variacionais (VAE) no conjunto de dados N-BaIoT, demonstrando que a abordagem baseada em Grafos de Gabriel atinge a melhor precisão de 97,56%, superando significativamente outros métodos como o Vizinho Mais Próximo Compartilhado.

Hassan Wasswa, Hussein Abbass, Timothy Lynar2026-03-10🤖 cs.LG

Approximate Nearest Neighbor Search for Modern AI: A Projection-Augmented Graph Approach

Este artigo apresenta o PAG (Projection-Augmented Graph), um novo framework de busca aproximada de vizinhos mais próximos que integra técnicas de projeção a índices gráficos para atender a seis demandas críticas de aplicações de IA moderna, oferecendo desempenho de consulta significativamente superior ao HNSW, indexação rápida, baixo uso de memória e robustez em alta dimensionalidade.

Kejing Lu, Zhenpeng Pan, Jianbin Qin, Yoshiharu Ishikawa, Chuan Xiao2026-03-10🤖 cs.LG

← Anterior Próximo →