cs.LG artigos | Gist.Science

Parallel Token Prediction for Language Models

O artigo apresenta o PTP (Parallel Token Prediction), um framework que acelera a geração de linguagem ao prever múltiplos tokens simultaneamente em uma única chamada de modelo, substituindo a amostragem pós-hoc por variáveis de entrada aleatórias e alcançando um speedup de 2,4x em benchmarks de decodificação especulativa.

Felix Draxler, Justus Will, Farrin Marouf Sofian + 3 more2026-03-06💻 cs

Uncertainty-Aware Flow Field Reconstruction Using SVGP Kolmogorov-Arnold Networks

Este artigo apresenta um framework de aprendizado de máquina baseado em Redes de Kolmogorov-Arnold com Processos Gaussianos Variacionais Esparsos (SVGP-KAN) para reconstrução de campos de escoamento temporalmente esparsos com quantificação de incerteza, demonstrando desempenho comparável a métodos clássicos enquanto oferece estimativas de incerteza calibradas que guiam o projeto experimental em fluxos periódicos.

Y. Sungtaek Ju2026-03-06🔬 physics

Prediction of Cellular Malignancy Using Electrical Impedance Signatures and Supervised Machine Learning

Este estudo demonstra que a integração de propriedades bioelétricas celulares com algoritmos de aprendizado de máquina supervisionado, particularmente a Floresta Aleatória, permite prever a malignidade celular com alta precisão (~90%), estabelecendo uma base promissora para o desenvolvimento de ferramentas diagnósticas em tempo real.

Shadeeb Hossain2026-03-06💻 cs

Controlled LLM Training on Spectral Sphere

Este artigo apresenta o Otimizador da Esfera Espectral (SSO), um novo algoritmo de treinamento que impõe restrições espectrais estritas a pesos e atualizações para garantir estabilidade e convergência em larga escala, superando o desempenho do AdamW e do Muon em diversas arquiteturas de modelos grandes.

Tian Xie, Haoming Luo, Haoyu Tang + 9 more2026-03-06💻 cs

BPE: Behavioral Profiling Ensemble

O artigo propõe o Ensemble de Perfilagem Comportamental (BPE), uma nova abordagem centrada no modelo que atribui pesos de integração com base no desvio entre a resposta de um classificador e seu perfil intrínseco, superando os métodos tradicionais de seleção dinâmica ao alcançar maior precisão preditiva com menor custo computacional em 42 conjuntos de dados reais.

Yanxin Liu, Yunqi Zhang2026-03-06💻 cs

EmboTeam: Grounding LLM Reasoning into Reactive Behavior Trees via PDDL for Embodied Multi-Robot Collaboration

O artigo apresenta o EmboTeam, um framework inovador para planejamento de tarefas em equipes de robôs heterogêneos que integra raciocínio de modelos de linguagem (LLMs), planejamento clássico baseado em PDDL e árvores de comportamento reativas para melhorar significativamente a execução de tarefas de longo prazo em ambientes domésticos.

Haishan Zeng, Mengna Wang, Peng Li2026-03-06💻 cs

ButterflyMoE: Sub-Linear Ternary Experts via Structured Butterfly Orbits

O artigo apresenta o ButterflyMoE, um método que supera a limitação de memória linear em dispositivos de borda ao representar múltiplos especialistas como reorientações geométricas de um substrato compartilhado ternário, alcançando uma redução de 150 vezes no uso de memória com perda de precisão negligenciável.

Aryan Karmore2026-03-06💻 cs

Yuan3.0 Ultra: A Trillion-Parameter Enterprise-Oriented MoE LLM

O artigo apresenta o Yuan3.0 Ultra, um modelo de linguagem aberto de grande escala baseado em Mistura de Especialistas (MoE) com 1010B de parâmetros totais e 68,8B ativados, que introduz o algoritmo de Poda de Especialistas Adaptativa por Camada (LAEP) para otimizar a eficiência do pré-treinamento e alcançar desempenho líder em tarefas corporativas.

YuanLab. ai, :, Shawn Wu + 25 more2026-03-06💻 cs

Agentic Very Long Video Understanding

O artigo apresenta o EGAgent, um framework agênico inovador baseado em grafos de cena de entidades que supera as limitações de janelas de contexto existentes para permitir raciocínio composicional e multi-hop em streams de vídeo egocêntrico contínuo de longa duração, alcançando desempenho state-of-the-art em tarefas de compreensão longitudinal.

Aniket Rege, Arka Sadhu, Yuliang Li + 5 more2026-03-06💻 cs

Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models

O artigo apresenta o Self-Distilled Reasoner, um framework de Auto-Distilação em Política (OPSD) onde um único modelo de linguagem atua simultaneamente como professor e aluno ao condicionar-se em diferentes contextos (com ou sem traços de raciocínio privilegiados), alcançando maior eficiência e desempenho em tarefas de raciocínio matemático em comparação com métodos de distilação off-policy e aprendizado por reforço.

Siyan Zhao, Zhihui Xie, Mengchen Liu + 4 more2026-03-06💻 cs

A Scalable Inter-edge Correlation Modeling in CopulaGNN for Link Sign Prediction

Este artigo propõe uma abordagem escalável para a previsão de sinais em links de grafos assinados, baseada no modelo CopulaGNN, que utiliza uma representação eficiente de matrizes de correlação e uma reformulação probabilística para superar limitações computacionais, garantindo convergência linear e desempenho competitivo.

Jinkyu Sung, Myunggeum Jee, Joonseok Lee2026-03-06💻 cs

Improved Convergence Rates of Muon Optimizer for Nonconvex Optimization

Este trabalho estabelece garantias de convergência mais precisas e com taxas mais rápidas para o otimizador Muon em problemas não convexos, através de uma análise direta que dispensa suposições restritivas e amplia o escopo de aplicação teórico.

Shuntaro Nagashima, Hideaki Iiduka2026-03-06🔢 math

Latent-IMH: Efficient Bayesian Inference for Inverse Problems with Approximate Operators

O artigo apresenta o Latent-IMH, um método de inferência bayesiana eficiente para problemas inversos lineares com operadores computacionalmente custosos, que utiliza aproximações baratas para gerar variáveis latentes e refiná-las com operadores exatos, deslocando o custo computacional para uma fase offline e superando em eficiência métodos de última geração como o NUTS.

Youguang Chen, George Biros2026-03-06🔢 math

Mobility-Embedded POIs: Learning What A Place Is and How It Is Used from Human Movement

O artigo apresenta o framework ME-POIs, que aprimora as representações de pontos de interesse ao integrar dados de mobilidade humana em larga escala com embeddings linguísticos, capturando efetivamente a função e o uso real dos locais e superando abordagens baseadas apenas em texto ou mobilidade em tarefas de enriquecimento de mapas.

Maria Despoina Siampou, Shushman Choudhury, Shang-Ling Hsu + 2 more2026-03-06💻 cs

YuriiFormer: A Suite of Nesterov-Accelerated Transformers

O artigo apresenta o YuriiFormer, uma nova arquitetura de transformadores baseada em um quadro variacional que interpreta as camadas como iterações de otimização, permitindo a incorporação de aceleração de Nesterov para superar o desempenho de modelos padrão como o nanoGPT.

Aleksandr Zimin, Yury Polyanskiy, Philippe Rigollet2026-03-06🔢 math

MiTA Attention: Efficient Fast-Weight Scaling via a Mixture of Top-k Activations

O artigo propõe o mecanismo MiTA Attention, uma abordagem eficiente que unifica métodos de atenção existentes e reduz o custo computacional em sequências longas comprimindo a matriz de pesos rápidos e utilizando uma estratégia de roteamento baseada nas top-k ativações de consultas âncora.

Qishuai Wen, Zhiyuan Huang, Xianghan Meng + 2 more2026-03-06💻 cs

Adaptive Rollout Allocation for Online Reinforcement Learning with Verifiable Rewards

O artigo apresenta o VIP, uma estratégia de alocação de rolagens adaptativa que utiliza um modelo de processo gaussiano para prever probabilidades de sucesso e otimizar a distribuição do orçamento computacional, minimizando a variância do gradiente e melhorando a eficiência de amostragem no aprendizado por reforço com recompensas verificáveis.

Hieu Trung Nguyen, Bao Nguyen, Wenao Ma + 3 more2026-03-06💻 cs

Position: Beyond Model-Centric Prediction -- Agentic Time Series Forecasting

Este artigo propõe a previsão de séries temporais agêntica (ATSF), que redefine o paradigma tradicional centrado em modelos como um processo dinâmico e iterativo composto por percepção, planejamento, ação, reflexão e memória, permitindo adaptação contínua e interação com ferramentas para lidar com cenários complexos e multi-turno.

Mingyue Cheng, Xiaoyu Tao, Qi Liu + 2 more2026-03-06💻 cs

On the Non-Identifiability of Steering Vectors in Large Language Models

Este artigo demonstra que os vetores de direção usados para controlar o comportamento de grandes modelos de linguagem são fundamentalmente não identificáveis, pois perturbações ortogonais produzem efeitos equivalentes, revelando assim limites intrínsecos na interpretabilidade dessas intervenções.

Sohan Venkatesh, Ashish Mahendran Kurapath2026-03-06💻 cs

LatentChem: From Textual CoT to Latent Thinking in Chemical Reasoning

O artigo apresenta o LatentChem, uma interface de raciocínio latente que desacopla o cálculo químico da geração textual, permitindo que modelos realizem inferências complexas diretamente no espaço contínuo, o que resulta em uma precisão superior e um aumento de 10,84 vezes na velocidade de inferência em comparação com métodos tradicionais de Cadeia de Pensamento explícita.

Xinwu Ye, Yicheng Mao, Jia Zhang + 16 more2026-03-06🔬 physics

← Anterior Próximo →