cs.LG artigos | Gist.Science

Revolutionizing Mixed Precision Quantization: Towards Training-free Automatic Proxy Discovery via Large Language Models

Este artigo apresenta o TAP, um novo framework baseado em Grandes Modelos de Linguagem (LLMs) e estratégias evolutivas que descobre automaticamente e sem treinamento proxies superiores para quantização de precisão mista, eliminando a dependência de otimização diferenciada custosa ou de conhecimento manual de especialistas.

Haidong Kang, Jun Du, Lihong Lin2026-03-06💻 cs

ReFusion: A Diffusion Large Language Model with Parallel Autoregressive Decoding

O artigo apresenta o ReFusion, um modelo de difusão mascarado inovador que integra reorganização de sequências e decodificação autoregressiva paralela em nível de slots, superando significativamente os modelos anteriores em desempenho e velocidade enquanto reduz a complexidade de aprendizado e permite o uso eficiente de cache KV.

Jia-Nan Li, Jian Guan, Wei Wu + 1 more2026-03-06💻 cs

Measuring Uncertainty Calibration

Este artigo apresenta contribuições não assintóticas e livres de distribuição para a estimativa do erro de calibração $L_1$ de classificadores binários, oferecendo tanto um limite superior para funções de calibração com variação limitada quanto um método prático para modificar qualquer classificador a fim de garantir limites de erro eficientes sem prejudicar significativamente seu desempenho.

Kamil Ciosek, Nicolò Felicioni, Sina Ghiassian + 6 more2026-03-06💻 cs

RePo: Language Models with Context Re-Positioning

O artigo apresenta o RePo, um mecanismo inovador que melhora o aprendizado em contexto de Grandes Modelos de Linguagem ao re-posicionar dinamicamente os tokens com base em dependências contextuais, reduzindo a carga cognitiva extrínseca e aprimorando o desempenho em tarefas com contextos ruidosos, estruturados e de longa duração.

Huayang Li, Tianyu Zhao, Deng Cai + 1 more2026-03-06💻 cs

Agentic Multi-Persona Framework for Evidence-Aware Fake News Detection

O artigo apresenta o AMPEND-LS, um framework agêntico multi-persona que combina sinergia entre LLMs e SLMs com evidências multimodais para detectar notícias falsas com maior precisão, robustez e explicabilidade do que os métodos existentes.

Roopa Bukke, Soumya Pandey, Suraj Kumar + 2 more2026-03-06💻 cs

Parallel Token Prediction for Language Models

O artigo apresenta o PTP (Parallel Token Prediction), um framework que acelera a geração de linguagem ao prever múltiplos tokens simultaneamente em uma única chamada de modelo, substituindo a amostragem pós-hoc por variáveis de entrada aleatórias e alcançando um speedup de 2,4x em benchmarks de decodificação especulativa.

Felix Draxler, Justus Will, Farrin Marouf Sofian + 3 more2026-03-06💻 cs

Uncertainty-Aware Flow Field Reconstruction Using SVGP Kolmogorov-Arnold Networks

Este artigo apresenta um framework de aprendizado de máquina baseado em Redes de Kolmogorov-Arnold com Processos Gaussianos Variacionais Esparsos (SVGP-KAN) para reconstrução de campos de escoamento temporalmente esparsos com quantificação de incerteza, demonstrando desempenho comparável a métodos clássicos enquanto oferece estimativas de incerteza calibradas que guiam o projeto experimental em fluxos periódicos.

Y. Sungtaek Ju2026-03-06🔬 physics

Prediction of Cellular Malignancy Using Electrical Impedance Signatures and Supervised Machine Learning

Este estudo demonstra que a integração de propriedades bioelétricas celulares com algoritmos de aprendizado de máquina supervisionado, particularmente a Floresta Aleatória, permite prever a malignidade celular com alta precisão (~90%), estabelecendo uma base promissora para o desenvolvimento de ferramentas diagnósticas em tempo real.

Shadeeb Hossain2026-03-06💻 cs

Controlled LLM Training on Spectral Sphere

Este artigo apresenta o Otimizador da Esfera Espectral (SSO), um novo algoritmo de treinamento que impõe restrições espectrais estritas a pesos e atualizações para garantir estabilidade e convergência em larga escala, superando o desempenho do AdamW e do Muon em diversas arquiteturas de modelos grandes.

Tian Xie, Haoming Luo, Haoyu Tang + 9 more2026-03-06💻 cs

BPE: Behavioral Profiling Ensemble

O artigo propõe o Ensemble de Perfilagem Comportamental (BPE), uma nova abordagem centrada no modelo que atribui pesos de integração com base no desvio entre a resposta de um classificador e seu perfil intrínseco, superando os métodos tradicionais de seleção dinâmica ao alcançar maior precisão preditiva com menor custo computacional em 42 conjuntos de dados reais.

Yanxin Liu, Yunqi Zhang2026-03-06💻 cs

EmboTeam: Grounding LLM Reasoning into Reactive Behavior Trees via PDDL for Embodied Multi-Robot Collaboration

O artigo apresenta o EmboTeam, um framework inovador para planejamento de tarefas em equipes de robôs heterogêneos que integra raciocínio de modelos de linguagem (LLMs), planejamento clássico baseado em PDDL e árvores de comportamento reativas para melhorar significativamente a execução de tarefas de longo prazo em ambientes domésticos.

Haishan Zeng, Mengna Wang, Peng Li2026-03-06💻 cs

ButterflyMoE: Sub-Linear Ternary Experts via Structured Butterfly Orbits

O artigo apresenta o ButterflyMoE, um método que supera a limitação de memória linear em dispositivos de borda ao representar múltiplos especialistas como reorientações geométricas de um substrato compartilhado ternário, alcançando uma redução de 150 vezes no uso de memória com perda de precisão negligenciável.

Aryan Karmore2026-03-06💻 cs

Yuan3.0 Ultra: A Trillion-Parameter Enterprise-Oriented MoE LLM

O artigo apresenta o Yuan3.0 Ultra, um modelo de linguagem aberto de grande escala baseado em Mistura de Especialistas (MoE) com 1010B de parâmetros totais e 68,8B ativados, que introduz o algoritmo de Poda de Especialistas Adaptativa por Camada (LAEP) para otimizar a eficiência do pré-treinamento e alcançar desempenho líder em tarefas corporativas.

YuanLab. ai, :, Shawn Wu + 25 more2026-03-06💻 cs

Agentic Very Long Video Understanding

O artigo apresenta o EGAgent, um framework agênico inovador baseado em grafos de cena de entidades que supera as limitações de janelas de contexto existentes para permitir raciocínio composicional e multi-hop em streams de vídeo egocêntrico contínuo de longa duração, alcançando desempenho state-of-the-art em tarefas de compreensão longitudinal.

Aniket Rege, Arka Sadhu, Yuliang Li + 5 more2026-03-06💻 cs

Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models

O artigo apresenta o Self-Distilled Reasoner, um framework de Auto-Distilação em Política (OPSD) onde um único modelo de linguagem atua simultaneamente como professor e aluno ao condicionar-se em diferentes contextos (com ou sem traços de raciocínio privilegiados), alcançando maior eficiência e desempenho em tarefas de raciocínio matemático em comparação com métodos de distilação off-policy e aprendizado por reforço.

Siyan Zhao, Zhihui Xie, Mengchen Liu + 4 more2026-03-06💻 cs

A Scalable Inter-edge Correlation Modeling in CopulaGNN for Link Sign Prediction

Este artigo propõe uma abordagem escalável para a previsão de sinais em links de grafos assinados, baseada no modelo CopulaGNN, que utiliza uma representação eficiente de matrizes de correlação e uma reformulação probabilística para superar limitações computacionais, garantindo convergência linear e desempenho competitivo.

Jinkyu Sung, Myunggeum Jee, Joonseok Lee2026-03-06💻 cs

Improved Convergence Rates of Muon Optimizer for Nonconvex Optimization

Este trabalho estabelece garantias de convergência mais precisas e com taxas mais rápidas para o otimizador Muon em problemas não convexos, através de uma análise direta que dispensa suposições restritivas e amplia o escopo de aplicação teórico.

Shuntaro Nagashima, Hideaki Iiduka2026-03-06🔢 math

Latent-IMH: Efficient Bayesian Inference for Inverse Problems with Approximate Operators

O artigo apresenta o Latent-IMH, um método de inferência bayesiana eficiente para problemas inversos lineares com operadores computacionalmente custosos, que utiliza aproximações baratas para gerar variáveis latentes e refiná-las com operadores exatos, deslocando o custo computacional para uma fase offline e superando em eficiência métodos de última geração como o NUTS.

Youguang Chen, George Biros2026-03-06🔢 math

Mobility-Embedded POIs: Learning What A Place Is and How It Is Used from Human Movement

O artigo apresenta o framework ME-POIs, que aprimora as representações de pontos de interesse ao integrar dados de mobilidade humana em larga escala com embeddings linguísticos, capturando efetivamente a função e o uso real dos locais e superando abordagens baseadas apenas em texto ou mobilidade em tarefas de enriquecimento de mapas.

Maria Despoina Siampou, Shushman Choudhury, Shang-Ling Hsu + 2 more2026-03-06💻 cs

YuriiFormer: A Suite of Nesterov-Accelerated Transformers

O artigo apresenta o YuriiFormer, uma nova arquitetura de transformadores baseada em um quadro variacional que interpreta as camadas como iterações de otimização, permitindo a incorporação de aceleração de Nesterov para superar o desempenho de modelos padrão como o nanoGPT.

Aleksandr Zimin, Yury Polyanskiy, Philippe Rigollet2026-03-06🔢 math

← Anterior Próximo →