cs.LG artigos | Gist.Science

Pretraining Large Language Models with NVFP4

Este artigo apresenta uma abordagem inovadora para o pré-treinamento estável e preciso de modelos de linguagem grandes no formato NVFP4, que combina transformadas de Hadamard aleatórias, esquemas de quantização bidimensionais e arredondamento estocástico para alcançar desempenho comparável ao FP8 em um modelo de 12 bilhões de parâmetros treinado com 10 trilhões de tokens.

NVIDIA, Felix Abecassis, Anjulie Agrusa + 87 more2026-03-06💻 cs

OPPO: Accelerating PPO-based RLHF via Pipeline Overlap

O OPPO é um framework leve e agnóstico ao modelo que acelera o treinamento de RLHF baseado em PPO em até 2,8 vezes e melhora a utilização da GPU através de técnicas inovadoras de sobreposição intra e inter-etapas, mitigando ineficiências causadas por dependências sequenciais e latências de cauda sem comprometer a convergência.

Kaizhuo Yan, Yingjie Yu, Yifan Yu + 2 more2026-03-06💻 cs

VidGuard-R1: AI-Generated Video Detection and Explanation via Reasoning MLLMs and RL

O VidGuard-R1 é um detector pioneiro de vídeos gerados por IA que utiliza otimização de política relativa em grupo (GRPO) e modelos de recompensa especializados para superar as limitações de conjuntos de dados estáticos, alcançando desempenho de última geração e fornecendo explicações forenses baseadas em raciocínio físico.

Kyoungjun Park, Yifan Yang, Juheon Yi + 6 more2026-03-06💻 cs

Non-Asymptotic Analysis of Efficiency in Conformalized Regression

Este trabalho estabelece limites não assintóticos para a eficiência da regressão conformalizada via SGD, quantificando como o tamanho do conjunto de previsão depende conjuntamente dos tamanhos dos conjuntos de treinamento e calibração e do nível de não cobertura, revelando transições de fase nas taxas de convergência que orientam a alocação de dados.

Yunzhen Yao, Lie He, Michael Gastpar2026-03-06💻 cs

Do We Really Need Permutations? Impact of Model Width on Linear Mode Connectivity

Este trabalho demonstra empiricamente que, ao utilizar uma calibração adequada de temperatura softmax, simplesmente aumentar a largura do modelo é suficiente para alcançar a conectividade linear de modos (LMC) sem a necessidade de permutações de parâmetros, explicando esse fenômeno através da conectividade exponencialmente ponderada por camadas (LEWC) que faz com que o modelo fundido corresponda a um ensemble dos modelos originais.

Akira Ito, Masanori Yamada, Daiki Chijiwa + 1 more2026-03-06💻 cs

True Self-Supervised Novel View Synthesis is Transferable

Este artigo apresenta o XFactor, o primeiro modelo auto-supervisionado sem geometria capaz de verdadeira síntese de novas vistas, demonstrando que a transferibilidade de poses entre cenas é alcançável sem viéses 3D explícitos ou conceitos de geometria multivista.

Thomas W. Mitchel, Hyunwoo Ryu, Vincent Sitzmann2026-03-06💻 cs

CBF-RL: Safety Filtering Reinforcement Learning in Training with Control Barrier Functions

O artigo apresenta o CBF-RL, um framework que integra Funções de Barreira de Controle (CBFs) durante o treinamento de Aprendizado por Reforço para internalizar restrições de segurança na política aprendida, permitindo a implantação segura em robôs reais, como o Unitree G1, sem a necessidade de filtros de segurança em tempo real.

Lizhi Yang, Blake Werner, Massimiliano de Sa + 1 more2026-03-06💻 cs

Bayesian Inference for PDE-based Inverse Problems using the Optimization of a Discrete Loss

Este trabalho apresenta o B-ODIL, uma extensão bayesiana do método de otimização de perda discreta (ODIL) para resolver problemas inversos baseados em equações diferenciais parciais, permitindo a inferência de soluções com incertezas quantificadas, como demonstrado em benchmarks sintéticos e na estimativa da concentração de tumores cerebrais a partir de ressonâncias magnéticas.

Lucas Amoudruz, Sergey Litvinov, Costas Papadimitriou + 1 more2026-03-06🔬 physics

Schrödinger Bridge Mamba for One-Step Speech Enhancement

O artigo apresenta o Schrödinger Bridge Mamba (SBM), um modelo inovador que combina o paradigma de Ponte de Schrödinger com a arquitetura Mamba para realizar aprimoramento de fala de alta qualidade em uma única etapa de inferência, superando métodos existentes em tarefas de remoção de ruído e reverberação com eficiência em tempo real.

Jing Yang, Sirui Wang, Chao Wu + 2 more2026-03-06💻 cs

Breaking and Fixing Defenses Against Control-Flow Hijacking in Multi-Agent Systems

Este artigo demonstra que as defesas atuais contra sequestro de fluxo de controle em sistemas multiagente são vulneráveis devido a conflitos fundamentais entre segurança e funcionalidade, propondo e avaliando o ControlValve, uma nova defesa que impõe integridade de fluxo de controle e o princípio do menor privilégio através de grafos de execução permitidos e regras contextuais.

Rishi Jha, Harold Triedman, Justin Wagle, Vitaly Shmatikov2026-03-06🔒 cs.CR

Generalization Below the Edge of Stability: The Role of Data Geometry

Este artigo estabelece teoricamente que a geometria dos dados determina a capacidade de generalização de redes neurais ReLU superparametrizadas treinadas abaixo do limite de estabilidade, demonstrando que dados mais difíceis de "fragmentar" favorecem a aprendizagem de padrões compartilhados, enquanto dados facilmente fragmentáveis levam à memorização.

Tongtong Liang, Alexander Cloninger, Rahul Parhi + 1 more2026-03-06💻 cs

Testing Most Influential Sets

Este artigo apresenta um quadro rigoroso para testar a influência excessiva de subconjuntos de dados em modelos de mínimos quadrados lineares, derivando fórmulas exatas e distribuições de valores extremos que permitem testes de hipóteses formais para substituir heurísticas ad hoc em diversas áreas.

Lucas Darius Konrad, Nikolas Kuschnig2026-03-06🔢 math

LLEMA: Evolutionary Search with LLMs for Multi-Objective Materials Discovery

O artigo apresenta o LLEMA, um framework unificado que combina o conhecimento de modelos de linguagem grandes com regras evolutivas e refinamento baseado em memória para descobrir materiais multiobjetivo quimicamente plausíveis e termodinamicamente estáveis com maior eficiência do que as abordagens existentes.

Nikhil Abhyankar, Sanchit Kabra, Saaketh Desai + 1 more2026-03-06🔬 cond-mat.mtrl-sci

Auto-Adaptive PINNs with Applications to Phase Transitions

Este artigo propõe um método de amostragem adaptativa para o treinamento de Redes Neurais Informadas por Física (PINNs) que utiliza heurísticas específicas do problema para resolver com precisão as regiões interfaciais na equação de Allen-Cahn, demonstrando superioridade em relação a frameworks baseados apenas em resíduos.

Kevin Buck, Woojeong Kim2026-03-06🔢 math

FMint-SDE: A Multimodal Foundation Model for Accelerating Numerical Simulation of SDEs via Error Correction

O artigo apresenta o FMint-SDE, um modelo de fundação multimodal baseado em transformadores que utiliza aprendizado em contexto e correção de erros para acelerar e aprimorar a precisão da simulação de equações diferenciais estocásticas em diversos domínios científicos, superando as limitações de eficiência e generalização dos métodos tradicionais.

Jiaxin Yuan, Haizhao Yang, Maria Cameron2026-03-06🔢 math

MotionStream: Real-Time Video Generation with Interactive Motion Controls

O MotionStream é um sistema de geração de vídeo em tempo real que, ao combinar controle de movimento interativo com uma arquitetura de atenção causal e técnicas de destilação, permite a criação de vídeos de duração ilimitada com latência subsegundo e alta qualidade em uma única GPU.

Joonghyuk Shin, Zhengqi Li, Richard Zhang + 4 more2026-03-06💻 cs

CytoNet: A Foundation Model for the Human Cerebral Cortex at Cellular Resolution

O artigo apresenta o CytoNet, um modelo fundamental treinado em um milhão de imagens microscópicas não rotuladas que permite a análise escalável da microarquitetura do córtex cerebral humano e a vinculação de sua estrutura celular à organização funcional em escala macroscópica.

Christian Schiffer, Zeynep Boztoprak, Jan-Oliver Kropp + 5 more2026-03-06💻 cs

CoRPO: Adding a Correctness Bias to GRPO Improves Generalization

O artigo apresenta o CoRPO, uma modificação simples ao GRPO que introduz um viés de correção ao limitar o baseline de vantagem, mitigando a superestimação de soluções incorretas e melhorando significativamente a generalização e a transferência de padrões de raciocínio entre diferentes domínios.

Anisha Garg, Claire Zhang, Nishit Neema + 3 more2026-03-06💻 cs

SPOT: Single-Shot Positioning via Trainable Near-Field Rainbow Beamforming

Este artigo propõe o SPOT, um esquema de aprendizado profundo que utiliza arranjos fase-tempo para sintetizar feixes "arco-íris" orientados a tarefas, permitindo a estimativa precisa da posição do usuário em uma única transmissão com redução significativa de sobrecarga e erro de posicionamento.

Yeyue Cai, Jianhua Mo, Meixia Tao2026-03-06💻 cs

ReCast: Reliability-aware Codebook Assisted Lightweight Time Series Forecasting

O artigo apresenta o ReCast, um framework de previsão de séries temporais leve e robusto que utiliza um código aprendível para codificar padrões locais e uma estratégia de atualização confiável baseada em otimização robusta distribucional para lidar com não estacionariedade, superando os modelos atuais em precisão e eficiência.

Xiang Ma, Taihua Chen, Pengcheng Wang + 2 more2026-03-06💻 cs

← Anterior Próximo →