cs.AI artigos | Gist.Science

FuzzingRL: Reinforcement Fuzz-Testing for Revealing VLM Failures

O artigo apresenta o FuzzingRL, uma abordagem que combina fuzzing e ajuste fino por reforço adversarial para gerar automaticamente perguntas que exploram sistematicamente as vulnerabilidades de Modelos de Linguagem e Visão (VLMs), reduzindo significativamente sua precisão e demonstrando eficácia na transferência entre diferentes modelos.

Jiajun Xu, Jiageng Mao, Ang Qi, Weiduo Yuan, Alexander Romanus, Helen Xia, Vitor Campagnolo Guizilini, Yue Wang2026-03-10🤖 cs.LG

Scale Dependent Data Duplication

O artigo demonstra que a duplicação de dados é dependente da escala, evidenciando que, à medida que os modelos aumentam sua capacidade, documentos semanticamente equivalentes geram gradientes cada vez mais alinhados e causam colisões semânticas aceleradas, o que degrada o desempenho de modelos grandes e exige novas leis de escala para prever com precisão o impacto da unicidade limitada do corpus de pré-treinamento.

Joshua Kazdan, Noam Levi, Rylan Schaeffer, Jessica Chudnovsky, Abhay Puri, Bo He, Mehmet Donmez, Sanmi Koyejo, David Donoho2026-03-10🤖 cs.LG

Multi-Agent DRL for V2X Resource Allocation: Disentangling Challenges and Benchmarking Solutions

Este artigo apresenta uma abordagem sistemática para avaliar algoritmos de aprendizado por reforço multiagente na alocação de recursos em redes C-V2X, utilizando um conjunto de benchmarks e dados gerados por simulação para identificar que a robustez e a generalização das políticas em topologias veiculares diversas são os principais desafios, demonstrando também a superioridade de métodos ator-crítico sobre abordagens baseadas em valor.

Siyuan Wang, Lei Lei, Pranav Maheshwari, Sam Bellefeuille, Kan Zheng, Dusit Niyato2026-03-10🤖 cs.LG

Scaling Strategy, Not Compute: A Stand-Alone, Open-Source StarCraft II Benchmark for Accessible Reinforcement Learning Research

Este artigo apresenta o "Two-Bridge Map Suite", um novo benchmark de código aberto para StarCraft II que preenche a lacuna entre o jogo completo e os mini-jogos ao isolar habilidades táticas essenciais como navegação e combate, permitindo pesquisas de aprendizado por reforço acessíveis e eficientes em termos computacionais.

Sourav Panda, Shreyash Kale, Tanmay Ambadkar, Abhinav Verma, Jonathan Dodge2026-03-10🤖 cs.LG

Consensus is Not Verification: Why Crowd Wisdom Strategies Fail for LLM Truthfulness

O artigo demonstra que, ao contrário de domínios com verificadores externos, estratégias de consenso baseadas em múltiplas amostras de modelos de linguagem não melhoram a veracidade em domínios sem verificação, pois os erros dos modelos são fortemente correlacionados e as agregações tendem a reforçar concepções errôneas compartilhadas em vez de identificar a verdade.

Yegor Denisov-Blanch, Joshua Kazdan, Jessica Chudnovsky, Rylan Schaeffer, Sheng Guan, Soji Adeshina, Sanmi Koyejo2026-03-10🤖 cs.LG

OptiRoulette Optimizer: A New Stochastic Meta-Optimizer for up to 5.3x Faster Convergence

O artigo apresenta o OptiRoulette, um meta-otimizador estocástico que seleciona dinamicamente regras de atualização durante o treinamento, demonstrando convergência mais rápida e confiável com ganhos significativos de precisão em múltiplos conjuntos de dados de classificação de imagens em comparação ao AdamW.

Stamatis Mastromichalakis2026-03-10🤖 cs.LG

Annealed Co-Generation: Disentangling Variables via Progressive Pairwise Modeling

O artigo propõe o framework Annealed Co-Generation (ACG), que substitui a modelagem conjunta de alta dimensão por modelos de difusão bivariados acoplados através de um processo de recozimento em três estágios, permitindo a geração coerente de variáveis multivariadas com menor custo computacional e desequilíbrio de dados, conforme demonstrado em tarefas de completamento de campos de fluxo e geração de anticorpos.

Hantao Zhang, Jieke Wu, Mingda Xu, Xiao Hu, Yingxuan You, Pascal Fua2026-03-10🤖 cs.LG

RACER: Risk-Aware Calibrated Efficient Routing for Large Language Models

O artigo apresenta o RACER, um método inovador de roteamento para grandes modelos de linguagem que formula a seleção como um problema de minimização de conjunto com controle de risco, permitindo a agregação de múltiplos modelos para melhorar a precisão e garantir limites rigorosos de erro em dados não vistos.

Sai Hao, Hao Zeng, Hongxin Wei, Bingyi Jing2026-03-10🤖 cs.LG

Evo: Autoregressive-Diffusion Large Language Models with Evolving Balance

O artigo apresenta o Evo, um modelo de linguagem de grande escala inovador que unifica as abordagens autoregressiva e de difusão em um único fluxo latente evolutivo, permitindo um equilíbrio adaptativo entre planejamento e refinamento para alcançar resultados de ponta em diversas tarefas com eficiência de inferência.

Junde Wu, Minhao Hu, Jiayuan Zhu, Yuyuan Liu, Tianyi Zhang, Kang Li, Jingkun Chen, Jiazhen Pan, Min Xu, Yueming Jin2026-03-10🤖 cs.LG

Distilling and Adapting: A Topology-Aware Framework for Zero-Shot Interaction Prediction in Multiplex Biological Networks

Este artigo propõe um novo framework de aprendizado de representação consciente da topologia, que utiliza modelos fundamentais específicos de domínio, tokenização de grafos e aprendizado por contraste com distilação de conhecimento para superar as limitações atuais e realizar previsões de interação zero-shot em Redes Biológicas Multiplex.

Alana Deng, Sugitha Janarthanan, Yan Sun, Zihao Jing, Pingzhao Hu2026-03-10🤖 cs.LG

Not all tokens are needed(NAT): token efficient reinforcement learning

O artigo apresenta o NAT (Not All Tokens Are Needed), um framework de aprendizado por reforço que otimiza o custo computacional ao atualizar a política apenas com um subconjunto de tokens gerados via reponderamento de Horvitz-Thompson, mantendo o desempenho em raciocínio matemático enquanto reduz significativamente o uso de memória e tempo de treinamento.

Hejian Sang, Yuanda Xu, Zhengze Zhou, Ran He, Zhipeng Wang2026-03-10🤖 cs.LG

GraphSkill: Documentation-Guided Hierarchical Retrieval-Augmented Coding for Complex Graph Reasoning

O artigo apresenta o GraphSkill, um framework de codificação com recuperação aumentada hierárquica guiada por documentação e agente de autodepuração, que supera as limitações de métodos existentes ao explorar a estrutura hierárquica de documentos técnicos e corrigir erros lógicos, validado por meio de um novo dataset e experimentos que demonstram maior precisão e menor custo de inferência em raciocínio complexo sobre grafos.

Fali Wang, Chenglin Weng, Xianren Zhang, Siyuan Hong, Hui Liu, Suhang Wang2026-03-10🤖 cs.LG

From ARIMA to Attention: Power Load Forecasting Using Temporal Deep Learning

Este artigo avalia empiricamente modelos estatísticos e de aprendizado profundo para previsão de carga de energia, demonstrando que a arquitetura Transformer, baseada em mecanismos de atenção, supera modelos tradicionais como ARIMA e LSTM ao alcançar a maior precisão e robustez na previsão de consumo de energia da PJM.

Suhasnadh Reddy Veluru, Sai Teja Erukude, Viswa Chaitanya Marella2026-03-10🤖 cs.LG

Exploration Space Theory: Formal Foundations for Prerequisite-Aware Location-Based Recommendation

O artigo apresenta a Teoria do Espaço de Exploração (EST), uma estrutura formal baseada em reticulados que adapta a Teoria do Espaço de Conhecimento para sistemas de recomendação de localização, garantindo matematicamente que as sugestões respeitem dependências de pré-requisitos entre pontos de interesse e ofereçam explicações estruturais válidas.

Madjid Sadallah2026-03-10🤖 cs.LG

Pavement Missing Condition Data Imputation through Collective Learning-Based Graph Neural Networks

Este artigo propõe um modelo de Redes Neurais em Grafos baseado em aprendizado coletivo para imputar dados faltantes de condições de pavimento, integrando características de seções adjacentes e dependências entre elas para superar as limitações dos métodos tradicionais e fornecer avaliações mais precisas para a manutenção rodoviária.

Ke Yu, Lu Gao2026-03-10🤖 cs.LG

Grouter: Decoupling Routing from Representation for Accelerated MoE Training

O artigo apresenta o Grouter, um método de roteamento preemptivo que desacopla a otimização estrutural da atualização de pesos em modelos Mixture-of-Experts (MoE), acelerando significativamente a convergência e o throughput do treinamento ao utilizar estruturas pré-otimizadas.

Yuqi Xu, Rizhen Hu, Zihan Liu, Mou Sun, Kun Yuan2026-03-10🤖 cs.LG

Photons = Tokens: The Physics of AI and the Economics of Knowledge

Este artigo aplica princípios da física e da economia para quantificar o custo termodinâmico e as limitações energéticas dos tokens em IA, estabelecendo um orçamento finito de perguntas para a humanidade e argumentando que o desafio central não é a capacidade computacional, mas a definição de quais perguntas valem a pena ser feitas.

Alec Litowitz, Nick Polson, Vadim Sokolov2026-03-10🔬 physics

SmartBench: Evaluating LLMs in Smart Homes with Anomalous Device States and Behavioral Contexts

O artigo apresenta o SmartBench, o primeiro conjunto de dados e benchmark projetado para avaliar a capacidade de modelos de linguagem grandes (LLMs) de detectar e responder a estados anômalos em ambientes domésticos inteligentes, revelando que os modelos atuais ainda possuem desempenho insuficiente para essa tarefa crítica.

Qingsong Zou, Zhi Yan, Zhiyao Xu, Kuofeng Gao, Jingyu Xiao, Yong Jiang2026-03-10🤖 cs.LG

HEARTS: Benchmarking LLM Reasoning on Health Time Series

O artigo apresenta o HEARTS, um benchmark unificado que avalia a capacidade de raciocínio hierárquico de modelos de linguagem grandes (LLMs) em séries temporais de saúde, revelando que eles ainda superam significativamente os modelos especializados e dependem excessivamente de heurísticas simples, indicando que o aumento de escala por si só é insuficiente para lidar com a complexidade temporal real.

Sirui Li, Shuhan Xiao, Mihir Joshi, Ahmed Metwally, Daniel McDuff, Wei Wang, Yuzhe Yang2026-03-10🤖 cs.LG

RECAP: Local Hebbian Prototype Learning as a Self-Organizing Readout for Reservoir Dynamics

O artigo apresenta o RECAP, uma estratégia de aprendizado bioinspirada que combina dinâmicas de reservatório não treinadas com um mecanismo de leitura de protótipos auto-organizado baseado em Hebbian, permitindo classificação robusta de imagens sem o uso de retropropagação de erro.

Heng Zhang2026-03-10🤖 cs.LG

← Anterior Próximo →