Reliable Grid Forecasting: State Space Models for Safety-Critical Energy Systems

Este artigo propõe um novo quadro de avaliação focado na segurança operacional para previsão de carga elétrica, demonstrando que métricas tradicionais como MAPE são insuficientes para capturar riscos de subprevisão e que, embora a integração explícita de dados meteorológicos e modelos de espaço de estado reduzam a incerteza, a calibração probabilística exige restrições de viés para evitar a "segurança falsa" gerada por superprevisões excessivas.

Sunki Hong, Jisoo Lee2026-03-10⚡ eess

DrivingGen: A Comprehensive Benchmark for Generative Video World Models in Autonomous Driving

O artigo apresenta o DrivingGen, o primeiro benchmark abrangente para modelos de mundo generativos na condução autónoma, que combina um conjunto de dados diversificado com métricas inovadoras para avaliar a realismo visual, a plausibilidade de trajetórias, a coerência temporal e o controlo, preenchendo lacunas críticas na avaliação e fomentando o desenvolvimento de simuladores mais fiáveis e seguros.

Yang Zhou, Hao Shao, Letian Wang, Zhuofan Zong, Hongsheng Li, Steven L. Waslander2026-03-10💻 cs

NC-Bench: An LLM Benchmark for Evaluating Conversational Competence

O NC-Bench é um novo benchmark para avaliar a competência conversacional de modelos de linguagem, focando na estrutura e no formato das interações com base no IBM Natural Conversation Framework, em vez do conteúdo, e revela que, embora os modelos se saiam bem em respostas básicas, enfrentam dificuldades significativas em tarefas de reparo e em solicitações complexas de múltiplas voltas.

Robert J. Moore, Sungeun An, Farhan Ahmed, Jay Pankaj Gala2026-03-10💬 cs.CL

The Algorithmic Gaze of Image Quality Assessment: An Audit and Trace Ethnography of the LAION-Aesthetics Predictor

Este estudo audita e realiza uma etnografia traçada do preditor LAION-Aesthetics, revelando como seu viés algorítmico reforça o olhar imperial e masculino ao filtrar desproporcionalmente imagens com representações de mulheres, homens e pessoas LGBTQ+, além de priorizar estilos artísticos ocidentais e japoneses, devido à origem de seus dados de treinamento em fotógrafos anglófonos e entusiastas de IA ocidentais.

Jordan Taylor, William Agnew, Maarten Sap, Sarah E. Fox, Haiyi Zhu2026-03-10💻 cs

CaMeLs Can Use Computers Too: System-level Security for Computer Use Agents

O artigo apresenta o "Single-Shot Planning" para Agentes de Uso de Computador, uma arquitetura de segurança que gera um plano de execução completo antes de observar o ambiente, garantindo integridade contra injeções de prompt e ataques de desvio de ramificação enquanto mantém ou melhora o desempenho em modelos de IA.

Hanna Foerster, Tom Blanchard, Kristina Nikolic, Ilia Shumailov, Cheng Zhang, Robert Mullins, Nicolas Papernot, Florian Tramèr, Yiren Zhao2026-03-10💻 cs

BoxMind: Closed-loop AI strategy optimization for elite boxing validated in the 2024 Olympics

O artigo apresenta o BoxMind, um sistema de IA de ciclo fechado que transforma dados de vídeo em estratégias táticas otimizadas, validado durante os Jogos Olímpicos de 2024 com contribuições diretas para o histórico desempenho da equipe nacional de boxe da China.

Kaiwen Wang, Kaili Zheng, Rongrong Deng, Qingmin Fan, Milin Zhang, Zongrui Li, Xuesi Zhou, Bo Han, Liren Chen, Chenyi Guo, Ji Wu2026-03-10💻 cs

DevBench: A Realistic, Developer-Informed Benchmark for Code Generation Models

O artigo apresenta o DevBench, um benchmark baseado em dados reais de desenvolvedores que avalia modelos de linguagem em tarefas de geração de código com alta validade ecológica, oferecendo diagnósticos detalhados sobre precisão sintática, raciocínio semântico e utilidade prática para orientar a seleção e o aprimoramento de modelos.

Pareesa Ameneh Golnari, Adarsh Kumarappan, Wen Wen, Xiaoyu Liu, Gabriel Ryan, Yuting Sun, Shengyu Fu, Elsie Nallipogu2026-03-10🤖 cs.LG

MAS-Orchestra: Understanding and Improving Multi-Agent Reasoning Through Holistic Orchestration and Controlled Benchmarks

O artigo apresenta o MAS-Orchestra, um framework de treinamento que formula a orquestração de agentes como um problema de aprendizado por reforço para gerar sistemas multiagentes de forma holística, e o MASBENCH, um benchmark controlado que demonstra que os benefícios dos sistemas multiagentes dependem criticamente da estrutura da tarefa, permitindo melhorias consistentes e eficiência superior em diversas tarefas de raciocínio.

Zixuan Ke, Yifei Ming, Austin Xu, Ryan Chin, Xuan-Phi Nguyen, Prathyusha Jwalapuram, Jiayu Wang, Semih Yavuz, Caiming Xiong, Shafiq Joty2026-03-10💬 cs.CL

Replayable Financial Agents: A Determinism-Faithfulness Assurance Harness for Tool-Using LLM Agents

Este artigo apresenta o DFAH, uma estrutura de garantia que mede independentemente a determinismo e a precisão de agentes de IA em serviços financeiros, revelando que os dois atributos não são correlacionados e que nenhum modelo atual alcança simultaneamente determinismo perfeito e alta precisão, embora arquiteturas baseadas em esquema possam atender aos requisitos de auditoria.

Raffi Khatchadourian2026-03-10💬 cs.CL

MeanCache: From Instantaneous to Average Velocity for Accelerating Flow Matching Inference

O artigo apresenta o MeanCache, um framework de cache sem treinamento que acelera a inferência de Flow Matching ao substituir a velocidade instantânea por uma perspectiva de velocidade média baseada em produtos vetoriais de Jacobiano, alcançando acelerações de até 4,56x em modelos como FLUX.1 e HunyuanVideo sem comprometer a qualidade da geração.

Huanlin Gao, Ping Chen, Fuyuan Shi, Ruijia Wu, Li YanTao, Qiang Hui, Yuren You, Ting Lu, Chao Tan, Shaoan Zhao, Zhaoxiang Liu, Fang Zhao, Kai Wang, Shiguo Lian2026-03-10🤖 cs.LG

BioAgent Bench: An AI Agent Evaluation Suite for Bioinformatics

Este artigo apresenta o BioAgent Bench, uma suite de avaliação e conjunto de dados que mede o desempenho e a robustez de agentes de IA em tarefas de bioinformática, revelando que, embora modelos de ponta consigam executar pipelines complexos, eles falham sob perturbações controladas e que modelos de pesos abertos são preferíveis em cenários que exigem privacidade de dados.

Dionizije Fa, Marko Čuljak, Bruno Pandža, Mateo Čupic2026-03-10💻 cs

Real-Time Aligned Reward Model beyond Semantics

Este trabalho apresenta o R2M, um novo framework leve de RLHF que supera as limitações da otimização excessiva de recompensas ao alinhar o modelo de recompensa com as mudanças de distribuição da política em tempo real, utilizando estados ocultos da política em vez de depender apenas de informações semânticas superficiais.

Zixuan Huang, Xin Xia, Yuxi Ren, Jianbin Zheng, Xuefeng Xiao, Hongyan Xie, Li Huaqiu, Songshi Liang, Zhongxiang Dai, Fuzhen Zhuang, Jianxin Li, Yikun Ban, Deqing Wang2026-03-10💻 cs

Bitcoin Price Prediction using Machine Learning and Combinatorial Fusion Analysis

Este artigo propõe a aplicação da Análise de Fusão Combinatória (CFA) para prever o preço do Bitcoin, demonstrando que a combinação de diversos modelos de aprendizado de máquina por meio de funções de características de pontuação e classificação supera significativamente os modelos individuais e outros métodos existentes, alcançando um erro médio percentual (MAPE) de 0,19%.

Yuanhong Wu, Wei Ye, Jingyan Xu, D. Frank Hsu2026-03-10🤖 cs.LG

Impact of LLMs news Sentiment Analysis on Stock Price Movement Prediction

Este estudo avalia o impacto da análise de sentimentos de notícias baseada em LLMs (DeBERTa, RoBERTa e FinBERT) na previsão de movimentos de preços de ações, demonstrando que o DeBERTa individualmente atinge 75% de precisão, um ensemble dos três modelos chega a 80% e que as características de sentimento oferecem benefícios modestos a diversos modelos de previsão.

Walid Siala (SnT, University of Luxembourg, Luxembourg), Ahmed Khanfir (RIADI, ENSI, University of Manouba, Tunisia, SnT, University of Luxembourg, Luxembourg), Mike Papadakis (SnT, University of Luxembourg, Luxembourg)2026-03-10💻 cs

Do Schwartz Higher-Order Values Help Sentence-Level Human Value Detection? A Study of Hierarchical Gating and Calibration

Este estudo demonstra que, para a detecção de valores humanos em nível de frase, a estrutura de valores de ordem superior de Schwartz funciona melhor como um viés indutivo do que como uma regra de roteamento rígida, sendo que os ganhos mais significativos de desempenho provêm de técnicas de calibração e ensembles em vez de arquiteturas hierárquicas complexas.

Víctor Yeste, Paolo Rosso2026-03-10🤖 cs.LG