Optimizing What We Trust: Reliability-Guided QUBO Selection of Multi-Agent Weak Framing Signals for Arabic Sentiment Prediction

O artigo propõe um framework de supervisão fraca orientado à confiabilidade para a detecção de enquadramento em mídias sociais árabes, que utiliza um pipeline multiagente para estimar a confiabilidade das instâncias e um processo de seleção baseado em QUBO para criar subconjuntos de dados balanceados e não redundantes, melhorando a previsão de sentimentos sem degradar as linhas de base existentes.

Rabab Alkhalifa2026-03-06💻 cs

Same Input, Different Scores: A Multi Model Study on the Inconsistency of LLM Judge

Este estudo demonstra que, apesar da expectativa de estabilidade, modelos de linguagem grandes (LLMs) utilizados como avaliadores automatizados apresentam inconsistências significativas na atribuição de pontuações numéricas para as mesmas entradas, variando conforme o modelo, a família e a temperatura, o que levanta preocupações críticas sobre a confiabilidade operacional e a reprodutibilidade em ambientes empresariais.

Fiona Lau2026-03-06💻 cs

Generating Realistic, Protocol-Compliant Maritime Radio Dialogues using Self-Instruct and Low-Rank Adaptation

Este estudo apresenta uma metodologia de Self-Instruct combinada com Low-Rank Adaptation (LoRA) e um pipeline de verificação rigoroso para gerar diálogos de rádio marítima realistas e conformes às normas da OMI, superando a escassez de dados de alta qualidade necessários para o desenvolvimento de sistemas de IA que visam melhorar a segurança operacional no mar.

Gürsel Akdeniz, Emin Cagatay Nakilcioglu2026-03-06💻 cs

A unified foundational framework for knowledge injection and evaluation of Large Language Models in Combustion Science

Este estudo apresenta um framework unificado e pioneiro para o desenvolvimento de modelos de linguagem especializados em ciência da combustão, que integra uma base de conhecimento multimodal de grande escala, um benchmark rigoroso de avaliação e um caminho de três estágios para injeção de conhecimento, demonstrando que a simples recuperação aumentada (RAG) atinge um limite de desempenho e que a construção de modelos fundamentais de domínio exige gráficos de conhecimento estruturados e pré-treinamento contínuo.

Zonglin Yang, Runze Mao, Tianhao Wu + 3 more2026-03-06💻 cs

Still Fresh? Evaluating Temporal Drift in Retrieval Benchmarks

Este estudo avalia o impacto do desvio temporal em corpora técnicos sobre o benchmark de recuperação FreshStack, demonstrando que, apesar da migração de documentos relevantes entre repositórios, as classificações dos modelos de recuperação permanecem altamente correlacionadas, indicando que benchmarks reavaliados com corpora evolutivos continuam confiáveis.

Nathan Kuissi, Suraj Subrahmanyan, Nandan Thakur + 1 more2026-03-06💻 cs

From Static Inference to Dynamic Interaction: Navigating the Landscape of Streaming Large Language Models

Este artigo oferece uma visão abrangente sobre os Modelos de Linguagem de Grande Escala (LLMs) em streaming, estabelecendo uma definição unificada, propondo uma taxonomia sistemática, discutindo metodologias subjacentes e explorando aplicações e direções futuras para superar as limitações da inferência estática em cenários dinâmicos.

Junlong Tong, Zilong Wang, YuJie Ren + 4 more2026-03-06💻 cs

Bootstrapping Exploration with Group-Level Natural Language Feedback in Reinforcement Learning

O artigo apresenta o GOLF, um framework de aprendizado por reforço que utiliza feedback linguístico natural em nível de grupo para orientar a exploração direcionada e otimizar conjuntamente a geração e o refinamento, resultando em uma eficiência de amostragem 2,2 vezes superior aos métodos tradicionais baseados apenas em recompensas escalares.

Lei Huang, Xiang Cheng, Chenxiao Zhao + 6 more2026-03-06💻 cs

Vibe Code Bench: Evaluating AI Models on End-to-End Web Application Development

Este artigo apresenta o "Vibe Code Bench", um novo benchmark que avalia a capacidade de 16 modelos de IA de desenvolver aplicações web completas do zero, revelando que, apesar dos avanços, a geração confiável de software end-to-end ainda é um desafio significativo e depende criticamente de estratégias como auto-teste e de protocolos rigorosos de avaliação humana.

Hung Tran, Langston Nashold, Rayan Krishnan + 2 more2026-03-06💻 cs

iAgentBench: Benchmarking Sensemaking Capabilities of Information-Seeking Agents on High-Traffic Topics

O artigo apresenta o iAgentBench, um novo benchmark dinâmico para perguntas de resposta aberta que avalia a capacidade de agentes de IA de realizar "sensemaking" (compreensão e síntese) ao integrar evidências de múltiplas fontes em tópicos de alto interesse, superando as limitações de benchmarks tradicionais que exigem apenas a recuperação de um único trecho.

Preetam Prabhu Srikar Dammu, Arnav Palkhiwala, Tanya Roosta + 1 more2026-03-06💻 cs