Unpacking Human Preference for LLMs: Demographically Aware Evaluation with the HUMAINE Framework

O artigo apresenta o framework HUMAINE, que utiliza um conjunto de dados demograficamente estratificado de 23.404 participantes e um modelo hierárquico bayesiano para revelar que, embora o modelo *gemini-2.5-pro* seja o líder geral, as preferências humanas variam significativamente entre grupos etários e dimensões de avaliação, destacando a necessidade de uma metodologia de avaliação multidimensional e demograficamente consciente para LLMs.

Nora Petrova, Andrew Gordon, Enzo Blindow2026-03-06💻 cs

Simulating Meaning, Nevermore! Introducing ICR: A Semiotic-Hermeneutic Metric for Evaluating Meaning in LLM Text Summaries

Este artigo propõe e valida a métrica Inductive Conceptual Rating (ICR), um framework qualitativo que integra semiótica e hermenêutica para avaliar a precisão semântica e a alinhamento de significado em resumos gerados por LLMs, demonstrando que, embora essas modelos apresentem alta similaridade lexical, frequentemente falham em capturar significados contextualmente fundamentados em comparação com a produção humana.

Natalie Perez, Sreyoshi Bhaduri, Aman Chadha2026-03-06💻 cs

Optimizing What We Trust: Reliability-Guided QUBO Selection of Multi-Agent Weak Framing Signals for Arabic Sentiment Prediction

O artigo propõe um framework de supervisão fraca orientado à confiabilidade para a detecção de enquadramento em mídias sociais árabes, que utiliza um pipeline multiagente para estimar a confiabilidade das instâncias e um processo de seleção baseado em QUBO para criar subconjuntos de dados balanceados e não redundantes, melhorando a previsão de sentimentos sem degradar as linhas de base existentes.

Rabab Alkhalifa2026-03-06💻 cs

Same Input, Different Scores: A Multi Model Study on the Inconsistency of LLM Judge

Este estudo demonstra que, apesar da expectativa de estabilidade, modelos de linguagem grandes (LLMs) utilizados como avaliadores automatizados apresentam inconsistências significativas na atribuição de pontuações numéricas para as mesmas entradas, variando conforme o modelo, a família e a temperatura, o que levanta preocupações críticas sobre a confiabilidade operacional e a reprodutibilidade em ambientes empresariais.

Fiona Lau2026-03-06💻 cs

Generating Realistic, Protocol-Compliant Maritime Radio Dialogues using Self-Instruct and Low-Rank Adaptation

Este estudo apresenta uma metodologia de Self-Instruct combinada com Low-Rank Adaptation (LoRA) e um pipeline de verificação rigoroso para gerar diálogos de rádio marítima realistas e conformes às normas da OMI, superando a escassez de dados de alta qualidade necessários para o desenvolvimento de sistemas de IA que visam melhorar a segurança operacional no mar.

Gürsel Akdeniz, Emin Cagatay Nakilcioglu2026-03-06💻 cs

A unified foundational framework for knowledge injection and evaluation of Large Language Models in Combustion Science

Este estudo apresenta um framework unificado e pioneiro para o desenvolvimento de modelos de linguagem especializados em ciência da combustão, que integra uma base de conhecimento multimodal de grande escala, um benchmark rigoroso de avaliação e um caminho de três estágios para injeção de conhecimento, demonstrando que a simples recuperação aumentada (RAG) atinge um limite de desempenho e que a construção de modelos fundamentais de domínio exige gráficos de conhecimento estruturados e pré-treinamento contínuo.

Zonglin Yang, Runze Mao, Tianhao Wu + 3 more2026-03-06💻 cs

Still Fresh? Evaluating Temporal Drift in Retrieval Benchmarks

Este estudo avalia o impacto do desvio temporal em corpora técnicos sobre o benchmark de recuperação FreshStack, demonstrando que, apesar da migração de documentos relevantes entre repositórios, as classificações dos modelos de recuperação permanecem altamente correlacionadas, indicando que benchmarks reavaliados com corpora evolutivos continuam confiáveis.

Nathan Kuissi, Suraj Subrahmanyan, Nandan Thakur + 1 more2026-03-06💻 cs