cs.CL artigos | Gist.Science

Unpacking Human Preference for LLMs: Demographically Aware Evaluation with the HUMAINE Framework

O artigo apresenta o framework HUMAINE, que utiliza um conjunto de dados demograficamente estratificado de 23.404 participantes e um modelo hierárquico bayesiano para revelar que, embora o modelo *gemini-2.5-pro* seja o líder geral, as preferências humanas variam significativamente entre grupos etários e dimensões de avaliação, destacando a necessidade de uma metodologia de avaliação multidimensional e demograficamente consciente para LLMs.

Nora Petrova, Andrew Gordon, Enzo Blindow2026-03-06💻 cs

SalamahBench: Toward Standardized Safety Evaluation for Arabic Language Models

Este artigo apresenta o SalamahBench, um benchmark unificado para avaliação de segurança de Modelos de Linguagem em Árabe, que revela disparidades significativas na robustez de diferentes modelos e destaca a necessidade de mecanismos de proteção especializados e avaliações específicas por categoria.

Omar Abdelnasser, Fatemah Alharbi, Khaled Khasawneh + 2 more2026-03-06💻 cs

One Size Does Not Fit All: Token-Wise Adaptive Compression for KV Cache

O artigo apresenta o DynaKV, um framework de pós-treinamento inovador que otimiza a compressão de cache KV em modelos de linguagem grandes ao alocar dinamicamente taxas de compressão baseadas no significado semântico de cada token, superando métodos existentes ao reduzir significativamente o uso de memória sem comprometer a qualidade da geração.

Liming Lu, Kaixi Qiu, Jiayu Zhou + 6 more2026-03-06💻 cs

Additive Multi-Step Markov Chains and the Curse of Dimensionality in Large Language Models

Este artigo propõe uma aproximação teórica da dinâmica de Grandes Modelos de Linguagem utilizando cadeias de Markov aditivas de N ordens, estabelecendo uma equivalência com cadeias de memória passo a passo que permite definir o conceito de temperatura de informação e mitigar a explosão combinatória em espaços de alta dimensão.

O. V. Usatenko, S. S. Melnyk, G. M. Pritula2026-03-06💻 cs

Simulating Meaning, Nevermore! Introducing ICR: A Semiotic-Hermeneutic Metric for Evaluating Meaning in LLM Text Summaries

Este artigo propõe e valida a métrica Inductive Conceptual Rating (ICR), um framework qualitativo que integra semiótica e hermenêutica para avaliar a precisão semântica e a alinhamento de significado em resumos gerados por LLMs, demonstrando que, embora essas modelos apresentem alta similaridade lexical, frequentemente falham em capturar significados contextualmente fundamentados em comparação com a produção humana.

Natalie Perez, Sreyoshi Bhaduri, Aman Chadha2026-03-06💻 cs

Multiclass Hate Speech Detection with RoBERTa-OTA: Integrating Transformer Attention and Graph Convolutional Networks

O artigo apresenta o RoBERTa-OTA, um modelo inovador que integra mecanismos de atenção guiados por ontologia e Redes Neurais de Grafos ao RoBERTa para detectar discurso de ódio multiclasse com maior precisão e eficiência, superando os métodos existentes ao combinar compreensão contextual com conhecimento semântico estruturado.

Mahmoud Abusaqer, Jamil Saquer2026-03-06💻 cs

The Thinking Boundary: Quantifying Reasoning Suitability of Multimodal Tasks via Dual Tuning

Este artigo propõe o "Dual Tuning", um quadro de trabalho que quantifica os ganhos do raciocínio em tarefas multimodais para estabelecer uma "Fronteira de Pensamento", desafiando a abordagem de "raciocínio para tudo" e orientando estratégias de treinamento mais eficientes.

Ruobing Zheng, Tianqi Li, Jianing Li + 3 more2026-03-06💻 cs

Optimizing What We Trust: Reliability-Guided QUBO Selection of Multi-Agent Weak Framing Signals for Arabic Sentiment Prediction

O artigo propõe um framework de supervisão fraca orientado à confiabilidade para a detecção de enquadramento em mídias sociais árabes, que utiliza um pipeline multiagente para estimar a confiabilidade das instâncias e um processo de seleção baseado em QUBO para criar subconjuntos de dados balanceados e não redundantes, melhorando a previsão de sentimentos sem degradar as linhas de base existentes.

Rabab Alkhalifa2026-03-06💻 cs

Same Input, Different Scores: A Multi Model Study on the Inconsistency of LLM Judge

Este estudo demonstra que, apesar da expectativa de estabilidade, modelos de linguagem grandes (LLMs) utilizados como avaliadores automatizados apresentam inconsistências significativas na atribuição de pontuações numéricas para as mesmas entradas, variando conforme o modelo, a família e a temperatura, o que levanta preocupações críticas sobre a confiabilidade operacional e a reprodutibilidade em ambientes empresariais.

Fiona Lau2026-03-06💻 cs

Context-Dependent Affordance Computation in Vision-Language Models

Este estudo demonstra que os Modelos Visão-Linguagem exibem uma dependência contextual massiva na computação de affordances, onde tanto o vocabulário quanto o significado semântico variam drasticamente conforme o contexto, sugerindo a necessidade de projeções ontológicas dinâmicas para aplicações em robótica.

Murad Farzulla2026-03-06💻 cs

Do Mixed-Vendor Multi-Agent LLMs Improve Clinical Diagnosis?

O estudo demonstra que sistemas multiagente de LLMs com diversidade de fornecedores superam as configurações homogêneas em diagnósticos clínicos, pois a combinação de modelos distintos pooling vieses indutivos complementares para identificar corretamente diagnósticos que seriam ignorados por equipes de um único fornecedor.

Grace Chang Yuan, Xiaoman Zhang, Sung Eun Kim + 1 more2026-03-06💻 cs

Generating Realistic, Protocol-Compliant Maritime Radio Dialogues using Self-Instruct and Low-Rank Adaptation

Este estudo apresenta uma metodologia de Self-Instruct combinada com Low-Rank Adaptation (LoRA) e um pipeline de verificação rigoroso para gerar diálogos de rádio marítima realistas e conformes às normas da OMI, superando a escassez de dados de alta qualidade necessários para o desenvolvimento de sistemas de IA que visam melhorar a segurança operacional no mar.

Gürsel Akdeniz, Emin Cagatay Nakilcioglu2026-03-06💻 cs

What Is Missing: Interpretable Ratings for Large Language Model Outputs

O artigo apresenta o sistema de avaliação "What Is Missing" (WIM), que converte feedback textual sobre o que falta em uma resposta de LLM em uma pontuação baseada em similaridade semântica, oferecendo ratings mais discriminativos e interpretáveis para melhorar o aprendizado de preferências em comparação com escalas numéricas tradicionais.

Nicholas Stranges, Yimin Yang2026-03-06💻 cs

Dynamic Model Routing and Cascading for Efficient LLM Inference: A Survey

Este artigo de revisão analisa sistematicamente as abordagens de roteamento e encadeamento dinâmico entre múltiplos modelos de linguagem (LLMs), propondo um quadro conceitual para otimizar a seleção de modelos em tempo de inferência, equilibrando eficiência, custo e desempenho em comparação com a implantação estática.

Yasmin Moslem, John D. Kelleher2026-03-06💻 cs

SkillNet: Create, Evaluate, and Connect AI Skills

O artigo apresenta o SkillNet, uma infraestrutura aberta que organiza e avalia habilidades de IA em escala, permitindo que agentes aprendam com experiências passadas e melhorem significativamente seu desempenho em tarefas complexas.

Yuan Liang, Ruobin Zhong, Haoming Xu + 46 more2026-03-06✓ Author reviewed ⓘ💻 cs

A unified foundational framework for knowledge injection and evaluation of Large Language Models in Combustion Science

Este estudo apresenta um framework unificado e pioneiro para o desenvolvimento de modelos de linguagem especializados em ciência da combustão, que integra uma base de conhecimento multimodal de grande escala, um benchmark rigoroso de avaliação e um caminho de três estágios para injeção de conhecimento, demonstrando que a simples recuperação aumentada (RAG) atinge um limite de desempenho e que a construção de modelos fundamentais de domínio exige gráficos de conhecimento estruturados e pré-treinamento contínuo.

Zonglin Yang, Runze Mao, Tianhao Wu + 3 more2026-03-06💻 cs

Induced Numerical Instability: Hidden Costs in Multimodal Large Language Models

Este artigo identifica e valida uma nova vulnerabilidade em modelos de linguagem e visão grandes, demonstrando que a otimização de uma função de perda para induzir instabilidade numérica gera imagens que degradam significativamente o desempenho desses modelos, revelando um vetor de falha distinto das perturbações adversariais tradicionais.

Wai Tuck Wong, Jun Sun, Arunesh Sinha2026-03-06💻 cs

Query Disambiguation via Answer-Free Context: Doubling Performance on Humanity's Last Exam

Este trabalho demonstra que a reescrita de consultas para reduzir ambiguidades, utilizando contexto de fundamentação sem respostas, duplica o desempenho de modelos de linguagem no benchmark "Humanity's Last Exam", superando abordagens que apenas preparam o contexto antes da pergunta.

Michael Majurski, Cynthia Matuszek2026-03-06💻 cs

Still Fresh? Evaluating Temporal Drift in Retrieval Benchmarks

Este estudo avalia o impacto do desvio temporal em corpora técnicos sobre o benchmark de recuperação FreshStack, demonstrando que, apesar da migração de documentos relevantes entre repositórios, as classificações dos modelos de recuperação permanecem altamente correlacionadas, indicando que benchmarks reavaliados com corpora evolutivos continuam confiáveis.

Nathan Kuissi, Suraj Subrahmanyan, Nandan Thakur + 1 more2026-03-06💻 cs

Adaptive Memory Admission Control for LLM Agents

O artigo propõe o A-MAC, um framework de controle de admissão de memória adaptativo e interpretável para agentes de LLM que, ao decompor o valor da memória em cinco fatores e otimizar políticas de domínio, supera os sistemas nativos em precisão e eficiência, conforme demonstrado no benchmark LoCoMo.

Guilin Zhang, Wei Jiang, Xiejiashan Wang + 5 more2026-03-06💻 cs

← Anterior Próximo →