cs.CL artigos | Gist.Science

Optimizing What We Trust: Reliability-Guided QUBO Selection of Multi-Agent Weak Framing Signals for Arabic Sentiment Prediction

O artigo propõe um framework de supervisão fraca orientado à confiabilidade para a detecção de enquadramento em mídias sociais árabes, que utiliza um pipeline multiagente para estimar a confiabilidade das instâncias e um processo de seleção baseado em QUBO para criar subconjuntos de dados balanceados e não redundantes, melhorando a previsão de sentimentos sem degradar as linhas de base existentes.

Rabab Alkhalifa2026-03-06💻 cs

Same Input, Different Scores: A Multi Model Study on the Inconsistency of LLM Judge

Este estudo demonstra que, apesar da expectativa de estabilidade, modelos de linguagem grandes (LLMs) utilizados como avaliadores automatizados apresentam inconsistências significativas na atribuição de pontuações numéricas para as mesmas entradas, variando conforme o modelo, a família e a temperatura, o que levanta preocupações críticas sobre a confiabilidade operacional e a reprodutibilidade em ambientes empresariais.

Fiona Lau2026-03-06💻 cs

Context-Dependent Affordance Computation in Vision-Language Models

Este estudo demonstra que os Modelos Visão-Linguagem exibem uma dependência contextual massiva na computação de affordances, onde tanto o vocabulário quanto o significado semântico variam drasticamente conforme o contexto, sugerindo a necessidade de projeções ontológicas dinâmicas para aplicações em robótica.

Murad Farzulla2026-03-06💻 cs

Do Mixed-Vendor Multi-Agent LLMs Improve Clinical Diagnosis?

O estudo demonstra que sistemas multiagente de LLMs com diversidade de fornecedores superam as configurações homogêneas em diagnósticos clínicos, pois a combinação de modelos distintos pooling vieses indutivos complementares para identificar corretamente diagnósticos que seriam ignorados por equipes de um único fornecedor.

Grace Chang Yuan, Xiaoman Zhang, Sung Eun Kim + 1 more2026-03-06💻 cs

Generating Realistic, Protocol-Compliant Maritime Radio Dialogues using Self-Instruct and Low-Rank Adaptation

Este estudo apresenta uma metodologia de Self-Instruct combinada com Low-Rank Adaptation (LoRA) e um pipeline de verificação rigoroso para gerar diálogos de rádio marítima realistas e conformes às normas da OMI, superando a escassez de dados de alta qualidade necessários para o desenvolvimento de sistemas de IA que visam melhorar a segurança operacional no mar.

Gürsel Akdeniz, Emin Cagatay Nakilcioglu2026-03-06💻 cs

What Is Missing: Interpretable Ratings for Large Language Model Outputs

O artigo apresenta o sistema de avaliação "What Is Missing" (WIM), que converte feedback textual sobre o que falta em uma resposta de LLM em uma pontuação baseada em similaridade semântica, oferecendo ratings mais discriminativos e interpretáveis para melhorar o aprendizado de preferências em comparação com escalas numéricas tradicionais.

Nicholas Stranges, Yimin Yang2026-03-06💻 cs

Dynamic Model Routing and Cascading for Efficient LLM Inference: A Survey

Este artigo de revisão analisa sistematicamente as abordagens de roteamento e encadeamento dinâmico entre múltiplos modelos de linguagem (LLMs), propondo um quadro conceitual para otimizar a seleção de modelos em tempo de inferência, equilibrando eficiência, custo e desempenho em comparação com a implantação estática.

Yasmin Moslem, John D. Kelleher2026-03-06💻 cs

SkillNet: Create, Evaluate, and Connect AI Skills

O artigo apresenta o SkillNet, uma infraestrutura aberta que organiza e avalia habilidades de IA em escala, permitindo que agentes aprendam com experiências passadas e melhorem significativamente seu desempenho em tarefas complexas.

Yuan Liang, Ruobin Zhong, Haoming Xu + 46 more2026-03-06✓ Author reviewed💻 cs

A unified foundational framework for knowledge injection and evaluation of Large Language Models in Combustion Science

Este estudo apresenta um framework unificado e pioneiro para o desenvolvimento de modelos de linguagem especializados em ciência da combustão, que integra uma base de conhecimento multimodal de grande escala, um benchmark rigoroso de avaliação e um caminho de três estágios para injeção de conhecimento, demonstrando que a simples recuperação aumentada (RAG) atinge um limite de desempenho e que a construção de modelos fundamentais de domínio exige gráficos de conhecimento estruturados e pré-treinamento contínuo.

Zonglin Yang, Runze Mao, Tianhao Wu + 3 more2026-03-06💻 cs

Induced Numerical Instability: Hidden Costs in Multimodal Large Language Models

Este artigo identifica e valida uma nova vulnerabilidade em modelos de linguagem e visão grandes, demonstrando que a otimização de uma função de perda para induzir instabilidade numérica gera imagens que degradam significativamente o desempenho desses modelos, revelando um vetor de falha distinto das perturbações adversariais tradicionais.

Wai Tuck Wong, Jun Sun, Arunesh Sinha2026-03-06💻 cs

Query Disambiguation via Answer-Free Context: Doubling Performance on Humanity's Last Exam

Este trabalho demonstra que a reescrita de consultas para reduzir ambiguidades, utilizando contexto de fundamentação sem respostas, duplica o desempenho de modelos de linguagem no benchmark "Humanity's Last Exam", superando abordagens que apenas preparam o contexto antes da pergunta.

Michael Majurski, Cynthia Matuszek2026-03-06💻 cs

Still Fresh? Evaluating Temporal Drift in Retrieval Benchmarks

Este estudo avalia o impacto do desvio temporal em corpora técnicos sobre o benchmark de recuperação FreshStack, demonstrando que, apesar da migração de documentos relevantes entre repositórios, as classificações dos modelos de recuperação permanecem altamente correlacionadas, indicando que benchmarks reavaliados com corpora evolutivos continuam confiáveis.

Nathan Kuissi, Suraj Subrahmanyan, Nandan Thakur + 1 more2026-03-06💻 cs

Adaptive Memory Admission Control for LLM Agents

O artigo propõe o A-MAC, um framework de controle de admissão de memória adaptativo e interpretável para agentes de LLM que, ao decompor o valor da memória em cinco fatores e otimizar políticas de domínio, supera os sistemas nativos em precisão e eficiência, conforme demonstrado no benchmark LoCoMo.

Guilin Zhang, Wei Jiang, Xiejiashan Wang + 5 more2026-03-06💻 cs

From Static Inference to Dynamic Interaction: Navigating the Landscape of Streaming Large Language Models

Este artigo oferece uma visão abrangente sobre os Modelos de Linguagem de Grande Escala (LLMs) em streaming, estabelecendo uma definição unificada, propondo uma taxonomia sistemática, discutindo metodologias subjacentes e explorando aplicações e direções futuras para superar as limitações da inferência estática em cenários dinâmicos.

Junlong Tong, Zilong Wang, YuJie Ren + 4 more2026-03-06💻 cs

Bootstrapping Exploration with Group-Level Natural Language Feedback in Reinforcement Learning

O artigo apresenta o GOLF, um framework de aprendizado por reforço que utiliza feedback linguístico natural em nível de grupo para orientar a exploração direcionada e otimizar conjuntamente a geração e o refinamento, resultando em uma eficiência de amostragem 2,2 vezes superior aos métodos tradicionais baseados apenas em recompensas escalares.

Lei Huang, Xiang Cheng, Chenxiao Zhao + 6 more2026-03-06💻 cs

Vibe Code Bench: Evaluating AI Models on End-to-End Web Application Development

Este artigo apresenta o "Vibe Code Bench", um novo benchmark que avalia a capacidade de 16 modelos de IA de desenvolver aplicações web completas do zero, revelando que, apesar dos avanços, a geração confiável de software end-to-end ainda é um desafio significativo e depende criticamente de estratégias como auto-teste e de protocolos rigorosos de avaliação humana.

Hung Tran, Langston Nashold, Rayan Krishnan + 2 more2026-03-06💻 cs

Coordinated Semantic Alignment and Evidence Constraints for Retrieval-Augmented Generation with Large Language Models

Este artigo propõe um método de Geração Aumentada por Recuperação que integra alinhamento semântico coordenado e mecanismos de restrição de evidências para mitigar desalinhamentos e melhorar a consistência factual e a confiabilidade dos modelos de linguagem grandes.

Xin Chen, Saili Uday Gadgil, Jiarong Qiu2026-03-06💻 cs

iAgentBench: Benchmarking Sensemaking Capabilities of Information-Seeking Agents on High-Traffic Topics

O artigo apresenta o iAgentBench, um novo benchmark dinâmico para perguntas de resposta aberta que avalia a capacidade de agentes de IA de realizar "sensemaking" (compreensão e síntese) ao integrar evidências de múltiplas fontes em tópicos de alto interesse, superando as limitações de benchmarks tradicionais que exigem apenas a recuperação de um único trecho.

Preetam Prabhu Srikar Dammu, Arnav Palkhiwala, Tanya Roosta + 1 more2026-03-06💻 cs

Stan: An LLM-based thermodynamics course assistant

O artigo apresenta o "Stan", um assistente de curso baseado em LLMs para termodinâmica que utiliza modelos de código aberto rodando localmente para oferecer, a partir de uma mesma base de dados, respostas fundamentadas para estudantes e análises estruturadas para instrutores, garantindo privacidade, controle de custos e reprodutibilidade.

Eric M. Furst, Vasudevan Venkateshwaran2026-03-06🔬 physics

Using Vision + Language Models to Predict Item Difficulty

Este estudo demonstra que uma abordagem multimodal, combinando recursos visuais e textuais com o modelo GPT-4.1-nano, supera métodos unimodais na previsão da dificuldade de itens de testes de alfabetização em visualização de dados para adultos dos EUA, evidenciando o potencial dos modelos de linguagem para análise psicométrica e desenvolvimento automatizado de itens.

Samin Khan2026-03-06💻 cs

← Anterior Próximo →