cs.CL artigos | Gist.Science

Query Disambiguation via Answer-Free Context: Doubling Performance on Humanity's Last Exam

Este trabalho demonstra que a reescrita de consultas para reduzir ambiguidades, utilizando contexto de fundamentação sem respostas, duplica o desempenho de modelos de linguagem no benchmark "Humanity's Last Exam", superando abordagens que apenas preparam o contexto antes da pergunta.

Michael Majurski, Cynthia Matuszek2026-03-06💻 cs

Still Fresh? Evaluating Temporal Drift in Retrieval Benchmarks

Este estudo avalia o impacto do desvio temporal em corpora técnicos sobre o benchmark de recuperação FreshStack, demonstrando que, apesar da migração de documentos relevantes entre repositórios, as classificações dos modelos de recuperação permanecem altamente correlacionadas, indicando que benchmarks reavaliados com corpora evolutivos continuam confiáveis.

Nathan Kuissi, Suraj Subrahmanyan, Nandan Thakur + 1 more2026-03-06💻 cs

Adaptive Memory Admission Control for LLM Agents

O artigo propõe o A-MAC, um framework de controle de admissão de memória adaptativo e interpretável para agentes de LLM que, ao decompor o valor da memória em cinco fatores e otimizar políticas de domínio, supera os sistemas nativos em precisão e eficiência, conforme demonstrado no benchmark LoCoMo.

Guilin Zhang, Wei Jiang, Xiejiashan Wang + 5 more2026-03-06💻 cs

From Static Inference to Dynamic Interaction: Navigating the Landscape of Streaming Large Language Models

Este artigo oferece uma visão abrangente sobre os Modelos de Linguagem de Grande Escala (LLMs) em streaming, estabelecendo uma definição unificada, propondo uma taxonomia sistemática, discutindo metodologias subjacentes e explorando aplicações e direções futuras para superar as limitações da inferência estática em cenários dinâmicos.

Junlong Tong, Zilong Wang, YuJie Ren + 4 more2026-03-06💻 cs

Bootstrapping Exploration with Group-Level Natural Language Feedback in Reinforcement Learning

O artigo apresenta o GOLF, um framework de aprendizado por reforço que utiliza feedback linguístico natural em nível de grupo para orientar a exploração direcionada e otimizar conjuntamente a geração e o refinamento, resultando em uma eficiência de amostragem 2,2 vezes superior aos métodos tradicionais baseados apenas em recompensas escalares.

Lei Huang, Xiang Cheng, Chenxiao Zhao + 6 more2026-03-06💻 cs

Vibe Code Bench: Evaluating AI Models on End-to-End Web Application Development

Este artigo apresenta o "Vibe Code Bench", um novo benchmark que avalia a capacidade de 16 modelos de IA de desenvolver aplicações web completas do zero, revelando que, apesar dos avanços, a geração confiável de software end-to-end ainda é um desafio significativo e depende criticamente de estratégias como auto-teste e de protocolos rigorosos de avaliação humana.

Hung Tran, Langston Nashold, Rayan Krishnan + 2 more2026-03-06💻 cs

Coordinated Semantic Alignment and Evidence Constraints for Retrieval-Augmented Generation with Large Language Models

Este artigo propõe um método de Geração Aumentada por Recuperação que integra alinhamento semântico coordenado e mecanismos de restrição de evidências para mitigar desalinhamentos e melhorar a consistência factual e a confiabilidade dos modelos de linguagem grandes.

Xin Chen, Saili Uday Gadgil, Jiarong Qiu2026-03-06💻 cs

iAgentBench: Benchmarking Sensemaking Capabilities of Information-Seeking Agents on High-Traffic Topics

O artigo apresenta o iAgentBench, um novo benchmark dinâmico para perguntas de resposta aberta que avalia a capacidade de agentes de IA de realizar "sensemaking" (compreensão e síntese) ao integrar evidências de múltiplas fontes em tópicos de alto interesse, superando as limitações de benchmarks tradicionais que exigem apenas a recuperação de um único trecho.

Preetam Prabhu Srikar Dammu, Arnav Palkhiwala, Tanya Roosta + 1 more2026-03-06💻 cs

Stan: An LLM-based thermodynamics course assistant

O artigo apresenta o "Stan", um assistente de curso baseado em LLMs para termodinâmica que utiliza modelos de código aberto rodando localmente para oferecer, a partir de uma mesma base de dados, respostas fundamentadas para estudantes e análises estruturadas para instrutores, garantindo privacidade, controle de custos e reprodutibilidade.

Eric M. Furst, Vasudevan Venkateshwaran2026-03-06🔬 physics

Using Vision + Language Models to Predict Item Difficulty

Este estudo demonstra que uma abordagem multimodal, combinando recursos visuais e textuais com o modelo GPT-4.1-nano, supera métodos unimodais na previsão da dificuldade de itens de testes de alfabetização em visualização de dados para adultos dos EUA, evidenciando o potencial dos modelos de linguagem para análise psicométrica e desenvolvimento automatizado de itens.

Samin Khan2026-03-06💻 cs

Optimizing Language Models for Crosslingual Knowledge Consistency

Este trabalho apresenta a Otimização Direta de Consistência (DCO), um método eficiente inspirado no DPO que utiliza aprendizado por reforço para melhorar significativamente a consistência do conhecimento em modelos de linguagem multilíngue sem a necessidade de um modelo de recompensa explícito.

Tianyu Liu, Jirui Qi, Mrinmaya Sachan + 3 more2026-03-06💻 cs

Non-Zipfian Distribution of Stopwords and Subset Selection Models

Este artigo propõe e valida um modelo de seleção de subconjunto baseado em funções de Hill para explicar por que a distribuição de frequência de stopwords segue a Função de Classificação Beta (BRF) em vez da Lei de Zipf, enquanto as palavras não-stopwords se ajustam melhor a uma função quadrática.

Wentian Li, Oscar Fontanelli2026-03-06💻 cs

Hate Speech Detection using Large Language Models with Data Augmentation and Feature Enhancement

Este artigo avalia técnicas de aumento de dados e aprimoramento de recursos para detecção de discurso de ódio, demonstrando que o modelo de linguagem aberto gpt-oss-20b alcança os melhores resultados gerais, enquanto o Delta TF-IDF se destaca em conjuntos específicos, e confirmando que a eficácia dessas estratégias depende da interação entre o conjunto de dados, a arquitetura do modelo e a técnica aplicada.

Brian Jing Hong Nge, Stefan Su, Thanh Thi Nguyen + 3 more2026-03-06💻 cs

Detection of Illicit Content on Online Marketplaces using Large Language Models

Esta pesquisa demonstra que modelos de linguagem de grande escala (LLMs), especificamente o Llama 3.2, superam métodos tradicionais na classificação complexa e multiclasse de conteúdo ilícito em marketplaces online ao serem ajustados com técnicas eficientes, oferecendo ferramentas mais escaláveis e adaptáveis para a segurança digital.

Quoc Khoa Tran, Thanh Thi Nguyen, Campbell Wilson2026-03-06💻 cs

AI-Assisted Moot Courts: Simulating Justice-Specific Questioning in Oral Arguments

Este artigo propõe e avalia um novo framework de duas camadas para medir a eficácia de modelos de IA na simulação de questionamentos específicos de juízes em tribunais simulados, utilizando transcrições do Supremo Tribunal dos EUA e revelando que, embora as perguntas geradas sejam realistas e cobrem bem questões legais substantivas, os modelos ainda apresentam limitações significativas como baixa diversidade e sycophancy que só são detectadas por essa abordagem de avaliação rigorosa.

Kylie Zhang, Nimra Nadeem, Lucia Zheng + 2 more2026-03-06💻 cs

Model Medicine: A Clinical Framework for Understanding, Diagnosing, and Treating AI Models

Este artigo apresenta o "Model Medicine", um novo paradigma de pesquisa que aplica uma estrutura clínica sistemática para entender, diagnosticar e tratar desordens em modelos de IA, introduzindo contribuições como uma taxonomia de disciplinas, o Modelo de Quatro Camadas, a ferramenta de diagnóstico Neural MRI e frameworks padronizados para avaliação e relato de casos.

Jihoon Jeong2026-03-06💻 cs

Solving an Open Problem in Theoretical Physics using AI-Assisted Discovery

Este artigo demonstra como um sistema neuro-simbólico, combinando o modelo de linguagem Gemini Deep Think com uma busca em árvore e feedback numérico, resolveu autonomamente um problema em aberto na física teórica ao derivar soluções analíticas exatas para o espectro de potência da radiação gravitacional emitida por cordas cósmicas.

Michael P. Brenner, Vincent Cohen-Addad, David Woodruff2026-03-06💻 cs

Interactive Benchmarks

O artigo propõe os "Interactive Benchmarks", um novo paradigma de avaliação unificado que testa a capacidade de raciocínio de modelos sob restrições orçamentárias em cenários interativos de provas e jogos, demonstrando que essa abordagem oferece uma avaliação mais robusta e fiel da inteligência artificial do que os benchmarks padrão.

Baoqing Yue, Zihan Zhu, Yifan Zhang + 3 more2026-03-06💻 cs

IF-RewardBench: Benchmarking Judge Models for Instruction-Following Evaluation

Este artigo apresenta o IF-RewardBench, um novo benchmark abrangente para avaliar modelos juízes na tarefa de seguimento de instruções, que supera as limitações de métodos existentes ao utilizar um paradigma de avaliação listwise baseado em grafos de preferência, demonstrando uma correlação mais forte com o desempenho em tarefas downstream.

Bosi Wen, Yilin Niu, Cunxiang Wang + 5 more2026-03-06💻 cs

DARE: Aligning LLM Agents with the R Statistical Ecosystem via Distribution-Aware Retrieval

O artigo apresenta o DARE, um modelo de recuperação leve que alinha agentes de LLM ao ecossistema estatístico R ao incorporar informações de distribuição de dados nas representações de funções, resultando em uma recuperação de pacotes e geração de código significativamente mais precisas.

Maojun Sun, Yue Wu, Yifei Xie + 5 more2026-03-06💻 cs

← Anterior Próximo →