cs.CL artigos | Gist.Science

Code2Math: Can Your Code Agent Effectively Evolve Math Problems Through Exploration?

O artigo apresenta o framework Code2Math, que utiliza agentes de código para evoluir autonomamente problemas matemáticos existentes em variações mais complexas e solucionáveis, abordando a escassez de desafios de alta qualidade para o treinamento e avaliação de modelos de linguagem.

Dadi Guo, Yuejin Xie, Qingyu Liu + 7 more2026-03-05💬 cs.CL

AriadneMem: Threading the Maze of Lifelong Memory for LLM Agents

O artigo apresenta o AriadneMem, um sistema de memória estruturado para agentes LLM que supera desafios de evidências desconectadas e atualizações de estado através de um pipeline de duas fases, alcançando melhorias significativas na precisão e redução drástica no tempo de execução e uso de contexto em comparação com métodos existentes.

Wenhui Zhu, Xiwen Chen, Zhipeng Wang + 11 more2026-03-05🤖 cs.AI

One Bias After Another: Mechanistic Reward Shaping and Persistent Biases in Language Reward Models

Este artigo identifica e categoriza vieses persistentes e emergentes em Modelos de Recompensa (RMs), propondo uma técnica de "moldagem de recompensa mecânica" que mitiga eficazmente esses vieses de baixa complexidade sem degradar a qualidade geral do modelo.

Daniel Fein, Max Lamparth, Violet Xiang + 2 more2026-03-05🤖 cs.AI

From Conflict to Consensus: Boosting Medical Reasoning via Multi-Round Agentic RAG

O artigo apresenta o MA-RAG, um framework de RAG agêntico multi-round que transforma conflitos semânticos em consultas iterativas para refinar evidências e raciocínio, alcançando um consenso médico de alta fidelidade e superando significativamente os métodos existentes em benchmarks de perguntas e respostas médicas.

Wenhao Wu, Zhentao Tang, Yafu Li + 5 more2026-03-05🤖 cs.AI

SE-Search: Self-Evolving Search Agent via Memory and Dense Reward

O artigo apresenta o SE-Search, um agente de busca autoevolutivo que utiliza uma estratégia de "Pensar-Procurar-Memorizar" com purificação de memória, treinamento de consultas atômicas e recompensas densas para superar as limitações de ruído e sinais esparsos, alcançando desempenho superior em benchmarks de perguntas e respostas.

Jian Li, Yizhang Jin, Dongqi Liu + 9 more2026-03-05💬 cs.CL

Fine-Tuning and Evaluating Conversational AI for Agricultural Advisory

Este artigo apresenta uma arquitetura híbrida de LLM que combina ajuste fino supervisionado com fatos agrícolas verificados e uma camada de costura para gerar conselhos seguros e culturalmente adequados, demonstrando que modelos menores otimizados superam modelos de ponta em precisão factual e custo para o aconselhamento agrícola de pequenos produtores na Índia.

Sanyam Singh, Naga Ganesh, Vineet Singh + 8 more2026-03-05🤖 cs.AI

Language Model Goal Selection Differs from Humans' in an Open-Ended Task

O estudo revela que, em tarefas de aprendizado abertas, os modelos de linguagem atuais divergem substancialmente dos humanos ao selecionar objetivos, tendendo a explorar soluções únicas ou apresentar baixo desempenho em vez de demonstrar a diversidade exploratória característica das pessoas, o que limita sua confiabilidade como substitutos em aplicações críticas.

Gaia Molinaro, Dave August, Danielle Perszyk + 1 more2026-03-05🤖 cs.AI

PlugMem: A Task-Agnostic Plugin Memory Module for LLM Agents

O artigo apresenta o PlugMem, um módulo de memória plugável e agnóstico a tarefas que transforma memórias episódicas em um grafo de conhecimento compacto e centrado em proposições, permitindo que agentes de LLM recuperem informações relevantes de forma eficiente e supere tanto as abordagens agnósticas quanto as específicas para tarefas em diversos cenários complexos.

Ke Yang, Zixi Chen, Xuan He + 6 more2026-03-05🤖 cs.AI

TTSR: Test-Time Self-Reflection for Continual Reasoning Improvement

O artigo propõe o TTSR, um framework de auto-reflexão que utiliza um único modelo de linguagem alternando entre os papéis de "Aluno" e "Professor" durante o teste para identificar fraquezas de raciocínio e gerar questões variantes direcionadas, melhorando assim o desempenho em tarefas de raciocínio matemático complexo sem necessidade de dados de treinamento externos.

Haoyang He, Zihua Rong, Liangjie Zhao + 3 more2026-03-05🤖 cs.AI

TATRA: Training-Free Instance-Adaptive Prompting Through Rephrasing and Aggregation

O artigo apresenta o TATRA, um método de engenharia de prompts livre de treinamento que, ao sintetizar exemplos específicos para cada instância em tempo real, supera ou iguala abordagens baseadas em otimização intensiva e dados rotulados em tarefas de classificação de texto e raciocínio matemático.

Bartosz Dziuba, Kacper Kuchta, Paweł Batorski + 2 more2026-03-05🤖 cs.AI

How LLMs Cite and Why It Matters: A Cross-Model Audit of Reference Fabrication in AI-Assisted Academic Writing and Methods to Detect Phantom Citations

Este estudo apresenta uma ampla auditoria de 10 modelos de linguagem que revela altas taxas de alucinação de citações acadêmicas, demonstrando que esse comportamento é induzido pelo prompt e propondo métodos eficazes de detecção, como consenso entre múltiplos modelos e um classificador leve baseado em características bibliográficas, para mitigar o problema sem consultar bancos de dados externos.

MZ Naser2026-03-05💬 cs.CL

Benchmarking Legal RAG: The Promise and Limits of AI Statutory Surveys

Este artigo avalia o desempenho de ferramentas de IA jurídica no LaborBench, demonstrando que uma ferramenta personalizada (STARA) supera significativamente os modelos padrão e as soluções comerciais, ao mesmo tempo que revela limitações na própria "verdade fundamental" dos dados de referência e propõe princípios de design para o futuro da pesquisa legal assistida por IA.

Mohamed Afane, Emaan Hariri, Derek Ouyang + 1 more2026-03-05💬 cs.CL

From Exact Hits to Close Enough: Semantic Caching for LLM Embeddings

Este artigo investiga políticas de cache semântico para embeddings de LLMs, demonstrando que a política ótima offline é NP-difícil, propondo heurísticas polinomiais e políticas online que combinam recência, frequência e localidade para melhorar a precisão semântica e reduzir custos.

Dvir David Biton, Roy Friedman2026-03-05🤖 cs.AI

Developing an AI Assistant for Knowledge Management and Workforce Training in State DOTs

Este artigo propõe um sistema de assistente de IA baseado em uma arquitetura multiagente com Geração Aumentada por Recuperação (RAG) e modelos de visão-linguagem para otimizar a gestão do conhecimento e o treinamento da força de trabalho em departamentos estaduais de transporte, superando as limitações dos métodos tradicionais ao integrar recuperação de documentos técnicos, análise de figuras e geração de respostas contextualizadas.

Divija Amaram, Lu Gao, Gowtham Reddy Gudla + 1 more2026-03-05🤖 cs.AI

HumanLM: Simulating Users with State Alignment Beats Response Imitation

O artigo apresenta o HumanLM, um novo framework de treinamento que supera a simples imitação de respostas ao alinhar estados latentes psicologicamente fundamentados com respostas reais, demonstrando superioridade em um novo benchmark abrangente chamado Humanual e em estudos de simulação em tempo real.

Shirley Wu, Evelyn Choi, Arpandeep Khatua + 7 more2026-03-05🤖 cs.AI

Draft-Conditioned Constrained Decoding for Structured Generation in LLMs

O artigo propõe a Decodificação Condição-Rascunho (DCCD), um método de inferência sem treinamento que separa o planejamento semântico da validação estrutural para gerar saídas válidas em LLMs, resultando em ganhos significativos de precisão e eficiência de parâmetros em comparação com a decodificação restrita padrão.

Avinash Reddy, Thayne T. Walker, James S. Ide + 1 more2026-03-05🤖 cs.AI

Token-Oriented Object Notation vs JSON: A Benchmark of Plain and Constrained Decoding Generation

O estudo compara a Token-Oriented Object Notation (TOON) com o JSON, revelando que, embora a TOON ofereça uma relação promissora entre precisão e consumo de tokens para tarefas complexas, sua vantagem é frequentemente anulada pelo custo do prompt em contextos curtos, enquanto a geração de JSON padrão demonstra maior precisão geral e a decodificação restrita de JSON, apesar de economizar tokens, pode apresentar degradação significativa de desempenho.

Ivan Matveev2026-03-05🤖 cs.AI

TopicENA: Enabling Epistemic Network Analysis at Scale through Automated Topic-Based Coding

O estudo apresenta o TopicENA, um framework que integra o BERTopic à Análise de Redes Epistêmicas (ENA) para substituir a codificação manual por tópicos automatizados, permitindo assim a análise escalável e interpretável de grandes corpora textuais.

Owen H. T. Lu, Tiffany T. Y. Hsu2026-03-05🤖 cs.AI

Old Habits Die Hard: How Conversational History Geometrically Traps LLMs

Este trabalho apresenta o framework History-Echoes, que demonstra como a história conversacional cria um "aprisionamento geométrico" no espaço latente de modelos de linguagem, onde a persistência comportamental e as inconsistências passadas limitam geometricamente e probabilisticamente as gerações futuras.

Adi Simhi, Fazl Barez, Martin Tutek + 2 more2026-03-05🤖 cs.AI

Combating data scarcity in recommendation services: Integrating cognitive types of VARK and neural network technologies (LLM)

Este trabalho propõe um framework híbrido inovador que integra modelos de linguagem (LLM) e perfis cognitivos VARK para superar o problema de início frio em sistemas de recomendação, gerando perfis de usuários e metadados de itens enriquecidos para fornecer recomendações personalizadas e explicáveis mesmo com dados escassos.

Nikita Zmanovskii2026-03-05💬 cs.CL

← Anterior Próximo →