Fine-Tuning and Evaluating Conversational AI for Agricultural Advisory

Este artigo apresenta uma arquitetura híbrida de LLM que combina ajuste fino supervisionado com fatos agrícolas verificados e uma camada de costura para gerar conselhos seguros e culturalmente adequados, demonstrando que modelos menores otimizados superam modelos de ponta em precisão factual e custo para o aconselhamento agrícola de pequenos produtores na Índia.

Sanyam Singh, Naga Ganesh, Vineet Singh + 8 more2026-03-05🤖 cs.AI

Language Model Goal Selection Differs from Humans' in an Open-Ended Task

O estudo revela que, em tarefas de aprendizado abertas, os modelos de linguagem atuais divergem substancialmente dos humanos ao selecionar objetivos, tendendo a explorar soluções únicas ou apresentar baixo desempenho em vez de demonstrar a diversidade exploratória característica das pessoas, o que limita sua confiabilidade como substitutos em aplicações críticas.

Gaia Molinaro, Dave August, Danielle Perszyk + 1 more2026-03-05🤖 cs.AI

TTSR: Test-Time Self-Reflection for Continual Reasoning Improvement

O artigo propõe o TTSR, um framework de auto-reflexão que utiliza um único modelo de linguagem alternando entre os papéis de "Aluno" e "Professor" durante o teste para identificar fraquezas de raciocínio e gerar questões variantes direcionadas, melhorando assim o desempenho em tarefas de raciocínio matemático complexo sem necessidade de dados de treinamento externos.

Haoyang He, Zihua Rong, Liangjie Zhao + 3 more2026-03-05🤖 cs.AI

How LLMs Cite and Why It Matters: A Cross-Model Audit of Reference Fabrication in AI-Assisted Academic Writing and Methods to Detect Phantom Citations

Este estudo apresenta uma ampla auditoria de 10 modelos de linguagem que revela altas taxas de alucinação de citações acadêmicas, demonstrando que esse comportamento é induzido pelo prompt e propondo métodos eficazes de detecção, como consenso entre múltiplos modelos e um classificador leve baseado em características bibliográficas, para mitigar o problema sem consultar bancos de dados externos.

MZ Naser2026-03-05💬 cs.CL

Benchmarking Legal RAG: The Promise and Limits of AI Statutory Surveys

Este artigo avalia o desempenho de ferramentas de IA jurídica no LaborBench, demonstrando que uma ferramenta personalizada (STARA) supera significativamente os modelos padrão e as soluções comerciais, ao mesmo tempo que revela limitações na própria "verdade fundamental" dos dados de referência e propõe princípios de design para o futuro da pesquisa legal assistida por IA.

Mohamed Afane, Emaan Hariri, Derek Ouyang + 1 more2026-03-05💬 cs.CL

Developing an AI Assistant for Knowledge Management and Workforce Training in State DOTs

Este artigo propõe um sistema de assistente de IA baseado em uma arquitetura multiagente com Geração Aumentada por Recuperação (RAG) e modelos de visão-linguagem para otimizar a gestão do conhecimento e o treinamento da força de trabalho em departamentos estaduais de transporte, superando as limitações dos métodos tradicionais ao integrar recuperação de documentos técnicos, análise de figuras e geração de respostas contextualizadas.

Divija Amaram, Lu Gao, Gowtham Reddy Gudla + 1 more2026-03-05🤖 cs.AI

Token-Oriented Object Notation vs JSON: A Benchmark of Plain and Constrained Decoding Generation

O estudo compara a Token-Oriented Object Notation (TOON) com o JSON, revelando que, embora a TOON ofereça uma relação promissora entre precisão e consumo de tokens para tarefas complexas, sua vantagem é frequentemente anulada pelo custo do prompt em contextos curtos, enquanto a geração de JSON padrão demonstra maior precisão geral e a decodificação restrita de JSON, apesar de economizar tokens, pode apresentar degradação significativa de desempenho.

Ivan Matveev2026-03-05🤖 cs.AI