cs.CL artículos | Gist.Science

Fine-Tuning and Evaluating Conversational AI for Agricultural Advisory

Este trabajo presenta una arquitectura híbrida de modelos de lenguaje que, mediante el ajuste fino con LoRA sobre conocimientos agrícolas verificados y una capa de adaptación cultural, mejora la precisión factual y la seguridad de los sistemas de asesoramiento para pequeños agricultores en Bihar, India, superando las limitaciones de los modelos genéricos a un costo reducido.

Sanyam Singh, Naga Ganesh, Vineet Singh + 8 more2026-03-05🤖 cs.AI

Language Model Goal Selection Differs from Humans' in an Open-Ended Task

El estudio revela que los modelos de lenguaje actuales divergen significativamente de los humanos en la selección de objetivos dentro de tareas abiertas, mostrando una tendencia a explotar soluciones únicas o un rendimiento bajo en lugar de explorar con la diversidad característica del comportamiento humano, lo que cuestiona su validez como sustitutos en aplicaciones críticas.

Gaia Molinaro, Dave August, Danielle Perszyk + 1 more2026-03-05🤖 cs.AI

PlugMem: A Task-Agnostic Plugin Memory Module for LLM Agents

El artículo presenta PlugMem, un módulo de memoria plugin independiente de la tarea que mejora el rendimiento de los agentes LLM al transformar memorias episódicas en un grafo de conocimiento compacto y centrado en proposiciones, logrando una recuperación eficiente y superando tanto a diseños específicos de tarea como a métodos agnósticos existentes.

Ke Yang, Zixi Chen, Xuan He + 6 more2026-03-05🤖 cs.AI

TTSR: Test-Time Self-Reflection for Continual Reasoning Improvement

El artículo presenta TTSR, un marco de entrenamiento auto-reflexivo en tiempo de prueba que utiliza un bucle continuo donde un modelo actúa como estudiante y profesor para identificar y corregir sus propias debilidades de razonamiento mediante la síntesis de preguntas variantes, logrando así una mejora consistente en tareas de razonamiento matemático.

Haoyang He, Zihua Rong, Liangjie Zhao + 3 more2026-03-05🤖 cs.AI

TATRA: Training-Free Instance-Adaptive Prompting Through Rephrasing and Aggregation

El artículo presenta TATRA, un método de ingeniería de prompts libre de entrenamiento que mejora el rendimiento de los modelos de lenguaje al generar dinámicamente ejemplos específicos para cada instancia mediante reformulación y agregación, superando a técnicas que requieren optimización costosa y datos etiquetados.

Bartosz Dziuba, Kacper Kuchta, Paweł Batorski + 2 more2026-03-05🤖 cs.AI

How LLMs Cite and Why It Matters: A Cross-Model Audit of Reference Fabrication in AI-Assisted Academic Writing and Methods to Detect Phantom Citations

Este estudio audita la fabricación de citas en 10 modelos de lenguaje grandes, revelando tasas de alucinación variables entre el 11,4% y el 56,8% que dependen del modelo y el dominio, y propone métodos de detección como el consenso multivariante y un clasificador ligero basado en características bibliográficas para identificar citas fantasma sin consultar bases de datos externas.

MZ Naser2026-03-05💬 cs.CL

Benchmarking Legal RAG: The Promise and Limits of AI Statutory Surveys

Este artículo evalúa herramientas de IA legal emergentes utilizando el benchmark LaborBench, revelando que una herramienta personalizada (STARA) supera significativamente a las soluciones comerciales y al RAG estándar al lograr una precisión del 92% tras corregir omisiones en los datos de referencia, mientras identifica errores críticos de razonamiento y recuperación en los sistemas actuales.

Mohamed Afane, Emaan Hariri, Derek Ouyang + 1 more2026-03-05💬 cs.CL

From Exact Hits to Close Enough: Semantic Caching for LLM Embeddings

Este artículo presenta políticas de caché semántica para LLMs, demostrando que la política óptima es NP-dura, proponiendo heurísticas eficientes y validando experimentalmente que su nueva variante mejora la precisión semántica frente a los enfoques basados en frecuencia.

Dvir David Biton, Roy Friedman2026-03-05🤖 cs.AI

Developing an AI Assistant for Knowledge Management and Workforce Training in State DOTs

Este artículo propone un marco de arquitectura multiagente basado en Generación Aumentada por Recuperación (RAG) que integra modelos de lenguaje y visión para optimizar la gestión del conocimiento y la formación de la fuerza laboral en las oficinas de transporte estatales, permitiendo la recuperación contextualizada de manuales técnicos y figuras gráficas para mejorar la toma de decisiones y la transferencia de expertise.

Divija Amaram, Lu Gao, Gowtham Reddy Gudla + 1 more2026-03-05🤖 cs.AI

HumanLM: Simulating Users with State Alignment Beats Response Imitation

El artículo presenta HumanLM, un nuevo marco de entrenamiento que supera las limitaciones de los simuladores de usuarios actuales al alinear estados latentes psicológicamente fundamentados con respuestas reales mediante aprendizaje por refuerzo, logrando así una simulación de usuarios más precisa y humana validada mediante el benchmark Humanual.

Shirley Wu, Evelyn Choi, Arpandeep Khatua + 7 more2026-03-05🤖 cs.AI

Draft-Conditioned Constrained Decoding for Structured Generation in LLMs

El artículo presenta la Decodificación Restringida Condicionada por Borrador (DCCD), un método de inferencia sin entrenamiento que separa la planificación semántica de la validación estructural mediante la generación de un borrador no restringido, logrando así una mayor precisión en tareas de generación estructurada y una eficiencia de parámetros superior a la decodificación restringida convencional.

Avinash Reddy, Thayne T. Walker, James S. Ide + 1 more2026-03-05🤖 cs.AI

Token-Oriented Object Notation vs JSON: A Benchmark of Plain and Constrained Decoding Generation

El estudio compara la generación de JSON (plano y con decodificación restringida) frente a la notación orientada a tokens TOON mediante aprendizaje en contexto, concluyendo que aunque TOON ofrece una prometedora relación precisión/consumo de tokens en tareas complejas, su ventaja se ve a menudo anulada por la sobrecarga del prompt en contextos cortos, mientras que la generación JSON plana demuestra la mayor precisión general y la decodificación restringida supera a TOON en estructuras simples.

Ivan Matveev2026-03-05🤖 cs.AI

TopicENA: Enabling Epistemic Network Analysis at Scale through Automated Topic-Based Coding

El estudio presenta TopicENA, un marco que integra BERTopic con el Análisis de Redes Epistémicas (ENA) para automatizar la codificación de conceptos y permitir el análisis de redes a gran escala, ofreciendo además directrices prácticas sobre la granularidad de los temas y los umbrales de inclusión para optimizar los resultados.

Owen H. T. Lu, Tiffany T. Y. Hsu2026-03-05🤖 cs.AI

Old Habits Die Hard: How Conversational History Geometrically Traps LLMs

Este trabajo presenta el marco History-Echoes, que demuestra mediante análisis probabilísticos y geométricos que la historia conversacional atrapa a los modelos de lenguaje grandes en un "bucle geométrico" en el espacio latente, lo que provoca una persistencia de comportamientos y sesgos en sus generaciones futuras.

Adi Simhi, Fazl Barez, Martin Tutek + 2 more2026-03-05🤖 cs.AI

Combating data scarcity in recommendation services: Integrating cognitive types of VARK and neural network technologies (LLM)

Este trabajo propone un marco híbrido innovador que combina modelos de lenguaje grandes (LLM) para el análisis semántico con perfiles cognitivos VARK para superar el problema de inicio en frío en los sistemas de recomendación, permitiendo generar sugerencias personalizadas y explicables incluso con datos iniciales limitados.

Nikita Zmanovskii2026-03-05💬 cs.CL

Entropic-Time Inference: Self-Organizing Large Language Model Decoding Beyond Attention

Este artículo propone un nuevo paradigma de inferencia llamado "tiempo entrópico" para modelos de lenguaje grandes, que reemplaza la progresión lineal de tokens por un proceso auto-organizado donde la asignación de recursos computacionales, la poda de atención y la temperatura de muestreo se controlan dinámicamente mediante un objetivo unificado de reducción de incertidumbre.

Andrew Kiruluta2026-03-05🤖 cs.LG

The Logovista English-Japanese Machine Translation System

Este documento describe la arquitectura, las prácticas de desarrollo y los artefactos preservados del sistema de traducción automática Logovista inglés-japonés, un sistema comercial basado en reglas que operó desde principios de los años 90 hasta al menos 2012, destacando su evolución continua ante las presiones del uso real y sirviendo como registro técnico e histórico de sus recursos lingüísticos y de software.

Barton D. Wright2026-03-05💬 cs.CL

Escaping the BLEU Trap: A Signal-Grounded Framework with Decoupled Semantic Guidance for EEG-to-Text Decoding

El artículo presenta SemKey, un marco innovador que supera las limitaciones actuales en la decodificación de EEG a texto mediante la guía semántica desacoplada y la alineación estricta con señales neurales, logrando así una generación libre de alucinaciones y una evaluación más robusta que las métricas tradicionales como BLEU.

Yuchen Wang, Haonan Wang, Yu Guo + 2 more2026-03-05🤖 cs.AI

How does fine-tuning improve sensorimotor representations in large language models?

Este estudio demuestra que el ajuste fino (fine-tuning) puede reducir la brecha de encarnación en los modelos de lenguaje grandes al alinear sus representaciones internas con experiencias sensoriomotoras humanas, aunque esta mejora generaliza entre idiomas pero depende críticamente del objetivo de aprendizaje específico.

Minghua Wu, Javier Conde, Pedro Reviriego + 1 more2026-03-05🤖 cs.AI

Towards Self-Robust LLMs: Intrinsic Prompt Noise Resistance via CoIPO

Este trabajo propone CoIPO, un método de optimización de preferencias inversa basado en aprendizaje contrastivo que mejora la resistencia intrínseca de los modelos de lenguaje grandes al ruido en los prompts, superando a las técnicas actuales y validándose mediante el nuevo benchmark NoisyPromptBench.

Xin Yang, Letian Li, Abudukelimu Wuerkaixi + 5 more2026-03-05🤖 cs.AI

← Anterior Siguiente →