cs.CL artículos | Gist.Science

Prompt Sensitivity and Answer Consistency of Small Open-Source Large Language Models on Clinical Question Answering: Implications for Low-Resource Healthcare Deployment

Este estudio demuestra que, para el despliegue de IA clínica en entornos de bajos recursos, los modelos de código abierto pequeños como Llama 3.2 ofrecen el mejor equilibrio entre precisión y consistencia, advirtiendo que una alta consistencia no garantiza la corrección y que el entrenamiento específico en el dominio sin ajuste de instrucciones es insuficiente para tareas de respuesta clínica estructurada.

Shravani Hariprasad2026-03-05🤖 cs.AI

A Study on Building Efficient Zero-Shot Relation Extraction Models

Este estudio evalúa la robustez de los modelos de extracción de relaciones en cero disparos bajo escenarios realistas, proponiendo estrategias para modelos de paso único y con mecanismos de rechazo, y concluye que, aunque ninguno es completamente robusto, AlignRE obtiene el mejor rendimiento global.

Hugo Thomas, Caio Corro, Guillaume Gravier + 1 more2026-03-05💬 cs.CL

Extracting Training Dialogue Data from Large Language Model based Task Bots

Este trabajo presenta un estudio cuantitativo sistemático que revela cómo los modelos de lenguaje grande en sistemas de diálogo orientados a tareas pueden memorizar datos de entrenamiento privados, proponiendo y validando nuevas técnicas de ataque para extraer información sensible y ofreciendo estrategias de mitigación.

Shuo Zhang, Junzhou Zhao, Junji Hou + 3 more2026-03-05🤖 cs.AI

From Variance to Invariance: Qualitative Content Analysis for Narrative Graph Annotation

Este trabajo presenta un marco de anotación de gráficos narrativos para discursos sobre inflación que integra el análisis cualitativo de contenido y evalúa la variación humana en las interpretaciones mediante un diseño experimental factorial, demostrando que las representaciones localmente restringidas y las métricas de distancia adecuadas mejoran la fiabilidad de la anotación.

Junbo Huang, Max Weinig, Ulrich Fritsche + 1 more2026-03-05🤖 cs.AI

Detecting AI-Generated Essays in Writing Assessment: Responsible Use and Generalizability Across LLMs

Este capítulo ofrece una visión general de los detectores de ensayos generados por IA y sus directrices de uso responsable, presentando además un análisis empírico sobre la capacidad de generalización de estos detectores entre diferentes modelos de lenguaje grandes para guiar su desarrollo práctico.

Jiangang Hao2026-03-05💬 cs.CL

LaTeX Compilation: Challenges in the Era of LLMs

Este artículo analiza las limitaciones de TeX en la era de los modelos de lenguaje grandes (LLM) y propone Mogan STEM, un editor estructurado WYSIWYG que supera a TeX en eficiencia, localización de errores y rendimiento con LLM, demostrando además que su formato .tmu es más eficiente para el ajuste fino de estos modelos debido a su menor entropía de información.

Tianyou Liu, Ziqiang Li, Xurui Liu + 1 more2026-03-05💬 cs.CL

Learning to Generate and Extract: A Multi-Agent Collaboration Framework For Zero-shot Document-level Event Arguments Extraction

Este artículo presenta un marco de colaboración multiagente que simula un proceso cognitivo de "proponer-evaluar-revisar" mediante aprendizaje por refuerzo para mejorar la extracción de argumentos de eventos a nivel de documento en escenarios de cero disparos, superando las limitaciones de los métodos existentes mediante la generación y evaluación iterativa de datos sintéticos.

Guangjun Zhang, Hu Zhang, Yazhou Han + 4 more2026-03-05🤖 cs.AI

Code2Math: Can Your Code Agent Effectively Evolve Math Problems Through Exploration?

Este trabajo presenta un marco multiagente basado en código que demuestra cómo los agentes de lenguaje pueden evolucionar problemas matemáticos existentes hacia variantes más complejas y resolubles, abordando así la escasez de datos de entrenamiento de alta calidad.

Dadi Guo, Yuejin Xie, Qingyu Liu + 7 more2026-03-05💬 cs.CL

AriadneMem: Threading the Maze of Lifelong Memory for LLM Agents

AriadneMem es un sistema de memoria estructurado para agentes LLM que, mediante un pipeline de dos fases con filtrado por entropía, coarsening consciente de conflictos y descubrimiento algorítmico de puentes, mejora significativamente la precisión en respuestas multi-hop y reduce el tiempo de ejecución en un 77,8% al gestionar eficientemente la evidencia desconectada y las actualizaciones de estado en diálogos a largo plazo.

Wenhui Zhu, Xiwen Chen, Zhipeng Wang + 11 more2026-03-05🤖 cs.AI

One Bias After Another: Mechanistic Reward Shaping and Persistent Biases in Language Reward Models

Este artículo identifica y categoriza diversas sesgos persistentes en los Modelos de Recompensa (RMs) para la alineación de modelos de lenguaje, proponiendo una intervención de "formación de recompensa mecánica" que mitiga eficazmente estos sesgos sin degradar la calidad de la recompensa ni requerir grandes cantidades de datos etiquetados.

Daniel Fein, Max Lamparth, Violet Xiang + 2 more2026-03-05🤖 cs.AI

From Conflict to Consensus: Boosting Medical Reasoning via Multi-Round Agentic RAG

El paper presenta MA-RAG, un marco de RAG multi-vuelta basado en agentes que mejora el razonamiento médico al transformar los conflictos semánticos en consultas iterativas para refinar la evidencia externa y el historial de razonamiento, logrando un consenso de alta fidelidad que supera significativamente a los métodos existentes en siete benchmarks médicos.

Wenhao Wu, Zhentao Tang, Yafu Li + 5 more2026-03-05🤖 cs.AI

SE-Search: Self-Evolving Search Agent via Memory and Dense Reward

El artículo presenta SE-Search, un agente de búsqueda autoevolutivo que mejora el rendimiento en la generación aumentada por recuperación mediante una estrategia de "pensar-buscar-memorizar", el entrenamiento con consultas atómicas y recompensas densas, logrando superar significativamente a los modelos de referencia en tareas de respuesta a preguntas.

Jian Li, Yizhang Jin, Dongqi Liu + 9 more2026-03-05💬 cs.CL

Fine-Tuning and Evaluating Conversational AI for Agricultural Advisory

Este trabajo presenta una arquitectura híbrida de modelos de lenguaje que, mediante el ajuste fino con LoRA sobre conocimientos agrícolas verificados y una capa de adaptación cultural, mejora la precisión factual y la seguridad de los sistemas de asesoramiento para pequeños agricultores en Bihar, India, superando las limitaciones de los modelos genéricos a un costo reducido.

Sanyam Singh, Naga Ganesh, Vineet Singh + 8 more2026-03-05🤖 cs.AI

Language Model Goal Selection Differs from Humans' in an Open-Ended Task

El estudio revela que los modelos de lenguaje actuales divergen significativamente de los humanos en la selección de objetivos dentro de tareas abiertas, mostrando una tendencia a explotar soluciones únicas o un rendimiento bajo en lugar de explorar con la diversidad característica del comportamiento humano, lo que cuestiona su validez como sustitutos en aplicaciones críticas.

Gaia Molinaro, Dave August, Danielle Perszyk + 1 more2026-03-05🤖 cs.AI

PlugMem: A Task-Agnostic Plugin Memory Module for LLM Agents

El artículo presenta PlugMem, un módulo de memoria plugin independiente de la tarea que mejora el rendimiento de los agentes LLM al transformar memorias episódicas en un grafo de conocimiento compacto y centrado en proposiciones, logrando una recuperación eficiente y superando tanto a diseños específicos de tarea como a métodos agnósticos existentes.

Ke Yang, Zixi Chen, Xuan He + 6 more2026-03-05🤖 cs.AI

TTSR: Test-Time Self-Reflection for Continual Reasoning Improvement

El artículo presenta TTSR, un marco de entrenamiento auto-reflexivo en tiempo de prueba que utiliza un bucle continuo donde un modelo actúa como estudiante y profesor para identificar y corregir sus propias debilidades de razonamiento mediante la síntesis de preguntas variantes, logrando así una mejora consistente en tareas de razonamiento matemático.

Haoyang He, Zihua Rong, Liangjie Zhao + 3 more2026-03-05🤖 cs.AI

TATRA: Training-Free Instance-Adaptive Prompting Through Rephrasing and Aggregation

El artículo presenta TATRA, un método de ingeniería de prompts libre de entrenamiento que mejora el rendimiento de los modelos de lenguaje al generar dinámicamente ejemplos específicos para cada instancia mediante reformulación y agregación, superando a técnicas que requieren optimización costosa y datos etiquetados.

Bartosz Dziuba, Kacper Kuchta, Paweł Batorski + 2 more2026-03-05🤖 cs.AI

How LLMs Cite and Why It Matters: A Cross-Model Audit of Reference Fabrication in AI-Assisted Academic Writing and Methods to Detect Phantom Citations

Este estudio audita la fabricación de citas en 10 modelos de lenguaje grandes, revelando tasas de alucinación variables entre el 11,4% y el 56,8% que dependen del modelo y el dominio, y propone métodos de detección como el consenso multivariante y un clasificador ligero basado en características bibliográficas para identificar citas fantasma sin consultar bases de datos externas.

MZ Naser2026-03-05💬 cs.CL

Benchmarking Legal RAG: The Promise and Limits of AI Statutory Surveys

Este artículo evalúa herramientas de IA legal emergentes utilizando el benchmark LaborBench, revelando que una herramienta personalizada (STARA) supera significativamente a las soluciones comerciales y al RAG estándar al lograr una precisión del 92% tras corregir omisiones en los datos de referencia, mientras identifica errores críticos de razonamiento y recuperación en los sistemas actuales.

Mohamed Afane, Emaan Hariri, Derek Ouyang + 1 more2026-03-05💬 cs.CL

From Exact Hits to Close Enough: Semantic Caching for LLM Embeddings

Este artículo presenta políticas de caché semántica para LLMs, demostrando que la política óptima es NP-dura, proponiendo heurísticas eficientes y validando experimentalmente que su nueva variante mejora la precisión semántica frente a los enfoques basados en frecuencia.

Dvir David Biton, Roy Friedman2026-03-05🤖 cs.AI

← Anterior Siguiente →