Prompt Sensitivity and Answer Consistency of Small Open-Source Large Language Models on Clinical Question Answering: Implications for Low-Resource Healthcare Deployment

Este estudio demuestra que, para el despliegue de IA clínica en entornos de bajos recursos, los modelos de código abierto pequeños como Llama 3.2 ofrecen el mejor equilibrio entre precisión y consistencia, advirtiendo que una alta consistencia no garantiza la corrección y que el entrenamiento específico en el dominio sin ajuste de instrucciones es insuficiente para tareas de respuesta clínica estructurada.

Shravani Hariprasad2026-03-05🤖 cs.AI

From Variance to Invariance: Qualitative Content Analysis for Narrative Graph Annotation

Este trabajo presenta un marco de anotación de gráficos narrativos para discursos sobre inflación que integra el análisis cualitativo de contenido y evalúa la variación humana en las interpretaciones mediante un diseño experimental factorial, demostrando que las representaciones localmente restringidas y las métricas de distancia adecuadas mejoran la fiabilidad de la anotación.

Junbo Huang, Max Weinig, Ulrich Fritsche + 1 more2026-03-05🤖 cs.AI

Learning to Generate and Extract: A Multi-Agent Collaboration Framework For Zero-shot Document-level Event Arguments Extraction

Este artículo presenta un marco de colaboración multiagente que simula un proceso cognitivo de "proponer-evaluar-revisar" mediante aprendizaje por refuerzo para mejorar la extracción de argumentos de eventos a nivel de documento en escenarios de cero disparos, superando las limitaciones de los métodos existentes mediante la generación y evaluación iterativa de datos sintéticos.

Guangjun Zhang, Hu Zhang, Yazhou Han + 4 more2026-03-05🤖 cs.AI

AriadneMem: Threading the Maze of Lifelong Memory for LLM Agents

AriadneMem es un sistema de memoria estructurado para agentes LLM que, mediante un pipeline de dos fases con filtrado por entropía, coarsening consciente de conflictos y descubrimiento algorítmico de puentes, mejora significativamente la precisión en respuestas multi-hop y reduce el tiempo de ejecución en un 77,8% al gestionar eficientemente la evidencia desconectada y las actualizaciones de estado en diálogos a largo plazo.

Wenhui Zhu, Xiwen Chen, Zhipeng Wang + 11 more2026-03-05🤖 cs.AI

One Bias After Another: Mechanistic Reward Shaping and Persistent Biases in Language Reward Models

Este artículo identifica y categoriza diversas sesgos persistentes en los Modelos de Recompensa (RMs) para la alineación de modelos de lenguaje, proponiendo una intervención de "formación de recompensa mecánica" que mitiga eficazmente estos sesgos sin degradar la calidad de la recompensa ni requerir grandes cantidades de datos etiquetados.

Daniel Fein, Max Lamparth, Violet Xiang + 2 more2026-03-05🤖 cs.AI

From Conflict to Consensus: Boosting Medical Reasoning via Multi-Round Agentic RAG

El paper presenta MA-RAG, un marco de RAG multi-vuelta basado en agentes que mejora el razonamiento médico al transformar los conflictos semánticos en consultas iterativas para refinar la evidencia externa y el historial de razonamiento, logrando un consenso de alta fidelidad que supera significativamente a los métodos existentes en siete benchmarks médicos.

Wenhao Wu, Zhentao Tang, Yafu Li + 5 more2026-03-05🤖 cs.AI

Fine-Tuning and Evaluating Conversational AI for Agricultural Advisory

Este trabajo presenta una arquitectura híbrida de modelos de lenguaje que, mediante el ajuste fino con LoRA sobre conocimientos agrícolas verificados y una capa de adaptación cultural, mejora la precisión factual y la seguridad de los sistemas de asesoramiento para pequeños agricultores en Bihar, India, superando las limitaciones de los modelos genéricos a un costo reducido.

Sanyam Singh, Naga Ganesh, Vineet Singh + 8 more2026-03-05🤖 cs.AI

Language Model Goal Selection Differs from Humans' in an Open-Ended Task

El estudio revela que los modelos de lenguaje actuales divergen significativamente de los humanos en la selección de objetivos dentro de tareas abiertas, mostrando una tendencia a explotar soluciones únicas o un rendimiento bajo en lugar de explorar con la diversidad característica del comportamiento humano, lo que cuestiona su validez como sustitutos en aplicaciones críticas.

Gaia Molinaro, Dave August, Danielle Perszyk + 1 more2026-03-05🤖 cs.AI

How LLMs Cite and Why It Matters: A Cross-Model Audit of Reference Fabrication in AI-Assisted Academic Writing and Methods to Detect Phantom Citations

Este estudio audita la fabricación de citas en 10 modelos de lenguaje grandes, revelando tasas de alucinación variables entre el 11,4% y el 56,8% que dependen del modelo y el dominio, y propone métodos de detección como el consenso multivariante y un clasificador ligero basado en características bibliográficas para identificar citas fantasma sin consultar bases de datos externas.

MZ Naser2026-03-05💬 cs.CL

Benchmarking Legal RAG: The Promise and Limits of AI Statutory Surveys

Este artículo evalúa herramientas de IA legal emergentes utilizando el benchmark LaborBench, revelando que una herramienta personalizada (STARA) supera significativamente a las soluciones comerciales y al RAG estándar al lograr una precisión del 92% tras corregir omisiones en los datos de referencia, mientras identifica errores críticos de razonamiento y recuperación en los sistemas actuales.

Mohamed Afane, Emaan Hariri, Derek Ouyang + 1 more2026-03-05💬 cs.CL