cs.AI artículos | Gist.Science

The Dunning-Kruger Effect in Large Language Models: An Empirical Study of Confidence Calibration

Este estudio empírico revela que ciertos modelos de lenguaje grande exhiben un patrón análogo al efecto Dunning-Kruger, donde los modelos con menor precisión (como Kimi K2) muestran una sobreconfianza extrema en sus respuestas, mientras que los modelos más precisos (como Claude Haiku 4.5) presentan una mejor calibración de su confianza.

Sudipta Ghosh, Mrityunjoy Panday2026-03-12💬 cs.CL

Quantifying Hallucinations in Language Language Models on Medical Textbooks

Este estudio cuantifica la prevalencia de alucinaciones en modelos de lenguaje grande al responder preguntas médicas basadas en libros de texto, revelando que LLaMA-70B-Instruct alucina en casi el 20% de las respuestas a pesar de su alta plausibilidad, y que una menor tasa de alucinaciones tiende a correlacionarse con una mayor utilidad según la evaluación de clínicos.

Brandon C. Colelough, Davis Bartels, Dina Demner-Fushman2026-03-12💬 cs.CL

Evolving Demonstration Optimization for Chain-of-Thought Feature Transformation

Este artículo presenta un marco que optimiza la transformación de características impulsada por modelos de lenguaje grande mediante la evolución de demostraciones en bucle cerrado y la selección de contextos diversos, superando así las limitaciones de eficiencia y diversidad de los métodos existentes para mejorar el rendimiento en tareas predictivas tabulares.

Xinyuan Wang, Kunpeng Liu, Arun Vignesh Malarkkan, Yanjie Fu2026-03-12💬 cs.CL

Causally Grounded Mechanistic Interpretability for LLMs with Faithful Natural-Language Explanations

Este artículo presenta un pipeline que vincula el análisis de circuitos causales en modelos de lenguaje con explicaciones en lenguaje natural, demostrando mediante una evaluación en la tarea de identificación de objetos indirectos que las explicaciones generadas por LLM superan a las plantillas y revelan que, aunque son suficientes, la baja comprehensividad indica la existencia de mecanismos de respaldo distribuidos.

Ajay Pravin Mahale2026-03-12💬 cs.CL

The System Hallucination Scale (SHS): A Minimal yet Effective Human-Centered Instrument for Evaluating Hallucination-Related Behavior in Large Language Models

El artículo presenta la Escala de Alucinación del Sistema (SHS), una herramienta ligera y centrada en el usuario inspirada en métricas psicométricas establecidas, diseñada para evaluar de forma rápida y válida la fiabilidad factual y la coherencia de los grandes modelos de lenguaje desde la perspectiva del usuario, tal como se demuestra mediante una evaluación empírica con 210 participantes.

Heimo Müller, Dominik Steiger, Markus Plass, Andreas Holzinger2026-03-12💬 cs.CL

A Two-Stage Architecture for NDA Analysis: LLM-based Segmentation and Transformer-based Clause Classification

Este trabajo propone una arquitectura de dos etapas que combina un modelo LLM (LLaMA-3.1-8B-Instruct) para la segmentación de cláusulas y un clasificador Transformer (Legal-Roberta-Large) para su clasificación en acuerdos de confidencialidad, logrando un alto rendimiento en la automatización de su análisis.

Ana Begnini, Matheus Vicente, Leonardo Souza2026-03-12💬 cs.CL

PoultryLeX-Net: Domain-Adaptive Dual-Stream Transformer Architecture for Large-Scale Poultry Stakeholder Modeling

El estudio presenta PoultryLeX-Net, una arquitectura de transformador dual con adaptación de dominio y enriquecimiento léxico que supera a los modelos existentes al lograr una precisión del 97,35% en el análisis de sentimientos y la identificación de temas en discursos sobre la industria avícola en redes sociales.

Stephen Afrifa, Biswash Khatiwada, Kapalik Khanal, Sanjay Shah, Lingjuan Wang-Li, Ramesh Bahadur Bist2026-03-12💬 cs.CL

TAMUSA-Chat: A Domain-Adapted Large Language Model Conversational System for Research and Responsible Deployment

Este artículo presenta TAMUSA-Chat, un marco de investigación para desarrollar sistemas conversacionales de modelos de lenguaje grandes adaptados a contextos institucionales mediante técnicas de ajuste fino y generación aumentada por recuperación, priorizando la transparencia, el cumplimiento normativo y las prácticas de IA responsable.

Izzat Alsmadi, Anas Alsobeh2026-03-12💬 cs.CL

CEI: A Benchmark for Evaluating Pragmatic Reasoning in Language Models

Este artículo presenta CEI, un nuevo conjunto de datos de 300 escenarios validados por humanos diseñado para evaluar la capacidad de los modelos de lenguaje para realizar inferencias pragmáticas complejas en diversos contextos sociales y relaciones de poder.

Jon Chun, Hannah Sussman, Adrian Mangine, Murathan Kocaman, Kirill Sidorko, Abhigya Koirala, Andre McCloud, Gwen Eisenbeis, Wisdom Akanwe, Moustapha Gassama, Eliezer Gonzalez Chirinos, Anne-Duncan Enright, Peter Dunson, Tiffanie Ng, Anna von Rosenstiel, Godwin Idowu2026-03-12💬 cs.CL

Evaluating Adjective-Noun Compositionality in LLMs: Functional vs Representational Perspectives

El estudio revela que, aunque los grandes modelos de lenguaje desarrollan representaciones internas compuestas de adjetivos y sustantivos, existe una divergencia notable entre estas representaciones y su capacidad para traducirlas consistentemente en éxito funcional en tareas, lo que subraya la necesidad de evaluaciones contrastivas para comprender mejor sus capacidades.

Ruchira Dhar, Qiwei Peng, Anders Søgaard2026-03-12💬 cs.CL

Context Over Compute Human-in-the-Loop Outperforms Iterative Chain-of-Thought Prompting in Interview Answer Quality

Este estudio demuestra que, en la evaluación y mejora de respuestas para entrevistas conductuales, el enfoque de "humano en el bucle" supera a la optimización iterativa mediante cadenas de pensamiento automatizadas al lograr mejoras significativas en autenticidad y confianza con menos iteraciones, revelando que la limitación principal reside en la disponibilidad de contexto y no en los recursos computacionales.

Kewen Zhu, Zixi Liu, Yanjing Li2026-03-12💬 cs.CL

There Are No Silly Questions: Evaluation of Offline LLM Capabilities from a Turkish Perspective

Este estudio evalúa la robustez y seguridad pedagógica de modelos de lenguaje offline en la educación del idioma turco, demostrando mediante una suite de anomalías que los modelos de 8B a 14B parámetros ofrecen el mejor equilibrio entre costo y seguridad, ya que la resistencia a anomalías no depende únicamente de la escala del modelo.

Edibe Yilmaz, Kahraman Kostas2026-03-12💬 cs.CL

Empathy Is Not What Changed: Clinical Assessment of Psychological Safety Across GPT Model Generations

Este estudio clínico demuestra que la percepción de pérdida de empatía en las nuevas generaciones de modelos de OpenAI no se debe a un cambio en la empatía real, que permanece estadísticamente invariable, sino a una mayor detección de crisis y una postura de seguridad más estricta que altera la dinámica conversacional, especialmente en situaciones de riesgo.

Michael Keeman, Anastasia Keeman2026-03-12💬 cs.CL

Automated evaluation of LLMs for effective machine translation of Mandarin Chinese to English

Este artículo presenta un marco de aprendizaje automático para evaluar la traducción del chino mandarín al inglés mediante LLMs como GPT-4o y DeepSeek, revelando que, aunque estos modelos superan en noticias, aún enfrentan desafíos significativos al preservar matices culturales y referencias literarias en textos complejos.

Yue Zhang, Rodney Beard, John Hawkins, Rohitash Chandra2026-03-12💬 cs.CL

A Retrieval-Augmented Language Assistant for Unmanned Aircraft Safety Assessment and Regulatory Compliance

Este artículo presenta y valida un asistente basado en recuperación de información que utiliza exclusivamente fuentes regulatorias autorizadas para apoyar la evaluación de seguridad, la certificación y el cumplimiento normativo de los sistemas de aeronaves no tripuladas, garantizando la trazabilidad y la responsabilidad humana mediante la generación de respuestas fundamentadas en citas y evitando inferencias no verificadas.

Gabriele Immordino, Andrea Vaiuso, Marcello Righi2026-03-12💬 cs.CL

Leveraging Wikidata for Geographically Informed Sociocultural Bias Dataset Creation: Application to Latin America

Este trabajo presenta la creación de LatamQA, un conjunto de datos de más de 26.000 preguntas y respuestas en español y portugués derivadas de Wikipedia y Wikidata, para evaluar y revelar sesgos socioculturales y geográficos en los modelos de lenguaje grande hacia las diversas culturas de América Latina.

Yannis Karmim (ALMAnaCH), Renato Pino (UCHILE), Hernan Contreras (UCHILE), Hernan Lira (CENIA), Sebastian Cifuentes (CENIA), Simon Escoffier (PUC), Luis Martí (UP4, ALPAGE), Djamé Seddah (UP4, ALPAGE), Valentin Barrière (UCHILE, CENIA)2026-03-12💬 cs.CL

SpreadsheetArena: Decomposing Preference in LLM Generation of Spreadsheet Workbooks

El artículo presenta SpreadsheetArena, una plataforma de evaluación mediante comparaciones ciegas que revela que, aunque los modelos de lenguaje avanzados generan hojas de cálculo, a menudo no se alinean consistentemente con las mejores prácticas específicas de dominios como las finanzas debido a la variabilidad de criterios de preferencia.

Srivatsa Kundurthy, Clara Na, Michael Handley, Zach Kirshner, Chen Bo Calvin Zhang, Manasi Sharma, Emma Strubell, John Ling2026-03-12💬 cs.CL

SENS-ASR: Semantic Embedding injection in Neural-transducer for Streaming Automatic Speech Recognition

El artículo presenta SENS-ASR, un enfoque que mejora la calidad de la transcripción en sistemas de reconocimiento automático de voz en streaming mediante la inyección de información semántica extraída de embeddings pasados y refinada mediante destilación de conocimiento, logrando así una reducción significativa de la tasa de error de palabras en escenarios de baja latencia.

Youness Dkhissi (LIUM), Valentin Vielzeuf (LIUM), Elys Allesiardo (LIUM), Anthony Larcher (LIUM)2026-03-12💬 cs.CL

GATech at AbjadMed: Bidirectional Encoders vs. Causal Decoders: Insights from 82-Class Arabic Medical Classification

Este artículo demuestra que los codificadores bidireccionales especializados, como AraBERTv2 con estrategias de agrupación híbridas, superan significativamente a los decodificadores causales en la clasificación de texto médico árabe de 82 clases, debido a su capacidad para capturar mejor los límites semánticos globales necesarios para esta tarea.

Ahmed Khaled Khamis2026-03-12💬 cs.CL

Personalized Group Relative Policy Optimization for Heterogenous Preference Alignment

Este artículo presenta P-GRPO, un marco de alineación novedoso que supera las limitaciones de los métodos estándar al decouplar la estimación de ventajas de las estadísticas del lote inmediato y normalizarlas según historiales específicos de grupos de preferencia, logrando así una convergencia más rápida y una alineación efectiva con señales de preferencias heterogéneas en modelos de lenguaje grandes.

Jialu Wang, Heinrich Peters, Asad A. Butt, Navid Hashemi, Alireza Hashemi, Pouya M. Ghari, Joseph Hoover, James Rae, Morteza Dehghani2026-03-12🤖 cs.LG

← Anterior Siguiente →