cs.CL artículos | Gist.Science

Safer Reasoning Traces: Measuring and Mitigating Chain-of-Thought Leakage in LLMs

Este artículo investiga cómo la generación de cadenas de pensamiento (CoT) en modelos de lenguaje puede aumentar la filtración de información personal identificable (PII), proponiendo un marco para medir este riesgo y evaluar diversas estrategias de mitigación en tiempo de inferencia que equilibren la utilidad y la seguridad.

Patrick Ahrend, Tobias Eder, Xiyang Yang, Zhiyi Pan, Georg Groh2026-03-09💬 cs.CL

RACAS: Controlling Diverse Robots With a Single Agentic System

El artículo presenta RACAS, un sistema agente basado en modelos de lenguaje que permite controlar robots de diversas plataformas mediante instrucciones en lenguaje natural sin necesidad de reentrenamiento ni modificaciones de código, demostrando su eficacia en robots terrestres, articulados y submarinos.

Dylan R. Ashley, Jan Przepióra, Yimeng Chen, Ali Abualsaud, Nurzhan Yesmagambet, Shinkyu Park, Eric Feron, Jürgen Schmidhuber2026-03-09🤖 cs.AI

The Fragility Of Moral Judgment In Large Language Models

El estudio demuestra que los juicios morales de los modelos de lenguaje grandes son altamente frágiles y dependientes de la presentación, ya que cambian significativamente ante alteraciones en el punto de vista, las señales persuasivas y, sobre todo, en la estructura de la instrucción, lo que plantea graves preocupaciones sobre la equidad y la reproducibilidad de sus evaluaciones éticas.

Tom van Nuenen, Pratik S. Sachdeva2026-03-09🤖 cs.AI

FreeTxt-Vi: A Benchmarked Vietnamese-English Toolkit for Segmentation, Sentiment, and Summarisation

FreeTxt-Vi es un kit de herramientas web de código abierto que integra un pipeline de procesamiento de lenguaje natural bilingüe (vietnamita-inglés) con segmentación, análisis de sentimientos y resumen, ofreciendo una solución accesible y evaluada para el análisis de texto en dominios como la educación y las humanidades digitales.

Hung Nguyen Huy, Mo El-Haj, Dawn Knight, Paul Rayson2026-03-09💬 cs.CL

Autonomous Algorithm Discovery for Ptychography via Evolutionary LLM Reasoning

El artículo presenta Ptychi-Evolve, un marco autónomo que utiliza modelos de lenguaje grande y mecanismos evolutivos para descubrir y optimizar algoritmos de regularización en ptychografía, logrando mejoras significativas en la calidad de reconstrucción de imágenes en comparación con los métodos convencionales.

Xiangyu Yin, Ming Du, Junjing Deng, Zhi Yang, Yimo Han, Yi Jiang2026-03-09🤖 cs.AI

Towards Robust Retrieval-Augmented Generation Based on Knowledge Graph: A Comparative Analysis

Este trabajo utiliza el corpus RGB para realizar un análisis comparativo entre un sistema RAG estándar y GraphRAG, demostrando que las personalizaciones basadas en grafos de conocimiento mejoran la robustez de los modelos de lenguaje ante el ruido, la integración de información y los hechos contrafactuales.

Hazem Amamou, Stéphane Gagnon, Alan Davoust, Anderson R. Avila2026-03-09💬 cs.CL

Cultural Perspectives and Expectations for Generative AI: A Global Survey Approach

Este artículo presenta los resultados de una encuesta global que examina las actitudes hacia la representación cultural en la IA generativa, definiendo el concepto de cultura a partir de las comunidades estudiadas y proponiendo recomendaciones para un desarrollo más inclusivo y sensible.

Erin van Liemt, Renee Shelby, Andrew Smart, Sinchana Kumbale, Richard Zhang, Neha Dixit, Qazi Mamunur Rashid, Jamila Smith-Loud2026-03-09🤖 cs.AI

Structured Multidimensional Representation Learning for Large Language Models

Este trabajo presenta el L-Transformer, una arquitectura que utiliza una factorización espectral tensorizada para descomponer el espacio de incrustaciones en sub-transformadores independientes, logrando una reducción significativa de parámetros (hasta un 75%) manteniendo un rendimiento competitivo en tareas de procesamiento de lenguaje natural.

Alaa El Ichi, Khalide Jbilou, Mohamed El Guide, Franck Dufrenois2026-03-09💬 cs.CL

Let's Talk, Not Type: An Oral-First Multi-Agent Architecture for Guaraní

Esta propuesta presenta una arquitectura multiagente centrada en lo oral para el guaraní que, al priorizar la conversación hablada sobre el texto, busca respetar la soberanía de los datos indígenas y las prácticas lingüísticas vivas mediante un diseño que integra la toma de turnos, la reparación y el contexto compartido.

Samantha Adorno, Akshata Kishore Moharir, Ratna Kandala2026-03-09💬 cs.CL

CodeScout: Contextual Problem Statement Enhancement for Software Agents

El artículo presenta CodeScout, un enfoque de refinamiento de consultas que mejora las tasas de resolución de agentes de software en un 20% al transformar solicitudes mal definidas en problemas contextualizados mediante un análisis previo del código base, sin necesidad de modificar la infraestructura subyacente de los agentes.

Manan Suri, Xiangci Li, Mehdi Shojaie, Songyang Han, Chao-Chun Hsu, Shweta Garg, Aniket Anand Deshmukh, Varun Kumar2026-03-09💬 cs.CL

NERdME: a Named Entity Recognition Dataset for Indexing Research Artifacts in Code Repositories

El artículo presenta NERdME, un nuevo conjunto de datos de reconocimiento de entidades nombradas compuesto por 200 archivos README anotados manualmente, diseñado para superar las limitaciones de los conjuntos de datos existentes al extraer información semántica sobre artefactos de implementación en repositorios de código y facilitar su descubrimiento y vinculación.

Genet Asefa Gesese, Zongxiong Chen, Shufan Jiang, Mary Ann Tan, Zhaotai Liu, Sonja Schimmler, Harald Sack2026-03-09💬 cs.CL

PVminerLLM: Structured Extraction of Patient Voice from Patient-Generated Text using Large Language Models

El artículo presenta PVminer, un benchmark, y PVminerLLM, un modelo de lenguaje grande ajustado para la extracción estructurada de la voz del paciente a partir de texto generado por pacientes, logrando un rendimiento superior a los métodos basados en prompts y demostrando que es posible analizar señales sociales y experienciales a escala sin necesidad de modelos extremadamente grandes.

Samah Fodeh, Linhai Ma, Ganesh Puthiaraju, Srivani Talakokkul, Afshan Khan, Ashley Hagaman, Sarah Lowe, Aimee Roundtree2026-03-09🤖 cs.AI

Tutor Move Taxonomy: A Theory-Aligned Framework for Analyzing Instructional Moves in Tutoring

Este artículo presenta una taxonomía de movimientos tutoriales desarrollada mediante un proceso deductivo-inductivo que integra múltiples disciplinas y se organiza en cuatro categorías principales, con el objetivo de facilitar el análisis a gran escala de los diálogos de tutoría para comprender mejor su eficacia en los resultados de aprendizaje.

Zhuqian Zhou, Kirk Vanacore, Tamisha Thompson, Jennifer St John, Rene Kizilcec2026-03-09💬 cs.CL

Proof-of-Guardrail in AI Agents and What (Not) to Trust from It

El artículo propone "Proof-of-Guardrail", un sistema que utiliza entornos de ejecución confiable (TEE) para generar pruebas criptográficas verificables de que las respuestas de los agentes de IA han pasado por medidas de seguridad específicas, garantizando así la integridad de su ejecución sin revelar la privacidad del agente, aunque advierte sobre los riesgos de engaño si los desarrolladores malintencionados logran eludir estas protecciones.

Xisen Jin, Michael Duan, Qin Lin, Aaron Chan, Zhenglun Chen, Junyi Du, Xiang Ren2026-03-09🤖 cs.AI

RouteGoT: Node-Adaptive Routing for Cost-Efficient Graph of Thoughts Reasoning

RouteGoT es un marco de enrutamiento adaptable que optimiza el razonamiento en Grafos de Pensamientos asignando dinámicamente modelos ligeros a subtareas sencillas y modelos potentes a la planificación y síntesis bajo restricciones presupuestarias, logrando así una mayor precisión y una reducción significativa en el consumo de tokens en comparación con métodos existentes.

Yuhang Liu, Ruijie Wang, Yunlong Chu, Bing Hao, Yumeng Lin, Shengzhong Liu, Minglai Shao2026-03-09💬 cs.CL

HART: Data-Driven Hallucination Attribution and Evidence-Based Tracing for Large Language Models

El artículo presenta HART, un marco de atribución de alucinaciones y recuperación de evidencia basado en datos que aborda las limitaciones de los enfoques existentes mediante un proceso estructurado de cuatro etapas y un nuevo dataset para mejorar la trazabilidad y la interpretabilidad causal en modelos de lenguaje grandes.

Shize Liang, Hongzhi Wang2026-03-09💬 cs.CL

Test-Time Adaptation via Many-Shot Prompting: Benefits, Limits, and Pitfalls

Este estudio evalúa empíricamente la adaptación en tiempo de prueba mediante prompting con muchas muestras en modelos de lenguaje, revelando que aunque es eficaz para tareas estructuradas con alto valor informativo, su utilidad es limitada y sensible a la estrategia de selección en tareas de generación abierta, lo que permite definir sus límites prácticos frente a otras estrategias como el ICL dinámico y reforzado.

Shubhangi Upasani, Chen Wu, Jay Rainton, Bo Li, Changran Hu, Qizheng Zhang, Urmish Thakker2026-03-09🤖 cs.LG

ReflexiCoder: Teaching Large Language Models to Self-Reflect on Generated Code and Self-Correct It via Reinforcement Learning

ReflexiCoder es un nuevo marco de aprendizaje por refuerzo que entrena a modelos de lenguaje grandes para internalizar la capacidad de autocrítica y autocorrección de código de forma autónoma durante la inferencia, logrando un rendimiento de vanguardia en múltiples benchmarks sin depender de oráculos externos ni motores de ejecución.

Juyong Jiang, Jiasi Shen, Sunghun Kim, Kang Min Yoo, Jeonghoon Kim, Sungju Kim2026-03-09🤖 cs.LG

ROSE: Reordered SparseGPT for More Accurate One-Shot Large Language Models Pruning

El artículo presenta ROSE, un método de poda de un solo paso para grandes modelos de lenguaje que mejora la precisión de SparseGPT al reordenar adaptativamente la eliminación de pesos en función de su pérdida estimada, logrando así un rendimiento superior en diversos modelos.

Mingluo Su, Huan Wang2026-03-09🤖 cs.LG

Confidence Before Answering: A Paradigm Shift for Efficient LLM Uncertainty Estimation

El artículo presenta CoCA, un marco de aprendizaje por refuerzo que optimiza conjuntamente la calibración de la confianza y la precisión de las respuestas en modelos de lenguaje grandes mediante un paradigma de "confianza primero" y asignación segmentada de recompensas, mejorando así la estimación de incertidumbre sin sacrificar la calidad de las respuestas.

Changcheng Li, Jiancan Wu, Hengheng Zhang, Zhengsu Chen, Guo An, Junxiang Qiu, Xiang Wang, Qi Tian2026-03-09💬 cs.CL

← Anterior Siguiente →