cs.CL artículos | Gist.Science

ReflexiCoder: Teaching Large Language Models to Self-Reflect on Generated Code and Self-Correct It via Reinforcement Learning

ReflexiCoder es un nuevo marco de aprendizaje por refuerzo que entrena a modelos de lenguaje grandes para internalizar la capacidad de autocrítica y autocorrección de código de forma autónoma durante la inferencia, logrando un rendimiento de vanguardia en múltiples benchmarks sin depender de oráculos externos ni motores de ejecución.

Juyong Jiang, Jiasi Shen, Sunghun Kim, Kang Min Yoo, Jeonghoon Kim, Sungju Kim2026-03-09🤖 cs.LG

ROSE: Reordered SparseGPT for More Accurate One-Shot Large Language Models Pruning

El artículo presenta ROSE, un método de poda de un solo paso para grandes modelos de lenguaje que mejora la precisión de SparseGPT al reordenar adaptativamente la eliminación de pesos en función de su pérdida estimada, logrando así un rendimiento superior en diversos modelos.

Mingluo Su, Huan Wang2026-03-09🤖 cs.LG

Confidence Before Answering: A Paradigm Shift for Efficient LLM Uncertainty Estimation

El artículo presenta CoCA, un marco de aprendizaje por refuerzo que optimiza conjuntamente la calibración de la confianza y la precisión de las respuestas en modelos de lenguaje grandes mediante un paradigma de "confianza primero" y asignación segmentada de recompensas, mejorando así la estimación de incertidumbre sin sacrificar la calidad de las respuestas.

Changcheng Li, Jiancan Wu, Hengheng Zhang, Zhengsu Chen, Guo An, Junxiang Qiu, Xiang Wang, Qi Tian2026-03-09💬 cs.CL

VerChol -- Grammar-First Tokenization for Agglutinative Languages

El artículo presenta VerChol, un método de tokenización basado en gramática diseñado para abordar las limitaciones de los tokenizadores estadísticos actuales al preservar las fronteras de los morfemas en lenguas aglutinantes, mejorando así la eficiencia y precisión de los modelos de lenguaje para estos idiomas.

Prabhu Raja2026-03-09💬 cs.CL

Lost in Stories: Consistency Bugs in Long Story Generation by LLMs

Este artículo presenta ConStory-Bench, un nuevo benchmark y una herramienta de verificación automática diseñados para evaluar y detectar errores de consistencia en la generación de historias largas por parte de los modelos de lenguaje, revelando patrones específicos en cómo estos modelos olvidan sus propias narrativas.

Junjie Li, Xinrui Guo, Yuhao Wu, Roy Ka-Wei Lee, Hongzhi Li, Yutao Xie2026-03-09🤖 cs.AI

Building an Ensemble LLM Semantic Tagger for UN Security Council Resolutions

Este artículo presenta un sistema de etiquetado semántico basado en un ensemble de modelos LLM para las resoluciones del Consejo de Seguridad de la ONU, que utiliza métricas de preservación de contenido y formalidad de etiquetas para seleccionar automáticamente las mejores salidas, logrando un alto rendimiento con un costo reducido.

Hussein Ghaly2026-03-09💬 cs.CL

InfoGatherer: Principled Information Seeking via Evidence Retrieval and Strategic Questioning

El artículo presenta InfoGatherer, un marco que mejora la toma de decisiones en dominios de alto riesgo como la medicina y el derecho mediante la recuperación de evidencia documental y preguntas estratégicas al usuario, gestionando la incertidumbre de forma rigurosa con la teoría de Dempster-Shafer para evitar respuestas prematuras y poco fiables.

Maksym Taranukhin, Shuyue Stella Li, Evangelos Milios, Geoff Pleiss, Yulia Tsvetkov, Vered Shwartz2026-03-09💬 cs.CL

Learning Next Action Predictors from Human-Computer Interaction

Este artículo presenta LongNAP, un modelo que utiliza aprendizaje en contexto y razonamiento sobre historiales de interacción multimodal para predecir con éxito las próximas acciones de los usuarios, demostrando que el aprendizaje de comportamientos completos es viable para crear sistemas de IA proactivos.

Omar Shaikh, Valentin Teutschbein, Kanishk Gandhi, Yikun Chi, Nick Haber, Thomas Robinson, Nilam Ram, Byron Reeves, Sherry Yang, Michael S. Bernstein, Diyi Yang2026-03-09💬 cs.CL

Addressing the Ecological Fallacy in Larger LMs with Human Context

Este trabajo demuestra que abordar la falacia ecológica al modelar el contexto lingüístico del autor, mediante técnicas como HuFT y HuLM en un modelo Llama de 8B, mejora significativamente su rendimiento en diversas tareas en comparación con el ajuste fino estándar.

Nikita Soni, Dhruv Vijay Kunjadiya, Pratham Piyush Shah, Dikshya Mohanty, H. Andrew Schwartz, Niranjan Balasubramanian2026-03-09🤖 cs.AI

Implicit Style Conditioning: A Structured Style-Rewrite Framework for Low-Resource Character Modeling

Este artículo propone un marco de reescritura de estilo estructurado que combina la descomposición explícita del estilo en dimensiones léxicas, sintácticas y pragmáticas con una estrategia de condicionamiento implícito mediante distilación de Cadena de Pensamiento, permitiendo que modelos de lenguaje pequeños generen personajes con alta fidelidad estilística sin necesidad de tokens de razonamiento durante la inferencia.

Chanhui Zhu2026-03-09🤖 cs.LG

Who We Are, Where We Are: Mental Health at the Intersection of Person, Situation, and Large Language Models

Este artículo presenta modelos interpretables que integran rasgos psicológicos individuales y características situacionales inferidas del lenguaje para predecir el bienestar mental, demostrando que un enfoque basado en teorías psicológicas ofrece un rendimiento competitivo y una mayor comprensión humana en comparación con las representaciones de modelos de lenguaje.

Nikita Soni, August Håkan Nilsson, Syeda Mahwish, Vasudha Varadarajan, H. Andrew Schwartz, Ryan L. Boyd2026-03-09🤖 cs.AI

Imagine How To Change: Explicit Procedure Modeling for Change Captioning

El artículo presenta ProCap, un marco innovador que mejora la generación de descripciones de cambios visuales al reformular el modelado estático de pares de imágenes en una representación dinámica de procedimientos mediante un diseño de dos etapas que aprende y codifica la evolución temporal implícita entre imágenes.

Jiayang Sun, Zixin Guo, Min Cao, Guibo Zhu, Jorma Laaksonen2026-03-09🤖 cs.AI

Track-SQL: Enhancing Generative Language Models with Dual-Extractive Modules for Schema and Context Tracking in Multi-turn Text-to-SQL

El artículo presenta Track-SQL, un marco que mejora los modelos de lenguaje generativos mediante módulos extractivos duales para el seguimiento de esquemas y contexto en conversaciones multi-turno, logrando un rendimiento de vanguardia en los conjuntos de datos SparC y CoSQL.

Bingfeng Chen, Shaobin Shi, Yongqi Luo, Boyan Xu, Ruichu Cai, Zhifeng Hao2026-03-09💬 cs.CL

MASFactory: A Graph-centric Framework for Orchestrating LLM-Based Multi-Agent Systems with Vibe Graphing

El artículo presenta MASFactory, un marco de trabajo centrado en grafos para orquestar sistemas multiagente basados en LLM que introduce la "Vibe Graphing" para convertir intenciones en lenguaje natural en flujos de trabajo ejecutables, facilitando la reutilización de componentes, la integración de contextos heterogéneos y la interacción humana.

Yang Liu, Jinxuan Cai, Yishen Li, Qi Meng, Zedi Liu, Xin Li, Chen Qian, Chuan Shi, Cheng Yang2026-03-09🤖 cs.AI

ViewFusion: Structured Spatial Thinking Chains for Multi-View Reasoning

ViewFusion es un marco de dos etapas que mejora el razonamiento espacial multi-vista en modelos de visión-idioma mediante una pre-alineación deliberada de relaciones espaciales entre vistas y un razonamiento guiado por preguntas, logrando un rendimiento superior en benchmarks como MMSI-Bench.

Xingjian Tao, Yiwei Wang, Yujun Cai, Yifan Song, Jing Tang2026-03-09💬 cs.CL

Evaluating Austrian A-Level German Essays with Large Language Models for Automated Essay Scoring

Este estudio evalúa el uso de modelos de lenguaje grandes de código abierto para la calificación automática de ensayos alemanes de nivel A en Austria, concluyendo que, aunque pueden aplicar rúbricas estandarizadas, su baja concordancia con los evaluadores humanos (máximo 40,6% en subdimensiones y 32,8% en calificaciones finales) los hace inadecuados para su implementación en entornos reales de evaluación.

Jonas Kubesch, Lena Huber, Clemens Havas2026-03-09🤖 cs.AI

Experiences Build Characters: The Linguistic Origins and Functional Impact of LLM Personality

Este estudio demuestra que el entrenamiento continuado con textos específicos de dominio moldea la personalidad de los modelos de lenguaje, revelando que la supresión de rasgos sociales puede mejorar el razonamiento complejo y estableciendo un vínculo causal entre la lingüística de los datos de entrenamiento y el comportamiento del modelo para guiar la "ingeniería de personalidad".

Xi Wang, Mengdie Zhuang, Jiqun Liu2026-03-09🤖 cs.AI

DeepSight: Bridging Depth Maps and Language with a Depth-Driven Multimodal Model

DeepSight es el primer modelo de lenguaje multimodal dedicado a la comprensión de escenas en 3D que supera las limitaciones de los enfoques actuales al utilizar mapas de profundidad monocromáticos, un nuevo conjunto de datos instruido por IA y un codificador ViT modificado para mejorar significativamente el razonamiento espacial y la percepción de profundidad.

Hao Yang, Hongbo Zhang, Yanyan Zhao, Bing Qin2026-03-09💬 cs.CL

Making Implicit Premises Explicit in Logical Understanding of Enthymemes

Este artículo propone un pipeline que integra modelos de lenguaje grande y un razonador neuro-simbólico para transformar los argumentos implícitos (entimemas) en fórmulas lógicas y determinar su validez, superando así las limitaciones de los métodos actuales de NLP y lógica.

Xuyao Feng, Anthony Hunter2026-03-09🤖 cs.AI

Diffusion Language Models Are Natively Length-Aware

Este paper propone un mecanismo de recorte dinámico del contexto basado en la representación latente de la entrada para hacer que los Modelos de Lenguaje de Difusión sean conscientes de la longitud, logrando ahorros computacionales significativos sin degradar el rendimiento en diversas tareas.

Vittorio Rossi, Giacomo Cirò, Davide Beltrame, Luca Gandolfi, Paul Röttger, Dirk Hovy2026-03-09🤖 cs.LG

← Anterior Siguiente →