ReflexiCoder: Teaching Large Language Models to Self-Reflect on Generated Code and Self-Correct It via Reinforcement Learning

ReflexiCoder es un nuevo marco de aprendizaje por refuerzo que entrena a modelos de lenguaje grandes para internalizar la capacidad de autocrítica y autocorrección de código de forma autónoma durante la inferencia, logrando un rendimiento de vanguardia en múltiples benchmarks sin depender de oráculos externos ni motores de ejecución.

Juyong Jiang, Jiasi Shen, Sunghun Kim, Kang Min Yoo, Jeonghoon Kim, Sungju Kim2026-03-09🤖 cs.LG

Confidence Before Answering: A Paradigm Shift for Efficient LLM Uncertainty Estimation

El artículo presenta CoCA, un marco de aprendizaje por refuerzo que optimiza conjuntamente la calibración de la confianza y la precisión de las respuestas en modelos de lenguaje grandes mediante un paradigma de "confianza primero" y asignación segmentada de recompensas, mejorando así la estimación de incertidumbre sin sacrificar la calidad de las respuestas.

Changcheng Li, Jiancan Wu, Hengheng Zhang, Zhengsu Chen, Guo An, Junxiang Qiu, Xiang Wang, Qi Tian2026-03-09💬 cs.CL

InfoGatherer: Principled Information Seeking via Evidence Retrieval and Strategic Questioning

El artículo presenta InfoGatherer, un marco que mejora la toma de decisiones en dominios de alto riesgo como la medicina y el derecho mediante la recuperación de evidencia documental y preguntas estratégicas al usuario, gestionando la incertidumbre de forma rigurosa con la teoría de Dempster-Shafer para evitar respuestas prematuras y poco fiables.

Maksym Taranukhin, Shuyue Stella Li, Evangelos Milios, Geoff Pleiss, Yulia Tsvetkov, Vered Shwartz2026-03-09💬 cs.CL

Learning Next Action Predictors from Human-Computer Interaction

Este artículo presenta LongNAP, un modelo que utiliza aprendizaje en contexto y razonamiento sobre historiales de interacción multimodal para predecir con éxito las próximas acciones de los usuarios, demostrando que el aprendizaje de comportamientos completos es viable para crear sistemas de IA proactivos.

Omar Shaikh, Valentin Teutschbein, Kanishk Gandhi, Yikun Chi, Nick Haber, Thomas Robinson, Nilam Ram, Byron Reeves, Sherry Yang, Michael S. Bernstein, Diyi Yang2026-03-09💬 cs.CL

Implicit Style Conditioning: A Structured Style-Rewrite Framework for Low-Resource Character Modeling

Este artículo propone un marco de reescritura de estilo estructurado que combina la descomposición explícita del estilo en dimensiones léxicas, sintácticas y pragmáticas con una estrategia de condicionamiento implícito mediante distilación de Cadena de Pensamiento, permitiendo que modelos de lenguaje pequeños generen personajes con alta fidelidad estilística sin necesidad de tokens de razonamiento durante la inferencia.

Chanhui Zhu2026-03-09🤖 cs.LG

Who We Are, Where We Are: Mental Health at the Intersection of Person, Situation, and Large Language Models

Este artículo presenta modelos interpretables que integran rasgos psicológicos individuales y características situacionales inferidas del lenguaje para predecir el bienestar mental, demostrando que un enfoque basado en teorías psicológicas ofrece un rendimiento competitivo y una mayor comprensión humana en comparación con las representaciones de modelos de lenguaje.

Nikita Soni, August Håkan Nilsson, Syeda Mahwish, Vasudha Varadarajan, H. Andrew Schwartz, Ryan L. Boyd2026-03-09🤖 cs.AI

Track-SQL: Enhancing Generative Language Models with Dual-Extractive Modules for Schema and Context Tracking in Multi-turn Text-to-SQL

El artículo presenta Track-SQL, un marco que mejora los modelos de lenguaje generativos mediante módulos extractivos duales para el seguimiento de esquemas y contexto en conversaciones multi-turno, logrando un rendimiento de vanguardia en los conjuntos de datos SparC y CoSQL.

Bingfeng Chen, Shaobin Shi, Yongqi Luo, Boyan Xu, Ruichu Cai, Zhifeng Hao2026-03-09💬 cs.CL

MASFactory: A Graph-centric Framework for Orchestrating LLM-Based Multi-Agent Systems with Vibe Graphing

El artículo presenta MASFactory, un marco de trabajo centrado en grafos para orquestar sistemas multiagente basados en LLM que introduce la "Vibe Graphing" para convertir intenciones en lenguaje natural en flujos de trabajo ejecutables, facilitando la reutilización de componentes, la integración de contextos heterogéneos y la interacción humana.

Yang Liu, Jinxuan Cai, Yishen Li, Qi Meng, Zedi Liu, Xin Li, Chen Qian, Chuan Shi, Cheng Yang2026-03-09🤖 cs.AI

Evaluating Austrian A-Level German Essays with Large Language Models for Automated Essay Scoring

Este estudio evalúa el uso de modelos de lenguaje grandes de código abierto para la calificación automática de ensayos alemanes de nivel A en Austria, concluyendo que, aunque pueden aplicar rúbricas estandarizadas, su baja concordancia con los evaluadores humanos (máximo 40,6% en subdimensiones y 32,8% en calificaciones finales) los hace inadecuados para su implementación en entornos reales de evaluación.

Jonas Kubesch, Lena Huber, Clemens Havas2026-03-09🤖 cs.AI

Experiences Build Characters: The Linguistic Origins and Functional Impact of LLM Personality

Este estudio demuestra que el entrenamiento continuado con textos específicos de dominio moldea la personalidad de los modelos de lenguaje, revelando que la supresión de rasgos sociales puede mejorar el razonamiento complejo y estableciendo un vínculo causal entre la lingüística de los datos de entrenamiento y el comportamiento del modelo para guiar la "ingeniería de personalidad".

Xi Wang, Mengdie Zhuang, Jiqun Liu2026-03-09🤖 cs.AI

DeepSight: Bridging Depth Maps and Language with a Depth-Driven Multimodal Model

DeepSight es el primer modelo de lenguaje multimodal dedicado a la comprensión de escenas en 3D que supera las limitaciones de los enfoques actuales al utilizar mapas de profundidad monocromáticos, un nuevo conjunto de datos instruido por IA y un codificador ViT modificado para mejorar significativamente el razonamiento espacial y la percepción de profundidad.

Hao Yang, Hongbo Zhang, Yanyan Zhao, Bing Qin2026-03-09💬 cs.CL