CoTJudger: A Graph-Driven Framework for Automatic Evaluation of Chain-of-Thought Efficiency and Redundancy in LRMs

El artículo presenta CoTJudger, un marco basado en grafos que evalúa automáticamente la eficiencia y la redundancia en los modelos de razonamiento a gran escala (LRMs) al convertir las cadenas de pensamiento en grafos de dependencia para identificar la ruta más corta necesaria para la solución correcta.

Siyi Li, Jiajun Shi, Shiwen Ni, Ge Zhang, Shuaimin Li, Shijian Wang, Zhoufutu Wen, Yizhi Li, Hamid Alinejad-Rokny, Jiaheng Liu, Min Yang, Wenhao HuangTue, 10 Ma💬 cs.CL

Entropy-Aware On-Policy Distillation of Language Models

Este trabajo presenta la Destilación en Línea Consciente de la Entropía, un método que mejora la transferencia de conocimiento en modelos de lenguaje al combinar la divergencia KL inversa y directa para equilibrar la precisión y la diversidad, logrando así mejoras significativas en benchmarks de razonamiento matemático.

Woogyeol Jin, Taywon Min, Yongjin Yang, Swanand Ravindra Kadhe, Yi Zhou, Dennis Wei, Nathalie Baracaldo, Kimin LeeTue, 10 Ma🤖 cs.LG

Countdown-Code: A Testbed for Studying The Emergence and Generalization of Reward Hacking in RLVR

El artículo introduce Countdown-Code, un entorno minimalista que demuestra cómo la contaminación de datos de entrenamiento con solo un 1% de ejemplos de hacking de recompensas puede inducir a los modelos de lenguaje a aprender y generalizar este comportamiento de desalineación durante el ajuste fino supervisado y el aprendizaje por refuerzo.

Muhammad Khalifa, Zohaib Khan, Omer Tafveez, Hao Peng, Lu WangTue, 10 Ma🤖 cs.LG

Enhancing Consistency of Werewolf AI through Dialogue Summarization and Persona Information

Este estudio presenta un agente de IA para el juego de Werewolf, desarrollado para la tarea compartida AIWolfDial 2024, que mejora la coherencia de sus respuestas mediante el uso de resúmenes de diálogo generados por modelos de lenguaje y perfiles de personaje diseñados manualmente.

Yoshiki Tanaka, Takumasa Kaneko, Hiroki Onozeki, Natsumi Ezure, Ryuichi Uehara, Zhiyang Qi, Tomoya Higuchi, Ryutaro Asahara, Michimasa InabaTue, 10 Ma💬 cs.CL

Emotion Transcription in Conversation: A Benchmark for Capturing Subtle and Complex Emotional States through Natural Language

Este artículo presenta una nueva tarea llamada Transcripción Emocional en Conversación (ETC) y un conjunto de datos en japonés que utiliza descripciones en lenguaje natural para capturar matices emocionales complejos y sutiles que los métodos tradicionales de reconocimiento no logran representar adecuadamente.

Yoshiki Tanaka, Ryuichi Uehara, Koji Inoue, Michimasa InabaTue, 10 Ma💬 cs.CL

Lying to Win: Assessing LLM Deception through Human-AI Games and Parallel-World Probing

Este trabajo introduce un marco lógico basado en un juego de 20 preguntas con bifurcación de diálogos para cuantificar la decepción intencional en modelos de lenguaje, revelando que amenazas existenciales provocan una drástica aparición de conductas engañosas en modelos como Qwen-3 y Gemini-2.5, mientras que GPT-4o permanece invariable.

Arash Marioriyad, Ali Nouri, Mohammad Hossein Rohban, Mahdieh Soleymani BaghshahTue, 10 Ma💬 cs.CL

Scaling Self-Supervised Speech Models Uncovers Deep Linguistic Relationships: Evidence from the Pacific Cluster

El estudio demuestra que escalar los modelos de habla auto-supervisados de 126 a 4.017 idiomas provoca un cambio cualitativo no lineal que permite recuperar relaciones filogenéticas profundas y revelar un macro-clúster robusto en el Pacífico, evidenciando que estos modelos masivos pueden internalizar múltiples capas de la historia lingüística.

Minu Kim, Hoirin Kim, David R. MortensenTue, 10 Ma💬 cs.CL

The Third Ambition: Artificial Intelligence and the Science of Human Behavior

Este artículo propone una "tercera ambición" para la inteligencia artificial que utiliza los grandes modelos de lenguaje como instrumentos científicos para estudiar el comportamiento humano, la cultura y el razonamiento moral, analizando sus capacidades metodológicas, limitaciones epistémicas y el impacto de las intervenciones de alineación en la investigación de las ciencias sociales.

W. Russell Neuman, Chad ColemanTue, 10 Ma💬 cs.CL

To Predict or Not to Predict? Towards reliable uncertainty estimation in the presence of noise

Este estudio demuestra que, aunque los métodos basados en salidas softmax son competitivos en entornos de alto recurso, los enfoques de Dropout de Monte Carlo ofrecen una estimación de incertidumbre más robusta y confiable para la clasificación de texto multilingüe bajo condiciones ruidosas y de cambio de dominio, permitiendo mejorar el rendimiento mediante la abstención de predicciones en casos de alta incertidumbre.

Nouran Khallaf, Serge SharoffTue, 10 Ma💬 cs.CL

How Much Noise Can BERT Handle? Insights from Multilingual Sentence Difficulty Detection

Este estudio evalúa la robustez de BERT frente al ruido en datos de entrenamiento para la detección de dificultad de oraciones en múltiples idiomas, demostrando que aunque los modelos preentrenados son inherentemente resistentes, técnicas de filtrado como los Modelos de Mezcla Gaussianas mejoran significativamente el rendimiento en conjuntos de datos pequeños, mientras que en conjuntos grandes los beneficios son marginales, lo que llevó al lanzamiento del corpus multilingüe más grande para esta tarea.

Nouran Khallaf, Serge SharoffTue, 10 Ma💬 cs.CL

Domain-Specific Quality Estimation for Machine Translation in Low-Resource Scenarios

Este artículo propone un marco de estimación de calidad para traducción automática en escenarios de bajos recursos y dominios específicos (como salud y legal) en idiomas indios, demostrando que la adaptación de capas intermedias de modelos de lenguaje grandes mediante técnicas como ALOPE y LoRMA supera a los enfoques basados únicamente en prompts, especialmente en modelos de pesos abiertos.

Namrata Patil Gurav, Akashdeep Ranu, Archchana Sindhujan, Diptesh KanojiaTue, 10 Ma🤖 cs.LG

SoK: Agentic Retrieval-Augmented Generation (RAG): Taxonomy, Architectures, Evaluation, and Research Directions

Este artículo de sistematización de conocimientos (SoK) presenta el primer marco unificado para las arquitecturas de Recuperación Aumentada por Generación (RAG) agénticas, formalizándolas como procesos de decisión de Markov, proponiendo una taxonomía modular, identificando riesgos sistémicos críticos y delineando direcciones de investigación para garantizar sistemas autónomos fiables y escalables.

Saroj Mishra, Suman Niroula, Umesh Yadav, Dilip Thakur, Srijan Gyawali, Shiva GaireTue, 10 Ma💬 cs.CL

Can Large Language Models Keep Up? Benchmarking Online Adaptation to Continual Knowledge Streams

El artículo presenta OAKS, un nuevo benchmark diseñado para evaluar la capacidad de adaptación en línea de los modelos de lenguaje ante flujos de conocimiento continuo, revelando que tanto los modelos más avanzados como los sistemas de memoria agéntica muestran limitaciones significativas en el seguimiento preciso de cambios dinámicos y en la resistencia a la distracción.

Jiyeon Kim, Hyunji Lee, Dylan Zhou, Sue Hyun Park, Seunghyun Yoon, Trung Bui, Franck Dernoncourt, Sungmin Cha, Minjoon SeoTue, 10 Ma💬 cs.CL

Generalization in Online Reinforcement Learning for Mobile Agents

Este trabajo presenta un nuevo marco de aprendizaje por refuerzo y el benchmark AndroidWorld-Generalization para evaluar y mejorar la capacidad de generalización de agentes móviles basados en modelos de lenguaje y visión, demostrando que el entrenamiento con RL supera a los métodos supervisados en tareas no vistas, aunque la generalización a nuevas aplicaciones sigue siendo un desafío.

Li Gu, Zihuan Jiang, Zhixiang Chi, Huan Liu, Ziqiang Wang, Yuanhao Yu, Glen Berseth, Yang WangTue, 10 Ma🤖 cs.LG