MERLIN: Multi-Stage Curriculum Alignment for Multilingual Encoder-LLM Integration in Cross-Lingual Reasoning

El paper presenta MERLIN, un marco de dos etapas que utiliza aprendizaje curricular y la adaptación de un pequeño conjunto de pesos DoRA para integrar modelos codificadores multilingües con LLMs, logrando mejoras significativas en el razonamiento en idiomas de recursos limitados y superando a modelos como GPT-4o-mini.

Kosei Uemura, David Guzmán, Quang Phuoc Nguyen, Jesujoba Oluwadara Alabi, En-shiun Annie Lee, David Ifeoluwa Adelani2026-03-09💬 cs.CL

Better Late Than Never: Meta-Evaluation of Latency Metrics for Simultaneous Speech-to-Text Translation

Este artículo presenta una meta-evaluación exhaustiva de las métricas de latencia para la traducción simultánea de voz a texto, identificando sesgos estructurales existentes e introduciendo las nuevas métricas YAAL y LongYAAL junto con la herramienta SoftSegmenter para lograr evaluaciones más precisas en formatos cortos y largos.

Peter Polák, Sara Papi, Luisa Bentivogli, Ondřej Bojar2026-03-09🤖 cs.AI

Decoding Partial Differential Equations: Cross-Modal Adaptation of Decoder-only Models to PDEs

Este artículo demuestra que, aunque los modelos de lenguaje decodificador-only son inferiores a los codificador-only para la adaptación a ecuaciones diferenciales parciales, se puede cerrar esta brecha de rendimiento mediante dos nuevas técnicas que imitan la bidireccionalidad: "Parallel Flipping" y "Sequence Doubling".

Paloma García-de-Herreros, Philipp Slusallek, Dietrich Klakow, Vagrant Gautam2026-03-09🤖 cs.LG

How Reliable is Language Model Micro-Benchmarking?

Este estudio demuestra que los micro-benchmarks actuales a menudo no logran clasificar modelos de lenguaje de manera fiable, especialmente cuando sus diferencias de rendimiento son pequeñas, y revela que se requieren cientos de ejemplos para lograr una consistencia comparable a la de las evaluaciones completas, lo que hace que el muestreo aleatorio sea una alternativa competitiva.

Gregory Yauney, Shahzaib Saqib Warraich, Swabha Swayamdipta2026-03-09🤖 cs.LG

Do LLMs Really Know What They Don't Know? Internal States Mainly Reflect Knowledge Recall Rather Than Truthfulness

Este artículo demuestra que los estados internos de los modelos de lenguaje reflejan principalmente la recuperación de conocimiento paramétrico en lugar de la veracidad de la salida, lo que limita la detección de alucinaciones basadas en asociaciones espurias (AHs) que comparten geometría con respuestas factuales, a diferencia de las alucinaciones sin asociación (UHs) que presentan representaciones distintivas.

Chi Seng Cheang, Hou Pong Chan, Wenxuan Zhang, Yang Deng2026-03-09💬 cs.CL

Just-In-Time Objectives: A General Approach for Specialized AI Interactions

Este artículo presenta un enfoque de "objetivos just-in-time" que infiere y optimiza en tiempo real las metas específicas del usuario para transformar a los modelos de lenguaje en herramientas especializadas de alta calidad, superando significativamente a los LLMs estándar en tareas personalizadas.

Michelle S. Lam, Omar Shaikh, Hallie Xu, Alice Guo, Diyi Yang, Jeffrey Heer, James A. Landay, Michael S. Bernstein2026-03-09🤖 cs.AI

Chain-of-Thought Reasoning Improves Context-Aware Translation with Large Language Models

Este estudio demuestra que el razonamiento de cadena de pensamiento mejora significativamente la traducción contextual de modelos de lenguaje grandes en el benchmark DiscEvalMT, logrando una precisión del 90% en la discriminación de traducciones y puntuaciones COMET del 92% en la generación, con un efecto de "los sabios se vuelven más sabios" donde los modelos de alto rendimiento inicial se benefician más de esta técnica.

Shabnam Ataee, Hugo Huart, Andrei Popescu-Belis2026-03-09💬 cs.CL

Shoot First, Ask Questions Later? Building Rational Agents that Explore and Act Like People

El artículo presenta un marco de evaluación y mejora para agentes de IA que buscan información estratégicamente, demostrando que mediante técnicas de inferencia inspiradas en el diseño experimental bayesiano, modelos de lenguaje más pequeños pueden superar tanto a humanos como a modelos de vanguardia en tareas de toma de decisiones bajo incertidumbre como "Barcos de Batalla" y "Adivina Quién".

Gabriel Grand, Valerio Pepe, Jacob Andreas, Joshua B. Tenenbaum2026-03-09🤖 cs.AI

DETECT: Determining Ease and Textual Clarity of German Text Simplifications

Este trabajo presenta DETECT, la primera métrica específica para el alemán que evalúa holísticamente la simplificación automática de texto en simplicidad, preservación del significado y fluidez, utilizando puntuaciones sintéticas generadas por modelos de lenguaje grandes y validándose mediante el mayor conjunto de datos de evaluación humana disponible para este idioma.

Maria Korobeynikova, Alessia Battisti, Lukas Fischer, Yingqiang Gao2026-03-09💬 cs.CL

Activation-Space Personality Steering: Hybrid Layer Selection for Stable Trait Control in LLMs

Este artículo propone un marco innovador que utiliza la selección dinámica de capas y la inyección de direcciones específicas en el espacio de activaciones para controlar de manera estable y precisa los rasgos de personalidad (Big Five) en los modelos de lenguaje grandes, sin comprometer su fluidez ni capacidades generales.

Pranav Bhandari, Nicolas Fay, Sanjeevan Selvaganapathy, Amitava Datta, Usman Naseem, Mehwish Nasim2026-03-09💬 cs.CL

Co-Layout: LLM-driven Co-optimization for Interior Layout

El artículo presenta Co-Layout, un marco innovador que combina modelos de lenguaje grandes con programación entera basada en cuadrículas para optimizar conjuntamente el diseño de interiores y la disposición de muebles, superando a los enfoques existentes en calidad de solución y eficiencia computacional mediante una estrategia de optimización de lo grueso a lo fino.

Chucheng Xiang, Ruchao Bao, Biyin Feng, Wenzheng Wu, Zhongyuan Liu, Yirui Guan, Ligang Liu2026-03-09💬 cs.CL

SPINE: Token-Selective Test-Time Reinforcement Learning with Entropy-Band Regularization

El paper presenta SPINE, un marco de aprendizaje por refuerzo en tiempo de prueba que selecciona tokens de alta entropía críticos para la toma de decisiones y aplica una regularización basada en bandas de entropía para evitar el colapso de las respuestas y mejorar el rendimiento en modelos de lenguaje grandes y multimodales sin necesidad de etiquetas.

Jianghao Wu, Yasmeen George, Jin Ye, Yicheng Wu, Daniel F. Schmidt, Jianfei Cai2026-03-09🤖 cs.LG

Agent Tools Orchestration Leaks More: Dataset, Benchmark, and Mitigation

Este trabajo presenta el primer estudio sistemático del riesgo de privacidad en la orquestación de herramientas de agentes impulsados por LLMs, definiendo el marco TOP-R, creando el benchmark TOP-Bench para evaluar la fuga de información sensible a través de la inferencia compuesta, e identificando causas raíz y estrategias de mitigación que mejoran significativamente la seguridad sin comprometer la utilidad.

Yuxuan Qiao, Dongqin Liu, Hongchang Yang, Wei Zhou, Songlin Hu2026-03-09🤖 cs.AI

Window-based Membership Inference Attacks Against Fine-tuned Large Language Models

El artículo presenta WBC, un nuevo método de ataque de inferencia de membresía para modelos de lenguaje grandes ajustados que supera a las técnicas existentes al analizar señales de memorización localizadas mediante una comparación basada en ventanas deslizantes, en lugar de depender de promedios globales.

Yuetian Chen, Yuntao Du, Kaiyuan Zhang, Ashish Kundu, Charles Fleming, Bruno Ribeiro, Ninghui Li2026-03-09🤖 cs.AI

Creating a Hybrid Rule and Neural Network Based Semantic Tagger using Silver Standard Data: the PyMUSAS framework for Multilingual Semantic Annotation

Este artículo presenta el marco PyMUSAS, que evalúa y mejora el sistema de etiquetado semántico basado en reglas USAS mediante modelos neuronales híbridos entrenados con datos de "plata de plata" y un nuevo conjunto de datos chino, demostrando su eficacia en cinco idiomas y liberando todos los recursos como código abierto.

Andrew Moore, Paul Rayson, Dawn Archer, Tim Czerniak, Dawn Knight, Daisy Lal, Gearóid Ó Donnchadha, Mícheál Ó Meachair, Scott Piao, Elaine Uí Dhonnchadha, Johanna Vuorinen, Yan Yabo, Xiaobin Yang2026-03-09💬 cs.CL

Restoring Exploration after Post-Training: Latent Exploration Decoding for Large Reasoning Models

Este artículo presenta la Decodificación de Exploración Latente (LED), una estrategia de decodificación que aprovecha la asimetría de entropía entre las capas intermedias y finales de los Modelos de Razonamiento a Gran Escala (LRM) para recuperar la exploración perdida tras el entrenamiento por refuerzo y mejorar el rendimiento en tareas de razonamiento sin necesidad de reentrenamiento.

Wenhui Tan, Fiorenzo Parascandolo, Enver Sangineto, Jianzhong Ju, Zhenbo Luo, Qian Cao, Rita Cucchiara, Ruihua Song, Jian Luan2026-03-09🤖 cs.LG