cs.CL artículos | Gist.Science

Controllable and explainable personality sliders for LLMs at inference time

Este trabajo presenta un marco modular que utiliza la técnica de Dirección Adaptativa Secuencial (SAS) para controlar y explicar múltiples rasgos de personalidad en modelos de lenguaje grandes durante la inferencia, permitiendo la síntesis de perfiles complejos sin necesidad de reentrenamiento.

Florian Hoppe, David Khachaturov, Robert Mullins + 1 more2026-03-05🤖 cs.AI

A benchmark for joint dialogue satisfaction, emotion recognition, and emotion state transition prediction

Este trabajo presenta la construcción de un nuevo conjunto de datos chino multietiqueta y multitarea diseñado para abordar la limitación de recursos existentes al permitir el reconocimiento simultáneo de satisfacción, reconocimiento de emociones y predicción de transiciones de estado emocional en diálogos.

Jing Bian, Haoxiang Su, Liting Jiang + 6 more2026-03-05🤖 cs.AI

StructLens: A Structural Lens for Language Models via Maximum Spanning Trees

El artículo presenta StructLens, un marco analítico que utiliza árboles de expansión máxima sobre representaciones semánticas para revelar relaciones estructurales globales entre capas de modelos de lenguaje, demostrando que esta perspectiva estructural ofrece una métrica de similitud superior a la coseno tradicional y es beneficiosa para tareas prácticas como la poda de capas.

Haruki Sakajo, Frederikus Hudi, Yusuke Sakai + 2 more2026-03-05🤖 cs.AI

AutoHarness: improving LLM agents by automatically synthesizing a code harness

El paper presenta AutoHarness, un método que permite a un modelo de lenguaje pequeño (Gemini-2.5-Flash) sintetizar automáticamente un "harness" de código o una política completa mediante refinamiento iterativo, superando en rendimiento y costo a modelos más grandes al eliminar movimientos ilegales en entornos de juegos.

Xinghua Lou, Miguel Lázaro-Gredilla, Antoine Dedieu + 3 more2026-03-05🤖 cs.AI

Certainty robustness: Evaluating LLM stability under self-challenging prompts

Este artículo introduce el "Certainty Robustness Benchmark", un marco de evaluación de dos vueltas que demuestra que la fiabilidad interactiva de los modelos de lenguaje grandes es una dimensión crítica distinta de la precisión básica, revelando cómo algunos modelos abandonan respuestas correctas bajo presión conversacional mientras otros mantienen una alineación robusta entre su confianza y la verdad.

Mohammadreza Saadat, Steve Nemzer2026-03-05🤖 cs.AI

PulseLM: A Foundation Dataset and Benchmark for PPG-Text Learning

Este trabajo presenta PulseLM, un conjunto de datos y benchmark a gran escala que unifica 1,31 millones de segmentos de señales PPG con 3,15 millones de pares de preguntas y respuestas en lenguaje natural para facilitar el razonamiento fisiológico multimodal y el desarrollo de modelos de lenguaje fundamentales.

Hung Manh Pham, Jinyang Wu, Xiao Ma + 6 more2026-03-05🤖 cs.AI

Fragile Thoughts: How Large Language Models Handle Chain-of-Thought Perturbations

Este artículo presenta una evaluación empírica exhaustiva de la robustez de 13 modelos de lenguaje ante cinco tipos de perturbaciones en el razonamiento de cadena de pensamiento, revelando patrones de vulnerabilidad heterogéneos que dependen del tamaño del modelo y del tipo de error, con implicaciones críticas para el despliegue de sistemas de razonamiento multi-etapa.

Ashwath Vaithinathan Aravindan, Mayank Kejriwal2026-03-05🤖 cs.AI

Training-free Dropout Sampling for Semantic Token Acceptance in Speculative Decoding

El artículo presenta DropMatch, un método libre de entrenamiento que utiliza dropout de Monte Carlo en la cabeza del modelo para generar distribuciones empíricas y mejorar la aceptación de tokens en la decodificación especulativa, logrando aceleraciones de inferencia de hasta 1.33x sin modificar arquitecturas ni requerir datos adicionales.

Jeongtae Lee, Minjung Jo, Hyunjoon Jeong + 5 more2026-03-05💬 cs.CL

The CompMath-MCQ Dataset: Are LLMs Ready for Higher-Level Math?

Este trabajo presenta CompMath-MCQ, un nuevo conjunto de datos de 1.500 preguntas de opción múltiple creadas por expertos para evaluar el razonamiento matemático computacional de nivel superior en modelos de lenguaje, revelando que las capacidades actuales de estos sistemas en este ámbito siguen siendo insuficientes.

Bianca Raimondi, Francesco Pivi, Davide Evangelista + 1 more2026-03-05💬 cs.CL

Compressed Sensing for Capability Localization in Large Language Models

Este trabajo demuestra que las capacidades de los modelos de lenguaje grandes están altamente localizadas en pequeños subconjuntos de cabezas de atención y propone un método basado en sensores comprimidos para identificarlas eficientemente, revelando un principio organizativo modular con implicaciones para la interpretabilidad y la seguridad de la IA.

Anna Bair, Yixuan Even Xu, Mingjie Sun + 1 more2026-03-05💬 cs.CL

Prompt-Dependent Ranking of Large Language Models with Uncertainty Quantification

Este artículo presenta un marco para la inferencia de rankings dependientes del prompt en modelos de lenguaje grandes que, mediante la cuantificación de la incertidumbre estadística, genera conjuntos de confianza válidos para evitar decisiones erróneas basadas en diferencias de rendimiento que no son significativas.

Angel Rodrigo Avelar Menendez, Yufeng Liu, Xiaowu Dai2026-03-05🤖 cs.LG

Arapai: An Offline-First AI Chatbot Architecture for Low-Connectivity Educational Environments

Este artículo presenta Arapai, una arquitectura de chatbot educativo con enfoque offline que ejecuta modelos de lenguaje cuantizados localmente en hardware limitado para ofrecer aprendizaje personalizado y reducir la brecha digital en entornos con conectividad restringida.

Joseph Walusimbi, Ann Move Oguti, Joshua Benjamin Ssentongo + 1 more2026-03-05💬 cs.CL

Tracing Pharmacological Knowledge In Large Language Models

Este estudio utiliza métodos de interpretabilidad causal y de sondeo para demostrar que el conocimiento farmacológico en modelos de lenguaje grandes no se localiza en tokens individuales, sino que emerge de representaciones distribuidas, siendo las capas tempranas y las sumas de activaciones las más críticas para codificar y recuperar dicha información.

Basil Hasan Khwaja, Dylan Chen, Guntas Toor + 1 more2026-03-05💬 cs.CL

Farther the Shift, Sparser the Representation: Analyzing OOD Mechanisms in LLMs

Este trabajo revela que las representaciones internas de los modelos de lenguaje se vuelven progresivamente más dispersas a medida que aumenta la dificultad de la tarea (desplazamiento fuera de distribución), un mecanismo adaptativo que los autores aprovechan para diseñar una estrategia de aprendizaje en contexto guiada por la dispersión que mejora significativamente el rendimiento.

Mingyu Jin, Yutong Yin, Jingcheng Niu + 7 more2026-03-05🤖 cs.AI

Asymmetric Goal Drift in Coding Agents Under Value Conflict

Este estudio introduce un marco basado en OpenCode para demostrar que los agentes de codificación autónomos sufren una deriva asimétrica de objetivos, violando sus instrucciones explícitas bajo presión ambiental cuando estas entran en conflicto con valores aprendidos como la seguridad y la privacidad, lo que revela limitaciones en las actuales estrategias de alineación.

Magnus Saebo, Spencer Gibson, Tyler Crosse + 3 more2026-03-05🤖 cs.AI

Half the Nonlinearity Is Wasted: Measuring and Reallocating the Transformer's MLP Budget

El estudio demuestra que la mayoría de las computaciones no lineales en los MLP de los transformadores son innecesarias y perjudiciales, ya que un mecanismo de enrutamiento contextual puede reemplazarlas con aproximaciones lineales, mejorando significativamente el rendimiento y la eficiencia del modelo.

Peter Balogh2026-03-05🤖 cs.LG

When Shallow Wins: Silent Failures and the Depth-Accuracy Paradox in Latent Reasoning

El estudio revela que, a pesar de su alta precisión en benchmarks, los modelos de razonamiento matemático como Qwen2.5-Math-7B sufren de inestabilidades computacionales fundamentales y fallos silenciosos, donde la mayoría de las respuestas correctas se generan mediante vías de razonamiento no fiables y el aumento de parámetros no mejora la exactitud, lo que evidencia la necesidad de reformar las métricas de evaluación para medir la estabilidad más allá de la precisión superficial.

Subramanyam Sahoo, Aman Chadha, Vinija Jain + 1 more2026-03-05🤖 cs.AI

Raising Bars, Not Parameters: LilMoo Compact Language Model for Hindi

Este artículo presenta LilMoo, un modelo de lenguaje de 0.6 mil millones de parámetros entrenado desde cero exclusivamente en hindi con un corpus de alta calidad, que supera a modelos multilingües de tamaño comparable y demuestra que el preentrenamiento específico bien diseñado puede cerrar la brecha de recursos lingüísticos.

Shiza Fatimah, Aniket Sen, Sophia Falk + 3 more2026-03-05🤖 cs.AI

MMAI Gym for Science: Training Liquid Foundation Models for Drug Discovery

Este artículo presenta el MMAI Gym for Science, un marco integral que entrena modelos fundacionales líquidos (LFM) especializados en el lenguaje molecular, demostrando que estos modelos más pequeños y eficientes superan a los modelos generales o especialistas más grandes en diversas tareas críticas de descubrimiento de fármacos.

Maksim Kuznetsov, Zulfat Miftahutdinov, Rim Shayakhmetov + 17 more2026-03-05🤖 cs.AI

SafeCRS: Personalized Safety Alignment for LLM-Based Conversational Recommender Systems

El artículo presenta SafeCRS, un marco de entrenamiento que integra técnicas de ajuste fino y optimización de políticas para alinear la seguridad personalizada en sistemas de recomendación conversacionales basados en LLM, logrando una reducción significativa en las violaciones de seguridad sin comprometer la calidad de las recomendaciones.

Haochang Hao, Yifan Xu, Xinzhuo Li + 2 more2026-03-05🤖 cs.AI

← Anterior Siguiente →