cs.CL artículos | Gist.Science

How does fine-tuning improve sensorimotor representations in large language models?

Este estudio demuestra que el ajuste fino (fine-tuning) puede reducir la brecha de encarnación en los modelos de lenguaje grandes al alinear sus representaciones internas con experiencias sensoriomotoras humanas, aunque esta mejora generaliza entre idiomas pero depende críticamente del objetivo de aprendizaje específico.

Minghua Wu, Javier Conde, Pedro Reviriego + 1 more2026-03-05🤖 cs.AI

Towards Self-Robust LLMs: Intrinsic Prompt Noise Resistance via CoIPO

Este trabajo propone CoIPO, un método de optimización de preferencias inversa basado en aprendizaje contrastivo que mejora la resistencia intrínseca de los modelos de lenguaje grandes al ruido en los prompts, superando a las técnicas actuales y validándose mediante el nuevo benchmark NoisyPromptBench.

Xin Yang, Letian Li, Abudukelimu Wuerkaixi + 5 more2026-03-05🤖 cs.AI

M-QUEST -- Meme Question-Understanding Evaluation on Semantics and Toxicity

Este trabajo presenta M-QUEST, un marco semántico y un benchmark de 609 pares de preguntas y respuestas diseñado para evaluar la capacidad de los modelos de lenguaje para interpretar la toxicidad y el significado de los memes mediante el análisis de múltiples dimensiones, revelando que los modelos con ajuste de instrucciones y razonamiento superan a los demás, aunque siguen enfrentando desafíos en la inferencia pragmática.

Stefano De Giorgis, Ting-Chih Chen, Filip Ilievski2026-03-05🤖 cs.AI

The Influence of Iconicity in Transfer Learning for Sign Language Recognition

Este estudio demuestra que la transferencia de aprendizaje basada en la iconicidad entre pares de lenguas de señas (chino-árabe y griego-flamenco) mejora significativamente el reconocimiento, logrando un aumento del 7,02% en árabe y del 1,07% en flamenco al utilizar Mediapipe para extraer características espaciotemporales.

Keren Artiaga, Conor Lynch, Haithem Afli + 1 more2026-03-05🤖 cs.AI

Retcon -- a Prompt-Based Technique for Precise Control of LLMs in Conversations

Este artículo presenta Retcon, una técnica de prompting con pocos ejemplos diseñada para ofrecer un control preciso a nivel de turno sobre el comportamiento de los modelos de lenguaje grandes en conversaciones multivuelta, demostrando un rendimiento superior frente a métodos tradicionales.

David Kogan, Sam Nguyen, Masanori Suzuki + 1 more2026-03-05💬 cs.CL

Quantum-Inspired Self-Attention in a Large Language Model

Este artículo presenta un mecanismo de autoatención clásico inspirado en la cuántica (QISA) integrado en el modelo GPT-1, el cual supera significativamente a la autoatención estándar en métricas de error y pérdida, aunque con un tiempo de inferencia 2,6 veces mayor.

Nikita Kuznetsov, Niyaz Ismagilov, Ernesto Campos2026-03-05⚛️ quant-ph

Automated Concept Discovery for LLM-as-a-Judge Preference Analysis

Este trabajo presenta un método basado en autoencoders dispersos para descubrir automáticamente conceptos interpretables que explican los sesgos de los modelos de lenguaje utilizados como jueces, revelando nuevas tendencias en sus preferencias sin depender de taxonomías predefinidas.

James Wedgwood, Chhavi Yadav, Virginia Smith2026-03-05🤖 cs.AI

From We to Me: Theory Informed Narrative Shift with Abductive Reasoning

Este artículo presenta un enfoque neurosimbólico basado en la teoría de las ciencias sociales y el razonamiento abductivo que permite a los modelos de lenguaje grandes transformar eficazmente narrativas entre marcos individualistas y colectivistas, superando significativamente a los métodos de base cero mientras preservan la fidelidad del mensaje original.

Jaikrishna Manojkumar Patil, Divyagna Bavikadi, Kaustuv Mukherji + 5 more2026-03-05🤖 cs.AI

DIALEVAL: Automated Type-Theoretic Evaluation of LLM Instruction Following

El artículo presenta DIALEVAL, un marco de evaluación basado en teoría de tipos que utiliza agentes duales de LLM para automatizar la descomposición y verificación de instrucciones, logrando una mayor precisión y correlación con el juicio humano que los métodos existentes.

Nardine Basta, Dali Kaafar2026-03-05🤖 cs.AI

Can Large Language Models Derive New Knowledge? A Dynamic Benchmark for Biological Knowledge Discovery

Este trabajo presenta DBench-Bio, un marco de referencia dinámico y automatizado que evalúa la capacidad de los modelos de lenguaje grandes para descubrir nuevo conocimiento biológico, superando las limitaciones de los conjuntos de datos estáticos mediante un proceso de actualización mensual basado en literatura científica rigurosa.

Chaoqun Yang, Xinyu Lin, Shulin Li + 4 more2026-03-05🤖 cs.AI

Discern Truth from Falsehood: Reducing Over-Refusal via Contrastive Refinement

Este artículo presenta DCR, un nuevo método de alineación que utiliza el refinamiento contrastivo para reducir la sobre-denegación en modelos de lenguaje grandes, permitiéndoles distinguir con mayor precisión entre contenido realmente tóxico y contenido inofensivo sin comprometer su seguridad ni sus capacidades generales.

Yuxiao Lu, Lin Xu, Yang Sun + 2 more2026-03-05🤖 cs.AI

Controlling Chat Style in Language Models via Single-Direction Editing

Este artículo demuestra que los atributos estilísticos en los modelos de lenguaje grandes se codifican como direcciones lineales en su espacio de activación, lo que permite un control preciso y sin entrenamiento mediante la ingeniería de representaciones.

Zhenyu Xu, Victor S. Sheng2026-03-05🤖 cs.AI

IntPro: A Proxy Agent for Context-Aware Intent Understanding via Retrieval-conditioned Inference

El artículo presenta IntPro, un agente proxy que mejora la comprensión de intenciones en entornos contextuales mediante la inferencia condicionada a la recuperación de patrones históricos de intenciones del usuario, logrando un rendimiento superior en diversos escenarios de colaboración humano-IA.

Guanming Liu, Meng Wu, Peng Zhang + 8 more2026-03-05🤖 cs.AI

Controllable and explainable personality sliders for LLMs at inference time

Este trabajo presenta un marco modular que utiliza la técnica de Dirección Adaptativa Secuencial (SAS) para controlar y explicar múltiples rasgos de personalidad en modelos de lenguaje grandes durante la inferencia, permitiendo la síntesis de perfiles complejos sin necesidad de reentrenamiento.

Florian Hoppe, David Khachaturov, Robert Mullins + 1 more2026-03-05🤖 cs.AI

A benchmark for joint dialogue satisfaction, emotion recognition, and emotion state transition prediction

Este trabajo presenta la construcción de un nuevo conjunto de datos chino multietiqueta y multitarea diseñado para abordar la limitación de recursos existentes al permitir el reconocimiento simultáneo de satisfacción, reconocimiento de emociones y predicción de transiciones de estado emocional en diálogos.

Jing Bian, Haoxiang Su, Liting Jiang + 6 more2026-03-05🤖 cs.AI

StructLens: A Structural Lens for Language Models via Maximum Spanning Trees

El artículo presenta StructLens, un marco analítico que utiliza árboles de expansión máxima sobre representaciones semánticas para revelar relaciones estructurales globales entre capas de modelos de lenguaje, demostrando que esta perspectiva estructural ofrece una métrica de similitud superior a la coseno tradicional y es beneficiosa para tareas prácticas como la poda de capas.

Haruki Sakajo, Frederikus Hudi, Yusuke Sakai + 2 more2026-03-05🤖 cs.AI

AutoHarness: improving LLM agents by automatically synthesizing a code harness

El paper presenta AutoHarness, un método que permite a un modelo de lenguaje pequeño (Gemini-2.5-Flash) sintetizar automáticamente un "harness" de código o una política completa mediante refinamiento iterativo, superando en rendimiento y costo a modelos más grandes al eliminar movimientos ilegales en entornos de juegos.

Xinghua Lou, Miguel Lázaro-Gredilla, Antoine Dedieu + 3 more2026-03-05🤖 cs.AI

Certainty robustness: Evaluating LLM stability under self-challenging prompts

Este artículo introduce el "Certainty Robustness Benchmark", un marco de evaluación de dos vueltas que demuestra que la fiabilidad interactiva de los modelos de lenguaje grandes es una dimensión crítica distinta de la precisión básica, revelando cómo algunos modelos abandonan respuestas correctas bajo presión conversacional mientras otros mantienen una alineación robusta entre su confianza y la verdad.

Mohammadreza Saadat, Steve Nemzer2026-03-05🤖 cs.AI

PulseLM: A Foundation Dataset and Benchmark for PPG-Text Learning

Este trabajo presenta PulseLM, un conjunto de datos y benchmark a gran escala que unifica 1,31 millones de segmentos de señales PPG con 3,15 millones de pares de preguntas y respuestas en lenguaje natural para facilitar el razonamiento fisiológico multimodal y el desarrollo de modelos de lenguaje fundamentales.

Hung Manh Pham, Jinyang Wu, Xiao Ma + 6 more2026-03-05🤖 cs.AI

Fragile Thoughts: How Large Language Models Handle Chain-of-Thought Perturbations

Este artículo presenta una evaluación empírica exhaustiva de la robustez de 13 modelos de lenguaje ante cinco tipos de perturbaciones en el razonamiento de cadena de pensamiento, revelando patrones de vulnerabilidad heterogéneos que dependen del tamaño del modelo y del tipo de error, con implicaciones críticas para el despliegue de sistemas de razonamiento multi-etapa.

Ashwath Vaithinathan Aravindan, Mayank Kejriwal2026-03-05🤖 cs.AI

← Anterior Siguiente →