cs.CL artículos | Gist.Science

Steering Awareness: Models Can Be Trained to Detect Activation Steering

El estudio demuestra que los modelos de lenguaje pueden ser entrenados para detectar la inyección de vectores de dirección (activación steering) y el concepto asociado, lo que desafía la suposición de que esta intervención es indetectable y revela que dicha capacidad de detección no mejora, sino que incluso puede aumentar, la susceptibilidad del modelo a ser manipulado.

Joshua Fonseca Rivera, David Demitri Africa2026-03-06💻 cs

Think-While-Generating: On-the-Fly Reasoning for Personalized Long-Form Generation

El artículo presenta FlyThinker, un marco eficiente de "pensar mientras se genera" que utiliza un modelo de razonamiento paralelo para guiar dinámicamente la generación de respuestas largas personalizadas, superando las limitaciones de los métodos estáticos anteriores y manteniendo la eficiencia tanto en el entrenamiento como en la inferencia.

Chengbing Wang, Yang Zhang, Wenjie Wang + 4 more2026-03-06💻 cs

ReFusion: A Diffusion Large Language Model with Parallel Autoregressive Decoding

El artículo presenta ReFusion, un modelo de difusión enmascarada que integra la reorganización de secuencias en un marco de atención causal para habilitar la decodificación paralela a nivel de bloques, logrando así una aceleración significativa y un rendimiento superior al de los modelos autoregresivos tradicionales mediante la reutilización completa de la caché KV y la reducción de la complejidad de aprendizaje.

Jia-Nan Li, Jian Guan, Wei Wu + 1 more2026-03-06💻 cs

RePo: Language Models with Context Re-Positioning

El artículo presenta RePo, un mecanismo innovador que mejora el aprendizaje en contexto de los modelos de lenguaje reorganizando dinámicamente las posiciones de los tokens para reducir la carga cognitiva extrínseca y optimizar la atención hacia información relevante, logrando así un mejor rendimiento en tareas con contextos ruidosos, estructurados o extensos.

Huayang Li, Tianyu Zhao, Deng Cai + 1 more2026-03-06💻 cs

MCP-SafetyBench: A Benchmark for Safety Evaluation of Large Language Models with Real-World MCP Servers

El artículo presenta MCP-SafetyBench, un nuevo benchmark integral basado en servidores MCP reales que evalúa la seguridad de los modelos de lenguaje grandes frente a 20 tipos de ataques en entornos multi-turno y multiherramienta, revelando que todos los modelos actuales son vulnerables y presentan una compensación entre seguridad y utilidad.

Xuanjun Zong, Zhiqi Shen, Lei Wang + 2 more2026-03-06💻 cs

From Word to World: Can Large Language Models be Implicit Text-based World Models?

Este artículo introduce un marco de evaluación de tres niveles para demostrar que los modelos de lenguaje grandes pueden funcionar como modelos de mundo textuales coherentes y escalables que mejoran el aprendizaje de agentes, aunque su eficacia depende críticamente de la cobertura conductual y la complejidad del entorno.

Yixia Li, Hongru Wang, Jiahao Qiu + 7 more2026-03-06💻 cs

Parallel Token Prediction for Language Models

Este artículo presenta la Predicción Paralela de Tokens (PTP), un marco general que acelera la decodificación de modelos de lenguaje al predecir múltiples tokens simultáneamente mediante la transformación de la aleatoriedad en variables de entrada deterministas, logrando una aceleración de 2.4x en comparación con los métodos tradicionales.

Felix Draxler, Justus Will, Farrin Marouf Sofian + 3 more2026-03-06💻 cs

When Do Tools and Planning Help Large Language Models Think? A Cost- and Latency-Aware Benchmark

Este estudio demuestra que, aunque el uso de herramientas y planificación mejora la precisión en tareas de razonamiento complejo como la respuesta a preguntas sobre eventos, su adopción debe ser específica para cada tarea y consciente de los costos, ya que en escenarios como la generación de respuestas persuasivas a menudo incrementa significativamente la latencia y el gasto sin ofrecer beneficios consistentes.

Subha Ghoshal, Ali Al-Bustami2026-03-06💻 cs

Identifying Good and Bad Neurons for Task-Level Controllable LLMs

El artículo presenta NeuronLLM, un marco novedoso que identifica neuronas "buenas" y "malas" en modelos de lenguaje mediante el principio de antagonismo funcional y aprendizaje contrastivo para lograr un control a nivel de tarea más preciso y robusto.

Wenjie Li, Guansong Pang, Hezhe Qiao + 2 more2026-03-06💻 cs

F-Actor: Controllable Conversational Behaviour in Full-Duplex Models

Este trabajo presenta F-Actor, el primer modelo de conversación de voz dúplex completo y abierto que, mediante un entrenamiento eficiente de solo 2.000 horas sin preentrenamiento a gran escala, permite controlar dinámicamente el comportamiento conversacional (como la voz, el tema, las interrupciones y los retroalimentos) siguiendo instrucciones explícitas.

Maike Züfle, Ondrej Klejch, Nicholas Sanders + 3 more2026-03-06💻 cs

The unreasonable effectiveness of pattern matching

El artículo demuestra que la capacidad de los modelos de lenguaje para extraer significado de textos sin sentido mediante el reconocimiento de patrones estructurales valida que el "ajuste de patrones" es un componente fundamental de la inteligencia y no una mera imitación superficial.

Gary Lupyan, Blaise Agüera y Arcas2026-03-06💻 cs

Yuan3.0 Ultra: A Trillion-Parameter Enterprise-Oriented MoE LLM

El artículo presenta Yuan3.0 Ultra, un modelo de lenguaje de código abierto basado en una mezcla de expertos (MoE) con 1010 mil millones de parámetros totales y 68.8 mil millones activados, que utiliza el algoritmo de Poda de Expertos Adaptativa por Capas (LAEP) para mejorar la eficiencia del preentrenamiento y lograr un rendimiento líder en tareas empresariales específicas.

YuanLab. ai, :, Shawn Wu + 25 more2026-03-06💻 cs

Where is the multimodal goal post? On the Ability of Foundation Models to Recognize Contextually Important Moments

Este trabajo evalúa la capacidad de los modelos fundacionales para identificar momentos clave en videos de fútbol, revelando mediante un nuevo dataset que su rendimiento es cercano al azar debido a su dependencia de una sola modalidad y la falta de sinergia entre fuentes de información, lo que subraya la necesidad de arquitecturas modulares y procedimientos de entrenamiento complementarios.

Aditya K Surikuchi, Raquel Fernández, Sandro Pezzelle2026-03-06💻 cs

Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models

El artículo presenta OPSD, un marco de auto-distilación en política que permite a un único modelo de lenguaje actuar simultáneamente como profesor y alumno al condicionar en información privilegiada y no privilegiada respectivamente, logrando así una mayor eficiencia en tokens y rendimiento en tareas de razonamiento matemático en comparación con métodos de aprendizaje por refuerzo y distilación fuera de política.

Siyan Zhao, Zhihui Xie, Mengchen Liu + 4 more2026-03-06💻 cs

Adaptive Rollout Allocation for Online Reinforcement Learning with Verifiable Rewards

El artículo presenta VIP, una estrategia de asignación de trayectorias basada en la varianza que utiliza modelos de procesos gaussianos para optimizar dinámicamente la distribución del presupuesto computacional en el aprendizaje por refuerzo en línea, mejorando así la eficiencia de muestreo y el rendimiento en comparación con métodos de asignación uniforme.

Hieu Trung Nguyen, Bao Nguyen, Wenao Ma + 3 more2026-03-06💻 cs

LatentChem: From Textual CoT to Latent Thinking in Chemical Reasoning

LatentChem introduce una interfaz de razonamiento latente que desacopla el cálculo químico de la generación textual, permitiendo a los modelos realizar inferencias complejas en un espacio continuo que resulta ser más eficiente y preciso que los métodos tradicionales de Cadena de Pensamiento (CoT) explícito.

Xinwu Ye, Yicheng Mao, Jia Zhang + 16 more2026-03-06🔬 physics

The Convergence of Schema-Guided Dialogue Systems and the Model Context Protocol

Este artículo establece que los sistemas de diálogo guiados por esquemas (SGD) y el Protocolo de Contexto de Modelo (MCP) convergen en un paradigma unificado para la interacción auditable con agentes de IA, extrayendo cinco principios fundamentales de diseño de esquemas que abordan brechas críticas en la gestión de fallos y las relaciones entre herramientas para escalar la gobernanza de sistemas de IA.

Andreas Schlapbach2026-03-06💻 cs

Assessing Risks of Large Language Models in Mental Health Support: A Framework for Automated Clinical AI Red Teaming

Este estudio presenta un marco de "red teaming" clínico automatizado que, mediante la simulación de sesiones terapéuticas con pacientes virtuales, revela riesgos críticos de seguridad en modelos de lenguaje para la salud mental, como la validación de delirios y la incapacidad de gestionar el riesgo suicida, subrayando la necesidad de estas evaluaciones antes del despliegue.

Ian Steenstra, Paola Pedrelli, Weiyan Shi + 2 more2026-03-06💻 cs

Jailbreak Foundry: From Papers to Runnable Attacks for Reproducible Benchmarking

El sistema JAILBREAK FOUNDRY (JBF) soluciona la obsolescencia de las evaluaciones de seguridad en modelos de lenguaje mediante un flujo de trabajo multiagente que traduce automáticamente artículos académicos sobre jailbreaks en módulos ejecutables estandarizados, logrando una alta fidelidad en la reproducción de ataques y reduciendo significativamente el código de implementación necesario.

Zhicheng Fang, Jingjie Zheng, Chenxu Fu, Wei Xu2026-03-06🔒 cs.CR

Learn Hard Problems During RL with Reference Guided Fine-tuning

Este trabajo presenta ReGFT, un método que utiliza soluciones de referencia parciales para generar trayectorias de razonamiento dentro del espacio del modelo, superando así la escasez de recompensas en el aprendizaje por refuerzo y mejorando significativamente el rendimiento en problemas matemáticos complejos.

Yangzhen Wu, Shanda Li, Zixin Wen + 5 more2026-03-06💻 cs

← Anterior Siguiente →