cs.CL artículos | Gist.Science

DRA-GRPO: Your GRPO Needs to Know Diverse Reasoning Paths for Mathematical Reasoning

El artículo presenta DRA-GRPO, un marco teórico que mejora el razonamiento matemático en modelos de lenguaje mediante la calibración de recompensas basada en la diversidad semántica para evitar la colapso de políticas y lograr un rendimiento superior con datos y costos reducidos.

Xiwen Chen, Wenhui Zhu, Peijie Qiu + 7 more2026-03-03💬 cs.CL

When Large Language Models are More PersuasiveThan Incentivized Humans, and Why

Este estudio demuestra que la superioridad persuasiva de los modelos de lenguaje grande sobre humanos incentivados es contextual, dependiendo de si el intento es veraz o engañoso, del modelo específico utilizado y de la interacción repetida, atribuyendo estos efectos a una mayor convicción expresada por las IA.

Philipp Schoenegger, Francesco Salvi, Jiacheng Liu + 37 more2026-03-03💬 cs.CL

mCLM: A Modular Chemical Language Model that Generates Functional and Makeable Molecules

El artículo presenta mCLM, un modelo de lenguaje químico modular que tokeniza las moléculas mediante bloques de construcción funcionales compatibles con la síntesis automatizada, logrando así generar nuevas moléculas con propiedades mejoradas y una viabilidad de síntesis superior a la de otros métodos de inteligencia artificial generativa.

Carl Edwards, Chi Han, Gawon Lee + 11 more2026-03-03🧬 q-bio

Dynamic Token Reweighting for Robust Vision-Language Models

Este artículo presenta DTR, una defensa innovadora en tiempo de inferencia que mitiga los ataques de jailbreak multimodales en modelos de visión y lenguaje mediante la reponderación dinámica de tokens visuales y la optimización de sus cachés de clave-valor, mejorando la robustez sin comprometer el rendimiento general.

Tanqiu Jiang, Jiacheng Liang, Rongyi Zhu + 3 more2026-03-03💬 cs.CL

Chain-of-Lure: A Universal Jailbreak Attack Framework using Unconstrained Synthetic Narratives

Este artículo presenta "Chain-of-Lure", un marco de ataque universal que utiliza narrativas sintéticas no restringidas y optimización por un modelo LLM auxiliar para eludir las restricciones de seguridad de otros modelos de lenguaje mediante la transferencia de misiones y preguntas engañosas progresivas, demostrando su alta eficacia en entornos de caja negra y proponiendo estrategias de defensa.

Wenhan Chang, Tianqing Zhu, Yu Zhao + 3 more2026-03-03💬 cs.CL

NFT: Bridging Supervised Learning and Reinforcement Learning in Math Reasoning

Este trabajo presenta la Ajuste Fino Consciente de lo Negativo (NFT), un enfoque de aprendizaje supervisado que permite a los modelos de lenguaje mejorar autónomamente en razonamiento matemático mediante el aprovechamiento de sus propios errores, logrando un rendimiento comparable o superior a los métodos de aprendizaje por refuerzo y demostrando teóricamente la equivalencia entre ambos paradigmas en entornos de entrenamiento estrictamente en política.

Huayu Chen, Kaiwen Zheng, Qinsheng Zhang + 8 more2026-03-03💬 cs.CL

SQUiD: Synthesizing Relational Databases from Unstructured Text

El artículo presenta SQUiD, un marco neurosimbólico que utiliza modelos de lenguaje grandes para sintetizar automáticamente bases de datos relacionales a partir de texto no estructurado, superando consistentemente a los métodos existentes.

Mushtari Sadia, Zhenning Yang, Yunming Xiao + 2 more2026-03-03💬 cs.CL

Learning to Reason without External Rewards

El artículo presenta Intuitor, un método de aprendizaje por refuerzo que utiliza la auto-certidumbre del modelo como señal de recompensa intrínseca, permitiendo a los grandes modelos de lenguaje aprender razonamiento complejo de forma no supervisada y generalizar mejor a tareas fuera de dominio sin depender de recompensas externas costosas.

Xuandong Zhao, Zhewei Kang, Aosong Feng + 2 more2026-03-03💬 cs.CL

RPM: Reasoning-Level Personalization for Black-Box Large Language Models

Este trabajo presenta RPM, un marco innovador que supera las limitaciones de la personalización a nivel de respuesta en modelos de lenguaje grandes de caja negra al descubrir y aplicar automáticamente estructuras de razonamiento específicas del usuario basadas en sus datos conductuales para guiar inferencias más personalizadas e interpretables.

Jieyong Kim, Tongyoung Kim, Soojin Yoon + 2 more2026-03-03💬 cs.CL

Augmenting Research Ideation with Data: An Empirical Investigation in Social Science

Este estudio demuestra que enriquecer la generación de ideas de investigación en ciencias sociales con datos relevantes y validación automatizada mejora significativamente la viabilidad y calidad de las propuestas, sirviendo además como una herramienta eficaz para inspirar a los investigadores humanos.

Xiao Liu, Xinyi Dong, Xinyang Gao + 2 more2026-03-03💬 cs.CL

RefTool: Reference-Guided Tool Creation for Knowledge-Intensive Reasoning

El artículo presenta RefTool, un marco que permite a los modelos de lenguaje generar y utilizar herramientas ejecutables basadas en referencias externas para superar sus limitaciones de conocimiento interno y mejorar el razonamiento en dominios intensivos en información.

Xiao Liu, Da Yin, Zirui Wu + 1 more2026-03-03💬 cs.CL

VeriTrail: Closed-Domain Hallucination Detection with Traceability

El artículo presenta VeriTrail, el primer método de detección de alucinaciones en dominios cerrados que ofrece trazabilidad para identificar el origen de contenidos no fundamentados en procesos de generación única y múltiple, respaldado por nuevos conjuntos de datos con anotaciones humanas.

Dasha Metropolitansky, Jonathan Larson2026-03-03💬 cs.CL

RedTeamCUA: Realistic Adversarial Testing of Computer-Use Agents in Hybrid Web-OS Environments

El artículo presenta RedTeamCUA, un marco de pruebas adversarias con un entorno híbrido web-sistema operativo que revela vulnerabilidades críticas en los agentes de uso informático frente a inyecciones de prompts indirectos, demostrando mediante el nuevo benchmark RTC-Bench que incluso los modelos más avanzados actuales presentan riesgos significativos de seguridad que requieren defensas robustas antes de su despliegue masivo.

Zeyi Liao, Jaylen Jones, Linxi Jiang + 5 more2026-03-03💬 cs.CL

CityLens: Evaluating Large Vision-Language Models for Urban Socioeconomic Sensing

Este trabajo presenta CityLens, el benchmark más extenso hasta la fecha para evaluar la capacidad de los Grandes Modelos Visuales-Lingüísticos (LVLM) en la predicción de indicadores socioeconómicos urbanos a partir de imágenes satelitales y de calle, abarcando 17 ciudades globales y 6 dominios clave para identificar tanto sus promesas como sus limitaciones actuales.

Tianhui Liu, Hetian Pang, Xin Zhang + 5 more2026-03-03💬 cs.CL

OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models

Este trabajo presenta OmniSpatial, un nuevo benchmark exhaustivo basado en la psicología cognitiva que evalúa el razonamiento espacial de los modelos de visión y lenguaje mediante cuatro categorías complejas, revelando sus limitaciones actuales y proponiendo estrategias como PointGraph y SpatialCoT para mejorar su rendimiento.

Mengdi Jia, Zekun Qi, Shaochen Zhang + 5 more2026-03-03💬 cs.CL

Meta-Adaptive Prompt Distillation for Few-Shot Visual Question Answering

El artículo propone un enfoque de aprendizaje meta-adaptativo que mejora el razonamiento visual en modelos multimodales grandes mediante la destilación de prompts suaves a partir de características visuales relevantes, superando significativamente a los métodos de aprendizaje en contexto y al ajuste fino eficiente en escenarios de pocos ejemplos.

Akash Gupta, Amos Storkey, Mirella Lapata2026-03-03💬 cs.CL

VINCIE: Unlocking In-context Image Editing from Video

El trabajo presenta VINCIE, un modelo de difusión transformador entrenado exclusivamente en videos mediante tareas proxy que logra capacidades de edición de imágenes en contexto superiores al estado del arte, eliminando la necesidad de pipelines específicos y modelos expertos para la curación de datos.

Leigang Qu, Feng Cheng, Ziyan Yang + 7 more2026-03-03💬 cs.CL

Equitable Electronic Health Record Prediction with FAME: Fairness-Aware Multimodal Embedding

Este trabajo presenta FAME, un marco de aprendizaje multimodal que pondera las distintas fuentes de datos de registros electrónicos de salud según su contribución a la equidad, optimizando simultáneamente el rendimiento predictivo y la justicia entre subgrupos de pacientes mediante una función de pérdida combinada y el índice de disparidad en la distribución de errores.

Nikkie Hooman, Zhongjie Wu, Eric C. Larson + 1 more2026-03-03💬 cs.CL

Language Agents for Hypothesis-driven Clinical Decision Making with Reinforcement Learning

Este artículo presenta LA-CDM, un agente de lenguaje impulsado por hipótesis y aprendizaje por refuerzo que mejora el diagnóstico clínico al modelar un proceso interactivo de solicitud e interpretación de pruebas, logrando mayor precisión y eficiencia en comparación con los enfoques tradicionales de modelos de lenguaje.

David Bani-Harouni, Chantal Pellegrini, Ege Özsoy + 2 more2026-03-03💬 cs.CL

TTSDS2: Resources and Benchmark for Evaluating Human-Quality Text to Speech Systems

Este trabajo presenta TTSDS2, una métrica robusta que supera a otras 15 al correlacionarse consistentemente con evaluaciones subjetivas en múltiples dominios y lenguas, acompañada de un conjunto de recursos que incluye un dataset con más de 11.000 calificaciones, un pipeline para evitar fugas de datos y un benchmark actualizado para 14 idiomas.

Christoph Minixhofer, Ondrej Klejch, Peter Bell2026-03-03⚡ eess

← Anterior Siguiente →