cs.CL artículos | Gist.Science

RPM: Reasoning-Level Personalization for Black-Box Large Language Models

Este trabajo presenta RPM, un marco innovador que supera las limitaciones de la personalización a nivel de respuesta en modelos de lenguaje grandes de caja negra al descubrir y aplicar automáticamente estructuras de razonamiento específicas del usuario basadas en sus datos conductuales para guiar inferencias más personalizadas e interpretables.

Jieyong Kim, Tongyoung Kim, Soojin Yoon + 2 more2026-03-03💬 cs.CL

Augmenting Research Ideation with Data: An Empirical Investigation in Social Science

Este estudio demuestra que enriquecer la generación de ideas de investigación en ciencias sociales con datos relevantes y validación automatizada mejora significativamente la viabilidad y calidad de las propuestas, sirviendo además como una herramienta eficaz para inspirar a los investigadores humanos.

Xiao Liu, Xinyi Dong, Xinyang Gao + 2 more2026-03-03💬 cs.CL

RefTool: Reference-Guided Tool Creation for Knowledge-Intensive Reasoning

El artículo presenta RefTool, un marco que permite a los modelos de lenguaje generar y utilizar herramientas ejecutables basadas en referencias externas para superar sus limitaciones de conocimiento interno y mejorar el razonamiento en dominios intensivos en información.

Xiao Liu, Da Yin, Zirui Wu + 1 more2026-03-03💬 cs.CL

VeriTrail: Closed-Domain Hallucination Detection with Traceability

El artículo presenta VeriTrail, el primer método de detección de alucinaciones en dominios cerrados que ofrece trazabilidad para identificar el origen de contenidos no fundamentados en procesos de generación única y múltiple, respaldado por nuevos conjuntos de datos con anotaciones humanas.

Dasha Metropolitansky, Jonathan Larson2026-03-03💬 cs.CL

RedTeamCUA: Realistic Adversarial Testing of Computer-Use Agents in Hybrid Web-OS Environments

El artículo presenta RedTeamCUA, un marco de pruebas adversarias con un entorno híbrido web-sistema operativo que revela vulnerabilidades críticas en los agentes de uso informático frente a inyecciones de prompts indirectos, demostrando mediante el nuevo benchmark RTC-Bench que incluso los modelos más avanzados actuales presentan riesgos significativos de seguridad que requieren defensas robustas antes de su despliegue masivo.

Zeyi Liao, Jaylen Jones, Linxi Jiang + 5 more2026-03-03💬 cs.CL

CityLens: Evaluating Large Vision-Language Models for Urban Socioeconomic Sensing

Este trabajo presenta CityLens, el benchmark más extenso hasta la fecha para evaluar la capacidad de los Grandes Modelos Visuales-Lingüísticos (LVLM) en la predicción de indicadores socioeconómicos urbanos a partir de imágenes satelitales y de calle, abarcando 17 ciudades globales y 6 dominios clave para identificar tanto sus promesas como sus limitaciones actuales.

Tianhui Liu, Hetian Pang, Xin Zhang + 5 more2026-03-03💬 cs.CL

OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models

Este trabajo presenta OmniSpatial, un nuevo benchmark exhaustivo basado en la psicología cognitiva que evalúa el razonamiento espacial de los modelos de visión y lenguaje mediante cuatro categorías complejas, revelando sus limitaciones actuales y proponiendo estrategias como PointGraph y SpatialCoT para mejorar su rendimiento.

Mengdi Jia, Zekun Qi, Shaochen Zhang + 5 more2026-03-03💬 cs.CL

Meta-Adaptive Prompt Distillation for Few-Shot Visual Question Answering

El artículo propone un enfoque de aprendizaje meta-adaptativo que mejora el razonamiento visual en modelos multimodales grandes mediante la destilación de prompts suaves a partir de características visuales relevantes, superando significativamente a los métodos de aprendizaje en contexto y al ajuste fino eficiente en escenarios de pocos ejemplos.

Akash Gupta, Amos Storkey, Mirella Lapata2026-03-03💬 cs.CL

VINCIE: Unlocking In-context Image Editing from Video

El trabajo presenta VINCIE, un modelo de difusión transformador entrenado exclusivamente en videos mediante tareas proxy que logra capacidades de edición de imágenes en contexto superiores al estado del arte, eliminando la necesidad de pipelines específicos y modelos expertos para la curación de datos.

Leigang Qu, Feng Cheng, Ziyan Yang + 7 more2026-03-03💬 cs.CL

Equitable Electronic Health Record Prediction with FAME: Fairness-Aware Multimodal Embedding

Este trabajo presenta FAME, un marco de aprendizaje multimodal que pondera las distintas fuentes de datos de registros electrónicos de salud según su contribución a la equidad, optimizando simultáneamente el rendimiento predictivo y la justicia entre subgrupos de pacientes mediante una función de pérdida combinada y el índice de disparidad en la distribución de errores.

Nikkie Hooman, Zhongjie Wu, Eric C. Larson + 1 more2026-03-03💬 cs.CL

Language Agents for Hypothesis-driven Clinical Decision Making with Reinforcement Learning

Este artículo presenta LA-CDM, un agente de lenguaje impulsado por hipótesis y aprendizaje por refuerzo que mejora el diagnóstico clínico al modelar un proceso interactivo de solicitud e interpretación de pruebas, logrando mayor precisión y eficiencia en comparación con los enfoques tradicionales de modelos de lenguaje.

David Bani-Harouni, Chantal Pellegrini, Ege Özsoy + 2 more2026-03-03💬 cs.CL

TTSDS2: Resources and Benchmark for Evaluating Human-Quality Text to Speech Systems

Este trabajo presenta TTSDS2, una métrica robusta que supera a otras 15 al correlacionarse consistentemente con evaluaciones subjetivas en múltiples dominios y lenguas, acompañada de un conjunto de recursos que incluye un dataset con más de 11.000 calificaciones, un pipeline para evitar fugas de datos y un benchmark actualizado para 14 idiomas.

Christoph Minixhofer, Ondrej Klejch, Peter Bell2026-03-03⚡ eess

FeynTune: Large Language Models for High-Energy Theory

El artículo presenta FeynTune, una serie de modelos de lenguaje especializados en física teórica de altas energías obtenidos mediante el ajuste fino de Llama-3.1 con datos de arXiv, los cuales superan al modelo base y a modelos comerciales en tareas de completado de resúmenes de física.

Paul Richmond, Prarit Agarwal, Borun Chowdhury + 2 more2026-03-02⚛️ hep-th

When ChatGPT is gone: Creativity reverts and homogeneity persists

Aunque ChatGPT mejora temporalmente el rendimiento creativo, su uso provoca una homogeneización persistente de los contenidos y hace que la capacidad creativa humana regrese a la línea base una vez que se elimina la herramienta, lo que desafía la noción de que la IA genera una mejora creativa duradera.

Qinghan Liu, Yiyong Zhou, Jihao Huang + 1 more2024-01-11💬 cs.CL

Anticipating Safety Issues in E2E Conversational AI: Framework and Tooling

Este artículo presenta un marco basado en el diseño sensible a valores y un conjunto de herramientas para ayudar a los investigadores a anticipar y gestionar los riesgos de seguridad al entrenar y liberar agentes conversacionales de extremo a extremo.

Emily Dinan, Gavin Abercrombie, A. Stevie Bergman + 4 more2021-07-07💬 cs.CL

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

El artículo presenta BERT, un nuevo modelo de representación lingüística bidireccional pre-entrenado en texto no etiquetado que, mediante un simple ajuste fino, logra resultados de vanguardia en once tareas de procesamiento de lenguaje natural sin necesidad de modificaciones arquitectónicas específicas.

Jacob Devlin, Ming-Wei Chang, Kenton Lee + 1 more2018-10-11💬 cs.CL

Attention Is All You Need

El paper presenta el Transformer, una nueva arquitectura de red basada exclusivamente en mecanismos de atención que elimina las recurrencias y convoluciones, logrando resultados superiores en tareas de traducción automática y parsing con un entrenamiento más rápido y paralelizable.

Ashish Vaswani, Noam Shazeer, Niki Parmar + 5 more2017-06-12💬 cs.CL

Efficient Estimation of Word Representations in Vector Space

Este artículo presenta dos nuevas arquitecturas de modelos para generar representaciones vectoriales continuas de palabras a partir de grandes conjuntos de datos, logrando mejoras significativas en precisión y eficiencia computacional en comparación con técnicas anteriores.

Tomas Mikolov, Kai Chen, Greg Corrado + 1 more2013-01-16💬 cs.CL

← Anterior