cs.CL artículos | Gist.Science

OCR or Not? Rethinking Document Information Extraction in the MLLMs Era with Real-World Large-Scale Datasets

Este estudio demuestra que, en la era de los Modelos de Lenguaje Multimodales (MLLM), es posible extraer información de documentos complejos sin necesidad de OCR, logrando un rendimiento comparable mediante el uso de entradas de imagen puras optimizadas con esquemas y ejemplos cuidadosamente diseñados.

Jiyuan Shen, Peiyue Yuan, Atin Ghosh + 2 more2026-03-04💬 cs.CL

Guideline-Grounded Evidence Accumulation for High-Stakes Agent Verification

El artículo presenta GLEAN, un marco de verificación para agentes de IA de alto riesgo que mejora la precisión y la calibración en diagnósticos clínicos mediante la acumulación de evidencia basada en guías expertas y la verificación activa de casos inciertos.

Yichi Zhang, Nabeel Seedat, Yinpeng Dong + 3 more2026-03-04💬 cs.CL

Faster, Cheaper, More Accurate: Specialised Knowledge Tracing Models Outperform LLMs

Este estudio demuestra que los modelos especializados de trazado de conocimiento superan a los grandes modelos de lenguaje en precisión, velocidad y costo al predecir respuestas estudiantiles, lo que subraya la importancia de utilizar soluciones específicas del dominio en lugar de modelos de lenguaje universales para tareas educativas.

Prarthana Bhattacharyya, Joshua Mitton, Ralph Abboud + 1 more2026-03-04💬 cs.CL

The Distribution of Phoneme Frequencies across the World's Languages: Macroscopic and Microscopic Information-Theoretic Models

Este artículo presenta un marco unificado de teoría de la información que explica la distribución de frecuencias de los fonemas a nivel macroscópico mediante estadísticas de orden de una distribución de Dirichlet y a nivel microscópico mediante un modelo de máxima entropía que integra restricciones articulatorias, fonotácticas y léxicas.

Fermín Moscoso del Prado Martín, Suchir Salhan2026-03-04💬 cs.CL

Nodes Are Early, Edges Are Late: Probing Diagram Representations in Large Vision-Language Models

Mediante el uso de un conjunto de datos sintético de grafos dirigidos, este estudio revela que, aunque la información de los nodos y la estructura global se codifica linealmente en el codificador visual de los modelos de lenguaje-vision grandes (LVLM), la información de las aristas solo emerge tardíamente en los tokens de texto, lo que explica las dificultades de estos modelos para comprender las relaciones direccionales.

Haruto Yoshida, Keito Kudo, Yoichi Aoki + 4 more2026-03-04💬 cs.CL

Eval4Sim: An Evaluation Framework for Persona Simulation

El marco de evaluación Eval4Sim propone medir la fidelidad de las simulaciones de personas basadas en LLM mediante tres dimensiones complementarias (adherencia, consistencia y naturalidad) que comparan las conversaciones generadas con patrones humanos reales para evitar tanto la falta de encodificación de la personalidad como la sobreoptimización antinatural.

Eliseo Bao, Anxo Perez, Xi Wang + 1 more2026-03-04💬 cs.CL

ACE-Merging: Data-Free Model Merging with Adaptive Covariance Estimation

Este artículo presenta ACE-Merging, un marco de fusión de modelos sin acceso a datos que utiliza una estimación adaptativa de la covarianza basada en diferencias paramétricas para mitigar la interferencia entre expertos y lograr un rendimiento superior al estado del arte en diversas tareas de visión y lenguaje.

Bo Xu, Haotian Wu, Hehai Lin + 4 more2026-03-04💬 cs.CL

Contextualized Privacy Defense for LLM Agents

El artículo presenta Contextualized Defense Instructing (CDI), un nuevo paradigma de defensa de privacidad para agentes LLM que utiliza un modelo instructor optimizado mediante aprendizaje por refuerzo para generar orientaciones específicas y proactivas en cada paso, logrando un equilibrio superior entre la preservación de la privacidad y la utilidad en comparación con las defensas estáticas existentes.

Yule Wen, Yanzhe Zhang, Jianxun Lian + 3 more2026-03-04💬 cs.CL

MaBERT:A Padding Safe Interleaved Transformer Mamba Hybrid Encoder for Efficient Extended Context Masked Language Modeling

El artículo presenta MaBERT, un codificador híbrido que combina capas de Transformer y Mamba con mecanismos de enmascaramiento seguros para el relleno, logrando un modelado eficiente de contextos extendidos que reduce significativamente los tiempos de entrenamiento e inferencia en comparación con los codificadores basales.

Jinwoong Kim, Sangjin Park2026-03-04💬 cs.CL

TrustMH-Bench: A Comprehensive Benchmark for Evaluating the Trustworthiness of Large Language Models in Mental Health

El artículo presenta TrustMH-Bench, un marco integral que evalúa la confiabilidad de los modelos de lenguaje grandes en el ámbito de la salud mental a través de ocho pilares fundamentales, revelando deficiencias significativas incluso en los modelos más avanzados y subrayando la necesidad urgente de mejorar su seguridad y fiabilidad.

Zixin Xiong, Ziteng Wang, Haotian Fan + 2 more2026-03-04💬 cs.CL

TikZilla: Scaling Text-to-TikZ with High-Quality Data and Reinforcement Learning

El artículo presenta TikZilla, un modelo de lenguaje pequeño que mejora la generación de gráficos científicos en TikZ a partir de texto mediante el uso del nuevo dataset DaTikZ-V4 y un enfoque de entrenamiento en dos etapas que combina ajuste fino supervisado con aprendizaje por refuerzo basado en recompensas semánticas.

Christian Greisinger, Steffen Eger2026-03-04💬 cs.CL

TAO-Attack: Toward Advanced Optimization-Based Jailbreak Attacks for Large Language Models

Este trabajo presenta TAO-Attack, un nuevo método de ataque de jailbreak basado en optimización que utiliza una función de pérdida de dos etapas y una estrategia de optimización de tokens con prioridad direccional para superar las limitaciones de los enfoques actuales y lograr tasas de éxito superiores en modelos de lenguaje grandes.

Zhi Xu, Jiaqi Li, Xiaotong Zhang + 2 more2026-03-04💬 cs.CL

Compact Prompting in Instruction-tuned LLMs for Joint Argumentative Component Detection

Este artículo propone un enfoque novedoso basado en modelos de lenguaje grandes ajustados con instrucciones y prompts compactos para tratar la detección de componentes argumentativos como una tarea de generación de lenguaje, logrando un rendimiento superior al de los sistemas actuales en benchmarks estándar.

Sofiane Elguendouze, Erwan Hain, Elena Cabrio + 1 more2026-03-04💬 cs.CL

Interpreting Speaker Characteristics in the Dimensions of Self-Supervised Speech Features

Este artículo demuestra que las características del hablante, como el tono, la intensidad y el ruido, están codificadas en dimensiones individuales de las representaciones de WavLM, permitiendo controlarlas mediante PCA para aplicaciones de síntesis de voz.

Kyle Janse van Rensburg, Benjamin van Niekerk, Herman Kamper2026-03-04⚡ eess

Evaluating Performance Drift from Model Switching in Multi-Turn LLM Systems

Este trabajo introduce un benchmark de matriz de cambio que demuestra que la conmutación de modelos en sistemas LLM de múltiples turnos genera una deriva de rendimiento significativa y estadísticamente relevante, revelando patrones sistemáticos de compatibilidad y la necesidad de monitorear la robustez de estas transiciones como un nuevo eje de fiabilidad operativa.

Raad Khraishi, Iman Zafar, Katie Myles + 1 more2026-03-04💬 cs.CL

UniSkill: A Dataset for Matching University Curricula to Professional Competencies

Este trabajo presenta UniSkill, un nuevo conjunto de datos que vincula cursos universitarios con competencias profesionales del sistema ESCO, junto con directrices de anotación y modelos de lenguaje entrenados que demuestran la viabilidad de esta tarea de emparejamiento con un 87% de puntuación F1.

Nurlan Musazade, Joszef Mezei, Mike Zhang2026-03-04💬 cs.CL

APRES: An Agentic Paper Revision and Evaluation System

El sistema APRES, impulsado por modelos de lenguaje grandes, revisa automáticamente los textos de artículos científicos para mejorar su calidad y potencial de citas sin alterar su contenido científico, logrando una mayor precisión predictiva y una preferencia significativa por parte de evaluadores humanos.

Bingchen Zhao, Jenny Zhang, Chenxi Whitehouse + 8 more2026-03-04💬 cs.CL

Type-Aware Retrieval-Augmented Generation with Dependency Closure for Solver-Executable Industrial Optimization Modeling

Este artículo presenta un método de generación aumentada por recuperación (RAG) consciente de tipos y basado en la clausura de dependencias que construye una base de conocimientos estructurada para traducir requisitos en lenguaje natural a modelos de optimización industrial ejecutables, superando las limitaciones de las técnicas RAG convencionales en la generación de código compilable y libre de errores estructurales.

Y. Zhong, R. Huang, M. Wang + 4 more2026-03-04💬 cs.CL

MoD-DPO: Towards Mitigating Cross-modal Hallucinations in Omni LLMs using Modality Decoupled Preference Optimization

Este trabajo presenta MoD-DPO, un marco de optimización de preferencias que mitiga las alucinaciones cruzadas en modelos de lenguaje multimodal mediante la regularización de la desconexión de modalidades y la penalización de los sesgos textuales, logrando así una mayor precisión perceptiva y resistencia a las alucinaciones.

Ashutosh Chaubey, Jiacheng Pang, Mohammad Soleymani2026-03-04💬 cs.CL

BeyondSWE: Can Current Code Agent Survive Beyond Single-Repo Bug Fixing?

El artículo presenta BeyondSWE, un nuevo benchmark que evalúa la capacidad de los agentes de código más allá de la corrección de errores en un solo repositorio, revelando limitaciones significativas en los modelos actuales y demostrando que la integración de búsqueda externa no garantiza mejoras consistentes en tareas complejas.

Guoxin Chen, Fanzhe Meng, Jiale Zhao + 12 more2026-03-04💬 cs.CL

← Anterior Siguiente →