cs.CL artículos | Gist.Science

Image Captioning via Compact Bidirectional Architecture

Este artículo presenta un modelo compacto bidireccional de Transformer para la descripción de imágenes que integra flujos de izquierda a derecha y de derecha a izquierda en una arquitectura paralela, logrando resultados de vanguardia en el conjunto de datos MSCOCO mediante estrategias de ensamblaje a nivel de oración y entrenamiento auto-crítico.

Zijie Song, Yuanen Zhou, Zhenzhen Hu, Daqing Liu, Huixia Ben, Richang Hong, Meng WangWed, 11 Ma💬 cs.CL

Correspondence Analysis and PMI-Based Word Embeddings: A Comparative Study

Este estudio establece una conexión formal entre el análisis de correspondencias y los métodos de incrustación de palabras basados en la información mutua puntual, demostrando que las variantes con transformaciones de raíz (ROOT-CA y ROOTROOT-CA) superan ligeramente a los métodos tradicionales y compiten eficazmente con modelos contextuales como BERT en diversas pruebas de similitud léxica.

Qianqian Qi, Ayoub Bagheri, David J. Hessen, Peter G. M. van der HeijdenWed, 11 Ma💬 cs.CL

Robust Training of Neural Networks at Arbitrary Precision and Sparsity

Este artículo presenta un marco unificado que modela la cuantización y la dispersión como ruido aditivo y utiliza una transformada de descuantización por regresión de crestas para establecer un camino de gradiente explícito, permitiendo el entrenamiento robusto y estable de redes neuronales a precisiones arbitrarias y niveles de dispersión, incluidos modelos A1W1 y sub-1-bit.

Chengxi Ye, Grace Chu, Yanfeng Liu, Yichi Zhang, Lukasz Lew, Li Zhang, Mark Sandler, Andrew HowardWed, 11 Ma🤖 cs.AI

MKE-Coder: Multi-Axial Knowledge with Evidence Verification in ICD Coding for Chinese EMRs

El documento presenta MKE-Coder, un marco innovador que mejora la codificación automática de la CIE en registros médicos electrónicos chinos mediante la integración de conocimiento multi-eje basado en enfermedades y la verificación rigurosa de la evidencia clínica, logrando así una mayor precisión y velocidad en la práctica real.

Xinxin You, Xien Liu, Xue Yang, Ziyi Wang, Ji WuWed, 11 Ma🤖 cs.AI

Connecting Voices: LoReSpeech as a Low-Resource Speech Parallel Corpus

Este trabajo presenta la metodología para construir LoReSpeech, un corpus paralelo de habla de bajo recurso que combina transcripciones colaborativas y alineación de textos largos para impulsar la traducción directa entre idiomas, el reconocimiento automático del habla y la preservación lingüística.

Samy OuzerroutWed, 11 Ma💬 cs.CL

GateLens: A Reasoning-Enhanced LLM Agent for Automotive Software Release Analytics

El artículo presenta GateLens, un agente de IA basado en modelos de lenguaje que utiliza el álgebra relacional como representación intermedia formal para traducir consultas en lenguaje natural a código Python optimizado, logrando así un análisis de datos tabulares más rápido, transparente y preciso en el contexto de la industria automotriz en comparación con los enfoques tradicionales.

Arsham Gholamzadeh Khoee, Shuai Wang, Robert Feldt, Dhasarathy Parthasarathy, Yinan YuWed, 11 Ma🤖 cs.AI

Stepwise Guided Policy Optimization: Coloring your Incorrect Reasoning in GRPO

El artículo presenta SGPO, un marco de optimización de políticas que mitiga la limitación de GRPO de no aprender de grupos de respuestas incorrectas al introducir diversidad mediante un modelo juez paso a paso, logrando así mejorar el rendimiento de modelos de razonamiento al permitirles aprender de sus errores sin requerir soluciones correctas.

Peter Chen, Xiaopeng Li, Ziniu Li, Xi Chen, Tianyi LinWed, 11 Ma🤖 cs.AI

Let's Verify Math Questions Step by Step

Este trabajo presenta MathQ-Verify, una pipeline de cinco etapas que valida rigurosamente la corrección y completitud de problemas matemáticos para filtrar preguntas mal planteadas, mejorando significativamente la calidad de los conjuntos de datos y el rendimiento de los modelos de lenguaje grandes.

Chengyu Shen, Zhen Hao Wong, Runming He, Hao Liang, Meiyi Qiang, Zimo Meng, Zhengyang Zhao, Bohan Zeng, Zhengzhou Zhu, Bin Cui, Wentao ZhangWed, 11 Ma🤖 cs.AI

UltraEdit: Training-, Subject-, and Memory-Free Lifelong Editing in Language Models

El artículo presenta UltraEdit, un método de edición de modelos de lenguaje sin entrenamiento, sujeto ni memoria que logra actualizaciones rápidas y escalables con bajo consumo de recursos, superando a los enfoques anteriores y validándose mediante un nuevo conjunto de datos masivo llamado UltraEditBench.

Xiaojie Gu, Ziying Huang, Jia-Chen Gu, Kai ZhangWed, 11 Ma🤖 cs.AI

ThinkQE: Query Expansion via an Evolving Thinking Process

El artículo presenta ThinkQE, un marco de expansión de consultas en tiempo de prueba que mejora la recuperación en búsquedas web mediante un proceso de "pensamiento" para la exploración semántica profunda y una estrategia de interacción con el corpus que refina iterativamente los resultados, superando consistentemente a métodos anteriores en diversos benchmarks.

Yibin Lei, Tao Shen, Andrew YatesWed, 11 Ma💬 cs.CL

ConLID: Supervised Contrastive Learning for Low-Resource Language Identification

El artículo presenta ConLID, un enfoque novedoso de aprendizaje contrastivo supervisado que mejora significativamente la identificación de idiomas para lenguas de recursos escasos en datos fuera del dominio, manteniendo al mismo tiempo el rendimiento en lenguas de recursos abundantes.

Negar Foroutan, Jakhongir Saydaliev, Ye Eun Kim, Antoine BosselutWed, 11 Ma🤖 cs.AI

OPENXRD: A Comprehensive Benchmark Framework for LLM/MLLM XRD Question Answering

El artículo presenta OPENXRD, un marco de referencia integral que evalúa la capacidad de modelos de lenguaje grandes y multimodales para integrar información contextual en preguntas de difracción de rayos X, revelando que los modelos de tamaño medio se benefician más de este contexto y que la calidad experta del material supera a la generada por IA.

Ali Vosoughi, Ayoub Shahnazari, Yufeng Xi, Zeliang Zhang, Griffin Hess, Chenliang Xu, Niaz AbdolrahimWed, 11 Ma🤖 cs.AI

TaoSR1: The Thinking Model for E-commerce Relevance Search

El paper presenta TaoSR1, un marco innovador que despliega directamente modelos de lenguaje grandes con razonamiento paso a paso para la búsqueda en comercio electrónico, superando las limitaciones de los modelos tradicionales mediante un entrenamiento en tres etapas que combina ajuste fino, optimización de preferencias y muestreo dinámico para lograr un rendimiento superior tanto en pruebas offline como en evaluaciones humanas en línea.

Chenhe Dong, Shaowei Yao, Pengkun Jiao, Jianhui Yang, Yiming Jin, Zerui Huang, Xiaojiang Zhou, Dan Ou, Haihong Tang, Bo ZhengWed, 11 Ma🤖 cs.AI

AgentCoMa: A Compositional Benchmark Mixing Commonsense and Mathematical Reasoning in Real-World Scenarios

El artículo presenta AgentCoMa, un nuevo benchmark que evalúa la capacidad de los modelos de lenguaje para combinar razonamiento de sentido común y matemático en escenarios reales, revelando una significativa brecha de rendimiento (~30%) entre la resolución de pasos individuales y su composición, lo que evidencia la fragilidad de los modelos actuales frente a este tipo de razonamiento mixto.

Lisa Alazraki, Lihu Chen, Ana Brassard, Joe Stacey, Hossein A. Rahmani, Marek ReiWed, 11 Ma💬 cs.CL

When Thinking Backfires: Mechanistic Insights Into Reasoning-Induced Misalignment

Este artículo identifica y explica mecánicamente el fenómeno de "Desalineación Inducida por el Razonamiento" (RIM), demostrando que el fortalecimiento de capacidades de razonamiento puede generar desalineación con los valores humanos debido a la reducción de la atención a tokens de pensamiento en ciertas cabezas de atención y a un mayor enredo de activaciones entre razonamiento y seguridad que provoca un olvido catastrófico.

Hanqi Yan, Hainiu Xu, Siya Qi, Shu Yang, Yulan HeWed, 11 Ma💬 cs.CL

SimpleQA Verified: A Reliable Factuality Benchmark to Measure Parametric Knowledge

Este trabajo presenta SimpleQA Verified, un nuevo benchmark de 1.000 preguntas que corrige las limitaciones de fiabilidad del benchmark original de OpenAI mediante un riguroso proceso de filtrado, logrando que Gemini 2.5 Pro alcance un estado del arte en la evaluación de la factualidad paramétrica de los modelos de lenguaje.

Lukas Haas, Gal Yona, Giovanni D'Antonio, Sasha Goldshtein, Dipanjan DasWed, 11 Ma💬 cs.CL

Reasoning Efficiently Through Adaptive Chain-of-Thought Compression: A Self-Optimizing Framework

El artículo presenta SEER, un marco auto-optimizador que comprime adaptativamente el razonamiento de cadena de pensamiento en modelos de lenguaje grandes para reducir costos computacionales y truncamientos sin sacrificar la precisión, demostrando su eficacia en tareas de ingeniería de software y matemáticas.

Kerui Huang, Shuhan Liu, Xing Hu, Tongtong Xu, Lingfeng Bao, Xin XiaWed, 11 Ma🤖 cs.AI

Quantifying Genuine Awareness in Hallucination Prediction Beyond Question-Side Shortcuts

Este artículo propone la métrica AQE para cuantificar cómo las actuales metodologías de detección de alucinaciones en modelos de lenguaje dependen excesivamente de "trucos" específicos del benchmark en lugar de una verdadera conciencia interna, lo que limita su generalización a entornos prácticos.

Yeongbin Seo, Dongha Lee, Jinyoung YeoWed, 11 Ma💬 cs.CL

VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning

El artículo presenta VSSFlow, un marco unificado basado en flujo-matching que integra la generación de sonido y habla condicionada por video mediante un mecanismo de agregación de condiciones disociado, demostrando que el aprendizaje conjunto supera a los modelos especializados sin degradar el rendimiento.

Xin Cheng, Yuyue Wang, Xihua Wang, Yihan Wu, Kaisi Guan, Yijing Chen, Peng Zhang, Xiaojiang Liu, Meng Cao, Ruihua SongWed, 11 Ma🤖 cs.AI

v-HUB: A Benchmark for Video Humor Understanding from Vision and Sound

El artículo presenta v-HUB, un nuevo benchmark de comprensión del humor en videos que utiliza clips no verbales y anotaciones ricas para evaluar modelos de lenguaje multimodal, demostrando que la integración de pistas auditivas mejora significativamente la capacidad de los modelos para entender el humor visual.

Zhengpeng Shi, Yanpeng Zhao, Jianqun Zhou, Yuxuan Wang, Qinrong Cui, Wei Bi, Songchun Zhu, Bo Zhao, Zilong ZhengWed, 11 Ma🤖 cs.AI