cs.CL artículos | Gist.Science

Mitigating Unintended Memorization with LoRA in Federated Learning for LLMs

Este trabajo demuestra que el uso de Low-Rank Adaptation (LoRA) en el aprendizaje federado para modelos de lenguaje grandes reduce significativamente la memorización no deseada de datos de entrenamiento, mejorando la privacidad sin sacrificar el rendimiento en diversos dominios de alto riesgo.

Thierry Bossy, Julien Vignoud, Tahseen Rabbani, Juan R. Troncoso Pastoriza, Martin Jaggi2026-03-10🤖 cs.LG

LaVCa: LLM-assisted Visual Cortex Captioning

El artículo presenta LaVCa, un enfoque basado en modelos de lenguaje grande que genera descripciones en lenguaje natural de la selectividad de los voxels en la corteza visual, superando a los métodos anteriores al revelar propiedades funcionales más detalladas y diferenciaciones finas en el procesamiento visual humano.

Takuya Matsuyama, Shinji Nishimoto, Yu Takagi2026-03-10🤖 cs.LG

Unveiling Downstream Performance Scaling of LLMs: A Clustering-Based Perspective

El artículo presenta el marco COD (Clustering-On-Difficulty), que agrupa tareas por sus características de dificultad para predecir con alta precisión el rendimiento a escala de los modelos de lenguaje grandes, logrando un error promedio de solo 1,55 % en ocho benchmarks clave.

Chengyin Xu, Kaiyuan Chen, Xiao Li, Ke Shen, Chenggang Li2026-03-10🤖 cs.LG

HaLoRA: Hardware-aware Low-Rank Adaptation for Large Language Models Based on Hybrid Compute-in-Memory Architecture

El artículo presenta HaLoRA, un método de adaptación de bajo rango consciente del hardware que combina arquitecturas de memoria de computación híbrida (RRAM para pesos preentrenados y SRAM para ramas LoRA) con una pérdida de entrenamiento específica para mitigar el ruido de la RRAM, logrando una reducción del 97% en el consumo energético y mejoras significativas en el rendimiento en tareas de razonamiento.

Taiqiang Wu, Chenchen Ding, Wenyong Zhou, Yuxin Cheng, Xincheng Feng, Shuqi Wang, Wendong Xu, Chufan Shi, Zhengwu Liu, Ngai Wong2026-03-10💬 cs.CL

More Women, Same Stereotypes: Unpacking the Gender Bias Paradox in Large Language Models

Este estudio revela que, aunque los Grandes Modelos de Lenguaje (LLM) tienden a sobrerrepresentar a las mujeres en sus historias generadas debido al ajuste fino y al aprendizaje por refuerzo, paradójicamente siguen asignándoles roles ocupacionales que reflejan estereotipos de género más que la realidad laboral actual.

Evan Chen, Run-Jun Zhan, Yan-Bai Lin, Hung-Hsuan Chen2026-03-10💬 cs.CL

More Bang for the Buck: Process Reward Modeling with Entropy-Driven Uncertainty

El paper presenta EDU-PRM, un nuevo modelo de recompensa de proceso que utiliza la incertidumbre basada en entropía para segmentar automáticamente los pasos de razonamiento sin anotaciones manuales, logrando un rendimiento superior en el benchmark ProcessBench con solo el 1,5% de los datos de entrenamiento y reduciendo significativamente el uso de tokens.

Lang Cao, Renhong Chen, Yingtian Zou, Chao Peng, Huacong Xu, Yuxian Wang, Wu Ning, Qian Chen, Mofan Peng, Zijie Chen, Peishuo Su, Yitong Li2026-03-10🤖 cs.LG

Causal Retrieval with Semantic Consideration

El artículo presenta CAWAI, un modelo de recuperación que integra objetivos semánticos y causales para superar las limitaciones de los sistemas actuales al capturar relaciones de causalidad en dominios intensivos en conocimiento, demostrando un rendimiento superior en tareas de recuperación causal y generalización cero en preguntas científicas.

Hyunseo Shin, Wonseok Hwang2026-03-10💬 cs.CL

Estimating Item Difficulty Using Large Language Models and Tree-Based Machine Learning Algorithms

La investigación demuestra que, aunque los Modelos de Lenguaje Grande (LLM) pueden estimar la dificultad de ítems educativos, la estrategia que combina la extracción de características lingüísticas y cognitivas por parte del LLM con algoritmos de aprendizaje automático basados en árboles (como bosques aleatorios) supera significativamente a la estimación directa, ofreciendo una alternativa precisa y escalable para reducir la dependencia de costosas pruebas de campo.

Pooya Razavi, Sonya Powers2026-03-10🤖 cs.LG

Multi-Domain Audio Question Answering Benchmark Toward Acoustic Content Reasoning

Este trabajo presenta la Tarea 5 del Desafío DCASE 2025, un nuevo benchmark de respuesta a preguntas sobre audio que abarca múltiples dominios acústicos para evaluar y mejorar las capacidades de razonamiento de los modelos de audio-lenguaje.

Chao-Han Huck Yang, Sreyan Ghosh, Qing Wang, Jaeyeon Kim, Hengyi Hong, Sonal Kumar, Guirui Zhong, Zhifeng Kong, S Sakshi, Vaibhavi Lokegaonkar, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha, Gunhee Kim, Jun Du, Rafael Valle, Bryan Catanzaro2026-03-10💬 cs.CL

FreeKV: Boosting KV Cache Retrieval for Efficient LLM Inference

El artículo presenta FreeKV, un marco de co-optimización sin entrenamiento que combina técnicas de recuperación especulativa y corrección de granularidad fina con una arquitectura de sistema híbrida en CPU/GPU para lograr una aceleración de hasta 13 veces en la inferencia de LLMs manteniendo una precisión casi sin pérdidas.

Guangda Liu, Chengwei Li, Zhenyu Ning, Jing Lin, Yiwu Yao, Danning Ke, Minyi Guo, Jieru Zhao2026-03-10🤖 cs.LG

A Neuro-Symbolic Approach for Reliable Proof Generation with LLMs: A Case Study in Euclidean Geometry

Este artículo presenta un enfoque neuro-simbólico que combina la recuperación de problemas análogos y la verificación formal para mejorar significativamente la precisión en la generación de pruebas de geometría euclidiana por parte de modelos de lenguaje grandes, superando sus limitaciones en el razonamiento lógico riguroso.

Oren Sultan, Eitan Stern, Dafna Shahaf2026-03-10💬 cs.CL

MAS-ZERO: Designing Multi-Agent Systems with Zero Supervision

El documento presenta MAS-ZERO, un marco de diseño de sistemas multiagente autoevolutivo que, sin supervisión ni conjunto de validación, optimiza dinámicamente la descomposición de problemas y la composición de agentes en tiempo de inferencia, superando significativamente a los enfoques manuales y automáticos existentes en tareas de razonamiento, codificación y búsqueda.

Zixuan Ke, Austin Xu, Yifei Ming, Xuan-Phi Nguyen, Ryan Chin, Caiming Xiong, Shafiq Joty2026-03-10🤖 cs.LG

HDLxGraph: Bridging Large Language Models and HDL Repositories via HDL Graph Databases

El artículo presenta HDLxGraph, un marco innovador que integra la estructura gráfica de los lenguajes de descripción de hardware (HDL) con la generación aumentada por recuperación (RAG) para superar las limitaciones de los métodos actuales en proyectos complejos, complementado con el nuevo conjunto de datos de referencia HDLSearch.

Pingqing Zheng (Katie), Jiayin Qin (Katie), Fuqi Zhang (Katie), Niraj Chitla (Katie), Zishen Wan (Katie), Shang Wu (Katie), Yu Cao (Katie), Caiwen Ding (Katie), Yang (Katie), Zhao2026-03-10🤖 cs.LG

SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving

El artículo presenta SwingArena, un marco de evaluación competitiva para modelos de lenguaje grande que simula flujos de trabajo de desarrollo de software reales mediante la interacción de modelos como generadores de parches y revisores, integrando un módulo de generación de código aumentado por recuperación para abordar desafíos de contexto largo en issues de GitHub.

Wendong Xu, Jing Xiong, Chenyang Zhao, Qiujiang Chen, Haoran Wang, Hui Shen, Zhongwei Wan, Jianbo Dai, Taiqiang Wu, He Xiao, Chaofan Tao, Z. Morley Mao, Ying Sheng, Zhijiang Guo, Hongxia Yang, Bei Yu, Lingpeng Kong, Quanquan Gu, Ngai Wong2026-03-10💬 cs.CL

MMTU: A Massive Multi-Task Table Understanding and Reasoning Benchmark

Este trabajo presenta MMTU, un nuevo benchmark a gran escala con más de 28.000 preguntas sobre 25 tareas de tablas del mundo real diseñado para evaluar exhaustivamente las capacidades de comprensión, razonamiento y manipulación de datos estructurados en modelos de lenguaje, revelando que incluso los modelos más avanzados actuales tienen un margen significativo de mejora.

Junjie Xing, Yeye He, Mengyu Zhou, Haoyu Dong, Shi Han, Lingjiao Chen, Dongmei Zhang, Surajit Chaudhuri, H. V. Jagadish2026-03-10🤖 cs.LG

CyclicReflex: Improving Reasoning Models via Cyclical Reflection Token Scheduling

El artículo presenta CyclicReflex, una estrategia de decodificación sin entrenamiento que optimiza el rendimiento de los modelos de razonamiento mediante la programación cíclica de tokens de reflexión, abordando eficazmente tanto la sobre-reflexión como la sub-reflexión para mejorar el rendimiento en tareas matemáticas y de codificación.

Chongyu Fan, Yihua Zhang, Jinghan Jia, Alfred Hero, Sijia Liu2026-03-10💬 cs.CL

A Simple "Motivation" Can Enhance Reinforcement Finetuning of Large Reasoning Models

El artículo presenta MeRF, un método que mejora el ajuste fino por refuerzo de modelos de razonamiento grandes al inyectar la especificación de la recompensa en el prompt como una "motivación" que aprovecha la capacidad de aprendizaje en contexto del modelo para alinear la generación con el objetivo de optimización.

Junjie Zhang, Guozheng Ma, Shunyu Liu, Haoyu Wang, Jiaxing Huang, Ting-En Lin, Fei Huang, Yongbin Li, Dacheng Tao2026-03-10💬 cs.CL

Let's Think in Two Steps: Mitigating Agreement Bias in MLLMs with Self-Grounded Verification

El artículo propone un método de verificación auto-ancorada (SGV) que mitiga el sesgo de acuerdo en los modelos de lenguaje multimodal (MLLM), mejorando significativamente la detección de errores y el rendimiento de agentes autónomos en tareas complejas como la navegación web y la robótica.

Moises Andrade, Joonhyuk Cha, Brandon Ho, Vriksha Srihari, Karmesh Yadav, Zsolt Kira2026-03-10🤖 cs.LG

Goal Alignment in LLM-Based User Simulators for Conversational AI

Este artículo presenta UGST, un nuevo marco y metodología de tres etapas que permite a los simuladores de usuarios basados en modelos de lenguaje grandes (LLM) rastrear y mantener la alineación con sus objetivos durante conversaciones multi-turno, mejorando significativamente su rendimiento en benchmarks como MultiWOZ 2.4 y τ-Bench.

Shuhaib Mehri, Xiaocheng Yang, Takyoung Kim, Gokhan Tur, Shikib Mehri, Dilek Hakkani-Tür2026-03-10💬 cs.CL

MathSmith: Towards Extremely Hard Mathematical Reasoning by Forging Synthetic Problems with a Reinforced Policy

El artículo presenta MathSmith, un marco innovador que genera problemas matemáticos sintéticos de alta dificultad desde cero utilizando el PlanetMath y aprendizaje por refuerzo para superar las limitaciones de los datos de entrenamiento existentes y mejorar significativamente el razonamiento de los modelos de lenguaje en benchmarks complejos.

Shaoxiong Zhan, Yanlin Lai, Ziyu Lu, Dahua Lin, Ziqing Yang, Fei Tan2026-03-10💬 cs.CL

← Anterior Siguiente →