cs.CL artículos | Gist.Science

The Generative AI Paradox on Evaluation: What It Can Solve, It May Not Evaluate

Este estudio demuestra que los modelos de lenguaje grandes, aunque expertos en tareas de generación, presentan un rendimiento significativamente inferior y a veces poco fiable en tareas de evaluación, revelando una paradoja que cuestiona la confianza en su capacidad para juzgar sus propias respuestas.

Juhyun Oh, Eunsu Kim, Inha Cha, Alice Oh2026-03-09💻 cs

Sentiment Analysis of Citations in Scientific Articles Using ChatGPT: Identifying Potential Biases and Conflicts of Interest

Este artículo presenta el uso innovador de ChatGPT para realizar un análisis de sentimientos de las citas en artículos científicos, con el objetivo de identificar sesgos potenciales y conflictos de interés que mejoren la integridad y objetividad de la evaluación de la literatura académica.

Walid Hariri2026-03-09💬 cs.CL

Transforming Agency. On the mode of existence of Large Language Models

El artículo concluye que los Modelos de Lenguaje Grande (LLM) carecen de agencia autónoma al no cumplir con las condiciones de individualidad, normatividad y asimetría interaccional, por lo que deben caracterizarse como interlocutores o autómatas lingüísticos que, a través de una "encarnación" textual y computacional, transforman la agencia humana generando formas híbridas de agencia intencional en lugar de meras herramientas extendidas.

Xabier E. Barandiaran, Lola S. Almendros2026-03-09🤖 cs.AI

Do Prevalent Bias Metrics Capture Allocational Harms from LLMs?

Este estudio demuestra que las métricas de sesgo actuales, basadas en brechas de rendimiento promedio y distancias de distribución, no capturan de manera fiable los daños allocacionales en LLMs, ya que ignoran la discrepancia entre las predicciones del modelo y las decisiones reales de asignación de recursos.

Hannah Cyberey, Yangfeng Ji, David Evans2026-03-09💬 cs.CL

Goldfish: Monolingual Language Models for 350 Languages

El artículo presenta Goldfish, un conjunto de más de 1.000 modelos de lenguaje monolingües pequeños entrenados para 350 idiomas que superan a los grandes modelos multilingües en tareas de gramática y perplejidad, especialmente para lenguas de recursos limitados.

Tyler A. Chang, Catherine Arnett, Zhuowen Tu, Benjamin K. Bergen2026-03-09💬 cs.CL

Towards Resource Efficient and Interpretable Bias Mitigation in Large Language Models

Este artículo presenta un marco eficiente y interpretable para mitigar sesgos en modelos de lenguaje grandes mediante la integración de señales de modelos expertos pequeños y especializados durante la decodificación, logrando reducir prejuicios de género, raza y religión sin comprometer el rendimiento del modelo.

Schrasing Tong, Eliott Zemour, Jessica Lu, Rawisara Lohanimit, Lalana Kagal2026-03-09💬 cs.CL

SpecFuse: Ensembling Large Language Models via Next-Segment Prediction

El artículo presenta SpecFuse, un marco de ensamblaje de modelos de lenguaje grande (LLM) libre de entrenamiento que mejora el rendimiento mediante la predicción de segmentos siguientes para la colaboración semántica y un mecanismo de retroalimentación en línea que ajusta dinámicamente los pesos de votación de cada modelo según su desempeño.

Bo Lv, Nayu Liu, Chen Tang, Xin Liu, Yue Yu, Ping Luo2026-03-09🤖 cs.AI

Rethinking the Mixture of Vision Encoders Paradigm for Enhanced Visual Understanding in Multimodal LLMs

El artículo presenta LEO, una arquitectura multimodal que optimiza la comprensión visual mediante una fusión ligera de múltiples codificadores de visión, logrando un rendimiento superior en diversas tareas y una generalización efectiva hacia dominios especializados como la conducción autónoma.

Mozhgan Nasr Azadani, James Riddell, Sean Sedwards, Krzysztof Czarnecki2026-03-09💬 cs.CL

Transforming Science with Large Language Models: A Survey on AI-assisted Scientific Discovery, Experimentation, Content Generation, and Evaluation

Esta encuesta ofrece una visión estructurada de cómo los modelos de lenguaje grandes y multimodales están transformando el ciclo de vida científico, abarcando desde la búsqueda de literatura y la generación de ideas hasta la creación de contenido y la evaluación ética, sirviendo como guía tanto para nuevos investigadores como para el desarrollo futuro de sistemas de "IA para la Ciencia".

Steffen Eger, Yong Cao, Jennifer D'Souza, Andreas Geiger, Christian Greisinger, Stephanie Gross, Yufang Hou, Brigitte Krenn, Anne Lauscher, Yizhi Li, Chenghua Lin, Nafise Sadat Moosavi, Wei Zhao, Tristan Miller2026-03-09🤖 cs.AI

Conditioning LLMs to Generate Code-Switched Text

Este trabajo propone un marco de trabajo que utiliza la retrotraducción y el ajuste fino para capacitar a los modelos de lenguaje grandes (LLM) para generar texto con cambio de código de alta calidad entre inglés y español, demostrando que las métricas basadas en LLM se alinean mejor con la preferencia humana que las métricas tradicionales.

Maite Heredia, Gorka Labaka, Jeremy Barnes, Aitor Soroa2026-03-09🤖 cs.AI

CAReDiO: Cultural Alignment via Representativeness and Distinctiveness Guided Data Optimization

El artículo presenta CAReDiO, un marco de optimización de datos que mejora la alineación cultural de los modelos de lenguaje mediante la maximización de la representatividad y la distintividad de los datos, logrando un ajuste eficiente y superior con tan solo 200 muestras en 15 culturas.

Jing Yao, Xiaoyuan Yi, Jindong Wang, Zhicheng Dou, Xing Xie2026-03-09💬 cs.CL

RM-R1: Reward Modeling as Reasoning

El artículo presenta RM-R1, una nueva clase de modelos de recompensa generativos que integran el razonamiento mediante un mecanismo de "cadenas de criterios" (CoR) y un entrenamiento en dos etapas, logrando un rendimiento superior y mayor interpretabilidad en comparación con modelos más grandes y propietarios.

Xiusi Chen, Gaotang Li, Ziqi Wang, Bowen Jin, Cheng Qian, Yu Wang, Hongru Wang, Yu Zhang, Denghui Zhang, Tong Zhang, Hanghang Tong, Heng Ji2026-03-09🤖 cs.AI

Maximizing Asynchronicity in Event-based Neural Networks

Este artículo presenta EVA, un nuevo marco de aprendizaje de características asíncronas inspirado en el modelado del lenguaje que supera a los métodos anteriores en tareas de reconocimiento y detección, permitiendo así un avance significativo en las aplicaciones de visión basada en eventos en tiempo real.

Haiqing Hao, Nikola Zubic, Weihua He, Zhipeng Sui, Davide Scaramuzza, Wenhui Wang2026-03-09🤖 cs.AI

Mitigating Content Effects on Reasoning in Language Models through Fine-Grained Activation Steering

Este artículo presenta K-CAST, un método de direccionamiento de activaciones basado en kNN que mitiga dinámicamente los sesgos de contenido en el razonamiento de los modelos de lenguaje grandes, mejorando significativamente su precisión lógica sin afectar sus capacidades lingüísticas.

Marco Valentino, Geonhee Kim, Dhairya Dalal, Zhixue Zhao, André Freitas2026-03-09🤖 cs.AI

AdAEM: An Adaptively and Automated Extensible Measurement of LLMs' Value Difference

El artículo presenta AdAEM, un algoritmo de evaluación autoextensible que genera y adapta dinámicamente preguntas de prueba para medir con mayor precisión y diferenciación las diferencias de valores entre los grandes modelos de lenguaje, superando las limitaciones de las métricas estáticas actuales.

Jing Yao, Shitong Duan, Xiaoyuan Yi, Dongkuan Xu, Peng Zhang, Tun Lu, Ning Gu, Zhicheng Dou, Xing Xie2026-03-09🤖 cs.AI

From Raw Corpora to Domain Benchmarks: Automated Evaluation of LLM Domain Expertise

Este artículo presenta una pipeline determinista y automatizada que transforma corpus de dominio en benchmarks de estilo completado para evaluar de forma escalable, imparcial y sin contaminación el conocimiento específico de dominios en modelos de lenguaje grandes, evitando la dependencia de anotación humana o de otros LLMs.

Nitin Sharma, Thomas Wolfers, Ça\u{g}atay Yıldız2026-03-09💬 cs.CL

Sysformer: Safeguarding Frozen Large Language Models with Adaptive System Prompts

El paper presenta Sysformer, un enfoque novedoso que utiliza un modelo transformador para adaptar dinámicamente los prompts del sistema en LLMs congelados, logrando mejorar significativamente su robustez ante ataques de jailbreaking y su cumplimiento de estándares de seguridad sin necesidad de costoso ajuste de parámetros.

Kartik Sharma, Yiqiao Jin, Vineeth Rakesh, Yingtong Dou, Menghai Pan, Mahashweta Das, Srijan Kumar2026-03-09🤖 cs.AI

VLMQ: Token Saliency-Driven Post-Training Quantization for Vision-language Models

El artículo presenta VLMQ, un marco de cuantización post-entrenamiento diseñado específicamente para modelos de visión y lenguaje que aborda el exceso de tokens visuales y la brecha modal mediante la priorización selectiva de tokens salientes, logrando un rendimiento superior en configuraciones de bajo bit.

Yufei Xue, Yushi Huang, Jiawei Shao, Lunjie Zhu, Chi Zhang, Xuelong Li, Jun Zhang2026-03-09🤖 cs.AI

Agri-Query: A Case Study on RAG vs. Long-Context LLMs for Cross-Lingual Technical Question Answering

Este estudio de caso evalúa modelos de lenguaje grande de contexto largo frente a estrategias de generación aumentada por recuperación (RAG) para la respuesta a preguntas técnicas multilingües en el sector agrícola, demostrando que el enfoque RAG híbrido supera consistentemente al uso directo de contextos extensos.

Julius Gun, Timo Oksanen2026-03-09💬 cs.CL

CMRAG: Co-modality-based visual document retrieval and question answering

El artículo presenta CMRAG, un marco de recuperación y generación aumentada que supera las limitaciones de los métodos unimodales al integrar simultáneamente texto e imágenes mediante un modelo de codificación unificado y una estrategia de recuperación co-modality, logrando un rendimiento superior en benchmarks de preguntas y respuestas sobre documentos visuales.

Wang Chen, Wenhan Yu, Guanqiang Qi, Weikang Li, Yang Li, Lei Sha, Deguo Xia, Jizhou Huang2026-03-09💬 cs.CL

← Anterior Siguiente →