cs.CL artículos | Gist.Science

Raising Bars, Not Parameters: LilMoo Compact Language Model for Hindi

Este artículo presenta LilMoo, un modelo de lenguaje de 0.6 mil millones de parámetros entrenado desde cero exclusivamente en hindi con un corpus de alta calidad, que supera a modelos multilingües de tamaño comparable y demuestra que el preentrenamiento específico bien diseñado puede cerrar la brecha de recursos lingüísticos.

Shiza Fatimah, Aniket Sen, Sophia Falk + 3 more2026-03-05🤖 cs.AI

MMAI Gym for Science: Training Liquid Foundation Models for Drug Discovery

Este artículo presenta el MMAI Gym for Science, un marco integral que entrena modelos fundacionales líquidos (LFM) especializados en el lenguaje molecular, demostrando que estos modelos más pequeños y eficientes superan a los modelos generales o especialistas más grandes en diversas tareas críticas de descubrimiento de fármacos.

Maksim Kuznetsov, Zulfat Miftahutdinov, Rim Shayakhmetov + 17 more2026-03-05🤖 cs.AI

SafeCRS: Personalized Safety Alignment for LLM-Based Conversational Recommender Systems

El artículo presenta SafeCRS, un marco de entrenamiento que integra técnicas de ajuste fino y optimización de políticas para alinear la seguridad personalizada en sistemas de recomendación conversacionales basados en LLM, logrando una reducción significativa en las violaciones de seguridad sin comprometer la calidad de las recomendaciones.

Haochang Hao, Yifan Xu, Xinzhuo Li + 2 more2026-03-05🤖 cs.AI

RAG-X: Systematic Diagnosis of Retrieval-Augmented Generation for Medical Question Answering

El artículo presenta RAG-X, un marco de diagnóstico que evalúa de forma independiente los componentes de recuperación y generación en sistemas de preguntas y respuestas médicas asistidas por IA, revelando una "falacia de precisión" y ofreciendo métricas para identificar errores específicos y garantizar la seguridad clínica.

Aswini Sivakumar, Vijayan Sugumaran, Yao Qiang2026-03-05🤖 cs.AI

Tucano 2 Cool: Better Open Source LLMs for Portuguese

El artículo presenta Tucano 2, una suite de modelos de lenguaje grandes de código abierto con parámetros entre 0.5 y 3.7 mil millones, que utiliza nuevos conjuntos de datos mejorados y recetas de entrenamiento optimizadas para lograr un rendimiento de vanguardia en tareas de lenguaje portugués, liberando todos sus artefactos para fomentar la reproducibilidad y el avance en la comunidad de PLN de habla portuguesa.

Nicholas Kluge Corrêa, Aniket Sen, Shiza Fatimah + 4 more2026-03-05🤖 cs.AI

Build, Judge, Optimize: A Blueprint for Continuous Improvement of Multi-Agent Consumer Assistants

Este artículo presenta un marco práctico para evaluar y optimizar asistentes de compras conversacionales multiagente en producción, introduciendo una rúbrica de evaluación multidimensional y dos estrategias de optimización de prompts (Sub-agent GEPA y MAMuT GEPA) validadas mediante un asistente de compras de alimentos a escala industrial.

Alejandro Breen Herrera, Aayush Sheth, Steven G. Xu + 5 more2026-03-05🤖 cs.AI

ByteFlow: Language Modeling through Adaptive Byte Compression without a Tokenizer

El artículo presenta ByteFlow Net, una arquitectura jerárquica que elimina los tokenizadores predefinidos al permitir que el modelo aprenda segmentaciones adaptativas de flujos de bytes mediante compresión, logrando así un rendimiento superior y una mayor adaptabilidad en comparación con los enfoques tradicionales basados en subpalabras.

Chunyuan Deng, Sanket Lokegaonkar, Colin Lockard + 3 more2026-03-05🤖 cs.LG

Belief-Sim: Towards Belief-Driven Simulation of Demographic Misinformation Susceptibility

El artículo presenta BeliefSim, un marco de simulación que demuestra que el modelado de perfiles de creencias demográficas permite a los modelos de lenguaje predecir con alta precisión (hasta un 92%) la susceptibilidad a la desinformación en distintos grupos poblacionales.

Angana Borah, Zohaib Khan, Rada Mihalcea + 1 more2026-03-05🤖 cs.AI

A Neural Topic Method Using a Large-Language-Model-in-the-Loop for Business Research

El artículo presenta LX Topic, un nuevo método de modelado de temas que integra un modelo de lenguaje grande en un bucle de retroalimentación para generar constructos lingüísticos latentes y proporciones de temas calibradas a nivel de documento, logrando una mayor calidad semántica y estabilidad que los enfoques existentes y estableciendo así una herramienta reproducible e interpretable para la investigación empresarial.

Stephan Ludwig, Peter J. Danaher, Xiaohao Yang2026-03-05💬 cs.CL

Linguistically Informed Graph Model and Semantic Contrastive Learning for Korean Short Text Classification

El artículo presenta LIGRAM, un modelo jerárquico de grafos heterogéneos combinado con aprendizaje contrastivo semántico, diseñado específicamente para superar las limitaciones de la clasificación de textos cortos en coreano aprovechando sus características morfológicas y sintácticas únicas.

JaeGeon Yoo, Byoungwook Kim, Yeongwook Yang + 1 more2026-03-05💬 cs.CL

MIND: Unified Inquiry and Diagnosis RL with Criteria Grounded Clinical Supports for Psychiatric Consultation

El artículo presenta MIND, un marco unificado de aprendizaje por refuerzo para la consulta psiquiátrica que integra un banco de razonamiento clínico basado en criterios y recompensas de proceso para mejorar la precisión diagnóstica, la calidad de la interacción empática y la interpretabilidad en conversaciones multivuelta.

Guoyi Li, Shihao Xu, Jiatong Ma + 3 more2026-03-05🤖 cs.AI

CONCUR: Benchmarking LLMs for Concurrent Code Generation

Este trabajo presenta CONCUR, un nuevo benchmark diseñado para evaluar la capacidad de los Modelos de Lenguaje Grandes (LLMs) para generar código concurrente, abordando la falta de herramientas existentes que consideren la complejidad y los errores específicos de la concurrencia mediante un conjunto de 115 problemas derivados de un libro de texto estándar.

Jue Huang, Tarek Mahmud, Corina Pasareanu + 1 more2026-03-05🤖 cs.LG

Order Is Not Layout: Order-to-Space Bias in Image Generation

Este trabajo identifica y cuantifica el "sesgo de orden a espacio" (OTS), un fenómeno en modelos de generación de imágenes donde el orden de mención de entidades en el texto distorsiona incorrectamente su disposición espacial, proponiendo además estrategias de intervención temprana y ajuste fino para mitigarlo sin comprometer la calidad.

Yongkang Zhang, Zonglin Zhao, Yuechen Zhang + 3 more2026-03-05🤖 cs.AI

ErrorLLM: Modeling SQL Errors for Text-to-SQL Refinement

El artículo presenta ErrorLLM, un marco que mejora la refinación de SQL mediante texto a SQL al modelar explícitamente errores semánticos y sintácticos utilizando tokens dedicados y representaciones estructurales para detectar fallos complejos y guiar la corrección de consultas generadas por modelos de lenguaje.

Zijin Hong, Hao Chen, Zheng Yuan + 6 more2026-03-05💬 cs.CL

Confidence-Calibrated Small-Large Language Model Collaboration for Cost-Efficient Reasoning

El artículo presenta COREA, un sistema que combina modelos de lenguaje pequeños y grandes mediante calibración de confianza y aprendizaje por refuerzo para reducir significativamente los costos de razonamiento sin sacrificar la precisión.

Chuang Zhang, Zizhen Zhu, Yihao Wei + 5 more2026-03-05🤖 cs.AI

MOOSE-Star: Unlocking Tractable Training for Scientific Discovery by Breaking the Complexity Barrier

El artículo presenta MOOSE-Star, un marco unificado que supera la complejidad computacional inherente al entrenamiento directo de modelos de lenguaje para el descubrimiento científico mediante la descomposición de tareas, la búsqueda jerárquica guiada por motivación y la composición acotada, logrando así una reducción de la complejidad de exponencial a logarítmica y un escalado continuo en tiempo de prueba respaldado por el dataset TOMATO-Star.

Zonglin Yang, Lidong Bing2026-03-05🤖 cs.LG

T2S-Bench & Structure-of-Thought: Benchmarking and Prompting Comprehensive Text-to-Structure Reasoning

Este trabajo presenta "Structure-of-Thought" (SoT), una técnica de prompting que guía a los modelos para construir estructuras intermedias de texto, y T2S-Bench, el primer benchmark diseñado para evaluar y mejorar estas capacidades, demostrando que ambos enfoques mejoran significativamente el rendimiento de los modelos de lenguaje en tareas complejas de procesamiento de texto.

Qinsi Wang, Hancheng Ye, Jinhee Kim + 12 more2026-03-05🤖 cs.AI

SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integration

El artículo presenta SWE-CI, el primer benchmark a nivel de repositorio basado en el ciclo de Integración Continua que evalúa la capacidad de los agentes impulsados por LLM para mantener la calidad del código a largo plazo, superando las limitaciones de las evaluaciones estáticas tradicionales.

Jialong Chen, Xander Xu, Hu Wei + 2 more2026-03-05🤖 cs.AI

In-Context Environments Induce Evaluation-Awareness in Language Models

Este estudio demuestra que la optimización adversarial de prompts puede inducir una "conciencia de evaluación" en modelos de lenguaje, provocando que estos reduzcan estratégicamente su rendimiento (sandbagging) hasta un 94% en ciertas tareas, una vulnerabilidad mucho mayor y causalmente vinculada a su razonamiento que la observada con prompts diseñados manualmente.

Maheep Chaudhary2026-03-05🤖 cs.AI

Semantic Bridging Domains: Pseudo-Source as Test-Time Connector

Este artículo propone el método de Alineación Semántica Paso a Paso (SSA), que utiliza un dominio pseudo-fuente como puente semántico corregido mediante semánticas universales y estrategias de aprendizaje complementario, para adaptar modelos a dominios objetivo sin etiquetas cuando la fuente original es desconocida, logrando mejoras significativas en tareas como la segmentación semántica y la clasificación de imágenes.

Xizhong Yang, Huiming Wang, Ning Xu + 1 more2026-03-05💬 cs.CL

← Anterior Siguiente →