cs.CL artículos | Gist.Science

POET-X: Memory-efficient LLM Training by Scaling Orthogonal Transformation

El artículo presenta POET-X, una variante eficiente en memoria y escalable del marco POET que permite el entrenamiento de modelos de lenguaje grandes de miles de millones de parámetros en una sola GPU Nvidia H100, superando las limitaciones de consumo de memoria y costo computacional de la implementación original y de optimizadores estándar como AdamW.

Zeju Qiu, Lixin Liu, Adrian Weller + 2 more2026-03-06🤖 cs.AI

Catch Me If You Can Describe Me: Open-Vocabulary Camouflaged Instance Segmentation with Diffusion

Este artículo propone un nuevo método basado en modelos de difusión para la segmentación de instancias camufladas de vocabulario abierto (OVCIS), que fusiona características visuales y textuales para superar los desafíos de la segmentación de objetos ocultos y permitir la detección de clases no vistas previamente, con aplicaciones en vigilancia y monitoreo de vida silvestre.

Tuan-Anh Vu, Duc Thanh Nguyen, Qing Guo + 4 more2026-03-05🤖 cs.AI

RAEE: A Robust Retrieval-Augmented Early Exit Framework for Efficient Inference

Este artículo presenta RAEE, un marco de salida temprana robusto y aumentado por recuperación que acelera la inferencia de modelos de lenguaje grandes sin sacrificar el rendimiento, utilizando información de datos similares recuperados para guiar las decisiones de salida intermedias.

Lianming Huang, Shangyu Wu, Yufei Cui + 6 more2026-03-05💬 cs.CL

Leveraging Large Language Models for Semantic Query Processing in a Scholarly Knowledge Graph

Esta investigación propone un sistema innovador que integra Modelos de Lenguaje Grandes (LLM) con el Grafo de Conocimiento Académico de la ANU y un modelo de documentos profundos para procesar consultas semánticas complejas sobre la producción científica en ciencias de la computación, logrando una mayor precisión y eficiencia en la recuperación de información que los métodos tradicionales.

Runsong Jia, Bowen Zhang, Sergio J. Rodríguez Méndez + 1 more2026-03-05🤖 cs.AI

Manipulating language models' training data to study syntactic constraint learning: the case of English passivization

Este estudio demuestra que los modelos de lenguaje neuronal aprenden las restricciones de la pasivización en inglés mediante la manipulación de sus datos de entrenamiento, revelando que tanto la frecuencia (entrenchment) como la semántica (afectación) contribuyen de forma independiente a la adquisición de estas excepciones gramaticales.

Cara Su-Yi Leong, Tal Linzen2026-03-05💬 cs.CL

LMUnit: Fine-grained Evaluation with Natural Language Unit Tests

El artículo presenta LMUnit, un modelo unificado que utiliza pruebas unitarias en lenguaje natural para evaluar de manera más precisa y consistente el comportamiento de los modelos de lenguaje, superando las limitaciones de las métricas automáticas tradicionales y la evaluación humana.

Jon Saad-Falcon, Rajan Vivek, William Berrios + 6 more2026-03-05🤖 cs.AI

Preference Leakage: A Contamination Problem in LLM-as-a-judge

Este trabajo identifica y demuestra empíricamente la "fuga de preferencias", un problema de contaminación en el que los modelos de lenguaje grandes (LLMs) utilizados como jueces muestran un sesgo sistemático hacia los modelos generadores de datos sintéticos con los que comparten origen o familia, lo que compromete la integridad de la evaluación y el entrenamiento de modelos.

Dawei Li, Renliang Sun, Yue Huang + 6 more2026-03-05🤖 cs.AI

OSCAR: Online Soft Compression And Reranking

El artículo presenta OSCAR, un método novedoso de compresión en línea dependiente de la consulta y reordenamiento que reduce significativamente el costo computacional de los sistemas RAG sin sacrificar la precisión, logrando aceleraciones de 2 a 5 veces en modelos de lenguaje de gran tamaño.

Maxime Louis, Thibault Formal, Hervé Dejean + 1 more2026-03-05🤖 cs.AI

Generating Fine Details of Entity Interactions

Este artículo presenta un nuevo conjunto de datos y un enfoque basado en modelos de lenguaje multimodal para mejorar la generación de imágenes que capturan interacciones complejas entre entidades mediante la descomposición de conceptos y la refinación iterativa.

Xinyi Gu, Jiayuan Mao2026-03-05🤖 cs.LG

When Your Own Output Becomes Your Training Data: Noise-to-Meaning Loops and a Formal RSI Trigger

El artículo presenta N2M-RSI, un modelo formal que demuestra cómo un agente de IA que utiliza sus propias salidas como datos de entrenamiento puede experimentar un crecimiento ilimitado de su complejidad interna al superar un umbral de integración de información, unificando conceptos como la auto-prompting y la autorreferencia gödeliana.

Rintaro Ando2026-03-05🤖 cs.AI

Healthy LLMs? Benchmarking LLM Knowledge of UK Government Public Health Information

Este artículo presenta PubHealthBench, un nuevo conjunto de datos con más de 8000 preguntas derivadas de la información de salud pública del gobierno del Reino Unido, que revela que aunque los modelos de lenguaje más avanzados superan a los humanos en pruebas de opción múltiple, su rendimiento disminuye significativamente en respuestas de texto libre, lo que subraya la necesidad de salvaguardas adicionales para su uso seguro en este ámbito.

Joshua Harris, Fan Grayson, Felix Feldman + 8 more2026-03-05🤖 cs.LG

Why 1 + 1 < 1 in Visual Token Pruning: Beyond Naive Integration via Multi-Objective Balanced Covering

El artículo presenta MoB, un nuevo método de poda de tokens visuales basado en la teoría de recubrimiento que reformula el problema como un caso de cobertura bi-objetivo para equilibrar dinámicamente la alineación con el prompt y la preservación visual, logrando así una reducción significativa de tokens con pérdidas de rendimiento mínimas en modelos multimodales avanzados.

Yangfu Li, Hongjian Zhan, Tianyi Chen + 2 more2026-03-05💬 cs.CL

R1-Code-Interpreter: LLMs Reason with Code via Supervised and Multi-stage Reinforcement Learning

El artículo presenta R1-Code-Interpreter, un modelo de lenguaje entrenado mediante ajuste fino supervisado y aprendizaje por refuerzo multi-etapa que, al utilizar un enfoque de aprendizaje curricular para gestionar tareas heterogéneas, logra superar a modelos avanzados como GPT-4o en precisión y demostrar comportamientos emergentes de autoverificación mediante la ejecución autónoma de código.

Yongchao Chen, Yueying Liu, Junwei Zhou + 5 more2026-03-05🤖 cs.AI

Boosting In-Context Learning in LLMs Through the Lens of Classical Supervised Learning

Este artículo propone Supervised Calibration (SC), un marco unificado basado en la minimización de pérdidas que supera las limitaciones de los métodos de calibración actuales en el aprendizaje en contexto (ICL) al aprender transformaciones afines óptimas que pueden alterar la orientación de los límites de decisión de los LLM, logrando así un rendimiento superior en múltiples conjuntos de datos y modelos.

Korel Gundem, Juncheng Dong, Dennis Zhang + 2 more2026-03-05🤖 cs.AI

Flattery, Fluff, and Fog: Diagnosing and Mitigating Idiosyncratic Biases in Preference Models

Este trabajo diagnostica cómo los modelos de preferencia en lenguaje desarrollan sesgos idiosincráticos al priorizar características superficiales sobre la calidad sustantiva debido a artefactos en los datos de entrenamiento, y propone una técnica de aumento de datos con contrafactuales que reduce significativamente la mala calibración y el sesgo sin comprometer el rendimiento general.

Anirudh Bharadwaj, Chaitanya Malaviya, Nitish Joshi + 1 more2026-03-05💬 cs.CL

CounselBench: A Large-Scale Expert Evaluation and Adversarial Benchmarking of Large Language Models in Mental Health Question Answering

El artículo presenta CounselBench, un marco de evaluación a gran escala desarrollado con 100 profesionales de la salud mental que utiliza evaluaciones expertas y un conjunto de datos adversarios para identificar deficiencias críticas, como riesgos de seguridad y falta de personalización, en las respuestas de los modelos de lenguaje grande a preguntas reales de pacientes.

Yahan Li, Jifan Yao, John Bosco S. Bunyi + 3 more2026-03-05💬 cs.CL

Query-Level Uncertainty in Large Language Models

Este trabajo propone "Internal Confidence", un método sin entrenamiento que detecta la incertidumbre a nivel de consulta en modelos de lenguaje grandes antes de generar tokens, permitiendo una inferencia adaptativa más eficiente y confiable al reducir costos computacionales sin sacrificar el rendimiento.

Lihu Chen, Gerard de Melo, Fabian M. Suchanek + 1 more2026-03-05💬 cs.CL

Context Biasing for Pronunciation-Orthography Mismatch in Automatic Speech Recognition

El artículo propone un método de sesgo de contexto que utiliza correcciones de sustitución realizadas por el usuario durante la inferencia para resolver discrepancias entre pronunciación y ortografía en sistemas de reconocimiento automático de voz, logrando una mejora significativa en la precisión de palabras sesgadas sin afectar el rendimiento general.

Christian Huber, Alexander Waibel2026-03-05🤖 cs.LG

RLVER: Reinforcement Learning with Verifiable Emotion Rewards for Empathetic Agents

El artículo presenta RLVER, un marco de aprendizaje por refuerzo que utiliza recompensas emocionales verificables de usuarios simulados para entrenar modelos de lenguaje grandes, logrando una mejora sustancial en su inteligencia emocional y empatía sin comprometer sus capacidades cognitivas.

Peisong Wang, Ruotian Ma, Bang Zhang + 13 more2026-03-05🤖 cs.AI

UQLM: A Python Package for Uncertainty Quantification in Large Language Models

El documento presenta UQLM, un paquete de Python que utiliza técnicas avanzadas de cuantificación de incertidumbre para detectar alucinaciones en modelos de lenguaje grandes y mejorar la fiabilidad de sus respuestas mediante puntuaciones de confianza.

Dylan Bouchard, Mohit Singh Chauhan, David Skarbrevik + 3 more2026-03-05🤖 cs.AI

← Anterior Siguiente →