cs.CL artículos | Gist.Science

COMI: Coarse-to-fine Context Compression via Marginal Information Gain

El artículo presenta COMI, un marco de compresión de contexto adaptable de grueso a fino que utiliza la Ganancia de Información Marginal para optimizar la relevancia semántica y la diversidad, logrando mejoras significativas en tareas de preguntas y respuestas y resumen bajo altas tasas de compresión.

Jiwei Tang, Shilei Liu, Zhicheng Zhang, Yujin Yuan, Libin Zheng, Wenbo Su, Bo Zheng2026-03-09💬 cs.CL

Accelerating Scientific Research with Gemini: Case Studies and Common Techniques

Este artículo presenta una serie de estudios de caso y técnicas comunes que demuestran cómo la colaboración interactiva con modelos avanzados de Gemini, como Gemini Deep Think, acelera el descubrimiento científico al resolver problemas abiertos, refutar conjeturas y generar nuevas pruebas en campos como la informática teórica, la economía y la física.

David P. Woodruff, Vincent Cohen-Addad, Lalit Jain, Jieming Mao, Song Zuo, MohammadHossein Bateni, Simina Branzei, Michael P. Brenner, Lin Chen, Ying Feng, Lance Fortnow, Gang Fu, Ziyi Guan, Zahra Hadizadeh, Mohammad T. Hajiaghayi, Mahdi JafariRaviz, Adel Javanmard, Karthik C. S., Ken-ichi Kawarabayashi, Ravi Kumar, Silvio Lattanzi, Euiwoong Lee, Yi Li, Ioannis Panageas, Dimitris Paparas, Benjamin Przybocki, Bernardo Subercaseaux, Ola Svensson, Shayan Taherijam, Xuan Wu, Eylon Yogev, Morteza Zadimoghaddam, Samson Zhou, Yossi Matias, James Manyika, Vahab Mirrokni2026-03-09🤖 cs.AI

Towards Autonomous Mathematics Research

El artículo presenta a Aletheia, un agente de investigación matemática autónomo que, potenciado por modelos avanzados de razonamiento y herramientas especializadas, demuestra capacidades que van desde la resolución de problemas olímpicos hasta la generación de artículos de investigación y la solución de problemas abiertos, marcando hitos significativos en la colaboración humano-IA en matemáticas.

Tony Feng, Trieu H. Trinh, Garrett Bingham, Dawsen Hwang, Yuri Chervonyi, Junehyuk Jung, Joonkyung Lee, Carlo Pagano, Sang-hyun Kim, Federico Pasqualotto, Sergei Gukov, Jonathan N. Lee, Junsu Kim, Kaiying Hou, Golnaz Ghiasi, Yi Tay, YaGuang Li, Chenkai Kuang, Yuan Liu, Hanzhao Lin, Evan Zheran Liu, Nigamaa Nayakanti, Xiaomeng Yang, Heng-Tze Cheng, Demis Hassabis, Koray Kavukcuoglu, Quoc V. Le, Thang Luong2026-03-09🤖 cs.AI

DataChef: Cooking Up Optimal Data Recipes for LLM Adaptation via Reinforcement Learning

El artículo presenta DataChef-32B, un sistema que utiliza aprendizaje por refuerzo para generar automáticamente recetas de datos óptimas para la adaptación de modelos de lenguaje grandes, logrando un rendimiento comparable o superior al de expertos humanos en diversas tareas, incluida la matemática.

Yicheng Chen, Zerun Ma, Xinchen Xie, Yining Li, Kai Chen2026-03-09🤖 cs.AI

The Consensus Trap: Dissecting Subjectivity and the "Ground Truth" Illusion in Data Annotation

Este artículo examina cómo la búsqueda de un "ground truth" en la anotación de datos ignora la subjetividad humana y la diversidad cultural, proponiendo en su lugar infraestructuras pluralistas que valoren el desacuerdo como una señal esencial para construir modelos más competentes.

Sheza Munir, Benjamin Mah, Krisha Kalsi, Shivani Kapania, Julian Posada, Edith Law, Ding Wang, Syed Ishtiaque Ahmed2026-03-09🤖 cs.AI

IntelliAsk: Learning to Ask High-Quality Research Questions via RLVR

El artículo presenta IntelliAsk, un modelo entrenado mediante optimización por refuerzo con verificación de recompensas (RLVR) y una nueva función de recompensa llamada IntelliReward, que genera preguntas de revisión de investigación de alta calidad, fundamentadas y sustanciales, superando a los modelos de línea base y demostrando mejoras en benchmarks de razonamiento y escritura.

Karun Sharma, Vidushee Vats, Shengzhi Li, Yuxiang Wang, Zhongtian Sun, Prayag Tiwari2026-03-09🤖 cs.AI

Diverse Word Choices, Same Reference: Annotating Lexically-Rich Cross-Document Coreference

Este artículo propone un nuevo esquema de anotación para la resolución de coreferencia entre documentos en noticias que, al tratar las cadenas de coreferencia como elementos discursivos capaces de capturar diversidad léxica y variaciones en el encuadre, mejora la eficacia del análisis en coberturas polarizadas mediante la reanotación de los conjuntos de datos NewsWCL50 y ECB+.

Anastasia Zhukova, Felix Hamborg, Karsten Donnay, Norman Meuschke, Bela Gipp2026-03-09💬 cs.CL

The Cascade Equivalence Hypothesis: When Do Speech LLMs Behave Like ASR $\rightarrow$ LLM Pipelines?

Este artículo demuestra mediante una metodología de evaluación y análisis mecanicista que, en la mayoría de los casos de uso, los modelos de lenguaje grandes de voz (Speech LLMs) actuales funcionan como cascadas costosas e ineficientes bajo ruido, perdiendo su ventaja sobre los sistemas tradicionales de reconocimiento de voz seguidos de LLM.

Jayadev Billa2026-03-09🤖 cs.AI

Both Ends Count! Just How Good are LLM Agents at "Text-to-Big SQL"?

Este artículo introduce nuevas métricas y evalúa agentes LLM para el campo de "Text-to-Big SQL", demostrando que las métricas tradicionales de Text-to-SQL son insuficientes para entornos de datos a gran escala donde los errores de traducción generan costos y latencia significativos.

Germán T. Eizaguirre, Lars Tissen, Marc Sánchez-Artigas2026-03-09💬 cs.CL

Modality Collapse as Mismatched Decoding: Information-Theoretic Limits of Multimodal LLMs

Este artículo demuestra que el colapso de modalidades en los LLM multimodales es un problema de decodificación desajustada donde la información accesible está limitada por la divergencia entre los datos y el objetivo de entrenamiento, lo que confirma que la función de puntuación del decodificador, y no la arquitectura, determina qué información se puede extraer.

Jayadev Billa2026-03-09🤖 cs.AI

CoME: Empowering Channel-of-Mobile-Experts with Informative Hybrid-Capabilities Reasoning

El documento presenta CoME, una arquitectura de agentes móviles que utiliza expertos especializados y un entrenamiento progresivo junto con una estrategia Info-DPO para mejorar el razonamiento híbrido y superar a los métodos existentes en conjuntos de datos como AITZ y AMEX.

Yuxuan Liu, Weikai Xu, Kun Huang, Changyu Chen, Jiankun Zhao, Pengzhi Gao, Wei Liu, Jian Luan, Shuo Shang, Bo Du, Ji-Rong Wen, Rui Yan2026-03-09🤖 cs.AI

Verify as You Go: An LLM-Powered Browser Extension for Fake News Detection

El artículo presenta Aletheia, una extensión de navegador impulsada por modelos de lenguaje grandes y generación aumentada por recuperación que detecta noticias falsas con explicaciones basadas en evidencia, supera a los métodos actuales en rendimiento y demuestra su utilidad y transparencia en un estudio con 250 usuarios.

Dorsaf Sallami, Esma Aïmeur2026-03-09💬 cs.CL

Omni-C: Compressing Heterogeneous Modalities into a Single Dense Encoder

El artículo presenta Omni-C, un único codificador Transformer denso que comprime modalidades heterogéneas en representaciones compartidas mediante preentrenamiento contrastivo, logrando un rendimiento competitivo y una mayor eficiencia de memoria al eliminar la necesidad de arquitecturas complejas como la de expertos múltiples (MoE) o supervisiones emparejadas.

Kin Wai Lau, Yasar Abbas Ur Rehman, Lai-Man Po, Pedro Porto Buarque de Gusmão2026-03-09🤖 cs.AI

Attention Meets Reachability: Structural Equivalence and Efficiency in Grammar-Constrained LLM Decoding

Este artículo establece fundamentos teóricos para la decodificación restringida por gramáticas, demostrando que la equivalencia lingüística no garantiza eficiencia computacional al introducir una métrica de costo de ambigüedad estructural, probar límites inferiores de complejidad y derivar acotaciones precisas de distorsión para el muestreo condicional en arquitecturas de transformadores.

Faruk Alpay, Bilge Senturk2026-03-09🤖 cs.LG

EigenData: A Self-Evolving Multi-Agent Platform for Function-Calling Data Synthesis, Auditing, and Repair

El documento presenta EigenData, una plataforma multiagente autoevolutiva que automatiza la síntesis, auditoría y reparación de datos para la llamada de funciones, demostrando su eficacia al corregir sistemáticamente el benchmark BFCL-V3 y mejorar la correlación entre las métricas de evaluación y la corrección funcional percibida por humanos.

Jiaao Chen, Jingyuan Qi, Mingye Gao, Wei-Chen Wang, Hanrui Wang, Di Jin2026-03-09✓ Author reviewed🤖 cs.AI

Aligning the True Semantics: Constrained Decoupling and Distribution Sampling for Cross-Modal Alignment

El artículo presenta CDDS, un nuevo algoritmo de alineación multimodal que supera a los métodos existentes mediante un decoplamiento restringido de las representaciones en componentes semánticos y modales, junto con un muestreo de distribución para cerrar la brecha entre modalidades y garantizar la alineación de la verdadera semántica.

Xiang Ma, Lexin Fang, Litian Xu, Caiming Zhang2026-03-09🤖 cs.LG

CBR-to-SQL: Rethinking Retrieval-based Text-to-SQL using Case-based Reasoning in the Healthcare Domain

El artículo presenta CBR-to-SQL, un marco basado en razonamiento basado en casos que supera las limitaciones de los enfoques RAG estándar en el dominio de la salud mediante un proceso de recuperación en dos etapas y plantillas abstractas, logrando mayor precisión, eficiencia de muestras y robustez en la traducción de preguntas naturales a SQL para bases de datos de registros electrónicos de salud.

Hung Nguyen, Hans Moen, Pekka Marttinen2026-03-09🤖 cs.AI

NOTAI.AI: Explainable Detection of Machine-Generated Text via Curvature and Feature Attribution

El artículo presenta NOTAI.AI, un marco explicable para la detección de texto generado por IA que combina señales de curvatura, características estilométricas y puntuaciones de detectores neuronales en un clasificador XGBoost, utilizando SHAP y una capa de lenguaje natural para ofrecer atribuciones interpretables a través de una aplicación web interactiva.

Oleksandr Marchenko Breneur, Adelaide Danilov, Aria Nourbakhsh, Salima Lamsiyah2026-03-09💬 cs.CL

Safer Reasoning Traces: Measuring and Mitigating Chain-of-Thought Leakage in LLMs

Este artículo investiga cómo la generación de cadenas de pensamiento (CoT) en modelos de lenguaje puede aumentar la filtración de información personal identificable (PII), proponiendo un marco para medir este riesgo y evaluar diversas estrategias de mitigación en tiempo de inferencia que equilibren la utilidad y la seguridad.

Patrick Ahrend, Tobias Eder, Xiyang Yang, Zhiyi Pan, Georg Groh2026-03-09💬 cs.CL

RACAS: Controlling Diverse Robots With a Single Agentic System

El artículo presenta RACAS, un sistema agente basado en modelos de lenguaje que permite controlar robots de diversas plataformas mediante instrucciones en lenguaje natural sin necesidad de reentrenamiento ni modificaciones de código, demostrando su eficacia en robots terrestres, articulados y submarinos.

Dylan R. Ashley, Jan Przepióra, Yimeng Chen, Ali Abualsaud, Nurzhan Yesmagambet, Shinkyu Park, Eric Feron, Jürgen Schmidhuber2026-03-09🤖 cs.AI

← Anterior Siguiente →

cs.CL