cs.CL artículos | Gist.Science

Monitoring AI-Modified Content at Scale: A Case Study on the Impact of ChatGPT on AI Conference Peer Reviews

Este estudio presenta un modelo de máxima verosimilitud para estimar que entre el 6,5% y el 16,9% del texto en las revisiones de conferencias de IA (como ICLR 2024 y NeurIPS 2023) fue sustancialmente modificado por modelos de lenguaje, revelando una correlación entre el uso de IA y factores como la baja confianza, la proximidad a los plazos y la menor participación en refutaciones.

Weixin Liang, Zachary Izzo, Yaohui Zhang + 9 more2026-03-04🤖 cs.AI

Safety Verification of Wait-Only Non-Blocking Broadcast Protocols

Este artículo demuestra que, para protocolos de difusión no bloqueantes de tipo Wait-Only, los problemas de cobertura de estado y de configuración, que son generalmente indecidibles y de alta complejidad, se vuelven P-completos y PSPACE-completos respectivamente.

Lucie Guillou, Arnaud Sangnier, Nathalie Sznajder2026-03-04💬 cs.CL

Topic-Based Watermarks for Large Language Models

Este artículo presenta un esquema de marca de agua ligero y guiado por temas para modelos de lenguaje grandes que, mediante la selección de tokens semánticamente alineados, logra una alta robustez frente a ataques de paráfrasis y perturbación léxica sin comprometer la calidad del texto ni requerir infraestructuras complejas.

Alexander Nemecek, Yuzhou Jiang, Erman Ayday2026-03-04💬 cs.CL

Causal Effects of Trigger Words in Social Media Discussions: A Large-Scale Case Study about UK Politics on Reddit

Este estudio analiza más de 100 millones de comentarios en Reddit sobre política británica y concluye que el uso de "palabras detonantes" genera mayor participación y polarización, incrementando significativamente la animosidad, la ira y el odio en los debates en línea.

Dimosthenis Antypas, Christian Arnold, Nedjma Ousidhoum + 2 more2026-03-04💬 cs.CL

NutriBench: A Dataset for Evaluating Large Language Models on Nutrition Estimation from Meal Descriptions

El artículo presenta NutriBench, el primer conjunto de datos público para evaluar la capacidad de los modelos de lenguaje grandes en la estimación nutricional a partir de descripciones de comidas, demostrando que pueden ofrecer resultados comparables a los de nutricionistas profesionales pero de manera significativamente más rápida.

Andong Hua, Mehak Preet Dhaliwal, Laya Pullela + 2 more2026-03-04🤖 cs.AI

The Price of Prompting: Profiling Energy Use in Large Language Models Inference

Este artículo presenta MELODI, un marco y conjunto de datos innovadores para monitorear y analizar el consumo energético en la inferencia de modelos de lenguaje grandes, revelando disparidades significativas en la eficiencia energética según las características de los prompts y destacando la necesidad de adoptar medidas sostenibles en su despliegue.

Erik Johannes Husom, Arda Goknil, Lwin Khin Shar + 1 more2026-03-04🤖 cs.AI

BA-LoRA: Bias-Alleviating Low-Rank Adaptation to Mitigate Catastrophic Inheritance in Large Language Models

El artículo presenta BA-LoRA, un método de adaptación de bajo rango que mitiga la "herencia catastrófica" de sesgos y ruido en modelos de lenguaje grandes mediante regularizadores dirigidos, logrando así una mayor robustez y rendimiento en comparación con las variantes de LoRA existentes.

Yupeng Chang, Yi Chang, Yuan Wu2026-03-04💬 cs.CL

OM4OV: Leveraging Ontology Matching for Ontology Versioning

Este artículo presenta y evalúa un pipeline formalizado llamado OM4OV, que adapta sistemas de alineación de ontologías para la gestión de versiones mediante un mecanismo de referencia cruzada que optimiza la detección de cambios y mejora el rendimiento general.

Zhangcheng Qiang, Kerry Taylor, Weiqing Wang2026-03-04🤖 cs.AI

Diverging Preferences: When do Annotators Disagree and do Models Know?

Este artículo demuestra que la mayoría de las discrepancias en las preferencias humanas no son ruido simple, sino que surgen de factores como la ambigüedad de la tarea o el estilo de respuesta, lo que desafía los métodos actuales de modelado de recompensas y evaluación de LLM, proponiendo nuevas técnicas para identificar y mitigar estas divergencias.

Michael JQ Zhang, Zhilin Wang, Jena D. Hwang + 6 more2026-03-04💬 cs.CL

WAFFLE: Finetuning Multi-Modal Models for Automated Front-End Development

El artículo presenta Waffle, una nueva estrategia de ajuste fino que utiliza mecanismos de atención conscientes de la estructura y un enfoque de aprendizaje contrastivo para mejorar la capacidad de los modelos de lenguaje grandes en la generación de código HTML a partir de diseños de interfaz de usuario, logrando un rendimiento superior en las métricas de evaluación de benchmarks existentes y nuevos.

Shanchao Liang, Nan Jiang, Shangshu Qian + 1 more2026-03-04💬 cs.CL

Automated Coding of Communications in Collaborative Problem-solving Tasks Using ChatGPT

Este estudio demuestra que ChatGPT puede codificar eficazmente datos de comunicación en tareas de resolución colaborativa de problemas para la evaluación de habilidades del siglo XXI, aunque su rendimiento varía según el modelo, el marco de codificación y las características de la tarea, sin que los modelos más recientes de razonamiento ofrezcan necesariamente mejores resultados.

Jiangang Hao, Wenju Cui, Patrick Kyllonen + 3 more2026-03-04💬 cs.CL

StarWhisper Telescope: An AI framework for automating end-to-end astronomical observations

El sistema StarWhisper Telescope es un marco de inteligencia artificial que automatiza las observaciones astronómicas de extremo a extremo, integrando modelos de lenguaje para la planificación, el control de telescopios y el análisis de datos, lo que ha permitido detectar transitorios eficientemente en una red de telescopios amateurs y ofrece una arquitectura escalable para futuras instalaciones de gran envergadura.

Cunshi Wang, Yu Zhang, Yuyang Li + 25 more2026-03-04🔭 astro-ph

A Survey of Query Optimization in Large Language Models

Esta encuesta presenta una revisión sistemática de las técnicas de optimización de consultas para modelos de lenguaje grandes, introduciendo un marco de ciclo de vida unificado, una taxonomía de complejidad de consultas y un análisis detallado de operaciones atómicas clave para mejorar el rendimiento en sistemas de generación aumentada por recuperación.

Mingyang Song, Mao Zheng2026-03-04💬 cs.CL

Evaluating Spoken Language as a Biomarker for Automated Screening of Cognitive Impairment

Este estudio demuestra que los modelos de aprendizaje automático explicativos, entrenados con características lingüísticas del habla, pueden detectar la demencia y predecir la gravedad cognitiva con precisión, ofreciendo una herramienta escalable y no invasiva para la cribada temprana y la triaje clínico.

Maria R. Lima, Alexander Capstick, Fatemeh Geranmayeh + 4 more2026-03-04💬 cs.CL

Hallucination, Monofacts, and Miscalibration: An Empirical Investigation

Este estudio empírico investiga la relación entre alucinaciones, monofactos y mala calibración en modelos de lenguaje, demostrando que una técnica de reponderación selectiva que introduce mala calibración deliberada reduce las alucinaciones hasta un 40% sin comprometer la precisión, desafiando así las políticas universales de deduplicación.

Miranda Muqing Miao, Michael Kearns2026-03-04🤖 cs.AI

Make LoRA Great Again: Boosting LoRA with Adaptive Singular Values and Mixture-of-Experts Optimization Alignment

El artículo presenta GOAT, un marco que mejora el rendimiento de LoRA en modelos de lenguaje grandes mediante la integración adaptativa de priores estructurados por SVD y un factor de escala teórica para alinear la optimización con el ajuste completo, logrando un estado del arte en múltiples tareas sin modificar la arquitectura ni los algoritmos de entrenamiento.

Chenghao Fan, Zhenyi Lu, Sichen Liu + 4 more2026-03-04💬 cs.CL

$\texttt{SEM-CTRL}$ : Semantically Controlled Decoding

El artículo presenta \texttt{SEM-CTRL}, un enfoque unificado que garantiza la corrección sintáctica y semántica en las salidas de modelos de lenguaje grandes mediante la integración de búsqueda en árbol Monte Carlo a nivel de token guiada por gramáticas de conjuntos de respuestas, permitiendo que incluso modelos pequeños superen a variantes más grandes sin necesidad de ajuste fino.

Mohammad Albinhassan, Pranava Madhyastha, Alessandra Russo2026-03-04🤖 cs.AI

LINGOLY-TOO: Disentangling Reasoning from Knowledge with Templatised Orthographic Obfuscation

El artículo presenta LINGOLY-TOO, un nuevo conjunto de datos de 1.203 problemas de olimpiada lingüística con obfuscaciones ortográficas diseñadas para desvincular el razonamiento de la memorización y revelar que incluso los modelos más avanzados dependen en gran medida de conocimientos previos en lugar de un razonamiento genuino.

Jude Khouja, Lingyi Yang, Karolina Korgul + 6 more2026-03-04🤖 cs.AI

BioChemInsight: An Online Platform for Automated Extraction of Chemical Structures and Activity Data from Patents

BioChemInsight es una plataforma de código abierto que automatiza la extracción de estructuras químicas y datos de actividad biológica de patentes, logrando una precisión superior al 90% y complementando eficazmente las bases de datos públicas existentes para acelerar el descubrimiento de fármacos.

Zhe Wang, Fangtian Fu, Wei Zhang + 10 more2026-03-04🧬 q-bio

Param $Δ$ for Direct Weight Mixing: Post-Train Large Language Model at Zero Cost

Este artículo presenta Param $Î$ , un método de mezcla de pesos que transfiere capacidades de post-entrenamiento a modelos base actualizados sin costo computacional adicional, logrando un rendimiento comparable al entrenamiento tradicional mediante la simple adición de la diferencia de pesos entre modelos.

Sheng Cao, Mingrui Wu, Karthik Prasad + 2 more2026-03-04🤖 cs.AI

← Anterior Siguiente →

cs.CL