Monitoring AI-Modified Content at Scale: A Case Study on the Impact of ChatGPT on AI Conference Peer Reviews

Este estudio presenta un modelo de máxima verosimilitud para estimar que entre el 6,5% y el 16,9% del texto en las revisiones de conferencias de IA (como ICLR 2024 y NeurIPS 2023) fue sustancialmente modificado por modelos de lenguaje, revelando una correlación entre el uso de IA y factores como la baja confianza, la proximidad a los plazos y la menor participación en refutaciones.

Weixin Liang, Zachary Izzo, Yaohui Zhang + 9 more2026-03-04🤖 cs.AI

NutriBench: A Dataset for Evaluating Large Language Models on Nutrition Estimation from Meal Descriptions

El artículo presenta NutriBench, el primer conjunto de datos público para evaluar la capacidad de los modelos de lenguaje grandes en la estimación nutricional a partir de descripciones de comidas, demostrando que pueden ofrecer resultados comparables a los de nutricionistas profesionales pero de manera significativamente más rápida.

Andong Hua, Mehak Preet Dhaliwal, Laya Pullela + 2 more2026-03-04🤖 cs.AI

The Price of Prompting: Profiling Energy Use in Large Language Models Inference

Este artículo presenta MELODI, un marco y conjunto de datos innovadores para monitorear y analizar el consumo energético en la inferencia de modelos de lenguaje grandes, revelando disparidades significativas en la eficiencia energética según las características de los prompts y destacando la necesidad de adoptar medidas sostenibles en su despliegue.

Erik Johannes Husom, Arda Goknil, Lwin Khin Shar + 1 more2026-03-04🤖 cs.AI

Diverging Preferences: When do Annotators Disagree and do Models Know?

Este artículo demuestra que la mayoría de las discrepancias en las preferencias humanas no son ruido simple, sino que surgen de factores como la ambigüedad de la tarea o el estilo de respuesta, lo que desafía los métodos actuales de modelado de recompensas y evaluación de LLM, proponiendo nuevas técnicas para identificar y mitigar estas divergencias.

Michael JQ Zhang, Zhilin Wang, Jena D. Hwang + 6 more2026-03-04💬 cs.CL

WAFFLE: Finetuning Multi-Modal Models for Automated Front-End Development

El artículo presenta Waffle, una nueva estrategia de ajuste fino que utiliza mecanismos de atención conscientes de la estructura y un enfoque de aprendizaje contrastivo para mejorar la capacidad de los modelos de lenguaje grandes en la generación de código HTML a partir de diseños de interfaz de usuario, logrando un rendimiento superior en las métricas de evaluación de benchmarks existentes y nuevos.

Shanchao Liang, Nan Jiang, Shangshu Qian + 1 more2026-03-04💬 cs.CL

Automated Coding of Communications in Collaborative Problem-solving Tasks Using ChatGPT

Este estudio demuestra que ChatGPT puede codificar eficazmente datos de comunicación en tareas de resolución colaborativa de problemas para la evaluación de habilidades del siglo XXI, aunque su rendimiento varía según el modelo, el marco de codificación y las características de la tarea, sin que los modelos más recientes de razonamiento ofrezcan necesariamente mejores resultados.

Jiangang Hao, Wenju Cui, Patrick Kyllonen + 3 more2026-03-04💬 cs.CL

StarWhisper Telescope: An AI framework for automating end-to-end astronomical observations

El sistema StarWhisper Telescope es un marco de inteligencia artificial que automatiza las observaciones astronómicas de extremo a extremo, integrando modelos de lenguaje para la planificación, el control de telescopios y el análisis de datos, lo que ha permitido detectar transitorios eficientemente en una red de telescopios amateurs y ofrece una arquitectura escalable para futuras instalaciones de gran envergadura.

Cunshi Wang, Yu Zhang, Yuyang Li + 25 more2026-03-04🔭 astro-ph

Make LoRA Great Again: Boosting LoRA with Adaptive Singular Values and Mixture-of-Experts Optimization Alignment

El artículo presenta GOAT, un marco que mejora el rendimiento de LoRA en modelos de lenguaje grandes mediante la integración adaptativa de priores estructurados por SVD y un factor de escala teórica para alinear la optimización con el ajuste completo, logrando un estado del arte en múltiples tareas sin modificar la arquitectura ni los algoritmos de entrenamiento.

Chenghao Fan, Zhenyi Lu, Sichen Liu + 4 more2026-03-04💬 cs.CL

SEM-CTRL\texttt{SEM-CTRL}: Semantically Controlled Decoding

El artículo presenta \texttt{SEM-CTRL}, un enfoque unificado que garantiza la corrección sintáctica y semántica en las salidas de modelos de lenguaje grandes mediante la integración de búsqueda en árbol Monte Carlo a nivel de token guiada por gramáticas de conjuntos de respuestas, permitiendo que incluso modelos pequeños superen a variantes más grandes sin necesidad de ajuste fino.

Mohammad Albinhassan, Pranava Madhyastha, Alessandra Russo2026-03-04🤖 cs.AI

LINGOLY-TOO: Disentangling Reasoning from Knowledge with Templatised Orthographic Obfuscation

El artículo presenta LINGOLY-TOO, un nuevo conjunto de datos de 1.203 problemas de olimpiada lingüística con obfuscaciones ortográficas diseñadas para desvincular el razonamiento de la memorización y revelar que incluso los modelos más avanzados dependen en gran medida de conocimientos previos en lugar de un razonamiento genuino.

Jude Khouja, Lingyi Yang, Karolina Korgul + 6 more2026-03-04🤖 cs.AI