Beyond Via: Analysis and Estimation of the Impact of Large Language Models in Academic Papers

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que este artículo es como un detective lingüístico que ha entrado en la biblioteca más grande del mundo (llamada arXiv, donde los científicos publican sus investigaciones) para investigar un misterio muy actual: ¿Cómo han cambiado las "palabras" de los científicos desde que llegaron los robots escritores (las Inteligencias Artificiales o LLMs)?

Aquí tienes la explicación, traducida al español y con analogías sencillas:

1. El Misterio: "El acento de los robots"

Imagina que los científicos son como cocineros que siempre han escrito sus recetas (sus artículos) de una manera muy tradicional. Pero de repente, muchos empezaron a pedir ayuda a un "chef robot" (como ChatGPT) para pulir sus textos.

Los autores de este estudio notaron que, aunque los robots son muy inteligentes, tienen manías o "tics" lingüísticos muy específicos, igual que una persona tiene un acento o una frase que repite mucho.

El ejemplo de "Via" y "Beyond": Antes, los títulos de los artículos eran como "Estudio sobre el clima". Ahora, gracias a los robots, los títulos suenan más como "Estudio sobre el clima vía análisis de datos" o "Más allá de la teoría". Es como si el robot les hubiera puesto un filtro de "palabras de moda" que todos empiezan a usar sin darse cuenta.
El ejemplo de "The" y "Of": Curiosamente, los robots tienden a usar menos palabras pequeñas y comunes como "el", "de" o "y". Es como si el robot quisiera ser más directo y eliminar la "grasa" del texto, haciendo que las oraciones suenen un poco más secas y robóticas.

2. La Herramienta: El "Radar de Palabras"

Los investigadores no querían solo adivinar; querían medirlo.

La analogía del radar: Imagina que tienen un radar que escanea millones de textos. En lugar de intentar leer cada palabra para ver si es humana o robótica (lo cual es muy difícil porque los robots son muy buenos imitando), miran la frecuencia de ciertas palabras.
Si ven que la palabra "delve" (que significa "profundizar", un favorito de los primeros robots) ha desaparecido, pero "furthermore" (además) ha aparecido de golpe, saben que el "chef" ha cambiado. Es como notar que en una fiesta, antes todos pedían "café", pero ahora todos piden "té"; sabes que ha cambiado el proveedor de bebidas.

3. El Problema: "Los gemelos idénticos"

El estudio descubrió algo muy interesante y un poco preocupante: es muy difícil saber qué robot específico escribió un texto.

La analogía de los gemelos: Si tienes a GPT-4, GPT-5 y DeepSeek, todos hablan de manera tan similar que, si les pides que escriban un párrafo, parecen gemelos idénticos. Incluso los mejores detectores de IA (como un juez muy estricto) se confunden y no pueden decir con certeza cuál de los tres gemelos escribió el texto.
Además, los robots están cambiando rápido. Lo que un robot hacía en 2023 (usar ciertas palabras), lo dejó de hacer en 2025. Es como si los robots estuvieran aprendiendo a "disfrazarse" mejor de humanos cada día.

4. La Conclusión: "El estilo humano se está mezclando"

El mensaje final es que la influencia de la IA en la ciencia es enorme, pero no es estática.

La mezcla: Los textos de hoy son una mezcla. A veces es un humano, a veces un robot, y a veces un humano que ha editado lo que escribió el robot. Es como una salsa donde los ingredientes se han mezclado tanto que ya no puedes distinguir el tomate del pimiento.
El futuro: Los investigadores dicen que necesitamos nuevas formas de medir esto. No basta con intentar "cazar" al robot; tenemos que entender cómo la IA está cambiando la forma en que pensamos y escribimos. Si los robots nos enseñan a usar ciertas palabras y a evitar otras, eventualmente, nosotros mismos empezaremos a sonar como robots, incluso cuando no estemos usando uno.

En resumen:

Este paper nos dice que la IA ha dejado una "huella digital" en la forma en que escribimos los científicos (y probablemente todos). No es que los robots estén escribiendo todo el texto, sino que están cambiando el "sabor" del lenguaje, haciendo que los títulos suenen más a "vía" y "más allá", y que las oraciones pierdan sus pequeñas palabras de relleno. Es un cambio sutil, pero masivo, como una corriente invisible que está modificando el océano del conocimiento.

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: Beyond Via

1. Planteamiento del Problema

El impacto de los Modelos de Lenguaje Grandes (LLM) en la publicación académica es innegable, pero su cuantificación precisa y la comprensión de su evolución son desafiantes.

Limitaciones de los detectores actuales: Los clasificadores existentes (basados en IA) tienen dificultades para distinguir entre textos generados por diferentes LLMs en tareas de clasificación multiclase, especialmente a medida que los modelos se vuelven más similares entre sí (homogeneización).
Dinámica evolutiva: Los LLMs no son estáticos; sus preferencias léxicas cambian con las actualizaciones (ej. de GPT-3.5 a GPT-5). Las expresiones características de una versión (como "delve" en ChatGPT temprano) pueden desaparecer en versiones posteriores, lo que invalida los métodos de detección estáticos basados en palabras clave fijas.
Necesidad de métricas interpretables: Se requiere un enfoque que no solo detecte la presencia de IA, sino que cuantifique su influencia y rastree cómo varía según el modelo específico y el prompt utilizado.

2. Metodología

Los autores emplean un enfoque híbrido que combina análisis de tendencias temporales, simulación controlada y aprendizaje automático.

Datos:
- Se utilizó un conjunto de datos de arXiv (más de 2.9 millones de artículos) actualizado semanalmente.
- Se seleccionaron 2,000 resúmenes de artículos publicados entre enero y octubre de 2022 (antes del lanzamiento de ChatGPT) para usarlos como base de simulación.
Simulación:
- Se utilizaron 9 modelos LLM de cuatro familias principales (GPT, DeepSeek, Gemini, Claude) con fechas de lanzamiento entre 2022 y 2025.
- Se aplicaron dos tipos de prompts: uno corto (revisión ligera) y uno largo (edición profunda con rol de editor académico).
- Las tareas simuladas fueron: generación de títulos y reescritura de resúmenes.
Análisis de Frecuencia de Palabras (Enfoque Principal):
- Se modeló la frecuencia de una palabra $w$ en el tiempo $t$ como una tendencia lineal de base (pre-LLM) más un efecto perturbador introducido por los LLMs.
- Se estimó la proporción de texto generado por LLMs ( $\eta$ ) resolviendo un problema de optimización cuadrática que minimiza la diferencia entre la frecuencia observada en los datos reales y la frecuencia predicha basada en una mezcla de textos humanos y salidas de modelos específicos.
Análisis de Similitud y Clasificación:
- Se evaluó la similitud textual utilizando métricas léxicas (ROUGE-1, ROUGE-2, ROUGE-L) y semánticas (BERTScore).
- Se entrenaron clasificadores (BERT, GPT-2, T5, LLM2Vec) para distinguir entre textos humanos y los generados por diferentes LLMs, tanto en binaria como en multiclase.

3. Contribuciones Clave

Identificación de Cambios Léxicos Específicos: Se documentaron desplazamientos significativos en el uso de palabras.
- Aumento: Palabras como "beyond" y "via" han aumentado notablemente en los títulos, impulsadas por modelos más recientes (DeepSeek, GPT-5).
- Disminución: Palabras funcionales comunes como "the" y "of" han visto una reducción en su frecuencia en los resúmenes, sugiriendo que los LLMs tienden a evitarlas o reestructurar las oraciones para omitirlas.
- Evolución Dinámica: Se observó que palabras como "together" o "delve" muestran patrones de uso no lineales, reflejando la transición entre preferencias de modelos antiguos y nuevos.
Método de Estimación Cuantitativa: Propusieron un método lineal interpretable para estimar la proporción de uso de LLMs en la literatura académica, demostrando que el uso es heterogéneo y dinámico, en lugar de uniforme.
Evidencia de Homogeneización: Los resultados muestran que, aunque los modelos tienen "huellas dactilares" léxicas, la capacidad de los clasificadores para distinguir entre ellos disminuye a medida que los modelos se actualizan, especialmente en tareas multiclase.

4. Resultados Principales

Tendencias Temporales:
- La frecuencia de "via" en los títulos de arXiv comenzó a superar significativamente la tendencia lineal predicha a partir de 2025.
- La frecuencia de "the" y "of" en los resúmenes reales disminuyó por debajo de la proyección lineal, coincidiendo con la adopción masiva de LLMs.
Desempeño de Clasificadores:
- Binaria (Humano vs. IA): Los clasificadores alcanzan una precisión del 80-90%.
- Multiclase (Distinción entre modelos): La precisión cae drásticamente (alrededor del 60% o menos). Es común que los textos humanos sean clasificados erróneamente como generados por IA, y viceversa, debido a la superposición de estilos.
- Similitud: Los nuevos LLMs generan títulos y resúmenes que son léxicamente más similares a los originales (ROUGE más alto), pero no necesariamente semánticamente más precisos (BERTScore estable), lo que sugiere que están "suavizando" el texto humano en lugar de alterarlo drásticamente.
Heterogeneidad del Uso: La estimación de impacto revela que el uso de LLMs no es monolítico; varía según el modelo específico (ej. GPT-5 Nano muestra preferencias distintas a GPT-3.5) y el tipo de prompt.

5. Significado e Implicaciones

Más allá de la detección binaria: El artículo argumenta que centrarse únicamente en "¿lo escribió una IA?" es insuficiente. Es crucial entender cómo los LLMs están moldeando el estilo académico, creando un "estilo de IA" que evoluciona con el tiempo.
Advertencia sobre la Homogeneización: La tendencia de los modelos a converger en estilos similares y a reducir la variabilidad léxica (evitando ciertas palabras comunes) podría llevar a una estandarización no deseada de la escritura científica, dificultando la distinción entre autoría humana y artificial.
Nuevas Métricas: Se propone que el análisis de frecuencias de palabras comunes (incluso stopwords) es una herramienta robusta, interpretable y efectiva para monitorear el impacto de la IA en la ciencia, superando las limitaciones de los clasificadores de "caja negra" en escenarios del mundo real complejos.
Futuro de la Investigación: Se concluye que las herramientas de monitoreo deben evolucionar junto con los LLMs, adoptando perspectivas dinámicas que consideren la diversidad de modelos y la coevolución entre la escritura humana y la generada por máquinas.