Each language version is independently generated for its own context, not a direct translation.

Imagina que cuatro grandes bancos estatales de Bangladesh (como cuatro gigantes que manejan el dinero de millones de personas) han lanzado sus propias aplicaciones móviles. Ahora, imagina que miles de usuarios han dejado "cartas de opinión" en la tienda de aplicaciones (Google Play), quejándose o felicitando a los bancos.

El problema es que estas cartas están escritas en dos idiomas: inglés y bengalí (el idioma local), y a veces mezclan ambos. Además, hay mucho ruido: algunos usuarios escriben con emojis, otros con abreviaturas, y muchos usan el bengalí escrito con letras latinas (como si escribieran en español usando el teclado inglés).

Los autores de este estudio, un equipo de científicos de datos, decidieron actuar como detectives digitales para entender qué está pasando realmente. Aquí te explico su investigación como si fuera una historia:

1. El Gran Tamiz (Recopilación de Datos)

Primero, recolectaron más de 11,000 reseñas. Pero, como en una fiesta donde hay mucha gente hablando a la vez, había mucho "ruido" (duplicados, idiomas extraños, textos vacíos).

La analogía: Imagina que tienen una red de pesca gigante. Tiran la red al mar de reseñas y sacan 11,414 peces. Luego, filtran los peces rotos o que no son del tipo que buscan. Al final, les quedan 5,652 reseñas limpias (la mayoría en inglés, pero una parte importante en bengalí) para analizar.

2. El Dilema de los Traductores (El Desafío del Idioma)

Aquí surge el primer gran problema. La mayoría de los "traductores automáticos" (modelos de Inteligencia Artificial) son expertos en inglés, pero no tanto en bengalí.

La analogía: Es como tener un chef famoso que es un genio cocinando pasta italiana (inglés), pero cuando le pides que cocine un plato tradicional bengalí, se le quema la comida. El estudio descubrió que la IA entendía las reseñas en inglés mucho mejor que las del bengalí. ¡Hubo una diferencia de un 16% en la calidad de la comprensión! Esto es peligroso porque significa que las quejas de los usuarios rurales (que hablan bengalí) podrían ser ignoradas o malinterpretadas por el sistema.

3. La Carrera de Caballos (Comparando Modelos)

Para clasificar si una reseña es buena (positiva) o mala (negativa), probaron dos tipos de "jueces":

Los Veteranos (Modelos Clásicos): Son como los jueces de toda la vida, que usan reglas simples y probadas (como Random Forest o SVM).
Los Genios Modernos (Transformadores/XLM-RoBERTa): Son como superordenadores entrenados con millones de libros, capaces de entender matices complejos.

¿Quién ganó?
¡Sorprendentemente, los Veteranos ganaron!

Los modelos clásicos fueron más precisos y rápidos que los "superordenadores" en este caso específico.
¿Por qué? Porque los superordenadores necesitan una cantidad enorme de datos para aprender. Como el banco solo tenía unas pocas miles de reseñas limpias (y muchas en bengalí), el "genio moderno" se confundió un poco, mientras que el "juez veterano" se mantuvo firme con las reglas básicas.

4. El Diagnóstico Médico (¿Qué duele?)

Usando una herramienta especial (DeBERTa), los investigadores hicieron un "chequeo médico" a cada aplicación para ver qué partes estaban enfermas.

Los síntomas principales: La gente estaba furiosa por dos cosas:
1. La velocidad: Las transacciones eran lentas como un caracol.
2. El diseño: Las aplicaciones eran difíciles de usar, como un coche con el volante al revés.
El paciente más enfermo: La aplicación llamada eJanata fue la peor de todas. Recibió las peores calificaciones y las quejas más fuertes sobre su lentitud y diseño.

5. Las Recomendaciones (El Plan de Recuperación)

Basándose en todo esto, los autores dan tres consejos de oro para los bancos:

Arreglen la "máquina": Antes de lanzar una nueva versión de la app, deben asegurarse de que sea rápida y fácil de usar. No basta con lanzar algo nuevo; hay que probarlo bien.
Gestión de la confianza: Cuando lanzan una actualización, la gente se queja mucho. Deben ser más cuidadosos, hacer pruebas con un grupo pequeño primero (como un "grupo beta") y ser honestos sobre la seguridad.
Justicia lingüística (Lo más importante): Deben crear sistemas de Inteligencia Artificial que entiendan el bengalí tan bien como el inglés. Si no lo hacen, están discriminando a los usuarios que no hablan inglés, que suelen ser los más pobres o de zonas rurales.

En Resumen

Este estudio nos dice que, a veces, la tecnología más avanzada no es la mejor solución si no tienes suficientes datos para alimentarla. También nos advierte que, si no prestamos atención a los idiomas locales (como el bengalí), estamos dejando atrás a una gran parte de la población que depende de estos bancos para su vida diaria.

Es un llamado a que los bancos no solo pongan dinero en la tecnología, sino que también inviertan en entender a sus usuarios, especialmente a aquellos que hablan su propio idioma.

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: Enfoque Multi-Modelo para la Clasificación de Sentimientos en Reseñas de Aplicaciones de Banca Móvil (Inglés-Bangla)

1. Planteamiento del Problema

En las economías en desarrollo, la calidad de las aplicaciones de banca móvil es un factor determinante para el acceso financiero. En Bangladesh, millones de usuarios dependen de cuatro bancos estatales (Sonali, Agrani, Janata y Rupali) para sus servicios financieros. Sin embargo, el análisis automatizado de las reseñas de usuarios en la Google Play Store enfrenta desafíos significativos:

Multilingüismo y Código: Las reseñas contienen una mezcla de inglés, bangla escrito y bangla romanizado, lo que dificulta el uso de pipelines monolingües y requiere traducción que introduce ruido.
Brecha de Investigación: No existían estudios que analizaran las reseñas de los cuatro bancos estatales utilizando un corpus bilingüe unificado ni que compararan modelos clásicos frente a transformadores modernos en este dominio específico.
Equidad Lingüística: Existe un riesgo de que los sistemas automatizados sirvan peor a los usuarios que escriben en bangla debido a la falta de modelos adaptados a recursos bajos.

2. Metodología

A. Recopilación y Preprocesamiento de Datos

Fuente: Se extrajeron 11,414 reseñas de la Google Play Store (enero 2021 - diciembre 2025) para cuatro aplicaciones: Sonali e-Wallet, Agrani Smart, eJanata y Rupali e-Bank.
Limpieza: Tras eliminar duplicados, ruido y reseñas en idiomas no detectados, se conservó un corpus bilingüe de 5,652 reseñas (80.1% inglés, 19.9% bangla).
Etiquetado Híbrido: Para minimizar el ruido de las etiquetas, se utilizó un enfoque de consenso:
1. Se asignó una etiqueta basada en la puntuación de estrellas (1-2: negativo, 3: neutral, 4-5: positivo).
2. Se filtró con un clasificador independiente XLM-RoBERTa.
3. Solo se mantuvieron las muestras donde ambas fuentes coincidían (2,957 instancias de entrenamiento), logrando un acuerdo moderado ( $\kappa = 0.459$ ).

B. Arquitectura de Modelos

Se evaluaron tres vías de clasificación paralelas en un conjunto de prueba de 1,131 ejemplos:

Modelos Clásicos: Cuatro algoritmos basados en TF-IDF (Naïve Bayes, SVM Lineal, Regresión Logística, Random Forest).
Transformador "Off-the-Shelf" (OTS): XLM-RoBERTa preentrenado sin ajuste fino específico.
Transformador Ajustado (Fine-Tuned): XLM-RoBERTa ajustado durante 3 épocas en el conjunto de entrenamiento de consenso.

C. Análisis de Sentimiento Basado en Aspectos (ABSA)

Se utilizó el modelo DeBERTa-v3 (ajustado en datos de SemEval) para extraer sentimientos a nivel de aspecto en seis dimensiones: UI/UX, Seguridad, Velocidad/Desempeño, Servicio al Cliente, Características y Procesamiento de Transacciones.

3. Contribuciones Clave

Dataset Bilingüe: Creación del primer corpus bilingüe (inglés-bangla) específico para evaluar la experiencia de usuario en aplicaciones de banca estatal de Bangladesh.
Comparación Sistemática: Evaluación rigurosa de modelos clásicos frente a transformadores, utilizando pruebas de McNemar e intervalos de confianza bootstrap para determinar la significancia estadística.
Análisis de Aspectos: Identificación de las dimensiones de servicio que generan mayor insatisfacción mediante DeBERTa-v3.
Evaluación de Equidad: Cuantificación de la brecha de rendimiento entre el inglés y el bangla, destacando la necesidad de modelos de bajo recurso.
Recomendaciones de Política: Propuestas basadas en datos para mejorar la gestión de servicios bancarios estatales.

4. Resultados Principales

Rendimiento de los Modelos

Modelos Clásicos Superiores: Contrario a la tendencia general en NLP, los modelos clásicos superaron a los transformadores en este dominio específico.
- Random Forest: Mayor precisión (0.815).
- SVM Lineal: Mayor puntuación F1 ponderada (0.804).
- XLM-RoBERTA Ajustado: Logró un F1 de 0.793.
- XLM-RoBERTA OTS: El peor rendimiento con un F1 de 0.740.
Significancia Estadística: La prueba de McNemar confirmó que los modelos clásicos son significativamente superiores a la versión OTS ( $p < 0.001$ ), aunque la diferencia con la versión ajustada no fue estadísticamente significativa, atribuida al tamaño limitado del conjunto de entrenamiento de consenso.

Análisis de Sentimiento por Aplicación

eJanata: Fue la aplicación peor calificada, con la puntuación de sentimiento negativo más alta (NSS = 80.4%) y la calificación promedio más baja (2.20).
Rupali e-Bank: La mejor calificada (PSS = 58.4%).
Causas de Insatisfacción: Los aspectos críticos fueron Velocidad/Desempeño y UI/UX. En eJanata, el 61.3% de las menciones de velocidad fueron negativas.
Seguridad: Aunque las quejas de seguridad fueron menos frecuentes (18.7-31.8%), generaron una cantidad desproporcionadamente alta de "me gusta" (thumbs-up), indicando una preocupación profunda del usuario.

Brecha Lingüística (Inglés vs. Bangla)

Se observó una brecha alarmante de 16.1 puntos porcentuales en la precisión entre el inglés (0.715) y el bangla (0.554) para el modelo ajustado.
Causas: Corpus de preentrenamiento dominado por inglés, fragmentación de tokens en bangla y variabilidad ortográfica del bangla informal. Esto plantea un problema de equidad, ya que los usuarios rurales o menos conectados digitalmente recibirían etiquetas de menor calidad.

Tendencias Temporales

De 2021 a 2025, la polaridad negativa aumentó un 17%.
Los picos de negatividad están fuertemente correlacionados con las actualizaciones de la aplicación, aunque los parches posteriores solo reducen temporalmente la insatisfacción.

5. Significancia y Recomendaciones de Política

El estudio ofrece tres recomendaciones estratégicas para los bancos estatales de Bangladesh:

Remediación de Calidad: Establecer Acuerdos de Nivel de Servicio (SLA) estrictos para el rendimiento y la velocidad, y realizar pruebas de usabilidad bilingües antes de los lanzamientos.
Gestión de Lanzamientos Basada en la Confianza: Implementar estrategias de despliegue escalonado (beta-testing) y divulgar proactivamente los resultados de auditorías de seguridad para mitigar los picos de desconfianza tras las actualizaciones.
Adopción de NLP "Bangla-First": Para garantizar la equidad, es imperativo utilizar modelos adaptados al dominio en bangla (como BanglaBERT) en los sistemas de enrutamiento de quejas, evitando que los usuarios de habla bangla sean sistemáticamente mal atendidos por la tecnología.

Conclusión

El estudio demuestra que, en contextos de recursos limitados y datos bilingües desequilibrados, los modelos clásicos pueden superar a los transformadores masivos. Además, resalta una brecha crítica de rendimiento lingüístico que requiere atención inmediata para evitar la exclusión digital de las poblaciones que dependen de servicios bancarios estatales en Bangladesh.

A Multi-Model Approach to English-Bangla Sentiment Classification of Government Mobile Banking App Reviews