CREMD: Crowd-Sourced Emotional Multimodal Dogs Dataset

El artículo presenta CREMD, un conjunto de datos multimodal de perros creado mediante crowdsourcing que analiza cómo el contexto visual, el audio y las características de los anotadores influyen en la percepción y el etiquetado de las emociones caninas, revelando que el contexto visual mejora el acuerdo, los no propietarios y los hombres muestran mayor consenso que sus contrapartes, y el audio aumenta la confianza en la identificación de emociones específicas.

Jinho Baek, Houwei Cao, Kate Blackwell

Publicado 2026-02-18
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que hemos creado un gran laboratorio de detectives caninos, pero en lugar de usar lupas y huellas dactilares, usamos videos de internet y los ojos de personas de todo tipo.

Aquí tienes la historia de este proyecto, llamada CREMD, explicada de forma sencilla:

🐕 La Gran Misión: ¿Qué siente tu perro?

Todos hemos pensado alguna vez: "¿Está mi perro feliz, asustado o enojado?". Entender las emociones de los perros es vital para cuidarlos mejor, pero es muy difícil. ¿Por qué? Porque los perros no hablan y sus caras a veces son confusas. Además, no hay un "manual de instrucciones" oficial que diga qué significa exactamente un movimiento de oreja.

Para solucionar esto, los investigadores crearon una base de datos gigante (llamada CREMD) con 923 videos de perros.

🎥 El Experimento: Tres formas de ver la película

Para entender cómo percibimos las emociones, mostraron estos videos de tres formas diferentes, como si fueran tres versiones de una misma película:

  1. La versión "Mudo y Sin Escenario" (NCNA): Solo ves al perro de cerca, sin fondo y sin sonido. Es como mirar una foto borrosa.
  2. La versión "Con Escenario pero Mudo" (YCNA): Ves al perro y dónde está (en el parque, en casa), pero no escuchas nada.
  3. La versión "Cine Completo" (YCYA): Ves al perro, el escenario y escuchas todo (ladridos, gemidos, risas).

👥 Los Detectives: ¿Quién es mejor leyendo a los perros?

Invitaron a 23 personas a ver estos videos y decir qué sentía el perro. Pero no eran cualquiera; eran un grupo mixto:

  • Dueños de perros (los que aman a sus mascotas).
  • No dueños (gente que no tiene perro).
  • Expertos (adiestradores, veterinarios).
  • Hombres y mujeres.

¡Y aquí viene la sorpresa! Esperaban que los dueños y los expertos fueran los mejores detectives. Pero ocurrió algo curioso:

  • Los no dueños y los hombres fueron más acordes entre sí. Es decir, si uno decía "está enojado", los demás también.
  • Los dueños y las mujeres fueron un poco más diversos en sus opiniones. A veces veían más matices o emociones mezcladas.
  • Los expertos (los profesionales) sí fueron los más acordes, tal como esperaban.

La analogía: Imagina que miras una nube.

  • Un experto (o un no dueño muy objetivo) dice: "Esa nube es una montaña". Todos están de acuerdo.
  • Un dueño (que conoce a su perro) dice: "Esa nube parece mi perro cuando tiene miedo, pero también parece que quiere jugar". Como cada dueño tiene su propia experiencia, ven cosas diferentes y es más difícil que todos digan lo mismo.

🎧 El Sonido: ¿Ayuda o confunde?

  • El contexto visual (ver dónde está el perro): ¡Ayuda mucho! Cuando la gente veía el escenario, se ponían más de acuerdo.
  • El audio: Aquí hubo un problema técnico. Como la mayoría de los videos de internet tienen música de fondo o ruido, no pudieron probar bien si el sonido ayuda a entender la emoción sin ver el contexto. Sin embargo, cuando sí se escuchaba el sonido (como un gruñido), la gente tenía más seguridad en decir "¡Está enojado!" o "¡Está asustado!".

🧠 ¿Qué aprendimos de todo esto?

  1. Ver el escenario ayuda: Saber si el perro está en un parque o en una clínica veterinaria nos ayuda a entender mejor lo que siente.
  2. La experiencia cambia la visión: Los dueños de perros a veces proyectan sus propios sentimientos en el animal, lo que hace que sus opiniones sean más variadas (y menos "de acuerdo" entre sí).
  3. Los expertos son consistentes: Quienes trabajan con perros tienen un "mapa mental" más claro de sus emociones.
  4. Confianza: El sonido hace que la gente se sienta más segura al etiquetar emociones fuertes como el miedo o la ira.

🌟 En resumen

Este estudio es como un mapa del tesoro para la inteligencia artificial y los científicos. Nos dice que para enseñar a las computadoras a entender a los perros, no basta con mostrarles fotos; hay que darles contexto, sonido y, sobre todo, tener en cuenta que diferentes personas "leen" a los perros de formas distintas.

El objetivo final es crear herramientas que ayuden a los veterinarios y a los dueños a entender mejor a sus mejores amigos, asegurando que los perros estén felices y sanos. ¡Y todo gracias a un montón de videos y a gente dispuesta a ponerle atención a las orejas de los perros! 🐾

Recibe artículos como este en tu bandeja de entrada

Resúmenes diarios o semanales personalizados según tus intereses. Gists o resúmenes técnicos, en tu idioma.

Probar Digest →