Customizing Visual Emotion Evaluation for MLLMs: An Open-vocabulary, Multifaceted, and Scalable Approach

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um grupo de robôs superinteligentes (chamados de MLLMs) que conseguem ver fotos, ler textos e conversar como humanos. Eles são incríveis em muitas coisas, mas os cientistas estavam em dúvida: será que eles realmente "sentem" ou entendem as emoções nas fotos?

Até agora, a forma de testar isso era como um teste de múltipla escolha muito rígido. Era como perguntar a um robô: "Qual é a emoção desta foto? A) Tristeza, B) Alegria, C) Raiva". Se o robô dissesse "Alegria" e a resposta certa fosse "Alegria com um toque de nostalgia", o robô era marcado como errado. Isso não funcionava bem, porque emoções humanas são complexas e subjetivas.

Este novo artigo, apresentado na conferência ICLR 2026, propõe uma maneira muito mais inteligente e flexível de testar esses robôs. Vamos usar algumas analogias para entender como eles fizeram isso:

1. O Problema: O Teste de "Sim ou Não" vs. A Realidade

Antes, os testes eram como um jogo de "Verdadeiro ou Falso" onde as perguntas eram muito fechadas.

O problema: Se você mostra uma foto de um bombeiro salvando alguém, um humano pode sentir "coragem", mas também "medo" ou "urgência". O teste antigo forçava o robô a escolher apenas uma palavra. Se ele explicasse o contexto, o teste dizia que ele estava errado.
A solução dos autores: Em vez de perguntar "Qual é a emoção?", eles criaram um jogo de julgamento de frases. Eles escrevem uma frase sobre a foto (ex: "Esta imagem pode evocar coragem porque mostra um bombeiro em ação") e perguntam ao robô: "Esta frase faz sentido para esta foto?".
- Analogia: É como se um professor dissesse a um aluno: "Aqui está uma frase sobre a história que lemos. Você concorda que ela está correta?". Isso permite que o robô mostre que ele entende o contexto, não apenas uma palavra-chave.

2. A Ferramenta Mágica: O "INSETS" (O Chef de Emoções)

Para criar milhares dessas frases de teste sem precisar de milhares de pessoas escrevendo à mão (o que seria caro e demorado), eles criaram um sistema automatizado chamado INSETS.

Como funciona: Imagine que o INSETS é um chef de cozinha robótico.
1. Ele pede a vários robôs diferentes que olhem para uma foto e digam o que sentem (como "alegria", "nostalgia", "tensão").
2. Ele pega todas essas opiniões e as organiza em uma "prateleira de emoções" gigante e organizada (baseada em teorias psicológicas reais).
3. Depois, ele usa essas emoções para escrever automaticamente milhares de frases de teste, criando cenários, personagens e contextos diferentes.
O resultado: Eles criaram um banco de dados gigante (462.000 amostras) chamado INSETS-462k, que foi depois refinado por humanos para garantir qualidade.

3. O Grande Teste: O MVEI (A Prova Final)

Com esse banco de dados, eles criaram o MVEI, que é como uma Olimpíada de Inteligência Emocional para robôs. O teste não olha apenas se o robô acerta a palavra, mas se ele entende quatro coisas diferentes:

O "Tom" da foto: É algo feliz ou triste? (Polaridade)
O "Porquê": Por que a foto gera essa emoção? (Interpretação)
O Cenário: Como o lugar onde a foto foi tirada muda a emoção? (Contexto)
A Visão Pessoal: Uma pessoa de 30 anos sentiria a mesma coisa que uma criança? (Subjetividade)

4. O Que Eles Descobriram?

Eles testaram os robôs mais famosos do mundo (como o GPT-4o) contra humanos.

O Resultado: Os robôs são muito bons em entender o básico. Eles sabem dizer se uma foto é triste ou feliz e conseguem explicar o motivo (ex: "está chovendo, por isso é triste").
O Problema: Eles ainda não são humanos.
- Eles têm dificuldade em entender que a mesma foto pode ser vista de formas diferentes por pessoas diferentes (subjetividade).
- Eles ainda confundem um pouco quando a emoção é mista (feliz e triste ao mesmo tempo).
- Comparação: Se a nota dos humanos fosse 92, os melhores robôs tiraram cerca de 78. Eles estão indo bem, mas ainda têm um longo caminho para percorrer.

5. Por que isso importa?

Os autores dizem que, para os robôs serem verdadeiramente inteligentes e úteis para nós (como em terapia, educação ou arte), eles precisam entender não apenas o que vemos, mas como nos sentimos ao ver.

Em resumo:
Este trabalho criou um novo "olho crítico" para testar a inteligência emocional dos robôs. Em vez de forçá-los a escolher uma única palavra, eles agora conversam com eles sobre o que sentem, permitindo que os robôs mostrem sua verdadeira compreensão (ou falta dela) das emoções humanas. É um passo gigante para fazer com que a tecnologia não apenas "veja" o mundo, mas "sinta" como nós.

Customizing Visual Emotion Evaluation for MLLMs: An Open-vocabulary, Multifaceted, and Scalable Approach

1. O Problema: O Teste de "Sim ou Não" vs. A Realidade

2. A Ferramenta Mágica: O "INSETS" (O Chef de Emoções)

3. O Grande Teste: O MVEI (A Prova Final)

4. O Que Eles Descobriram?

5. Por que isso importa?

1. O Problema

2. Metodologia

A. Tarefa: Julgamento de Declaração de Emoção (ESJ - Emotion Statement Judgment)

B. Pipeline de Anotação: INSETS

3. Contribuições Principais

4. Resultados

5. Significado e Impacto

Customizing Visual Emotion Evaluation for MLLMs: An Open-vocabulary, Multifaceted, and Scalable Approach

1. O Problema: O Teste de "Sim ou Não" vs. A Realidade

2. A Ferramenta Mágica: O "INSETS" (O Chef de Emoções)

3. O Grande Teste: O MVEI (A Prova Final)

4. O Que Eles Descobriram?

5. Por que isso importa?

1. O Problema

2. Metodologia

A. Tarefa: Julgamento de Declaração de Emoção (ESJ - Emotion Statement Judgment)

B. Pipeline de Anotação: INSETS

3. Contribuições Principais

4. Resultados

5. Significado e Impacto

Mais como este

Model2Kernel: Model-Aware Symbolic Execution For Safe CUDA Kernels

Algorithmic Barriers to Detecting and Repairing Structural Overspecification in Adaptive Data-Structure Selection

Zero-Cost NDV Estimation from Columnar File Metadata

Persistence-based topological optimization: a survey

Multi-LLM Query Optimization