Do Prevalent Bias Metrics Capture Allocational Harms from LLMs?

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é o dono de uma grande empresa e precisa contratar 10 pessoas para um time de 100 candidatos. Você usa um "assistente de IA" (um modelo de linguagem grande, como o GPT) para ler todos os currículos e dizer quais são os melhores.

O problema é: como sabemos se esse assistente está sendo justo?

Aqui está a explicação do artigo, transformada em uma história simples:

1. O Problema: A Diferença entre "Avaliar" e "Escolher"

Muitas pessoas acham que, se o assistente de IA der notas parecidas para todos os grupos (homens, mulheres, negros, brancos, asiáticos, hispânicos), então ele é justo. Eles usam uma régua chamada "Métrica de Viés".

A Analogia da Régua Imperfeita: Imagine que você está tentando medir se uma balança está desequilibrada. A maioria das métricas atuais olha apenas para a média dos pesos. Se a média dos homens for 70kg e a média das mulheres for 69kg, a régua diz: "Tudo bem, a diferença é pequena, a balança é justa".
A Realidade: Mas e se, na hora de escolher quem entra no elevador (que só cabe 10 pessoas), a balança empurrar todos os homens para o topo e todas as mulheres para o fundo? A média pode ser parecida, mas o resultado final (quem ganha o emprego) é totalmente injusto.

O artigo diz que as métricas atuais estão olhando apenas para a "média" (a previsão) e ignorando o "resultado" (a alocação de recursos).

2. O Experimento: O Teste de Currículos e Redações

Os autores do artigo (da Universidade da Virgínia) fizeram um teste prático:

Cenário 1 (Currículos): Eles criaram 100 currículos fictícios para 4 tipos de emprego (Engenheiro, RH, Analista Financeiro, Vendedor de Loja). Os currículos eram idênticos, exceto pelo nome (para indicar gênero e etnia).
Cenário 2 (Redações): Eles pediram para a IA corrigir redações de estudantes de diferentes países.

Eles usaram 10 modelos de IA diferentes (como Llama, Gemma, GPT) e pediram para eles ranquearem os candidatos. Depois, eles simularam a contratação: "Escolha os 2 melhores".

3. A Descoberta: As Métricas Antigas Estão "Cegas"

O que eles descobriram foi assustador:

As métricas tradicionais (que olham para a diferença média de notas ou a distância entre as distribuições) falharam em prever quem seria realmente prejudicado.
Em alguns casos, essas métricas diziam: "Este modelo é muito justo!" (nota baixa de viés), mas quando eles simularam a contratação, o modelo estava ignorando completamente um grupo específico de pessoas.
É como se um médico dissesse: "O paciente está saudável" (baseado na temperatura média do corpo), mas o paciente tivesse um ataque cardíaco silencioso que só apareceria na hora da cirurgia.

O Gráfico da Confusão: Eles mostraram que, para alguns grupos (como mulheres brancas em certas profissões), as métricas tradicionais diziam que não havia viés, mas a realidade mostrava que elas estavam sendo rejeitadas injustamente.

4. A Solução: A "Correlação de Ranqueamento"

Os autores propõem uma nova régua, chamada Correlação Bisserial de Ranqueamento (Rank-Biserial Correlation).

A Analogia da Corrida: Em vez de olhar apenas para a altura média dos corredores (nota média), essa nova métrica olha para quem cruzou a linha de chegada primeiro. Ela pergunta: "Quando a IA coloca o candidato A na frente do candidato B, ela está fazendo isso de forma consistente para todos os grupos?"
O Resultado: Essa nova métação funcionou como um "raio-X". Ela conseguiu prever com muita precisão (acima de 85-90% de correlação) quais modelos estavam realmente prejudicando grupos específicos na hora da seleção final.

5. Por que isso importa?

Vivemos em um mundo onde IAs estão sendo usadas para:

Decidir quem recebe um empréstimo bancário.
Decidir quem é chamado para uma entrevista de emprego.
Decidir quem recebe tratamento médico prioritário.

Se usarmos as "réguas antigas" para auditar essas IAs, podemos aprovar sistemas que parecem justos no papel, mas que, na prática, tiram oportunidades de pessoas reais.

Resumo da Ópera:
Não basta olhar para a nota média que a IA dá. É preciso olhar para quem a IA está escolhendo quando os recursos são limitados. As ferramentas atuais de medição de justiça estão falhando nessa tarefa, e os autores nos dão uma nova ferramenta (a Correlação de Ranqueamento) para garantir que a "fita métrica" realmente meça a justiça na hora da decisão final.

Each language version is independently generated for its own context, not a direct translation.

Título: As Métricas de Viés Prevalentes Capturam Danos Alocacionais de LLMs?

Autores: Hannah Cyberey, Yangfeng Ji, David Evans (Universidade da Virgínia)

1. O Problema

O artigo aborda uma lacuna crítica na avaliação de justiça (fairness) em Grandes Modelos de Linguagem (LLMs). Embora existam diversas métricas para medir viés, a maioria foca nas previsões do modelo (ex: pontuações de probabilidade ou classificações binárias) e ignora como essas previsões são traduzidas em decisões reais que afetam a alocação de recursos.

Danos Alocacionais: Ocorrem quando grupos específicos são injustamente privados de recursos ou oportunidades (ex: empréstimos, contratações, triagem médica) devido a decisões automatizadas.
A Lacuna: Métricas tradicionais medem a disparidade média nas previsões, mas não capturam a disparidade nos resultados finais de alocação (quem realmente é selecionado). Em cenários onde recursos são limitados (ex: apenas $k$ vagas para $n$ candidatos), uma pequena diferença nas pontuações pode não resultar em danos, enquanto uma grande diferença pode não ser capturada se a métrica não considerar o processo de seleção (ranking/quota).
Risco: Auditorias que usam métricas inadequadas podem declarar um modelo como "justo" quando, na prática, ele perpetua desigualdades alocacionais significativas.

2. Metodologia

Os autores propõem uma avaliação da validade preditiva das métricas de viés existentes em relação aos danos alocacionais reais.

Tarefas de Avaliação

Dois cenários de alocação foram simulados:

Triagem de Currículos (Resume Screening): O modelo avalia se um candidato é adequado para uma vaga (Saída: {Sim, Não}).
- Grupos: Combinações de Gênero (F/M) e Raça/Etnia (Branco, Preto, Asiático, Hispano).
- Conjunto de dados: Currículos gerados com nomes variados para 4 posições reais.
Correção de Redação (Essay Grading): O modelo classifica redações em uma escala de 1 a 5.
- Grupos: Falantes nativos (L1) vs. Falantes de inglês como segunda língua (L10 de países asiáticos).
- Conjunto de dados: ICNALE (International Corpus Network of Asian Learners of English).

Configuração Experimental

Modelos: 10 LLMs de tamanhos e arquiteturas variados (incluindo Llama 2/3, Gemma, StableLM, TinyLlama, etc.).
Mecanismo de Decisão: O problema é tratado como um problema de ranking top-k. Os candidatos são ordenados pelas pontuações de previsão do modelo e os top- $k$ são selecionados.
Métricas de Viés Testadas (Entrada):
- Gap de Desempenho Médio ( $\delta$ ): Diferença média de pontuação entre grupos.
- Métricas Baseadas em Distribuição: Divergência Jensen-Shannon (JSD) e Distância Earth Mover's (EMD).
- Correlação Bisserial de Rank (RB): Métrica proposta como alternativa, medindo a correlação entre a pertença ao grupo e o ranking.
Métricas de Dano Alocacional (Saída/Verdade):
- Paridade Demográfica ( $\Delta DP$ ): Diferença na proporção de candidatos selecionados entre grupos.
- Oportunidade Igual ( $\Delta EO$ ): Diferença na taxa de seleção de candidatos qualificados entre grupos.

Métricas de Avaliação

Para verificar se as métricas de viés preveem corretamente os danos, os autores calcularam:

Correlação de Pearson: Entre as pontuações das métricas de viés e os gaps de alocação reais.
NDCG (Normalized Discounted Cumulative Gain): Para avaliar a utilidade das métricas na seleção de modelos. Compara-se o ranking de modelos feito pela métrica de viés com um "ranking ideal" baseado nos gaps de alocação reais.

3. Contribuições Principais

Evidência de Falha das Métricas Atuais: Demonstram que métricas baseadas em gaps de desempenho médio e distância de distribuição falham em capturar disparidades reais em resultados de alocação, especialmente em tarefas com distribuições de pontuação desbalanceadas (como triagem de currículos).
Inconsistência entre Grupos: Mostram que métricas comuns podem identificar modelos com maiores disparidades como "menos enviesados" e apresentar correlações inconsistentes (até negativas) entre diferentes grupos demográficos.
Proposta de Nova Métrica: Introduzem a Correlação Bisserial de Rank (Rank-Biserial Correlation - RB) como uma alternativa robusta. Esta métrica demonstra uma forte correlação com os gaps de alocação reais.
Análise de Distribuição: Identificam que a falha das métricas tradicionais está ligada à assimetria (skewness) e curtose das distribuições de pontuação dos modelos, que desviam da normalidade esperada.

4. Resultados

Validade Preditiva

Correlação: A métrica RB apresentou correlação forte ( $\ge 0.86$ ) com os gaps de alocação ( $\Delta DP$ e $\Delta EO$ ) em ambas as tarefas.
Falha das Métricas Tradicionais:
- No teste de Triagem de Currículos, as métricas $\delta$ , JSD e EMD mostraram correlação próxima de zero ou negativa com os gaps de alocação.
- No teste de Correção de Redação, houve alguma correlação razoável, mas ainda inferior à RB. Isso é atribuído a uma distribuição de pontuações mais equilibrada nessa tarefa.
Gráfico 1 (Figura 1): Mostra que modelos podem ter $\delta \approx 0$ (sem viés aparente na média) mas apresentar grandes gaps de alocação ( $\Delta DP$ alto), indicando que a métrica média esconde o dano real.

Utilidade para Seleção de Modelos

NDCG: Ao tentar selecionar o modelo mais justo, a métrica RB conseguiu identificar o modelo ideal com alta precisão (NDCG@10 $\ge 0.95$ ).
Risco de Auditoria: Métricas tradicionais frequentemente ranqueiam modelos mais enviesados (com maiores danos reais) como mais justos. A Figura 3 ilustra como a RB alinha-se melhor com a verdade, enquanto outras métricas invertem a ordem de justiça.

Análise por Grupo

As métricas tradicionais exibiram comportamentos inconsistentes entre grupos (ex: subestimando o dano para mulheres brancas e superestimando para homens hispânicos). A RB manteve consistência entre todos os grupos.

Análise de Distribuição (Figura 6)

A tarefa de triagem de currículos apresentou distribuições de pontuação altamente assimétricas (esquerda) e com caudas pesadas (kurtose alta). Isso explica por que métricas baseadas em médias ou distâncias de distribuição falham: elas não são robustas a outliers e desvios de normalidade que ocorrem em cenários de alocação real.

5. Significado e Conclusão

O trabalho conclui que auditorias de viés baseadas apenas em previsões de modelos são insuficientes para garantir a justiça em aplicações de alto risco onde recursos são limitados.

Implicação Prática: Reguladores e desenvolvedores não devem confiar cegamente em métricas como "gap de precisão" ou "divergência de distribuição" para aprovar modelos para contratação ou empréstimos.
Recomendação: É necessário incorporar métricas que considerem o processo de decisão final (como a Correlação Bisserial de Rank) e simular cenários de alocação (top-k) durante a avaliação.
Impacto Social: O uso de métricas inadequadas pode levar à implantação de sistemas que, embora pareçam justos em testes estatísticos padrão, continuam a perpetuar desigualdades sistêmicas na distribuição de oportunidades.

Em suma, o artigo defende uma mudança de paradigma: a medição de viés deve evoluir de "como o modelo prevê" para "como o modelo afeta a alocação de recursos".