Automated Coding of Communications in Collaborative Problem-solving Tasks Using ChatGPT

Each language version is independently generated for its own context, not a direct translation.

Imagine que você e um amigo estão tentando resolver um quebra-cabeça complexo juntos, conversando por um chat de texto. Para entender como vocês estão colaborando (se estão discutindo, ajudando, ou apenas dizendo "oi"), os pesquisadores precisam ler cada mensagem e classificar o que está acontecendo.

Antigamente, isso era feito por humanos, lendo milhares de mensagens. Era como tentar encher um balde com uma colher de chá: demorado, caro e cansativo.

Este artigo da ETS (Instituto de Pesquisa Educacional) pergunta: "E se pudéssemos usar a inteligência artificial (o ChatGPT) para fazer esse trabalho de classificação?"

Aqui está a explicação do que eles descobriram, usando analogias do dia a dia:

1. O Grande Experimento: O "Estagiário" vs. O "Mestre"

Os pesquisadores pegaram 5 tarefas diferentes (algumas sobre ciências, como vulcões e condensação; outras sobre habilidades gerais, como negociar um evento ou escolher um apartamento). Eles pediram para diferentes versões do ChatGPT (o GPT-4, o GPT-4o e os novos modelos de "raciocínio" o1 e o3) lerem as conversas e classificá-las.

A Analogia: Imagine que os humanos são chefs mestres e o ChatGPT é um estagiário muito inteligente. O objetivo era ver se o estagiário conseguia cortar as verduras (classificar as mensagens) tão bem quanto o chef.

2. O Que Eles Descobriram?

A. Nem sempre o "mais novo" é o melhor

Eles testaram os modelos mais recentes e caros, que prometem "pensar mais" antes de responder (os modelos o1 e o3).

O Resultado: Surpreendentemente, esses modelos de "super-raciocínio" não foram melhores do que o modelo padrão (GPT-4o).
A Analogia: É como contratar um consultor financeiro que passa 3 horas analisando cada centavo para decidir se você deve comprar um café. Às vezes, um atendente rápido e experiente (o GPT-4o) faz o trabalho de classificar a conversa tão bem quanto, ou até melhor, gastando menos tempo e dinheiro.

B. O "Livro de Regras" importa mais que o "Cérebro"

O desempenho do ChatGPT dependeu muito de como as regras de classificação foram escritas.

Regras Teóricas (Livro Abstrato): Quando as regras eram muito abstratas e baseadas apenas em teoria (como "negociar ideias"), o ChatGPT se confundiu.
Regras Práticas (Livro de Exemplos): Quando as regras vinham com muitos exemplos reais e eram mais diretas, o ChatGPT acertou quase tanto quanto os humanos.
A Analogia: Se você der a um robô um livro de filosofia sobre "o que é ser gentil", ele pode errar. Mas se você der a ele um manual com fotos de pessoas sorrindo e dizendo "obrigado", ele entende perfeitamente. O ChatGPT precisa de exemplos concretos, não apenas de teoria.

C. O Problema do "Vocabulário de Especialista"

Nas tarefas de ciências (vulcões, moléculas), o ChatGPT teve um pouco mais de dificuldade, especialmente quando havia muitos termos técnicos.

A Analogia: É como pedir para alguém classificar conversas de médicos usando termos de anatomia. Se a pessoa não é médica, pode se perder nos detalhes. O ChatGPT entende bem o "idioma comum", mas às vezes tropeça no "idioma técnico" se não for bem orientado.

D. A Técnica do "Feedback" (Corrigir o Erro)

Eles tentaram uma estratégia: pegaram os erros que o ChatGPT cometeu, explicaram para ele onde errou e pediram para tentar de novo.

O Resultado: Funcionou em alguns casos (como na tarefa do Vulcão), melhorando a pontuação. Mas em outros casos (Condensação), não fez diferença, porque o modelo já estava fazendo o melhor possível com as instruções originais.
A Analogia: É como dar uma dica a um jogador de videogame. Às vezes, a dica faz ele passar de fase. Outras vezes, ele já sabia o caminho e a dica só o distraiu.

3. Conclusão: O ChatGPT é o Novo Chefe?

Não exatamente. O estudo diz que o ChatGPT é um excelente assistente, mas ainda não deve substituir totalmente o humano.

O que ele faz bem: Pode ler milhares de conversas rapidamente, reduzindo o custo e o tempo de pesquisa em 90%. Ele é ótimo para tarefas com regras claras e exemplos práticos.
Onde ele falha: Em nuances muito sutis, em regras muito abstratas ou em contextos onde a "intenção" humana é complexa e não está escrita nas regras.

Resumo Final:
Pense no ChatGPT como um estagiário super-rápido e barato. Se você der a ele instruções claras com exemplos (e não apenas teoria), ele fará o trabalho braçal de classificar as conversas tão bem quanto um humano. Isso permite que os pesquisadores foquem no que realmente importa: analisar os resultados e melhorar o ensino, em vez de perderem meses apenas lendo e classificando textos.

O futuro da avaliação de habilidades sociais não é "humanos vs. robôs", mas sim humanos + robôs trabalhando juntos.

Automated Coding of Communications in Collaborative Problem-solving Tasks Using ChatGPT

1. O Grande Experimento: O "Estagiário" vs. O "Mestre"

2. O Que Eles Descobriram?

A. Nem sempre o "mais novo" é o melhor

B. O "Livro de Regras" importa mais que o "Cérebro"

C. O Problema do "Vocabulário de Especialista"

D. A Técnica do "Feedback" (Corrigir o Erro)

3. Conclusão: O ChatGPT é o Novo Chefe?

Resumo Técnico: Codificação Automatizada de Comunicações em Tarefas de Resolução de Problemas Colaborativos (CPS) usando ChatGPT

1. O Problema

2. Metodologia

3. Principais Contribuições e Resultados

4. Significância e Implicações

Automated Coding of Communications in Collaborative Problem-solving Tasks Using ChatGPT

1. O Grande Experimento: O "Estagiário" vs. O "Mestre"

2. O Que Eles Descobriram?

A. Nem sempre o "mais novo" é o melhor

B. O "Livro de Regras" importa mais que o "Cérebro"

C. O Problema do "Vocabulário de Especialista"

D. A Técnica do "Feedback" (Corrigir o Erro)

3. Conclusão: O ChatGPT é o Novo Chefe?

Resumo Técnico: Codificação Automatizada de Comunicações em Tarefas de Resolução de Problemas Colaborativos (CPS) usando ChatGPT

1. O Problema

2. Metodologia

3. Principais Contribuições e Resultados

4. Significância e Implicações

Mais como este

The Moral Foundations Reddit Corpus

Automated stance detection in complex topics and small languages: the challenging case of immigration in polarizing news media

BioMamba: Domain-Adaptive Biomedical Language Models

Multilingual LLMs Struggle to Link Orthography and Semantics in Bilingual Word Processing

Byte-token Enhanced Language Models for Temporal Point Processes Analysis