COACH meets QUORUM: A Framework and Pipeline for Aligning User, Expert and Developer Perspectives in LLM-generated Health Counselling

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um diário digital onde anota como está seu sono, seu humor e suas atividades diárias. Agora, imagine que esse diário é lido por um assistente de IA super inteligente que, em vez de apenas mostrar gráficos, conversa com você e dá conselhos personalizados sobre como melhorar sua vida, especialmente se você estiver lidando com os efeitos de uma doença como o câncer.

É exatamente isso que o artigo "COACH encontra QUORUM" descreve. Vamos descomplicar os conceitos principais usando analogias do dia a dia:

1. O Problema: O "Conselheiro" Cego

Muitas pessoas com câncer ou doenças crônicas precisam de conselhos de estilo de vida (como dormir melhor ou ter mais energia). O problema é que os conselhos na internet são genéricos ("coma mais verduras") ou fragmentados. Ninguém quer um conselho que sirva para "todo mundo", mas sim para você, baseado no que você realmente viveu ontem.

2. A Solução: O COACH (O Assistente)

Os autores criaram um sistema chamado COACH. Pense nele como um chef de cozinha pessoal.

O Ingrediente: Você diz ao chef: "Estou cansado".
A Pesquisa: O chef não chuta. Ele vai até uma biblioteca de receitas médicas confiáveis (o site kanker.nl, que é como um manual de instruções validado por especialistas) para ver o que a ciência diz sobre cansaço.
O Prato: Ele mistura o que você disse com o que a biblioteca diz e cria um conselho único para você: "Vi no seu diário que você dormiu mal na terça-feira e fez pouco exercício. A biblioteca diz que isso pode causar cansaço. Que tal tentar..."

3. O Grande Desafio: Quem está no Controle? (O QUORUM)

Aqui entra a parte mais interessante. Quando você cria um robô que dá conselhos de saúde, quem deve julgar se ele é bom?

O Usuário (Você): "O conselho me tocou? Eu vou seguir? O tom foi amigável?"
O Especialista (O Médico): "A informação está cientificamente correta? O tom é profissional?"
O Desenvolvedor (O Engenheiro): "O robô inventou fatos? Ele leu os dados certos?"

O problema é que essas três pessoas veem o mesmo prato com olhos diferentes. O usuário pode achar o prato delicioso, mas o chef pode achar que faltou sal, e o engenheiro pode ter usado o ingrediente errado.

Para resolver isso, eles criaram o QUORUM. Pense no QUORUM como um painel de degustação com três juízes.

Eles não deixam apenas um juiz decidir. Eles reúnem o usuário, o médico e o engenheiro para avaliar o mesmo conselho ao mesmo tempo.
O objetivo é ver onde eles concordam (o prato é bom para todos) e onde discordam (o médico acha muito doce, mas o usuário adora).

4. O Que Eles Descobriram?

Ao testar o COACH com pacientes reais, médicos e desenvolvedores, eles viram coisas fascinantes:

Convergência (Todos concordam):
- Usuários: Adoraram! Acharam que os conselhos faziam sentido para a vida deles e tinham um tom acolhedor.
- Médicos: Confirmaram que a informação médica estava correta e segura.
- Engenheiros: Viram que o robô leu os dados do diário com precisão (97% das vezes) e não inventou fatos médicos graves.
Divergência (Onde eles brigaram):
- O Tom de Voz: Os médicos acharam que o robô às vezes era um pouco "muito direto" ou "condescendente" (como um professor rígido). Os usuários, no entanto, acharam o tom ótimo e motivador.
- A "Alucinação" (Inventar coisas): Os engenheiros viram que, em 22% dos casos, o robô usou exemplos que não estavam exatamente na biblioteca de receitas (como sugerir "amêndoas" quando a biblioteca só dizia "proteína"). Para os engenheiros, isso é um erro técnico. Para os médicos e usuários, isso parecia apenas um conselho inteligente e útil, não algo perigoso.

5. A Lição Final

O artigo nos ensina que não existe um único "juiz perfeito" para inteligência artificial na saúde.

Se você ouvir apenas o engenheiro, o sistema será perfeito tecnicamente, mas pode ser chato ou inútil para o paciente.
Se você ouvir apenas o usuário, o sistema pode ser divertido, mas perigoso se der informações erradas.
Se você ouvir apenas o médico, o sistema será seguro, mas talvez muito frio e difícil de seguir.

O QUORUM é a ferramenta que une esses três mundos. Ele garante que o "chef de cozinha" (COACH) cozinhe pratos que sejam seguros (médico), saborosos e apetitosos (usuário), e feitos com ingredientes corretos (engenheiro).

Resumo em uma frase:
Para criar um robô de saúde que realmente ajude as pessoas, precisamos ouvir o paciente, o médico e o programador ao mesmo tempo, porque cada um vê uma parte diferente da verdade, e só juntos eles veem a imagem completa.

COACH meets QUORUM: A Framework and Pipeline for Aligning User, Expert and Developer Perspectives in LLM-generated Health Counselling

1. O Problema: O "Conselheiro" Cego

2. A Solução: O COACH (O Assistente)

3. O Grande Desafio: Quem está no Controle? (O QUORUM)

4. O Que Eles Descobriram?

5. A Lição Final

1. Problema

2. Metodologia

A. Framework QUORUM (QUality, Outcome Reliability, and User-relevance from Multiple stakeholders)

B. Pipeline COACH (Contextualised Outcome-Adaptive Counselling for Health)

3. Contribuições Principais

4. Resultados

5. Significado e Conclusão

COACH meets QUORUM: A Framework and Pipeline for Aligning User, Expert and Developer Perspectives in LLM-generated Health Counselling

1. O Problema: O "Conselheiro" Cego

2. A Solução: O COACH (O Assistente)

3. O Grande Desafio: Quem está no Controle? (O QUORUM)

4. O Que Eles Descobriram?

5. A Lição Final

1. Problema

2. Metodologia

A. Framework QUORUM (QUality, Outcome Reliability, and User-relevance from Multiple stakeholders)

B. Pipeline COACH (Contextualised Outcome-Adaptive Counselling for Health)

3. Contribuições Principais

4. Resultados

5. Significado e Conclusão

Mais como este

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models