SUREON: A Benchmark and Vision-Language-Model for Surgical Reasoning

O artigo apresenta o SUREON, um grande conjunto de dados de perguntas e respostas sobre vídeos cirúrgicos extraídos de aulas acadêmicas, e dois modelos de visão e linguagem (SureonVLM e SureonVLM-R1) que demonstram capacidades superiores de raciocínio cirúrgico, superando modelos gerais em tarefas de percepção e previsão de procedimentos.

Alejandra Perez, Anita Rau, Lee White, Busisiwe Mlambo, Chinedu Nwoye, Muhammad Abdullah Jamal, Omid Mohareri

Publicado 2026-03-09
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está aprendendo a dirigir. Você pode ter um manual que lista todas as peças do carro (o motor, os freios, o volante). Isso é o que a Inteligência Artificial (IA) cirúrgica fazia até agora: ela era treinada para reconhecer as peças. Ela sabia dizer: "Isso é um bisturi", "Aquilo é um fígado" ou "Agora estamos na fase de corte".

Mas um cirurgião experiente não apenas as peças; ele entende o porquê. Ele sabe por que o médico escolheu aquele bisturi específico, qual o risco de cortar ali, o que vai acontecer no próximo minuto e como evitar um desastre. A IA atual não conseguia fazer isso porque faltavam dados que explicassem o "pensamento" por trás das ações.

É aqui que entra o SUREON, o novo projeto apresentado neste artigo. Vamos descomplicar como eles fizeram isso:

1. O Problema: O "Livro de Receitas" vs. O "Mestre de Culinária"

Antes, os cientistas tentavam ensinar a IA com "rótulos fixos" (como um livro de receitas que só diz "adicione sal"). Isso limitava a IA a apenas seguir regras.
O grande truque do SUREON foi perceber que já tínhamos o que precisávamos: as aulas de cirurgia gravadas em vídeo, onde mestres cirurgiões narram o que estão fazendo para ensinar alunos. Nesses vídeos, o cirurgião diz coisas como: "Vou cortar aqui porque o linfonodo está muito grande e, se eu tentar preservá-lo, posso machucar o vaso sanguíneo."

Essa narração é a chave. Ela contém o raciocínio, não apenas a ação.

2. A Solução: Um Exército de "Robôs Detetives"

Como transformar horas de vídeos e falas em dados que uma IA possa aprender? Os autores criaram um sistema com agentes especializados (pense neles como detetives robóticos):

  • O Agente Gerador: Lê a transcrição do vídeo e procura os momentos em que o cirurgião explica o "porquê" (chamados de "Momentos de Ancoragem Semântica").
  • O Agente Filtro: Verifica se a explicação faz sentido com o que está acontecendo na tela naquele exato momento.
  • O Resultado: Eles transformaram essas explicações em 206.800 perguntas e respostas estruturadas.

Imagine que, em vez de apenas mostrar um vídeo de uma cirurgia, o sistema cria um quiz interativo:

  • Pergunta: "Por que o cirurgião sacrificou esse vaso sanguíneo?"
  • Resposta (com raciocínio): "Porque o nódulo linfático adjacente era muito grande e tentar preservá-lo teria comprometido o vaso."

3. Os "Alunos": SureonVLM e SureonVLM-R1

Com esses dados, eles treinaram dois modelos de IA:

  • SureonVLM: É o aluno que estudou muito e aprendeu a responder perguntas sobre cirurgia com alta precisão. Ele é como um residente muito bem treinado que sabe a teoria e a prática.
  • SureonVLM-R1: É o aluno "pensador". Além de responder, ele foi treinado para pensar em voz alta antes de dar a resposta (como um raciocínio passo a passo). Ele diz: "Vejo que há um sangramento, então o cirurgião deve estar usando energia para coagular...". Isso é crucial para a segurança, pois permite que humanos entendam como a IA chegou à conclusão.

4. Os Resultados: O Pequeno Gigante

O mais impressionante é que eles usaram um modelo de tamanho médio (8 bilhões de parâmetros), mas ele superou gigantes (como o GPT-5 e o Gemini) em tarefas cirúrgicas específicas.

  • Segurança: Na identificação de práticas de segurança (como evitar erros críticos), o modelo deles acertou 93% das vezes, enquanto os modelos gerais de IA erravam muito mais.
  • Raciocínio: O modelo conseguiu prever o próximo passo da cirurgia e explicar decisões complexas, algo que os modelos gerais não conseguiam fazer bem.

5. A Metáfora Final

Pense na IA cirúrgica antiga como um turista com um mapa: ele sabe onde estão as ruas (as ferramentas e órgãos), mas não sabe para onde ir ou por que tomar aquela avenida.

O SUREON transformou a IA em um guia turístico local experiente. Ele não só sabe onde estão as ruas, mas explica: "Não pegue essa avenida porque há um buraco (risco de sangramento), então vamos pegar esta outra para chegar ao destino com segurança."

Resumo em uma frase

O SUREON pegou as lições de mestres cirurgiões, transformou-as em um gigantesco banco de perguntas e respostas que ensinam o "porquê" das coisas, e criou uma IA que não apenas "vê" a cirurgia, mas entende e explica a lógica por trás dela, tornando a cirurgia assistida por computador muito mais segura e inteligente.