TrajPred: Trajectory-Conditioned Joint Embedding Prediction for Surgical Instrument-Tissue Interaction Recognition in Vision-Language Models

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está assistindo a uma cirurgia robótica. O robô é muito preciso, mas ele é "cego" para o contexto: ele vê as ferramentas e os tecidos, mas não entende o que está acontecendo de verdade. Ele sabe que há uma pinça e um fígado, mas não sabe se a pinça está apenas tocando o fígado, puxando-o com cuidado ou cortando algo.

Para criar um "assistente de IA" que realmente ajude o cirurgião, precisamos ensinar o computador a entender essa interação. É aqui que entra o TrajPred, o novo método apresentado neste artigo.

Vamos explicar como funciona usando algumas analogias do dia a dia:

1. O Problema: A Foto vs. O Filme

A maioria dos sistemas antigos de IA funciona como se estivesse olhando para fotos estáticas.

A analogia: Imagine tentar adivinhar se alguém está jogando futebol apenas olhando para uma foto congelada de um jogador com a bola no pé. Você pode chutar que é futebol, mas não sabe se ele está chutando, driblando ou apenas segurando a bola.
No mundo cirúrgico: Muitos modelos olham apenas um quadro (uma foto) do vídeo. Eles perdem a informação do movimento. Se uma pinça está se movendo em direção a um tecido, isso é diferente de ela estar parada. Sem ver o movimento (o "filme"), a IA fica confusa.

2. O Problema: O Ruído de Fundo

Outro problema é que os modelos antigos tentam entender a imagem inteira de uma vez só.

A analogia: Imagine que você está em uma sala de aula barulhenta e tenta ouvir apenas o professor. Se você tentar ouvir "tudo" ao mesmo tempo (o barulho da porta, a conversa dos alunos, o ar-condicionado), você não consegue focar no que o professor diz.
No mundo cirúrgico: A IA olha para a imagem inteira, incluindo o fundo, a luz e as bordas do vídeo. Ela acaba prestando atenção no "ruído" (o fundo) em vez de focar no "sinal" (a ferramenta tocando o tecido). Isso faz com que ela erre detalhes importantes.

3. A Solução: O TrajPred (O "Detetive do Movimento")

O TrajPred resolve esses dois problemas com duas ideias principais:

A. Rastrear o Caminho (Trajetória)

Em vez de olhar apenas para a ferramenta, o TrajPred cria um "rastro" ou um "caminho" que a ferramenta faz.

A analogia: Pense em um detetive que não olha apenas para a pessoa, mas traça no mapa exatamente por onde ela andou nos últimos 10 segundos. O detetive sabe: "Ah, ele foi da porta até a mesa e parou". Isso diz muito mais sobre a intenção dele do que apenas vê-lo parado na mesa.
Na prática: O sistema pega o vídeo, identifica a ferramenta e desenha uma linha invisível mostrando onde ela estava e para onde foi. Ele usa esse "mapa de movimento" para dizer à IA: "Ei, olhe aqui! O movimento é a chave para entender a ação".

B. Focar no Detalhe (Predição em vez de Comparação)

Os modelos antigos comparavam a imagem com um texto (como tentar encaixar uma chave em uma fechadura). O TrajPred faz algo diferente: ele adivinha o significado.

A analogia: Imagine que você tem um quebra-cabeça com uma peça faltando.
- Método antigo: Você pega todas as peças e tenta ver qual se parece mais com a imagem completa.
- Método TrajPred: Você olha para o buraco e para as peças ao redor e prediz (adivinha) qual é a peça que falta baseada no contexto.
Na prática: O sistema usa o movimento da ferramenta para "prever" qual é a descrição correta da ação. Isso força a IA a olhar para os detalhes finos (como a ponta da pinça) em vez de olhar para a imagem inteira e confusa.

4. A "Reescrita" das Palavras

Os cirurgiões usam termos técnicos (como "retrair", "dissecar", "coagular"). A IA, treinada com textos gerais, pode não entender bem essas palavras específicas.

A analogia: É como se você estivesse conversando com um turista que só fala inglês básico. Em vez de dizer "Vou retrair o fígado", você diz "Vou puxar o fígado para o lado com cuidado".
Na prática: O TrajPred transforma os verbos técnicos em frases descritivas mais simples e naturais antes de ensinar a IA. Isso ajuda o robô a entender melhor o que está acontecendo, mesmo em situações novas.

O Resultado?

Quando testaram esse sistema em vídeos reais de cirurgias (o conjunto de dados CholecT50), o TrajPred funcionou muito melhor que os anteriores.

Ele acertou mais vezes qual ferramenta estava fazendo qual ação.
Ele conseguiu entender ações raras e complexas.
E o mais importante: quando você olha para onde a IA está "olhando" (os mapas de calor), você vê que ela foca exatamente na ferramenta e no tecido, ignorando o fundo bagunçado.

Em resumo: O TrajPred é como dar ao robô cirurgião óculos de "visão de movimento" e um "foco de detetive". Em vez de apenas olhar para uma foto estática e confusa, ele segue o rastro da ferramenta e entende a história completa da ação, tornando a cirurgia robótica mais segura e inteligente.

Each language version is independently generated for its own context, not a direct translation.

1. Problema e Contexto

O reconhecimento de interações entre instrumentos cirúrgicos e tecidos é fundamental para o desenvolvimento de assistentes de IA conscientes do contexto na cirurgia robótica. Embora os Modelos de Linguagem e Visão (VLMs) tenham demonstrado melhor generalização em tarefas cirúrgicas em comparação com abordagens de aprendizado profundo específicas, seu desempenho no reconhecimento de interações instrumento-tecido (frequentemente estruturadas como tripletas: instrumento, verbo, alvo) ainda é limitado.

Os autores identificam duas limitações principais nos VLMs cirúrgicos existentes:

Uso limitado de informações temporais: Muitos modelos baseiam-se em quadros únicos (single-frame) ou não exploram efetivamente o movimento ao longo do tempo. Ações cirúrgicas muitas vezes dependem de padrões de movimento que não são visíveis em uma imagem estática, tornando a inferência ambígua.
Supressão de detalhes no aprendizado contrastivo: Os VLMs atuais utilizam aprendizado contrastivo que alinha características visuais agregadas de toda a imagem com o texto. Isso tende a suprimir detalhes espaciais finos e focar em semântica global, muitas vezes destacando o fundo em vez da região específica de interação entre o instrumento e o tecido.

2. Metodologia: TrajPred

O TrajPred propõe uma nova estrutura baseada em previsão de embeddings conjuntos (Joint Embedding Prediction), inspirada no VL-JEPA, mas adaptada para cirurgia com condicionamento de trajetória.

Arquitetura Principal

Mudança de Paradigma: Em vez de alinhar características visuais e textuais diretamente via aprendizado contrastivo (que perde detalhes), o modelo trata o reconhecimento como um problema de previsão de embeddings. Um módulo preditor gera embeddings semânticos visuais condicionados a tokens de texto e, crucialmente, a tokens de trajetória.
Codificação de Trajetória (Trajectory Tokens):
- O sistema utiliza um detector de objetos (Fast R-CNN) para identificar instrumentos em cada quadro.
- Para cada instrumento, são extraídos dois fluxos de informação:
  1. Fluxo de Aparência: Características visuais médias dentro da caixa delimitadora (bounding box) do instrumento.
  2. Fluxo de Posição: Coordenadas da caixa delimitadora ao longo do tempo, codificadas em embeddings posicionais.
- Esses fluxos são agregados via cross-attention para formar um único token de trajetória por instrumento, que captura o movimento e a dinâmica temporal.
Integração: Os tokens de trajetória são concatenados com os tokens de tubo espaciotemporal do codificador visual e alimentados no módulo preditor. Isso guia o modelo a focar nas regiões de interação ativa, em vez do fundo ou de movimentos espúrios da câmera.

Otimização e Adaptação de Texto

Prompt Tuning (CoOp): Para evitar a degradação da capacidade de generalização ao fazer fine-tuning completo do codificador de texto, o TrajPred utiliza prompt tuning (estilo CoOp). Apenas um pequeno conjunto de tokens de contexto aprendíveis é otimizado, mantendo os pesos do codificador pré-treinado (Gemma) congelados.
Reformulação de Verbos (Verb Rephrasing): Para reduzir a lacuna entre verbos cirúrgicos técnicos e o vocabulário de linguagem geral, os rótulos de verbos são reescritos em frases descritivas mais naturais (ex: "grasp" $\rightarrow$ "holding and gripping"; "retract" $\rightarrow$ "pulling aside"). Isso melhora a associação semântica no espaço de embeddings.

3. Principais Contribuições

Reformulação do Problema: Transforma o reconhecimento de interações cirúrgicas de um problema de alinhamento contrastivo para um problema de previsão de embeddings semânticos, permitindo a captura de detalhes finos.
Condicionamento por Trajetória: Introduz tokens de trajetória explícitos que codificam o movimento temporal dos instrumentos, melhorando a compreensão de ações dinâmicas.
Adaptação Linguística: Utiliza prompt tuning e reformulação de verbos para melhorar a generalização, especialmente em cenários com verbos não vistos durante o treinamento.
Validação Empírica: Demonstra, através de visualizações de calor (heatmaps), que o método foca corretamente na região de interação, ao contrário dos modelos baseados em contrastivo que frequentemente destacam o fundo.

4. Resultados Experimentais

Os experimentos foram conduzidos no benchmark público CholecT50 (50 vídeos de colecistectomia laparoscópica).

Desempenho Geral (Split RDV): O TrajPred superou consistentemente todas as linhas de base (incluindo CLIP, SurgVLP, HecVL e VL-JEPA padrão).
- Precisão Média (AP) da Tripla (APIVT): 14.77 (vs. 13.49 do melhor baseline VL-JEPA Vídeo).
- Acurácia Top-K (Top@K=|GT|): 65.45% (vs. 61.91% do baseline).
Generalização (Verbos Não Vistos): Em um cenário onde verbos específicos foram removidos do conjunto de treinamento, o TrajPred manteve ganhos claros, alcançando uma AP de 11.26 (vs. 9.02 do baseline), demonstrando robustez na composição de ações não vistas.
Casos de Uso Raros: O modelo mostrou melhorias significativas em interações instrumento-verbo pouco frequentes (ex: "Grasper-Pack" aumentou de 18.1 para 32.9 de AP), provando sua capacidade de modelar ações complexas e raras.
Visualização: Os mapas de calor de similaridade cosseno mostram que o TrajPred concentra a atenção na ferramenta ativa e no local de interação, enquanto os modelos contrastivos tendem a espalhar a atenção pelo fundo ou bordas do endoscópio.
Eficiência: A adição do módulo de tokens de trajetória aumentou o tamanho do modelo em apenas 3,4% e a latência de inferência em apenas 1,1% (0,34 ms), mantendo o custo computacional baixo.

5. Significado e Conclusão

O TrajPred representa um avanço significativo na percepção cirúrgica baseada em IA ao demonstrar que:

O movimento é crucial: Ignorar a informação temporal detalhada limita a capacidade dos modelos de entender ações cirúrgicas reais.
Alinhamento de detalhes é necessário: A simples agregação global de características (comum em VLMs) é insuficiente para tarefas que exigem precisão espacial e temporal fina.
Adaptação semântica ajuda: A reformulação de verbos e o prompt tuning são estratégias eficazes para transferir conhecimento de modelos de linguagem gerais para domínios médicos especializados.

Este trabalho sugere que a combinação de previsão de embeddings com condicionamento de trajetória é uma via promissora para criar assistentes cirúrgicos mais robustos, explicáveis e generalizáveis, capazes de entender não apenas "o que" está sendo feito, mas "como" e "onde" a interação ocorre ao longo do tempo.