Place-it-R1: Unlocking Environment-aware Reasoning Potential of MLLM for Video Object Insertion

O artigo apresenta o Place-it-R1, um framework end-to-end que aproveita o raciocínio de Cadeia de Pensamento (CoT) de Modelos de Linguagem Multimodais (MLLMs) para orquestrar a inserção de objetos em vídeos, garantindo coerência física e causalidade ambiental através de um ciclo fechado de raciocínio e refinamento.

Bohai Gu, Taiyi Wu, Dazhao Du, Jian Liu, Shuai Yang, Xiaotong Zhao, Alan Zhao, Song Guo2026-03-09🤖 cs.AI

Longitudinal NSCLC Treatment Progression via Multimodal Generative Models

Este artigo apresenta o framework Virtual Treatment (VT), que utiliza modelos generativos multimodais e conscientes da dose para sintetizar imagens de TC de acompanhamento plausíveis e prever a evolução tumoral do câncer de pulmão não pequenas células durante a radioterapia, demonstrando que os modelos baseados em difusão superam as abordagens baseadas em GANs na geração de trajetórias anatômicas estáveis e clinicamente relevantes.

Massimiliano Mantegna, Elena Mulero Ayllón, Alice Natalina Caragliano, Francesco Di Feola, Claudia Tacconi, Michele Fiore, Edy Ippolito, Carlo Greco, Sara Ramella, Philippe C. Cattin, Paolo Soda, Matteo Tortora, Valerio Guarrasi2026-03-09💻 cs

VLM-RobustBench: A Comprehensive Benchmark for Robustness of Vision-Language Models

O artigo apresenta o VLM-RobustBench, um benchmark abrangente que avalia a robustez de modelos visão-linguagem sob diversas distorções, revelando que, embora esses modelos sejam semanticamente fortes, eles são espacialmente frágeis, sofrendo quedas significativas de desempenho devido a transformações geométricas e de reamostragem, mesmo em baixos níveis de severidade visual.

Rohit Saxena, Alessandro Suglia, Pasquale Minervini2026-03-09🤖 cs.AI

Reflective Flow Sampling Enhancement

O artigo propõe o Reflective Flow Sampling (RF-Sampling), uma técnica de inferência sem treinamento e fundamentada teoricamente que melhora a qualidade e o alinhamento com o prompt em modelos de geração de imagens baseados em fluxo (como o FLUX) ao realizar uma ascensão de gradiente implícita no escore de alinhamento texto-imagem, preenchendo a lacuna deixada por métodos anteriores ineficazes nesses modelos.

Zikai Zhou, Muyao Wang, Shitong Shao, Lichen Bai, Haoyi Xiong, Bo Han, Zeke Xie2026-03-09🤖 cs.AI

A Semi-Supervised Framework for Breast Ultrasound Segmentation with Training-Free Pseudo-Label Generation and Label Refinement

Este artigo propõe um framework semi-supervisionado para segmentação de ultrassonografia mamária que utiliza modelos de linguagem-vision para gerar pseudo-rótulos sem treinamento e técnicas de refinamento de rótulos, alcançando desempenho comparável a modelos totalmente supervisionados com apenas 2,5% de dados anotados.

Ruili Li, Jiayi Ding, Ruiyu Li, Yilun Jin, Shiwen Ge, Yuwen Zeng, Xiaoyong Zhang, Eichi Takaya, Jan Vrba, Noriyasu Homma2026-03-09💻 cs

JOPP-3D: Joint Open Vocabulary Semantic Segmentation on Point Clouds and Panoramas

O artigo apresenta o JOPP-3D, um framework de segmentação semântica de vocabulário aberto que alinha características de visão e linguagem entre imagens panorâmicas e nuvens de pontos 3D para permitir consultas em linguagem natural e alcançar resultados superiores ao estado da arte em ambos os domínios.

Sandeep Inuganti, Hideaki Kanayama, Kanta Shimizu, Mahdi Chamseddine, Soichiro Yokota, Didier Stricker, Jason Rambach2026-03-09💻 cs

Optimizing 3D Diffusion Models for Medical Imaging via Multi-Scale Reward Learning

Este artigo apresenta um método para otimizar modelos de difusão 3D em imagens médicas, utilizando aprendizado por reforço com feedback multiescala para alinhar a geração sintética de ressonâncias magnéticas com critérios clínicos, resultando em melhorias significativas na qualidade das imagens e na eficácia de tarefas de classificação de tumores e doenças.

Yueying Tian, Xudong Han, Meng Zhou, Rodrigo Aviles-Espinosa, Rupert Young, Philip Birch2026-03-09💻 cs

Contrastive-to-Self-Supervised: A Two-Stage Framework for Script Similarity Learning

Este artigo propõe uma estrutura de duas etapas que combina aprendizado contrastivo supervisionado em alfabetos inventados com destilação de conhecimento para aprendizado auto-supervisionado em scripts históricos, permitindo a extração de representações de glifos que capturam tanto distinções claras quanto similaridades evolutivas latentes sem depender de relações de ground-truth.

Claire Roman, Philippe Meyer2026-03-09🤖 cs.AI

Towards Motion Turing Test: Evaluating Human-Likeness in Humanoid Robots

Este artigo propõe o "Teste de Turing de Movimento" e o conjunto de dados HHMotion para avaliar a humanização de robôs humanoides com base apenas em informações cinemáticas, revelando que os movimentos robóticos ainda apresentam desvios perceptíveis em ações dinâmicas e que modelos de linguagem atuais são inadequados para essa tarefa, superados por uma nova abordagem de baseline simples.

Mingzhe Li, Mengyin Liu, Zekai Wu, Xincheng Lin, Junsheng Zhang, Ming Yan, Zengye Xie, Changwang Zhang, Chenglu Wen, Lan Xu, Siqi Shen, Cheng Wang2026-03-09💻 cs

CRIMSON: A Clinically-Grounded LLM-Based Metric for Generative Radiology Report Evaluation

O artigo apresenta o CRIMSON, uma nova métrica baseada em LLM e fundamentada clinicamente para avaliar relatórios de radiologia de tórax, que incorpora contexto completo do paciente e ponderação por gravidade para priorizar erros clinicamente significativos, demonstrando forte alinhamento com o julgamento de radiologistas em benchmarks validados.

Mohammed Baharoon, Thibault Heintz, Siavash Raissi, Mahmoud Alabbad, Mona Alhammad, Hassan AlOmaish, Sung Eun Kim, Oishi Banerjee, Pranav Rajpurkar2026-03-09🤖 cs.AI

SpaCRD: Multimodal Deep Fusion of Histology and Spatial Transcriptomics for Cancer Region Detection

O artigo apresenta o SpaCRD, um método de aprendizado por transferência que integra profundamente imagens de histologia e dados de transcriptômica espacial por meio de uma rede de atenção cruzada bidirecional, superando os métodos existentes na detecção precisa de regiões cancerígenas em diversos conjuntos de dados, plataformas e lotes.

Shuailin Xue, Jun Wan, Lihua Zhang, Wenwen Min2026-03-09💻 cs

Point-Supervised Skeleton-Based Human Action Segmentation

Este artigo apresenta um novo framework supervisionado por pontos para segmentação temporal de ações humanas baseada em esqueleto, que utiliza dados multimodais e técnicas avançadas de pseudo-rotulagem para alcançar desempenho competitivo com apenas uma única frame rotulada por segmento de ação, reduzindo significativamente o custo de anotação em comparação com métodos totalmente supervisionados.

Hongsong Wang, Yiqin Shen, Pengbo Yan, Jie Gui2026-03-09💻 cs

EntON: Eigenentropy-Optimized Neighborhood Densification in 3D Gaussian Splatting

O artigo apresenta o EntON, uma estratégia inovadora de densificação de vizinhança otimizada por Entropia Eigen em 3D Gaussian Splatting que utiliza características geométricas locais para alternar entre refinamento baseado em gradiente e densificação consciente da estrutura, resultando em reconstruções 3D com maior precisão geométrica e qualidade de renderização, ao mesmo tempo que reduz o número de Gaussianas e o tempo de treinamento.

Miriam Jäger, Boris Jutzi2026-03-09💻 cs