CLoPA: Continual Low Parameter Adaptation of Interactive Segmentation for Medical Image Annotation

O artigo apresenta o CLoPA, uma estratégia de adaptação contínua que ajusta uma pequena fração dos parâmetros do modelo nnInteractive durante o fluxo de trabalho de anotação, elevando rapidamente o desempenho da segmentação interativa em diversas tarefas médicas para níveis de especialista sem exigir novos parâmetros ou alterações no pipeline de inferência.

Parhom Esmaeili, Chayanin Tangwiriyasakul, Eli Gibson, Sebastien Ourselin, M. Jorge Cardoso2026-03-09🤖 cs.AI

What if? Emulative Simulation with World Models for Situated Reasoning

O artigo apresenta o WanderDream, o primeiro grande conjunto de dados projetado para simulação emulativa de exploração mental, permitindo que agentes realizem raciocínio situado e respondam a perguntas do tipo "e se?" sem a necessidade de exploração física ativa.

Ruiping Liu, Yufan Chen, Yuheng Zhang, Junwei Zheng, Kunyu Peng, Chengzhi Wu, Chenguang Huang, Di Wen, Jiaming Zhang, Kailun Yang, Rainer Stiefelhagen2026-03-09💻 cs

Pinterest Canvas: Large-Scale Image Generation at Pinterest

O artigo apresenta o Pinterest Canvas, um sistema de geração de imagens em larga escala que utiliza um modelo difusivo fundamental treinado em dados multimodais e rapidamente ajustado para tarefas específicas, resultando em melhorias significativas no engajamento dos usuários e desempenho superior a modelos de terceiros em casos de uso como aprimoramento de fundo e expansão de aspecto.

Yu Wang, Eric Tzeng, Raymond Shiau, Jie Yang, Dmitry Kislyuk, Charles Rosenberg2026-03-09💻 cs

Do Foundation Models Know Geometry? Probing Frozen Features for Continuous Physical Measurement

Este artigo demonstra que modelos de fundação visuais-linguísticos contêm representações geométricas precisas em suas características congeladas, acessíveis através de sondas lineares simples, revelando que a baixa precisão na saída textual decorre de um déficit no treinamento do caminho de geração e não de uma limitação na representação visual subjacente.

Yakov Pyotr Shkolnikov2026-03-09🤖 cs.AI

GreenRFM: Toward a resource-efficient radiology foundation model

O artigo apresenta o GreenRFM, um modelo fundamental de radiologia eficiente em recursos que utiliza supervisão "MUST" para alcançar desempenho de ponta com requisitos computacionais drasticamente reduzidos, desafiando a crença de que apenas o aumento de escala é necessário para o sucesso em modelos clínicos.

Yingtai Li, Shuai Ming, Mingyue Zhao, Haoran Lai, Rongsheng Wang, Rui Zhou, Rundong Wang, Yujia Li, Wei Wei, Shaohua Kevin Zhou2026-03-09💻 cs

Match4Annotate: Propagating Sparse Video Annotations via Implicit Neural Feature Matching

O artigo apresenta o Match4Annotate, um framework leve que utiliza representações neurais implícitas e correspondência de características para propagar eficientemente anotações esparsas (pontos e máscaras) tanto dentro quanto entre vídeos, superando limitações de métodos existentes e oferecendo uma solução escalável para a anotação em domínios especializados como imagens médicas.

Zhuorui Zhang, Roger Pallarès-López, Praneeth Namburi, Brian W. Anthony2026-03-09💻 cs

Self-Supervised Flow Matching for Scalable Multi-Modal Synthesis

O artigo apresenta o Self-Flow, um paradigma de correspondência de fluxo auto-supervisionado que integra o aprendizado de representações diretamente no quadro generativo por meio de um agendamento de duplo tempo, eliminando a dependência de modelos externos e permitindo uma síntese multi-modal escalável e de alta qualidade.

Hila Chefer, Patrick Esser, Dominik Lorenz, Dustin Podell, Vikash Raja, Vinh Tong, Antonio Torralba, Robin Rombach2026-03-09✓ Author reviewed 💻 cs

Artificial Intelligence for Detecting Fetal Orofacial Clefts and Advancing Medical Education

Este estudo apresenta um sistema de inteligência artificial treinado em mais de 45.000 imagens de ultrassom que não apenas diagnostica fendas orofaciais fetais com precisão superior à de radiologistas júnior e comparável à de especialistas seniores, mas também atua como um copiloto médico para aumentar a sensibilidade diagnóstica e acelerar o desenvolvimento de expertise clínica em condições raras.

Yuanji Zhang, Yuhao Huang, Haoran Dou, Xiliang Zhu, Chen Ling, Zhong Yang, Lianying Liang, Jiuping Li, Siying Liang, Rui Li, Yan Cao, Yuhan Zhang, Jiewei Lai, Yongsong Zhou, Hongyu Zheng, Xinru Gao, Cheng Yu, Liling Shi, Mengqin Yuan, Honglong Li, Xiaoqiong Huang, Chaoyu Chen, Jialin Zhang, Wenxiong Pan, Alejandro F. Frangi, Guangzhi He, Xin Yang, Yi Xiong, Linliang Yin, Xuedong Deng, Dong Ni2026-03-09🤖 cs.AI

NEGATE: Constrained Semantic Guidance for Linguistic Negation in Text-to-Video Diffusion

O artigo apresenta o NEGATE, um método livre de treinamento que trata a negação linguística em modelos de difusão para texto-para-vídeo como uma restrição de viabilidade estruturada, projetando atualizações semânticas em um conjunto convexo derivado da estrutura linguística para garantir a ausência correta de objetos e a coerência semântica sem re-treinamento.

Taewon Kang, Ming C. Lin2026-03-09💻 cs

SurgFormer: Scalable Learning of Organ Deformation with Resection Support and Real-Time Inference

O SurgFormer é um modelo de aprendizado profundo baseado em transformadores multirresolução que permite a simulação em tempo real de deformação de tecidos moles e resecção cirúrgica em malhas volumétricas, superando os custos computacionais dos solvers biomecânicos tradicionais.

Ashkan Shahbazi, Elaheh Akbari, Kyvia Pereira, Jon S. Heiselman, Annie C. Benson, Garrison L. H. Johnston, Jie Ying Wu, Nabil Simaan, Michael I. Miga, Soheil Kolouri2026-03-09💻 cs

EgoReasoner: Learning Egocentric 4D Reasoning via Task-Adaptive Structured Thinking

O artigo apresenta o EgoReasoner, um framework de duas etapas que utiliza templates de pensamento adaptativos e recompensas específicas para tarefas, permitindo que um modelo de 3B parâmetros supere abordagens maiores no benchmark HD-EPIC ao realizar raciocínio 4D egocêntrico complexo.

Fangrui Zhu, Yunfeng Xi, Jianmo Ni, Mu Cai, Boqing Gong, Long Zhao, Chen Qu, Ian Miao, Yi Li, Cheng Zhong, Huaizu Jiang, Shwetak Patel2026-03-09💻 cs

Penguin-VL: Exploring the Efficiency Limits of VLM with LLM-based Vision Encoders

O artigo apresenta o Penguin-VL, um modelo de linguagem visual compacto que substitui os codificadores de visão pré-treinados por contraste tradicionais por um codificador inicializado a partir de um LLM puramente textual, alcançando desempenho superior em tarefas complexas como compreensão de documentos e raciocínio espacial sem a necessidade de aumentar o tamanho do modelo.

Boqiang Zhang, Lei Ke, Ruihan Yang, Qi Gao, Tianyuan Qu, Rossell Chen, Dong Yu, Leoweiliang2026-03-09💻 cs

SUREON: A Benchmark and Vision-Language-Model for Surgical Reasoning

O artigo apresenta o SUREON, um grande conjunto de dados de perguntas e respostas sobre vídeos cirúrgicos extraídos de aulas acadêmicas, e dois modelos de visão e linguagem (SureonVLM e SureonVLM-R1) que demonstram capacidades superiores de raciocínio cirúrgico, superando modelos gerais em tarefas de percepção e previsão de procedimentos.

Alejandra Perez, Anita Rau, Lee White, Busisiwe Mlambo, Chinedu Nwoye, Muhammad Abdullah Jamal, Omid Mohareri2026-03-09🤖 cs.AI