cs.CV artigos | Gist.Science

CLoPA: Continual Low Parameter Adaptation of Interactive Segmentation for Medical Image Annotation

O artigo apresenta o CLoPA, uma estratégia de adaptação contínua que ajusta uma pequena fração dos parâmetros do modelo nnInteractive durante o fluxo de trabalho de anotação, elevando rapidamente o desempenho da segmentação interativa em diversas tarefas médicas para níveis de especialista sem exigir novos parâmetros ou alterações no pipeline de inferência.

Parhom Esmaeili, Chayanin Tangwiriyasakul, Eli Gibson, Sebastien Ourselin, M. Jorge Cardoso2026-03-09🤖 cs.AI

What if? Emulative Simulation with World Models for Situated Reasoning

O artigo apresenta o WanderDream, o primeiro grande conjunto de dados projetado para simulação emulativa de exploração mental, permitindo que agentes realizem raciocínio situado e respondam a perguntas do tipo "e se?" sem a necessidade de exploração física ativa.

Ruiping Liu, Yufan Chen, Yuheng Zhang, Junwei Zheng, Kunyu Peng, Chengzhi Wu, Chenguang Huang, Di Wen, Jiaming Zhang, Kailun Yang, Rainer Stiefelhagen2026-03-09💻 cs

CaTok: Taming Mean Flows for One-Dimensional Causal Image Tokenization

O artigo apresenta o CaTok, um tokenizador de imagem causal unidimensional que utiliza um decodificador MeanFlow e uma regularização REPA-A para superar as limitações dos métodos atuais, alcançando resultados state-of-the-art na reconstrução de imagens do ImageNet e permitindo geração autoregressiva eficiente.

Yitong Chen, Zuxuan Wu, Xipeng Qiu, Yu-Gang Jiang2026-03-09💻 cs

Pinterest Canvas: Large-Scale Image Generation at Pinterest

O artigo apresenta o Pinterest Canvas, um sistema de geração de imagens em larga escala que utiliza um modelo difusivo fundamental treinado em dados multimodais e rapidamente ajustado para tarefas específicas, resultando em melhorias significativas no engajamento dos usuários e desempenho superior a modelos de terceiros em casos de uso como aprimoramento de fundo e expansão de aspecto.

Yu Wang, Eric Tzeng, Raymond Shiau, Jie Yang, Dmitry Kislyuk, Charles Rosenberg2026-03-09💻 cs

Training Flow Matching: The Role of Weighting and Parameterization

Este artigo analisa sistematicamente como as escolhas de ponderação e parametrização no treinamento de modelos de correspondência de fluxo interagem com a dimensionalidade dos dados, arquitetura e tamanho do conjunto de dados, visando oferecer insights práticos para otimizar a precisão de remoção de ruído e a qualidade generativa.

Anne Gagneux, Ségolène Martin, Rémi Gribonval, Mathurin Massias2026-03-09💻 cs

Do Foundation Models Know Geometry? Probing Frozen Features for Continuous Physical Measurement

Este artigo demonstra que modelos de fundação visuais-linguísticos contêm representações geométricas precisas em suas características congeladas, acessíveis através de sondas lineares simples, revelando que a baixa precisão na saída textual decorre de um déficit no treinamento do caminho de geração e não de uma limitação na representação visual subjacente.

Yakov Pyotr Shkolnikov2026-03-09🤖 cs.AI

GreenRFM: Toward a resource-efficient radiology foundation model

O artigo apresenta o GreenRFM, um modelo fundamental de radiologia eficiente em recursos que utiliza supervisão "MUST" para alcançar desempenho de ponta com requisitos computacionais drasticamente reduzidos, desafiando a crença de que apenas o aumento de escala é necessário para o sucesso em modelos clínicos.

Yingtai Li, Shuai Ming, Mingyue Zhao, Haoran Lai, Rongsheng Wang, Rui Zhou, Rundong Wang, Yujia Li, Wei Wei, Shaohua Kevin Zhou2026-03-09💻 cs

Match4Annotate: Propagating Sparse Video Annotations via Implicit Neural Feature Matching

O artigo apresenta o Match4Annotate, um framework leve que utiliza representações neurais implícitas e correspondência de características para propagar eficientemente anotações esparsas (pontos e máscaras) tanto dentro quanto entre vídeos, superando limitações de métodos existentes e oferecendo uma solução escalável para a anotação em domínios especializados como imagens médicas.

Zhuorui Zhang, Roger Pallarès-López, Praneeth Namburi, Brian W. Anthony2026-03-09💻 cs

Self-Supervised Flow Matching for Scalable Multi-Modal Synthesis

O artigo apresenta o Self-Flow, um paradigma de correspondência de fluxo auto-supervisionado que integra o aprendizado de representações diretamente no quadro generativo por meio de um agendamento de duplo tempo, eliminando a dependência de modelos externos e permitindo uma síntese multi-modal escalável e de alta qualidade.

Hila Chefer, Patrick Esser, Dominik Lorenz, Dustin Podell, Vikash Raja, Vinh Tong, Antonio Torralba, Robin Rombach2026-03-09✓ Author reviewed ⓘ💻 cs

SG-DOR: Learning Scene Graphs with Direction-Conditioned Occlusion Reasoning for Pepper Plants

O artigo apresenta o SG-DOR, um quadro relacional que utiliza redes neurais gráficas para inferir grafos de cena com raciocínio de oclusão condicionado à direção em plantas de pimentão, visando otimizar a colheita robótica em canopas densas.

Rohit Menon, Niklas Mueller-Goldingen, Sicong Pan, Gokul Krishna Chenchani, Maren Bennewitz2026-03-09💻 cs

Artificial Intelligence for Detecting Fetal Orofacial Clefts and Advancing Medical Education

Este estudo apresenta um sistema de inteligência artificial treinado em mais de 45.000 imagens de ultrassom que não apenas diagnostica fendas orofaciais fetais com precisão superior à de radiologistas júnior e comparável à de especialistas seniores, mas também atua como um copiloto médico para aumentar a sensibilidade diagnóstica e acelerar o desenvolvimento de expertise clínica em condições raras.

Yuanji Zhang, Yuhao Huang, Haoran Dou, Xiliang Zhu, Chen Ling, Zhong Yang, Lianying Liang, Jiuping Li, Siying Liang, Rui Li, Yan Cao, Yuhan Zhang, Jiewei Lai, Yongsong Zhou, Hongyu Zheng, Xinru Gao, Cheng Yu, Liling Shi, Mengqin Yuan, Honglong Li, Xiaoqiong Huang, Chaoyu Chen, Jialin Zhang, Wenxiong Pan, Alejandro F. Frangi, Guangzhi He, Xin Yang, Yi Xiong, Linliang Yin, Xuedong Deng, Dong Ni2026-03-09🤖 cs.AI

SCAN: Visual Explanations with Self-Confidence and Analysis Networks

Este artigo apresenta o SCAN, um framework universal baseado em AutoEncoder e no princípio do Gargalo de Informação que gera mapas de autoconfiança de alta resolução para fornecer explicações visuais mais fiéis e objetivas, superando as limitações de métodos existentes em diversas arquiteturas de redes neurais.

Gwanghee Lee, Sungyoon Jeong, Kyoungson Jhang2026-03-09💻 cs

AV-Unified: A Unified Framework for Audio-visual Scene Understanding

O artigo apresenta o AV-Unified, um framework unificado que integra diversas tarefas de compreensão de cenas audiovisuais em uma única arquitetura baseada em tokens, utilizando módulos de percepção multiescala e orientação cruzada para capturar associações espaço-temporais e superar a falta de supervisão auditiva na visão.

Guangyao Li, Xin Wang, Wenwu Zhu2026-03-09💻 cs

Spatial Calibration of Diffuse LiDARs

O artigo apresenta um procedimento simples de calibração espacial para LiDARs difusos que, ao estimar o footprint e a sensibilidade espacial de cada pixel em relação a uma imagem RGB, permite a correspondência explícita entre os modos para alinhamento e fusão cruzada, superando a violação da suposição de raio único inerente a esses sensores.

Nikhil Behari, Ramesh Raskar2026-03-09💻 cs

NEGATE: Constrained Semantic Guidance for Linguistic Negation in Text-to-Video Diffusion

O artigo apresenta o NEGATE, um método livre de treinamento que trata a negação linguística em modelos de difusão para texto-para-vídeo como uma restrição de viabilidade estruturada, projetando atualizações semânticas em um conjunto convexo derivado da estrutura linguística para garantir a ausência correta de objetos e a coerência semântica sem re-treinamento.

Taewon Kang, Ming C. Lin2026-03-09💻 cs

SurgFormer: Scalable Learning of Organ Deformation with Resection Support and Real-Time Inference

O SurgFormer é um modelo de aprendizado profundo baseado em transformadores multirresolução que permite a simulação em tempo real de deformação de tecidos moles e resecção cirúrgica em malhas volumétricas, superando os custos computacionais dos solvers biomecânicos tradicionais.

Ashkan Shahbazi, Elaheh Akbari, Kyvia Pereira, Jon S. Heiselman, Annie C. Benson, Garrison L. H. Johnston, Jie Ying Wu, Nabil Simaan, Michael I. Miga, Soheil Kolouri2026-03-09💻 cs

Modeling and Measuring Redundancy in Multisource Multimodal Data for Autonomous Driving

Este trabalho demonstra que a redundância em dados multimodais e multivariados para veículos autônomos é um fator mensurável de qualidade de dados, cuja remoção seletiva pode melhorar o desempenho da detecção de objetos, como evidenciado nos experimentos com os conjuntos de dados nuScenes e Argoverse 2.

Yuhan Zhou, Mehri Sattari, Haihua Chen, Kewei Sha2026-03-09💻 cs

EgoReasoner: Learning Egocentric 4D Reasoning via Task-Adaptive Structured Thinking

O artigo apresenta o EgoReasoner, um framework de duas etapas que utiliza templates de pensamento adaptativos e recompensas específicas para tarefas, permitindo que um modelo de 3B parâmetros supere abordagens maiores no benchmark HD-EPIC ao realizar raciocínio 4D egocêntrico complexo.

Fangrui Zhu, Yunfeng Xi, Jianmo Ni, Mu Cai, Boqing Gong, Long Zhao, Chen Qu, Ian Miao, Yi Li, Cheng Zhong, Huaizu Jiang, Shwetak Patel2026-03-09💻 cs

Penguin-VL: Exploring the Efficiency Limits of VLM with LLM-based Vision Encoders

O artigo apresenta o Penguin-VL, um modelo de linguagem visual compacto que substitui os codificadores de visão pré-treinados por contraste tradicionais por um codificador inicializado a partir de um LLM puramente textual, alcançando desempenho superior em tarefas complexas como compreensão de documentos e raciocínio espacial sem a necessidade de aumentar o tamanho do modelo.

Boqiang Zhang, Lei Ke, Ruihan Yang, Qi Gao, Tianyuan Qu, Rossell Chen, Dong Yu, Leoweiliang2026-03-09💻 cs

SUREON: A Benchmark and Vision-Language-Model for Surgical Reasoning

O artigo apresenta o SUREON, um grande conjunto de dados de perguntas e respostas sobre vídeos cirúrgicos extraídos de aulas acadêmicas, e dois modelos de visão e linguagem (SureonVLM e SureonVLM-R1) que demonstram capacidades superiores de raciocínio cirúrgico, superando modelos gerais em tarefas de percepção e previsão de procedimentos.

Alejandra Perez, Anita Rau, Lee White, Busisiwe Mlambo, Chinedu Nwoye, Muhammad Abdullah Jamal, Omid Mohareri2026-03-09🤖 cs.AI

← Anterior Próximo →