cs.CV artigos | Gist.Science

Penguin-VL: Exploring the Efficiency Limits of VLM with LLM-based Vision Encoders

O artigo apresenta o Penguin-VL, um modelo de linguagem visual compacto que substitui os codificadores de visão pré-treinados por contraste tradicionais por um codificador inicializado a partir de um LLM puramente textual, alcançando desempenho superior em tarefas complexas como compreensão de documentos e raciocínio espacial sem a necessidade de aumentar o tamanho do modelo.

Boqiang Zhang, Lei Ke, Ruihan Yang, Qi Gao, Tianyuan Qu, Rossell Chen, Dong Yu, Leoweiliang2026-03-09💻 cs

SUREON: A Benchmark and Vision-Language-Model for Surgical Reasoning

O artigo apresenta o SUREON, um grande conjunto de dados de perguntas e respostas sobre vídeos cirúrgicos extraídos de aulas acadêmicas, e dois modelos de visão e linguagem (SureonVLM e SureonVLM-R1) que demonstram capacidades superiores de raciocínio cirúrgico, superando modelos gerais em tarefas de percepção e previsão de procedimentos.

Alejandra Perez, Anita Rau, Lee White, Busisiwe Mlambo, Chinedu Nwoye, Muhammad Abdullah Jamal, Omid Mohareri2026-03-09🤖 cs.AI

SCOPE: Scene-Contextualized Incremental Few-Shot 3D Segmentation

O artigo apresenta o SCOPE, um framework plug-and-play que melhora a segmentação 3D incremental de poucos exemplos ao enriquecer protótipos de novas classes com informações extraídas de regiões de fundo não rotuladas, alcançando desempenho superior e reduzindo o esquecimento catastrófico.

Vishal Thengane, Zhaochong An, Tianjin Huang, Son Lam Phung, Abdesselam Bouzerdoum, Lu Yin, Na Zhao, Xiatian Zhu2026-03-09🤖 cs.LG

BEVLM: Distilling Semantic Knowledge from LLMs into Bird's-Eye View Representations

O artigo apresenta o BEVLM, um framework que integra representações de Visão de Pássaro (BEV) com Modelos de Linguagem de Grande Escala (LLMs) para superar limitações de consistência espacial e riqueza semântica, resultando em melhorias significativas de 46% na precisão de raciocínio em cenas de direção e de 29% no desempenho de condução autônoma em cenários críticos de segurança.

Thomas Monninger, Shaoyuan Xie, Qi Alfred Chen, Sihao Ding2026-03-09🤖 cs.AI

Omni-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete Diffusion

O artigo apresenta o Omni-Diffusion, o primeiro modelo de linguagem multimodal "qualquer-para-qualquer" que unifica a compreensão e a geração de texto, fala e imagem utilizando exclusivamente um modelo de difusão discreta baseado em máscaras, superando ou equiparando-se aos sistemas existentes em diversos benchmarks.

Lijiang Li, Zuwei Long, Yunhang Shen, Heting Gao, Haoyu Cao, Xing Sun, Caifeng Shan, Ran He, Chaoyou Fu2026-03-09💻 cs

Multimodal Large Language Models as Image Classifiers

Este artigo demonstra que o desempenho aparentemente inferior dos Modelos de Linguagem Multimodal (MLLMs) em tarefas de classificação é majoritariamente um artefato de protocolos de avaliação falhos e de ruídos nos dados de referência, os quais, quando corrigidos, revelam que esses modelos podem superar ou igualar modelos supervisionados e ainda auxiliar significativamente na curadoria de grandes conjuntos de dados.

Nikita Kisel, Illia Volkov, Klara Janouskova, Jiri Matas2026-03-09💻 cs

Motion Illusions Generated Using Predictive Neural Networks Also Fool Humans

Este artigo apresenta o modelo generativo EIGen, que utiliza redes neurais preditivas para criar ilusões de movimento que enganam humanos, apoiando a hipótese de que tais ilusões resultam da percepção das previsões do cérebro em vez da entrada visual bruta e destacando o valor de estudar falhas motivadas em sistemas artificiais.

Lana Sinapayen, Eiji Watanabe2026-03-06💻 cs

Seeing Through Uncertainty: A Free-Energy Approach for Real-Time Perceptual Adaptation in Robust Visual Navigation

O artigo apresenta o FEP-Nav, um quadro inspirado biologicamente que utiliza o Princípio da Energia Livre para permitir a adaptação perceptiva em tempo real e melhorar a navegação robótica sob condições sensoriais ruidosas, minimizando a energia variacional sem necessidade de atualizações baseadas em gradiente.

Maytus Piriyajitakonkij, Rishabh Dev Yadav, Mingfei Sun + 2 more2026-03-06💻 cs

InstructHumans: Editing Animated 3D Human Textures with Instructions

O artigo apresenta o InstructHumans, um novo quadro de trabalho para edição de texturas de humanos 3D animáveis baseada em instruções, que supera os métodos existentes ao introduzir uma versão modificada da Amostragem de Distilação de Pontuação (SDS-E) para garantir que as edições textuais sejam fiéis ao comando sem comprometer a consistência com o avatar original.

Jiayin Zhu, Linlin Yang, Angela Yao2026-03-06💻 cs

EasyAnimate: High-Performance Video Generation Framework with Hybrid Windows Attention and Reward Backpropagation

O EasyAnimate é um framework de geração de vídeo de alto desempenho que utiliza Transformers de Difusão com Atenção Híbrida em Janelas e Retropropagação de Recompensa para superar as limitações de velocidade e qualidade dos modelos existentes, alcançando resultados de última geração em benchmarks e avaliações humanas.

Jiaqi Xu, Kunzhe Huang, Xinyi Zou + 5 more2026-03-06💻 cs

Motion-Aware Animatable Gaussian Avatars Deblurring

Este artigo apresenta um método inovador que reconstrói diretamente avatares humanos 3D nítidos a partir de vídeos borrados, utilizando um modelo físico de formação de desfoque e um modelo de movimento humano para otimizar conjuntamente a representação do avatar e os parâmetros de movimento.

Muyao Niu, Yifan Zhan, Qingtian Zhu + 5 more2026-03-06💻 cs

Track Anything Behind Everything: Zero-Shot Amodal Video Object Segmentation

O artigo apresenta o TABE, um pipeline inovador para segmentação de objetos em vídeo que permite a conclusão amodal zero-shot (invisível) utilizando um único máscara de consulta e um modelo de difusão de vídeo pré-treinado, sem necessidade de retreinamento para classes específicas.

Finlay G. C. Hudson, William A. P. Smith2026-03-06💻 cs

Learnable Sparsity for Vision Generative Models

Este trabalho propõe um framework de poda estrutural agnóstico ao modelo que utiliza máscaras diferenciáveis e um objetivo de otimização de ponta a ponta com checkpointing de gradiente para reduzir em até 20% os parâmetros de modelos de difusão sem necessidade de retreinamento, mantendo a qualidade da geração.

Yang Zhang, Er Jin, Wenzhong Liang + 5 more2026-03-06💻 cs

Flatness Guided Test-Time Adaptation for Vision-Language Models

Este artigo propõe o FGA, um novo quadro de adaptação guiado pela planicidade que unifica o ajuste de prompts com sensibilidade à nitidez no treinamento e a seleção de amostras no teste para melhorar a adaptação de modelos visão-linguagem a mudanças de distribuição, superando métodos existentes com menor custo computacional.

Aodi Li, Liansheng Zhuang, Xiao Long + 2 more2026-03-06💻 cs

3D Dynamics-Aware Manipulation: Endowing Manipulation Policies with 3D Foresight

Este artigo apresenta um quadro de manipulação consciente de dinâmica 3D que integra modelagem de mundo 3D e aprendizado de políticas por meio de tarefas de aprendizado auto-supervisionado, dotando os modelos de "previsão 3D" para melhorar significativamente o desempenho em tarefas com movimento em profundidade sem comprometer a velocidade de inferência.

Yuxin He, Ruihao Zhang, Xianzu Wu + 3 more2026-03-06💻 cs

MedFuncta: A Unified Framework for Learning Efficient Medical Neural Fields

O artigo apresenta o MedFuncta, uma estrutura unificada que utiliza meta-aprendizado e uma representação latente comum para treinar campos neurais escaláveis em grandes conjuntos de dados médicos contínuos, superando as limitações de escalabilidade e resolução das representações discretas tradicionais.

Paul Friedrich, Florentin Bieder, Julian McGinnis + 3 more2026-03-06💻 cs

RapidPoseTriangulation: Multi-view Multi-person Whole-body Human Pose Triangulation in a Millisecond

O artigo apresenta o RapidPoseTriangulation, um novo algoritmo que realiza a triangulação de pose corporal completa de múltiplas pessoas em múltiplas câmeras em milissegundos, oferecendo alta velocidade, generalização robusta e acesso público ao código.

Daniel Bermuth, Alexander Poeppel, Wolfgang Reif2026-03-06💻 cs

Noise2Ghost: Self-supervised deep convolutional reconstruction for ghost imaging

O artigo apresenta o "Noise2Ghost", um novo método de reconstrução de imagem fantasma baseado em aprendizado profundo auto-supervisionado que elimina a necessidade de dados de referência limpos e oferece redução de ruído superior, permitindo aplicações de alta qualidade em cenários de baixa luminosidade, como imageamento de raios-X de amostras biológicas e baterias.

Mathieu Manni, Dmitry Karpov, K. Joost Batenburg + 2 more2026-03-06🔬 physics

Collaborative Learning of Local 3D Occupancy Prediction and Versatile Global Occupancy Mapping

O artigo propõe o LMPOcc, um framework plug-and-play que aprimora a previsão de ocupação 3D local ao integrar e atualizar continuamente mapas de ocupação globais como memórias de longo prazo, resultando em desempenho superior em benchmarks e na construção de mapas 3D escaláveis para ambientes externos.

Shanshuai Yuan, Julong Wei, Muer Tie + 3 more2026-03-06💻 cs

PhysLLM: Harnessing Large Language Models for Cross-Modal Remote Physiological Sensing

O artigo apresenta o PhysLLM, um framework inovador que integra Modelos de Linguagem de Grande Escala (LLMs) com componentes específicos de fotopletismografia remota (rPPG) através de estratégias como a Orientação por Protótipos de Texto e o Algoritmo de Estacionariedade de Duplo Domínio, superando desafios de iluminação e movimento para alcançar medições fisiológicas não invasivas com precisão e robustez superiores.

Yiping Xie, Bo Zhao, Mingtong Dai + 6 more2026-03-06💻 cs

← Anterior Próximo →