cs.CV artigos | Gist.Science

World2Act: Latent Action Post-Training via Skill-Compositional World Models

O artigo apresenta o World2Act, um framework de pós-treinamento que alinha ações de políticas VLA diretamente com latentes de dinâmica de vídeo de modelos de mundo, utilizando decomposição de habilidades baseada em LLM para superar limitações de geração temporal e alcançar resultados state-of-the-art em tarefas robóticas.

An Dinh Vuong, Tuan Van Vo, Abdullah Sohail, Haoran Ding, Liang Ma, Xiaodan Liang, Anqing Duan, Ivan Laptev, Ian Reid2026-03-12💻 cs

AsyncMDE: Real-Time Monocular Depth Estimation via Asynchronous Spatial Memory

O AsyncMDE é um sistema de estimativa de profundidade monocular em tempo real que utiliza uma memória espacial assíncrona para amortizar o custo computacional de modelos fundacionais, permitindo a implantação eficiente em dispositivos de borda com alta velocidade e precisão.

Lianjie Ma, Yuquan Li, Bingzheng Jiang, Ziming Zhong, Han Ding, Lijun Zhu2026-03-12💻 cs

Unlearning the Unpromptable: Prompt-free Instance Unlearning in Diffusion Models

Este artigo apresenta um método inovador de "desaprendizado" baseado em surrogates para modelos de difusão que permite remover seletivamente saídas indesejadas e não passíveis de prompt (como rostos específicos ou representações culturalmente imprecisas) sem comprometer a integridade do modelo, oferecendo uma solução prática para privacidade e conformidade ética.

Kyungryeol Lee, Kyeonghyun Lee, Seongmin Hong, Byung Hyun Lee, Se Young Chun2026-03-12🤖 cs.LG

SignSparK: Efficient Multilingual Sign Language Production via Sparse Keyframe Learning

O artigo apresenta o SignSparK, um novo framework multilíngue de produção de língua de sinais que supera as limitações dos métodos atuais ao utilizar um paradigma de aprendizado baseado em quadros-chave esparsos e Fluxo Condicional de Correspondência (CFM) para gerar sequências de sinais 3D naturais, fluidas e editáveis com alta fidelidade e eficiência.

Jianhe Low, Alexandre Symeonidis-Herzig, Maksym Ivashechkin, Ozge Mercanoglu Sincan, Richard Bowden2026-03-12💻 cs

LCAMV: High-Accuracy 3D Reconstruction of Color-Varying Objects Using LCA Correction and Minimum-Variance Fusion in Structured Light

Este artigo apresenta o método LCAMV, que realiza uma reconstrução 3D de alta precisão de objetos coloridos utilizando luz estruturada ao corrigir a aberração cromática lateral e fundir dados de fase multicanal com estimativa de variância mínima, eliminando a necessidade de hardware adicional ou múltiplas exposições.

Wonbeen Oh, Jae-Sang Hyun2026-03-12💻 cs

Learning to Wander: Improving the Global Image Geolocation Ability of LMMs via Actionable Reasoning

Este artigo apresenta o WanderBench, o primeiro benchmark global de geolocalização interativa com mais de 32 mil panoramas, e o GeoAoT, um framework que aprimora a capacidade de localização global de Modelos Multimodais Grandes (LMMs) ao integrar raciocínio com ações físicas de exploração para reduzir a incerteza em ambientes dinâmicos.

Yushuo Zheng, Huiyu Duan, Zicheng Zhang, Xiaohong Liu, Xiongkuo Min2026-03-12💻 cs

MoXaRt: Audio-Visual Object-Guided Sound Interaction for XR

O MoXaRt é um sistema de Realidade Estendida (XR) em tempo real que utiliza uma arquitetura cascata com pistas áudio-visuais para separar fontes sonoras concorrentes, melhorando significativamente a inteligibilidade da fala e reduzindo a carga cognitiva em ambientes acústicos complexos.

Tianyu Xu, Sieun Kim, Qianhui Zheng, Ruoyu Xu, Tejasvi Ravi, Anuva Kulkarni, Katrina Passarella-Ward, Junyi Zhu, Adarsh Kowdle2026-03-12💻 cs

UniPINN: A Unified PINN Framework for Multi-task Learning of Diverse Navier-Stokes Equations

O artigo apresenta o UniPINN, uma estrutura unificada de Redes Neurais Informadas por Física (PINNs) que resolve os desafios de aprendizado multi-tarefa em diferentes regimes de equações de Navier-Stokes através de uma arquitetura compartilhada-especializada, um mecanismo de atenção entre fluxos e uma estratégia de alocação dinâmica de pesos, resultando em maior precisão e estabilidade de treinamento.

Dengdi Sun, Jie Chen, Xiao Wang, Jin Tang2026-03-12🤖 cs.AI

Fighting Hallucinations with Counterfactuals: Diffusion-Guided Perturbations for LVLM Hallucination Suppression

O artigo apresenta o CIPHER, um método livre de treinamento que suprime alucinações induzidas por visão em Modelos de Linguagem e Visão de Grande Escala (LVLMs) ao projetar estados ocultos intermediários para fora de um subespaço de baixa dimensão característico, identificado através de um conjunto de dados contrafactual (OHC-25K) gerado por difusão.

Hamidreza Dastmalchi, Aijun An, Ali Cheraghian, Hamed Barzamini2026-03-12💻 cs

StructDamage:A Large Scale Unified Crack and Surface Defect Dataset for Robust Structural Damage Detection

O artigo apresenta o StructDamage, um novo conjunto de dados unificado e em grande escala contendo aproximadamente 78.093 imagens de nove tipos de superfícies, criado para superar as limitações de generalização dos métodos atuais de detecção automática de fissuras e defeitos estruturais e promover pesquisas reprodutíveis e robustas.

Misbah Ijaz, Saif Ur Rehman Khan, Abd Ur Rehman, Sebastian Vollmer, Andreas Dengel, Muhammad Nabeel Asim2026-03-12💻 cs

Spatial self-supervised Peak Learning and correlation-based Evaluation of peak picking in Mass Spectrometry Imaging

Este artigo propõe uma rede neural autoencoder de aprendizado auto-supervisionado espacial para a seleção de picos em imagens de espectrometria de massa, acompanhada de um novo procedimento de avaliação baseado em máscaras de segmentação anotadas por especialistas, demonstrando superioridade sobre métodos atuais em diversos conjuntos de dados públicos.

Philipp Weigand, Nikolas Ebert, Shad A. Mohammed, Denis Abu Sammour, Carsten Hopf, Oliver Wasenmüller2026-03-12💻 cs

IMTBench: A Multi-Scenario Cross-Modal Collaborative Evaluation Benchmark for In-Image Machine Translation

O artigo apresenta o IMTBench, um novo benchmark multi-cenário e multi-modal composto por 2.500 amostras que avalia a qualidade da tradução de texto em imagens, a preservação do contexto visual e a consistência entre o texto traduzido e a renderização final, revelando lacunas significativas de desempenho nos sistemas atuais.

Jiahao Lyu, Pei Fu, Zhenhang Li, Weichao Zeng, Shaojie Zhan, Jiahui Yang, Can Ma, Yu Zhou, Zhenbo Luo, Jian Luan2026-03-12💻 cs

Naïve Exposure of Generative AI Capabilities Undermines Deepfake Detection

Este trabalho demonstra que a exposição ingênua das capacidades de refinamento e raciocínio de sistemas de IA generativa comercial, acessíveis por meio de prompts benignos, mina fundamentalmente os detectores de deepfake modernos ao permitir a criação de imagens que evitam a detecção, preservam a identidade e possuem alta qualidade perceptual, revelando uma lacuna crítica entre os modelos de ameaça atuais e as capacidades reais dessas ferramentas.

Sunpill Kim, Chanwoo Hwang, Minsu Kim, Jae Hong Seo2026-03-12🤖 cs.AI

UHD Image Deblurring via Autoregressive Flow with Ill-conditioned Constraints

Este artigo propõe um novo método de fluxo autoregressivo com restrição de condicionamento ruim para desfoque de imagens em ultra-alta definição, decompondo a restauração em um processo progressivo de baixo para alto resolução e utilizando correspondência de fluxo com regularização para equilibrar a recuperação de detalhes finos e a eficiência de inferência em resoluções de 4K ou superiores.

Yucheng Xin, Dawei Zhao, Xiang Chen, Chen Wu, Pu Wang, Dianjie Lu, Guijuan Zhang, Xiuyi Jia, Zhuoran Zheng2026-03-12💻 cs

Visually-Guided Controllable Medical Image Generation via Fine-Grained Semantic Disentanglement

Este artigo propõe um framework de desentrelaçamento semântico guiado visualmente que supera as limitações dos modelos texto-para-imagem na síntese de imagens médicas, utilizando alinhamento latente cross-modal e um módulo de fusão híbrida para garantir controle granular e alta qualidade na geração de dados.

Xin Huang, Junjie Liang, Qingshan Hou, Peng Cao, Jinzhu Yang, Xiaoli Liu, Osmar R. Zaiane2026-03-12💻 cs

Sparse Task Vector Mixup with Hypernetworks for Efficient Knowledge Transfer in Whole-Slide Image Prognosis

O artigo propõe o STEPH, um novo esquema baseado em hiper-redes que utiliza a mistura esparsa de vetores de tarefas para transferir conhecimento generalizável entre diferentes tipos de câncer em imagens de lâminas inteiras (WSI), melhorando significativamente a precisão prognóstica e a eficiência computacional em comparação com métodos existentes.

Pei Liu, Xiangxiang Zeng, Tengfei Ma, Yucheng Xing, Xuanbai Ren, Yiping Liu2026-03-12💻 cs

DSFlash: Comprehensive Panoptic Scene Graph Generation in Realtime

O artigo apresenta o DSFlash, um modelo de baixa latência e eficiente em recursos para geração de gráficos de cena panóptica que processa fluxos de vídeo a 56 quadros por segundo sem comprometer o desempenho, tornando-o ideal para dispositivos de borda e pesquisadores com limitações computacionais.

Julian Lorenz, Vladyslav Kovganko, Elias Kohout, Mrunmai Phatak, Daniel Kienzle, Rainer Lienhart2026-03-12💻 cs

Prompting with the human-touch: evaluating model-sensitivity of foundation models for musculoskeletal CT segmentation

Este estudo avalia a sensibilidade de 11 modelos fundamentais de segmentação de imagens a prompts humanos em tomografias computadorizadas musculoesqueléticas, revelando que o desempenho varia significativamente entre modelos e estratégias de prompt, e que a performance reportada com prompts ideais tende a superestimar os resultados em cenários reais guiados por humanos.

Caroline Magg, Maaike A. ter Wee, Johannes G. G. Dobbe, Geert J. Streekstra, Leendert Blankevoort, Clara I. Sánchez, Hoel Kervadec2026-03-12🤖 cs.AI

Towards Cognitive Defect Analysis in Active Infrared Thermography with Vision-Text Cues

Este trabalho apresenta um novo framework guiado por linguagem para análise cognitiva de defeitos em compósitos de fibra de carbono usando termografia infravermelha ativa e modelos visão-linguagem pré-treinados, permitindo a detecção e localização de defeitos subsuperficiais em cenários zero-shot sem a necessidade de conjuntos de dados de treinamento específicos.

Mohammed Salah, Eman Ouda, Giuseppe Dell'Avvocato, Fabrizio Sarasini, Ester D'Accardi, Jorge Dias, Davor Svetinovic, Stefano Sfarra, Yusra Abdulrahman2026-03-12⚡ eess

P-GSVC: Layered Progressive 2D Gaussian Splatting for Scalable Image and Video

O artigo apresenta o P-GSVC, um novo framework de splatting gaussiano 2D progressivo e em camadas que oferece uma solução unificada para reconstrução escalável de imagens e vídeos, utilizando uma estratégia de treinamento conjunto que supera métodos sequenciais ao garantir compatibilidade entre camadas e melhorar significativamente a qualidade da reconstrução.

Longan Wang, Yuang Shi, Wei Tsang Ooi2026-03-12💻 cs

← Anterior Próximo →