cs.CV artigos | Gist.Science

Spatial Autoregressive Modeling of DINOv3 Embeddings for Unsupervised Anomaly Detection

Este trabalho propõe um framework eficiente para detecção de anomalias não supervisionada que utiliza um modelo autoregressivo espacial para capturar dependências contextuais entre embeddings do DINOv3, eliminando a necessidade de bancos de memória volumosos e reduzindo significativamente o custo computacional e de memória durante a inferência.

Ertunc Erdil, Nico Schulthess, Guney Tombak + 1 more2026-03-04💻 cs

The Dresden Dataset for 4D Reconstruction of Non-Rigid Abdominal Surgical Scenes

O artigo apresenta o conjunto de dados Dresden (D4D), um recurso abrangente com mais de 300.000 quadros de vídeos endoscópicos e geometria de luz estruturada de cadáveres suínos, projetado para avaliar e desenvolver métodos de reconstrução 4D, SLAM não-rígido e estimativa de profundidade em cenários cirúrgicos abdominais deformáveis.

Reuben Docea, Rayan Younis, Yonghao Long + 10 more2026-03-04💻 cs

VIRGi: View-dependent Instant Recoloring of 3D Gaussians Splats

O artigo apresenta o VIRGi, um método inovador que permite a recolorização rápida e fotorealista de cenas modeladas por 3D Gaussian Splatting, preservando efeitos dependentes da visão como reflexos especulares, através de uma arquitetura que separa componentes de cor e um esquema de ajuste fino que propaga edições de uma única imagem em apenas dois segundos.

Alessio Mazzucchelli, Ivan Ojeda-Martin, Fernando Rivas-Manzaneque + 3 more2026-03-04💻 cs

Any Resolution Any Geometry: From Multi-View To Multi-Patch

O artigo propõe o URGT, um transformador unificado de múltiplos patches que supera o compromisso entre detalhe local e consistência global para estimar profundidade e normais de superfície em ultra-alta resolução a partir de imagens monoculares, alcançando resultados state-of-the-art e forte generalização.

Wenqing Cui, Zhenyu Li, Mykola Lavreniuk + 4 more2026-03-04💻 cs

BRIGHT: A Collaborative Generalist-Specialist Foundation Model for Breast Pathology

O artigo apresenta o BRIGHT, o primeiro modelo de fundação especializado em patologia mamária que utiliza uma abordagem colaborativa generalista-especialista treinada em 210 milhões de imagens, demonstrando desempenho superior e utilidade clínica em 24 tarefas distintas ao superar modelos generalistas existentes.

Xiaojing Guo, Jiatai Lin, Yumian Jia + 39 more2026-03-04💻 cs

EduVQA: Benchmarking AI-Generated Video Quality Assessment for Education

O artigo apresenta o EduVQA, um novo framework e conjunto de dados (EduAIGV-1k) que avalia a qualidade perceptual e a alinhamento com prompts de vídeos gerados por IA para o ensino de matemática, introduzindo um módulo S2D-MoE que supera as abordagens existentes.

Baoliang Chen, Xinlong Bu, Lingyu Zhu + 2 more2026-03-04💻 cs

TikZilla: Scaling Text-to-TikZ with High-Quality Data and Reinforcement Learning

O artigo apresenta o TikZilla, um conjunto de modelos de linguagem de pequeno porte treinados com o novo dataset de alta qualidade DaTikZ-V4 e um pipeline de aprendizado por reforço que utiliza recompensas semânticas baseadas em imagens, superando modelos proprietários maiores na geração de gráficos científicos em TikZ a partir de descrições textuais.

Christian Greisinger, Steffen Eger2026-03-04💬 cs.CL

TinyIceNet: Low-Power SAR Sea Ice Segmentation for On-Board FPGA Inference

O artigo apresenta o TinyIceNet, uma rede de segmentação semântica compacta e energeticamente eficiente projetada para inferência em tempo real de gelo marinho em chips FPGA a bordo de satélites, alcançando um equilíbrio otimizado entre precisão e consumo de energia para processamento direto de dados de radar de abertura sintética (SAR).

Mhd Rashed Al Koutayni, Mohamed Selim, Gerd Reis + 2 more2026-03-04🤖 cs.AI

AWDiff: An a trous wavelet diffusion model for lung ultrasound image synthesis

O artigo apresenta o AWDiff, um modelo de difusão baseado em transformada wavelet *a trous* e condicionado semanticamente pelo BioMedCLIP, projetado para sintetizar imagens de ultrassom pulmonar com alta fidelidade estrutural e preservação de sinais diagnósticos sutis, superando as limitações de métodos generativos existentes.

Maryam Heidari, Nantheera Anantrasirichai, Steven Walker + 2 more2026-03-04💻 cs

Geometry-Guided Reinforcement Learning for Multi-view Consistent 3D Scene Editing

O artigo apresenta o RL3DEdit, um framework baseado em aprendizado por reforço que utiliza recompensas derivadas do modelo 3D VGGT para garantir consistência multiview em edições de cenas 3D, superando as limitações da falta de dados de treinamento supervisionado.

Jiyuan Wang, Chunyu Lin, Lei Sun + 8 more2026-03-04🤖 cs.AI

Kling-MotionControl Technical Report

O Kling-MotionControl é um framework unificado baseado em DiT que utiliza uma estratégia de dividir e conquistar para gerar animações de personagens realistas e expressivas, garantindo estabilidade estrutural e detalhamento fino, generalização entre diferentes identidades, preservação fiel da aparência e aceleração de inferência, superando soluções comerciais e de código aberto em fidelidade e controle.

Kling Team, Jialu Chen, Yikang Ding + 21 more2026-03-04💻 cs

Conditioned Activation Transport for T2I Safety Steering

O artigo propõe o Conditioned Activation Transport (CAT), um novo framework que utiliza mapas de transporte não lineares e condicionamento geométrico para mitigar a geração de conteúdo tóxico em modelos de texto-para-imagem, reduzindo significativamente a taxa de sucesso de ataques sem comprometer a qualidade das imagens geradas por prompts benignos.

Maciej Chrabąszcz, Aleksander Szymczyk, Jan Dubiński + 3 more2026-03-04🤖 cs.AI

MoD-DPO: Towards Mitigating Cross-modal Hallucinations in Omni LLMs using Modality Decoupled Preference Optimization

Este trabalho propõe o MoD-DPO, uma estrutura de otimização de preferência que mitiga alucinações cruzadas em modelos de linguagem omni-modais ao impor regularização específica por modalidade e penalizar a dependência excessiva de priores textuais, resultando em maior precisão perceptiva e robustez.

Ashutosh Chaubey, Jiacheng Pang, Mohammad Soleymani2026-03-04💬 cs.CL

Chain of World: World Model Thinking in Latent Motion

O artigo apresenta o CoWVLA, um novo paradigma de modelo de visão-linguagem-ação que unifica o raciocínio temporal de modelos de mundo com uma representação de movimento latente desacoplada, superando as limitações de abordagens anteriores e alcançando desempenho superior em benchmarks de robótica.

Fuxiang Yang, Donglin Di, Lulu Tang + 6 more2026-03-04🤖 cs.AI

ACE-Brain-0: Spatial Intelligence as a Shared Scaffold for Universal Embodiments

O artigo apresenta o ACE-Brain-0, uma inteligência fundacional geral que utiliza a inteligência espacial como uma estrutura universal para unificar veículos autônomos, robótica e drones em um único modelo multimodal, empregando o paradigma "Scaffold-Specialize-Reconcile" e o GRPO para alcançar desempenho de ponta em 24 benchmarks.

Ziyang Gong, Zehang Luo, Anke Tang + 21 more2026-03-04💬 cs.CL

COP-GEN: Latent Diffusion Transformer for Copernicus Earth Observation Data -- Generation Stochastic by Design

O artigo apresenta o COP-GEN, um modelo de difusão latente baseado em transformadores que gera distribuições estocásticas de dados de observação terrestre multimodais, superando as limitações dos modelos determinísticos ao capturar a variabilidade física e permitir traduções flexíveis entre sensores sem necessidade de retreinamento específico.

Miguel Espinosa, Eva Gmelich Meijling, Valerio Marsocci + 2 more2026-03-04💻 cs

UniG2U-Bench: Do Unified Models Advance Multimodal Understanding?

O artigo apresenta o UniG2U-Bench, um benchmark abrangente que revela que, embora os modelos multimodais unificados geralmente tenham desempenho inferior aos modelos de linguagem e visão puros na maioria das tarefas, a geração intermediária melhora significativamente a compreensão em cenários específicos que exigem inteligência espacial, resolução de ilusões visuais ou raciocínio multi-etapa.

Zimo Wen, Boxiu Li, Wanbo Zhang + 11 more2026-03-04🤖 cs.AI

DuoMo: Dual Motion Diffusion for World-Space Human Reconstruction

O DuoMo é um método generativo inovador que utiliza dois modelos de difusão de movimento para reconstruir com precisão a trajetória humana no espaço mundial a partir de vídeos não restritos e ruidosos, superando o estado da arte em precisão e consistência global sem depender de modelos paramétricos.

Yufu Wang, Evonne Ng, Soyong Shin + 8 more2026-03-04💻 cs

LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory

O LoGeR é uma nova arquitetura que supera as limitações de memória e complexidade dos modelos geométricos existentes, permitindo a reconstrução 3D densa e globalmente consistente em vídeos de longuíssima duração (até milhares de quadros) através de um módulo de memória híbrido que combina treinamento no tempo de teste e atenção de janela deslizante.

Junyi Zhang, Charles Herrmann, Junhwa Hur + 5 more2026-03-04🤖 cs.LG

Beyond Language Modeling: An Exploration of Multimodal Pretraining

Este artigo investiga o pré-treinamento multimodal nativo utilizando o framework Transfusion, revelando que a combinação de representações visuais unificadas (RAE) com uma arquitetura Mixture-of-Experts (MoE) resolve a assimetria de escalabilidade entre visão e linguagem, permitindo a emergência de capacidades de modelagem de mundo e sinergia entre modalidades.

Shengbang Tong, David Fan, John Nguyen + 18 more2026-03-04💻 cs

← Anterior Próximo →