cs.CV artigos | Gist.Science

WAFFLE: Finetuning Multi-Modal Models for Automated Front-End Development

O artigo apresenta o Waffle, uma nova estratégia de ajuste fino que utiliza mecanismos de atenção sensíveis à estrutura e aprendizado contrastivo para aprimorar a capacidade dos modelos de linguagem de converter designs de interface em código HTML, superando os métodos atuais em métricas de precisão e similaridade visual.

Shanchao Liang, Nan Jiang, Shangshu Qian + 1 more2026-03-04💬 cs.CL

RealOSR: Latent Guidance Boosts Diffusion-based Real-world Omnidirectional Image Super-Resolutions

O artigo apresenta o RealOSR, um framework baseado em difusão para super-resolução de imagens omnidirecionais no mundo real que utiliza o módulo LaGAR para alinhamento de gradiente no espaço latente, permitindo uma aceleração de inferência superior a 200 vezes e melhor qualidade visual em comparação com métodos existentes.

Xuhan Sheng, Runyi Li, Bin Chen + 3 more2026-03-04⚡ eess

Slot-BERT: Self-supervised Object Discovery in Surgical Video

O artigo apresenta o Slot-BERT, um modelo bidirecional de longo alcance que utiliza atenção centrada em objetos e uma nova perda de contraste para descobrir objetos de forma auto-supervisionada em vídeos cirúrgicos longos, garantindo coerência temporal robusta e adaptação zero-shot a diversos domínios cirúrgicos.

Guiqiu Liao, Matjaz Jogan, Marcel Hussing + 5 more2026-03-04⚡ eess

Weight Space Representation Learning on Diverse NeRF Architectures

Este artigo apresenta o primeiro framework capaz de aprender representações agnósticas à arquitetura para NeRFs diversos (incluindo MLPs, tri-planos e tabelas de hash) através de uma Meta-Rede Gráfica não supervisionada, permitindo inferência robusta em arquiteturas não vistas durante o treinamento e superando métodos existentes limitados a arquiteturas únicas.

Francesco Ballerini, Pierluigi Zama Ramirez, Luigi Di Stefano + 1 more2026-03-04💻 cs

Cycle-Consistent Multi-Graph Matching for Self-Supervised Annotation of C.Elegans

Este trabalho apresenta uma abordagem totalmente não supervisionada baseada em correspondência de múltiplos grafos cíclicamente consistente e otimização bayesiana que alcança a precisão de métodos supervisionados para a anotação semântica de células em imagens de microscopia 3D de *C. elegans*, permitindo a construção do primeiro atlas não supervisionado da espécie sem necessidade de anotações de referência.

Christoph Karg, Sebastian Stricker, Lisa Hutschenreiter + 2 more2026-03-04💻 cs

GAN-Based Single-Stage Defense for Traffic Sign Classification Under Adversarial Patch

Este estudo propõe uma estratégia de defesa única baseada em Redes Adversariais Generativas (GANs) para classificar sinais de trânsito em veículos autônomos, oferecendo proteção eficiente, rápida e independente do modelo contra ataques de patches adversariais, com ganhos de precisão de até 90% sob ataque e 55% globalmente.

Abyad Enan, Mashrur Chowdhury2026-03-04💻 cs

Language-guided Open-world Video Anomaly Detection under Weak Supervision

Este artigo apresenta o LaGoVAD, um novo paradigma e modelo de detecção de anomalias em vídeos que, sob supervisão fraca e guiado por linguagem natural, permite a adaptação dinâmica das definições de anomalias em cenários de mundo aberto, apoiado pelo lançamento do PreVAD, o maior e mais diversificado conjunto de dados de anomalias em vídeos até o momento.

Zihao Liu, Xiaoyu Wu, Jianqin Wu + 2 more2026-03-04💻 cs

Scale-wise Distillation of Diffusion Models

O artigo apresenta o SwD, um framework de destilação de difusão que melhora a eficiência de geração em poucos passos através de uma abordagem progressiva e de um novo objetivo baseado em MMD, superando métodos existentes em velocidade e qualidade para modelos de imagem e vídeo.

Nikita Starodubcev, Ilya Drobyshevskiy, Denis Kuznedelev + 2 more2026-03-04💻 cs

Differentially Private 2D Human Pose Estimation

Este trabalho apresenta o primeiro framework abrangente para estimativa de pose humana 2D com privacidade diferencial, combinando DP-SGD projetada e privacidade de características para equilibrar proteção de dados e desempenho, alcançando até 82,61% de PCKh@0.5 no conjunto MPII com orçamento de privacidade de ε=0,8.

Kaushik Bhargav Sivangi, Paul Henderson, Fani Deligianni2026-03-04💻 cs

Model Already Knows the Best Noise: Bayesian Active Noise Selection via Attention in Video Diffusion Model

O artigo propõe o ANSE, um framework que seleciona automaticamente as melhores sementes de ruído para geração de vídeo em modelos de difusão, utilizando uma função de aquisição bayesiana baseada em atenção (BANSA) para medir a incerteza do modelo e melhorar a qualidade e a coerência temporal com custo computacional marginal.

Kwanyoung Kim, Sanghyun Kim2026-03-04🤖 cs.AI

SABER: Spatially Consistent 3D Universal Adversarial Objects for BEV Detectors

O artigo apresenta o SABER, um framework inovador que gera objetos adversariais universais, não invasivos e espacialmente consistentes em 3D para expor vulnerabilidades fundamentais em detectores de objetos BEV, simulando ameaças realistas ao manipular o ambiente em vez de alterar os veículos.

Aixuan Li, Mochu Xiang, Bosen Hou + 3 more2026-03-04💻 cs

Interaction Field Matching: Overcoming Limitations of Electrostatic Models

Este artigo propõe o Interaction Field Matching (IFM), uma generalização do Electrostatic Field Matching que supera suas limitações ao utilizar campos de interação inspirados na física de quarks para gerar e transferir dados de forma mais eficiente.

Stepan I. Manukhov, Alexander Kolesov, Vladimir V. Palyulin + 1 more2026-03-04🤖 cs.AI

HSSBench: Benchmarking Humanities and Social Sciences Ability for Multimodal Large Language Models

Este artigo apresenta o HSSBench, um novo benchmark multilíngue com mais de 13.000 amostras e um pipeline de geração de dados colaborativo, projetado especificamente para avaliar e superar as limitações dos Modelos de Linguagem Grandes Multimodais (MLLMs) em tarefas de Humanidades e Ciências Sociais que exigem raciocínio interdisciplinar horizontal.

Zhaolu Kang, Junhao Gong, Jiaxu Yan + 15 more2026-03-04🤖 cs.AI

Frame Guidance: Training-Free Guidance for Frame-Level Control in Video Diffusion Models

O artigo apresenta o Frame Guidance, um método sem treinamento que permite o controle de geração de vídeos em nível de quadro (como keyframes, estilos e esboços) em modelos de difusão existentes, utilizando técnicas de processamento de latente para reduzir o uso de memória e garantir coerência global sem a necessidade de ajuste fino do modelo.

Sangwon Jang, Taekyung Ki, Jaehyeong Jo + 4 more2026-03-04🤖 cs.AI

Perception-R1: Advancing Multimodal Reasoning Capabilities of MLLMs via Visual Perception Reward

O artigo apresenta o Perception-R1, um método que aprimora o raciocínio multimodal de Grandes Modelos de Linguagem Multimodais (MLLMs) ao introduzir uma recompensa de percepção visual baseada em verificação de consistência, superando as limitações dos métodos atuais de Aprendizado por Reforço com Recompensas Verificáveis (RLVR) e alcançando desempenho de ponta com poucos dados de treinamento.

Tong Xiao, Xin Xu, Zhenya Huang + 4 more2026-03-04🤖 cs.AI

StreamSplat: Towards Online Dynamic 3D Reconstruction from Uncalibrated Video Streams

O StreamSplat é um framework totalmente feed-forward que realiza a reconstrução 3D dinâmica online de fluxos de vídeo não calibrados em tempo real, superando os métodos baseados em otimização com uma aceleração de 1200x através de inovações como amostragem probabilística, um campo de deformação bidirecional e fusão adaptativa de Gaussianas.

Zike Wu, Qi Yan, Xuanyu Yi + 2 more2026-03-04🤖 cs.LG

Evolutionary Caching to Accelerate Your Off-the-Shelf Diffusion Model

O artigo apresenta o ECAD, um método baseado em algoritmos genéticos que otimiza automaticamente agendamentos de cache para acelerar a inferência de modelos de difusão sem alterar seus parâmetros, alcançando ganhos significativos de velocidade e qualidade que superam as abordagens anteriores.

Anirud Aggarwal, Abhinav Shrivastava, Matthew Gwilliam2026-03-04💻 cs

Synthetic Perception: Can Generated Images Unlock Latent Visual Prior for Text-Centric Reasoning?

Este trabalho demonstra que a geração de imagens sintéticas a partir de texto pode desbloquear priores visuais latentes e melhorar o raciocínio centrado em texto, estabelecendo um benchmark rigoroso para essa abordagem condicional que mitiga a privação sensorial de modelos unimodais.

Yuesheng Huang, Peng Zhang, Xiaoxin Wu + 2 more2026-03-04💻 cs

SceneStreamer: Continuous Scenario Generation as Next Token Group Prediction

O artigo apresenta o SceneStreamer, um framework autoregressivo unificado que utiliza um modelo transformer para gerar cenários de tráfego contínuos e dinâmicos, permitindo a introdução e remoção de agentes ao longo de horizontes ilimitados e servindo como um ambiente de simulação de alta fidelidade para o treinamento e avaliação de sistemas de direção autônoma.

Zhenghao Peng, Yuxin Liu, Bolei Zhou2026-03-04💻 cs

Navigating with Annealing Guidance Scale in Diffusion Space

Este trabalho propõe um agendador de guia de recozimento que ajusta dinamicamente a escala de orientação durante o processo de amostragem de modelos de difusão, melhorando significativamente a qualidade da imagem e a aderência ao prompt de texto sem consumir memória ou ativações adicionais.

Shai Yehezkel, Omer Dahary, Andrey Voynov + 1 more2026-03-04🤖 cs.AI

← Anterior Próximo →