cs.CV artigos | Gist.Science

Fast Learning of Non-Cooperative Spacecraft 3D Models through Primitive Initialization

Este trabalho apresenta um pipeline que utiliza uma rede neural convolucional para inicializar modelos 3DGS com primitivas a partir de imagens monoculares e poses ruidosas, permitindo o aprendizado rápido e de alta fidelidade de modelos 3D de espaçonaves não cooperativas com custos computacionais drasticamente reduzidos.

Pol Francesch Huc, Emily Bates, Simone D'Amico2026-03-02🤖 cs.LG

DA-Occ: Direction-Aware 2D Convolution for Efficient and Geometry-Preserving 3D Occupancy Prediction in Autonomous Driving

O artigo apresenta o DA-Occ, um novo método de previsão de ocupação 3D para direção autônoma que combina projeção de altura complementar e convolução direcional para superar as limitações de precisão e eficiência dos métodos existentes, alcançando um equilíbrio ideal entre detalhe geométrico e velocidade de inferência.

Yuchen Zhou, Yan Luo, Xiaogang Wang + 3 more2026-03-02💻 cs

AutoDebias: Automated Framework for Debiasing Text-to-Image Models

O artigo apresenta o AutoDebias, um framework automatizado que utiliza modelos visão-linguagem e prompts de neutralização para identificar e mitigar com eficácia ataques de backdoor maliciosos e sutis em modelos de texto-para-imagem, reduzindo drasticamente a taxa de sucesso desses ataques sem comprometer a qualidade ou a diversidade das imagens geradas.

Hongyi Cai, Mohammad Mahdinur Rahman, Mingkang Dong + 7 more2026-03-02💻 cs

Less is More: AMBER-AFNO -- a New Benchmark for Lightweight 3D Medical Image Segmentation

O artigo apresenta o AMBER-AFNO, uma arquitetura de segmentação de imagens médicas 3D que substitui a atenção por operadores neurais adaptativos de Fourier (AFNO) para reduzir a complexidade computacional e o uso de memória, alcançando desempenho de ponta em conjuntos de dados públicos com um modelo compacto.

Andrea Dosi, Semanto Mondal, Rajib Chandra Ghosh + 2 more2026-03-02⚡ eess

AnimateScene: Camera-controllable Animation in Any Scene

O AnimateScene é um framework unificado que integra reconstrução de cenas 3D e animação humana 4D, resolvendo desafios de posicionamento físico, alinhamento de estilo e trajetórias de câmera dinâmicas para gerar vídeos coerentes e detalhados em qualquer cenário.

Qingyang Liu, Bingjie Gao, Weiheng Huang + 10 more2026-03-02💻 cs

BeeNet: Reconstructing Flower Shapes from Electric Fields using Deep Learning

Este estudo apresenta o BeeNet, um modelo de aprendizado profundo baseado em U-Net que reconstrói com precisão as formas geométricas de flores a partir de seus campos elétricos gerados pela interação com artrópodes carregados, demonstrando que a eletrorecepção pode fornecer detalhes espaciais ricos e resolvendo o problema de imagem eletrostática inversa.

Jake Turley, Ryan A. Palmer, Isaac V. Chenchiah + 1 more2026-03-02🧬 q-bio

Structure-aware Contrastive Learning for Diagram Understanding of Multimodal Models

Este artigo apresenta uma nova abordagem de aprendizado contrastivo estruturalmente consciente que, ao incorporar funções de perda especializadas e amostras difíceis, aprimora significativamente a compreensão de diagramas em modelos de linguagem e visão, superando os métodos padrão em tarefas como correspondência imagem-texto e resposta a perguntas visuais.

Hiroshi Sasaki2026-03-02🤖 cs.AI

Draw-In-Mind: Rebalancing Designer-Painter Roles in Unified Multimodal Models Benefits Image Editing

O artigo apresenta o Draw-In-Mind (DIM), um novo modelo e dataset que reequilibra as responsabilidades entre compreensão e geração em modelos multimodais unificados, atribuindo explicitamente o papel de "designer" ao módulo de compreensão para superar limitações na edição de imagens e alcançar desempenho superior a modelos muito maiores.

Ziyun Zeng, David Junhao Zhang, Wei Li + 1 more2026-03-02🤖 cs.AI

MEGS $^{2}$ : Memory-Efficient Gaussian Splatting via Spherical Gaussians and Unified Pruning

O artigo apresenta o MEGS $^{2}$ , um novo framework de Splatting Gaussiano 3D que reduz drasticamente o consumo de memória em dispositivos de borda ao substituir harmônicos esféricos por lóbulos gaussianos esféricos e empregar uma poda unificada, alcançando uma diminuição de 50% na memória estática e 40% na memória de renderização sem comprometer a qualidade visual.

Jiarui Chen, Yikeng Chen, Yingshuang Zou + 5 more2026-03-02🤖 cs.AI

Activation Function Design Sustains Plasticity in Continual Learning

Este artigo demonstra que o design cuidadoso de funções de ativação, especificamente através das novas funções Smooth-Leaky e Randomized Smooth-Leaky, é uma estratégia leve e geral para mitigar a perda de plasticidade e sustentar a adaptação em cenários de aprendizado contínuo, sem a necessidade de capacidade extra ou ajuste específico para cada tarefa.

Lute Lillo, Nick Cheney2026-03-02🤖 cs.AI

Unsupervised Representation Learning for 3D Mesh Parameterization with Semantic and Visibility Objectives

Este artigo apresenta um framework não supervisionado e diferenciável para parametrização de malhas 3D que automatiza o mapeamento UV ao incorporar objetivos de consciência semântica e visibilidade, resultando em atlas que melhor suportam a geração de texturas e reduzem artefatos perceptíveis em comparação com métodos existentes.

AmirHossein Zamani, Bruno Roy, Arianna Rampini2026-03-02💻 cs

Less is More: Lean yet Powerful Vision-Language Model for Autonomous Driving

Este trabalho apresenta o Max-V1, um modelo visão-linguagem leve e poderoso que reformula o planejamento de trajetória para direção autônoma como uma tarefa de previsão de próximos waypoints, alcançando desempenho superior ao estado da arte no conjunto de dados nuScenes e demonstrando robustez em cenários cruzados.

Sheng Yang, Tong Zhan, Guancheng Chen + 2 more2026-03-02🤖 cs.AI

Universal Beta Splatting

O artigo apresenta a Universal Beta Splatting (UBS), uma estrutura unificada que generaliza a Splatting Gaussiana 3D para kernels Beta anisotrópicos N-dimensionais, permitindo a modelagem controlada de dependências espaciais, angulares e temporais para renderização de campos de radiação em tempo real sem redes auxiliares, mantendo compatibilidade com métodos anteriores e superando-os em diversos benchmarks.

Rong Liu, Zhongpai Gao, Benjamin Planche + 8 more2026-03-02⚡ eess

CLEAR-IR: Clarity-Enhanced Active Reconstruction of Infrared Imagery

Este artigo apresenta o CLEAR-IR, uma nova arquitetura DeepMAO que reconstrói imagens de infravermelho livres de ruídos de emissores ativos, permitindo que sistemas robóticos realizem tarefas de visão complexas em condições de iluminação extrema com desempenho comparável ao de imagens RGB.

Nathan Shankar, Pawel Ladosz, Hujun Yin2026-03-02🤖 cs.LG

The False Promise of Zero-Shot Super-Resolution in Machine-Learned Operators

Este artigo demonstra que os operadores aprendidos por máquina falham na super-resolução zero-shot devido à sua suscetibilidade ao aliasing e à incapacidade de generalizar para resoluções não vistas, propondo em vez disso um protocolo de treinamento multi-resolução simples e eficiente para garantir robustez.

Mansi Sakarvadia, Kareem Hegazy, Amin Totounferoush + 4 more2026-03-02🤖 cs.AI

Into the Rabbit Hull: From Task-Relevant Concepts in DINO to Minkowski Geometry

Este artigo investiga como o DINOv2 representa conceitos visuais, demonstrando que, embora a Hipótese da Representação Linear com SAEs revele especialização funcional em tarefas como classificação e segmentação, a estrutura geométrica das representações é melhor descrita pela nova Hipótese da Representação de Minkowski, na qual os tokens são formados por misturas convexas de arquétipos dentro de espaços conceituais.

Thomas Fel, Binxu Wang, Michael A. Lepori + 8 more2026-03-02🤖 cs.AI

Uncertainty Matters in Dynamic Gaussian Splatting for Monocular 4D Reconstruction

O artigo apresenta o USplat4D, um novo framework de Splatting Gaussiano dinâmico que incorpora a incerteza temporal para otimizar a reconstrução 4D monoculares, utilizando observações confiáveis como âncoras para mitigar desvios de movimento e melhorar a síntese em vistas extremas.

Fengzhi Guo, Chih-Chuan Hsu, Sihao Ding + 1 more2026-03-02🤖 cs.AI

Leveraging Multimodal LLM Descriptions of Activity for Explainable Semi-Supervised Video Anomaly Detection

Este artigo apresenta um novo framework de detecção de anomalias em vídeo semi-supervisionado que utiliza Modelos de Linguagem Multimodais (MLLMs) para gerar descrições textuais de interações entre objetos, superando as limitações de métodos existentes ao detectar anomalias complexas com alto nível de explicabilidade e desempenho de ponta.

Furkan Mumcu, Michael J. Jones, Anoop Cherian + 1 more2026-03-02💻 cs

From Volume Rendering to 3D Gaussian Splatting: Theory and Applications

Este tutorial oferece uma visão abrangente da evolução da reconstrução 3D a partir da renderização volumétrica até o 3D Gaussian Splatting (3DGS), detalhando sua teoria, abordando suas limitações atuais e explorando suas diversas aplicações em síntese de novas visualizações, reconstrução de superfícies e geração de conteúdo.

Vitor Pereira Matias, Daniel Perazzo, Vinicius Silva + 4 more2026-03-02💻 cs

Small Drafts, Big Verdict: Information-Intensive Visual Reasoning via Speculation

O artigo apresenta o "Speculative Verdict" (SV), uma estrutura sem treinamento que combina múltiplos modelos VLM leves como especialistas rascunho com um modelo de veredito robusto para melhorar o raciocínio visual em imagens densamente informativas, alcançando ganhos de precisão e eficiência em benchmarks desafiadores.

Yuhan Liu, Lianhui Qin, Shengjie Wang2026-03-02💬 cs.CL

← Anterior Próximo →

cs.CV