cs.CV artigos | Gist.Science

Volley Revolver: A Novel Matrix-Encoding Method for Privacy-Preserving Neural Networks (Inference)

Este trabalho apresenta o método de codificação de matrizes "Volley Revolver", que permite a execução eficiente de redes neurais convolucionais para classificação de imagens manuscritas sobre dados criptografados em nuvens públicas, preservando a privacidade com um único upload de cifratura.

John Chiang2026-03-05💻 cs

Schrödinger's Camera: First Steps Towards a Quantum-Based Privacy Preserving Camera

O artigo propõe uma câmera de privacidade baseada em estados quânticos, onde imagens são armazenadas de forma reversível até a medição e um algoritmo de aprendizado por reforço é utilizado para otimizar o equilíbrio entre privacidade e utilidade antes da observação.

Hannah Kirkland, Sanjeev J. Koppal2026-03-05⚛️ quant-ph

GeoTop: Advancing Image Classification with Geometric-Topological Analysis

O artigo apresenta o GeoTop, um framework matematicamente fundamentado que unifica a Análise Topológica de Dados e as Curvaturas de Lipschitz-Killing para superar as limitações de modelos convencionais na classificação de imagens diagnósticas, oferecendo maior precisão, interpretabilidade intrínseca e eficiência computacional ao distinguir estruturas benignas e malignas que compartilham topologia global, mas diferem em detalhes geométricos.

Mariem Abaach, Ian Morilla2026-03-05🤖 cs.LG

Catch Me If You Can Describe Me: Open-Vocabulary Camouflaged Instance Segmentation with Diffusion

Este artigo propõe um novo método para segmentação de instâncias camufladas em vocabulário aberto, utilizando técnicas de difusão texto-para-imagem para aprender representações visuais e textuais multiescala que superam as limitações atuais na identificação de objetos que se fundem ao fundo, abrindo caminho para aplicações em vigilância, monitoramento da vida selvagem e reconhecimento militar.

Tuan-Anh Vu, Duc Thanh Nguyen, Qing Guo + 4 more2026-03-05🤖 cs.AI

Learning to Generate Conditional Tri-plane for 3D-aware Expression Controllable Portrait Animation

O artigo apresenta o Export3D, um método de animação de retratos em uma única imagem que gera um tri-plano condicional 3D-aware para controlar expressões faciais e ângulos de câmera sem trocar a aparência do sujeito, graças a um novo quadro de pré-treinamento contrastivo que isola os parâmetros de expressão dos traços de identidade.

Taekyung Ki, Dongchan Min, Gyeongsu Chae2026-03-05🤖 cs.AI

FireANTs: Adaptive Riemannian Optimization for Multi-Scale Diffeomorphic Matching

O artigo apresenta o FireANTs, um algoritmo de otimização Riemanniana adaptativa e livre de treinamento que realiza correspondência difeomórfica densa de imagens de forma rápida, eficiente em memória e robusta em múltiplas escalas, superando significativamente em velocidade e generalização os métodos tradicionais e de aprendizado profundo.

Rohit Jena, Pratik Chaudhari, James C. Gee2026-03-05💻 cs

Merlin: A Computed Tomography Vision-Language Foundation Model and Dataset

O artigo apresenta o Merlin, um modelo fundacional de linguagem e visão 3D treinado em um vasto conjunto de dados clínicos de tomografias computadorizadas abdominais, registros eletrônicos de saúde e laudos radiológicos, que supera os modelos existentes na interpretação de imagens médicas e demonstra alta generalização em diversas tarefas diagnósticas, prognósticas e de qualidade.

Louis Blankemeier, Ashwin Kumar, Joseph Paul Cohen + 37 more2026-03-05🤖 cs.AI

Natural Adversaries: Fuzzing Autonomous Vehicles with Realistic Roadside Object Placements

Este trabalho apresenta o TrashFuzz, um algoritmo de fuzzing que identifica cenários realistas de adversários ao manipular a posição de objetos comuns na estrada, violando diretrizes de design viário e induzindo o sistema de direção autônoma Apollo a cometer erros de percepção e infringir leis de trânsito.

Yang Sun, Haoyu Wang, Christopher M. Poskitt + 1 more2026-03-05💻 cs

FINE: Factorizing Knowledge for Initialization of Variable-sized Diffusion Models

O artigo propõe o FINE, um método de pré-treinamento inovador que fatoriza o conhecimento de modelos de difusão em componentes fundamentais chamados "learngenes", permitindo a inicialização eficiente e flexível de modelos de tamanhos variados sem a necessidade de re-treinamento completo.

Yucheng Xie, Fu Feng, Ruixiao Shi + 4 more2026-03-05💻 cs

Scaling Laws For Diffusion Transformers

Este artigo estabelece pela primeira vez leis de escalonamento para Difusores Transformers (DiT), demonstrando que a perda de pré-treinamento segue uma relação de lei de potência com o custo computacional, o que permite prever com precisão o desempenho de geração e otimizar o tamanho do modelo e a quantidade de dados necessários dentro de um orçamento de computação específico.

Zhengyang Liang, Hao He, Ceyuan Yang + 1 more2026-03-05💻 cs

TextMaster: A Unified Framework for Realistic Text Editing via Glyph-Style Dual-Control

O artigo apresenta o TextMaster, um framework unificado que supera as limitações atuais na edição de texto em imagens ao garantir alta precisão de traços, layout controlado e transferência de estilo viabilizada por informações de glifos de alta resolução, perda perceptual e mecanismos de atenção.

Zhenyu Yan, Jian Wang, Aoqiang Wang + 3 more2026-03-05💻 cs

FlowCLAS: Enhancing Normalizing Flow Via Contrastive Learning For Anomaly Segmentation

O artigo apresenta o FlowCLAS, um novo quadro híbrido que aprimora os Fluxos Normalizadores para segmentação de anomalias em robótica ao combinar a máxima verossimilhança com uma perda de contraste baseada em exposição a outliers, alcançando desempenho superior ao estado da arte em vários benchmarks desafiadores.

Chang Won Lee, Selina Leveugle, Svetlana Stolpner + 4 more2026-03-05🤖 cs.LG

Building a Mind Palace: Structuring Environment-Grounded Semantic Graphs for Effective Long Video Analysis with LLMs

O artigo apresenta o VideoMindPalace, um novo framework que organiza momentos-chave de vídeos longos em um grafo semântico estruturado inspirado no "palácio da mente" para melhorar a compreensão espaço-temporal e o raciocínio humano em modelos de linguagem visual, validado por meio do novo benchmark VMB e de conjuntos de dados existentes.

Zeyi Huang, Yuyang Ji, Xiaofang Wang + 11 more2026-03-05💻 cs

DCENWCNet: A Deep CNN Ensemble Network for White Blood Cell Classification with LIME-Based Explainability

O artigo apresenta o DCENWCNet, uma nova rede neural convolucional emsemble que integra três arquiteturas CNN com configurações distintas para superar os desafios de desequilíbrio de dados na classificação de glóbulos brancos, alcançando desempenho superior em métricas de precisão e incorporando a técnica LIME para garantir a interpretabilidade e confiança nas previsões de diagnóstico automatizado.

Sibasish Dhibar2026-03-05🤖 cs.AI

Token Adaptation via Side Graph Convolution for Efficient Fine-tuning of 3D Point Cloud Transformers

Este artigo apresenta o STAG, um método de ajuste fino eficiente em parâmetros para Transformers de nuvens de pontos 3D que utiliza uma rede lateral de convolução gráfica para reduzir significativamente custos computacionais e de memória, além de introduzir o novo benchmark PCC13 para avaliação abrangente.

Takahiko Furuya2026-03-05💻 cs

A dataset of high-resolution plantar pressures for gait analysis across varying footwear and walking speeds

Este artigo apresenta o conjunto de dados UNB StepUP-P150, que contém mais de 200.000 medições de pressão plantar de alta resolução de 150 indivíduos sob diversas condições de calçado e velocidade, estabelecendo um novo marco para análise e reconhecimento de marcha.

Robyn Larracy, Angkoon Phinyomark, Ala Salehi + 5 more2026-03-05🤖 cs.LG

Generative Human Geometry Distribution

O artigo propõe um novo modelo de distribuição geométrica generativa que, ao codificar distribuições como mapas de recursos 2D e utilizar modelos SMPL como domínio, supera os métodos existentes na geração de geometria humana realista com detalhes de roupas e interações corpo-vestuário precisas, alcançando uma melhoria de 57% na qualidade geométrica.

Xiangjun Tang, Biao Zhang, Peter Wonka2026-03-05💻 cs

Implicit U-KAN2.0: Dynamic, Efficient and Interpretable Medical Image Segmentation

Este trabalho apresenta o Implicit U-KAN 2.0, uma nova arquitetura de segmentação de imagens médicas baseada em uma estrutura codificador-decodificador de duas fases que integra equações diferenciais ordinárias neurais de segunda ordem e camadas MultiKAN para oferecer maior interpretabilidade, eficiência computacional e desempenho superior em comparação com métodos existentes.

Chun-Wun Cheng, Yining Zhao, Yanqi Cheng + 3 more2026-03-05🤖 cs.LG

Beyond Accuracy: What Matters in Designing Well-Behaved Image Classification Models?

Este estudo realiza uma análise em larga escala de 326 modelos de classificação de imagens para avaliar nove dimensões de qualidade além da precisão, revelando que modelos visão-linguagem e aqueles iniciados com aprendizado auto-supervisionado tendem a apresentar melhor desempenho geral, e introduzindo a pontuação QUBA como uma nova métrica para classificar e recomendar modelos com base em múltiplos critérios de qualidade.

Robin Hesse, Doğukan Bağcı, Bernt Schiele + 2 more2026-03-05🤖 cs.LG

Beyond the Encoder: Joint Encoder-Decoder Contrastive Pre-Training Improves Dense Prediction

O artigo apresenta o DeCon, um novo framework de aprendizado auto-supervisionado que realiza o pré-treinamento conjunto de codificadores e decodificadores via aprendizado contrastivo, demonstrando melhorias consistentes no estado da arte para diversas tarefas de predição densa, como detecção de objetos e segmentação.

Sébastien Quetin, Tapotosh Ghosh, Farhad Maleki2026-03-05💻 cs

← Anterior Próximo →