cs.CV artigos | Gist.Science

GeoWorld: Geometric World Models

O artigo apresenta o GeoWorld, um modelo de mundo geométrico que utiliza um JEPA hiperbólico e Aprendizado por Reforço Geométrico para preservar estruturas hierárquicas e melhorar a previsão de longo prazo em tarefas de planejamento visual, superando o estado da arte V-JEPA 2.

Zeyu Zhang, Danning Li, Ian Reid + 1 more2026-02-27💻 cs

Align then Adapt: Rethinking Parameter-Efficient Transfer Learning in 4D Perception

O artigo propõe o PointATA, um paradigma de transferência de aprendizado eficiente em parâmetros que supera as limitações de adaptação de modelos 3D pré-treinados para tarefas de percepção 4D ao alinhar as distribuições de dados e adaptar a arquitetura em duas etapas, alcançando desempenho superior ou equivalente ao ajuste fino completo com custo computacional reduzido.

Yiding Sun, Jihua Zhu, Haozhe Cheng + 4 more2026-02-27💻 cs

Cytoarchitecture in Words: Weakly Supervised Vision-Language Modeling for Human Brain Microscopy

Este artigo propõe um método de aprendizado fracamente supervisionado que conecta modelos de visão biomédica a modelos de linguagem para gerar descrições em linguagem natural de microscopia cerebral humana, utilizando rótulos para vincular imagens a textos sintéticos da literatura, sem a necessidade de dados pareados imagem-texto curados.

Matthew Sutton, Katrin Amunts, Timo Dickscheid + 1 more2026-02-27💻 cs

Locally Adaptive Decay Surfaces for High-Speed Face and Landmark Detection with Event Cameras

Este artigo apresenta as Superfícies de Decaimento Adaptativo Local (LADS), uma nova representação para câmeras de eventos que ajusta dinamicamente o decaimento temporal com base na atividade local, superando as limitações das abordagens tradicionais e alcançando desempenho superior e em tempo real na detecção de rostos e landmarks faciais, mesmo em altas frequências.

Paul Kielty, Timothy Hanley, Peter Corcoran2026-02-27💻 cs

SpectralMamba-UNet: Frequency-Disentangled State Space Modeling for Texture-Structure Consistent Medical Image Segmentation

O artigo apresenta o SpectralMamba-UNet, um novo framework que utiliza modelagem de espaço de estados no domínio da frequência para desacoplar e integrar informações estruturais e texturais, melhorando a precisão da segmentação de imagens médicas ao preservar tanto o contexto anatômico global quanto os detalhes finos das fronteiras.

Fuhao Zhang, Lei Liu, Jialin Zhang + 2 more2026-02-27💻 cs

FLIGHT: Fibonacci Lattice-based Inference for Geometric Heading in real-Time

O artigo apresenta o FLIGHT, um método inovador que utiliza uma generalização da transformada de Hough em uma esfera unitária com base em uma rede de Fibonacci para estimar a direção da câmera a partir de vídeo monocromático, oferecendo maior precisão e eficiência na presença de ruídos e outliers, além de reduzir o erro quadrático médio em sistemas SLAM ao corrigir a inicialização da pose.

David Dirnfeld, Fabien Delattre, Pedro Miraldo + 1 more2026-02-27💻 cs

Devling into Adversarial Transferability on Image Classification: Review, Benchmark, and Evaluation

Este trabalho aborda a lacuna de padrões na avaliação de ataques adversariais transferíveis em classificação de imagens, oferecendo uma revisão abrangente, uma nova taxonomia de métodos, um benchmark unificado e diretrizes para comparações justas, além de explorar aplicações além desse domínio.

Xiaosen Wang, Zhijin Ge, Bohan Liu + 5 more2026-02-27🤖 cs.AI

TriLite: Efficient Weakly Supervised Object Localization with Universal Visual Features and Tri-Region Disentanglement

O artigo apresenta o TriLite, um framework de localização de objetos supervisionado fracamente em estágio único que utiliza um Vision Transformer pré-treinado com Dinov2 e um módulo TriHead para dissecar regiões de primeiro plano, fundo e ambíguas, alcançando resultados state-of-the-art com alta eficiência de parâmetros e treinamento simplificado.

Arian Sabaghi, José Oramas2026-02-27💻 cs

From Calibration to Refinement: Seeking Certainty via Probabilistic Evidence Propagation for Noisy-Label Person Re-Identification

O artigo propõe o método CARE, um framework de duas etapas que utiliza calibração de evidência probabilística e refinamento por propagação para superar as limitações de métodos existentes e alcançar re-identificação de pessoas robusta em cenários com rótulos ruidosos.

Xin Yuan, Zhiyong Zhang, Xin Xu + 2 more2026-02-27💻 cs

No Labels, No Look-Ahead: Unsupervised Online Video Stabilization with Classical Priors

Os autores propõem um novo framework de estabilização de vídeo online e não supervisionado que, ao utilizar priores clássicos e um mecanismo de buffer multithread, supera as limitações de métodos baseados em aprendizado profundo em termos de controle e eficiência, enquanto introduz o conjunto de dados UAV-Test para validar o desempenho em cenários de sensoriamento remoto noturno, alcançando resultados superiores aos métodos online atuais e comparáveis aos offline.

Tao Liu, Gang Wan, Kan Ren + 1 more2026-02-27💻 cs

Partial recovery of meter-scale surface weather

Este estudo demonstra que é possível recuperar estatisticamente e de forma fisicamente coerente variáveis meteorológicas de superfície em escala de metros para os Estados Unidos, combinando dados de estações esparsas e observações terrestres de alta resolução com estados atmosféricos grosseiros, resultando em campos de vento, temperatura e umidade mais precisos e espacialmente detalhados do que as análises atuais.

Jonathan Giezendanner, Qidong Yang, Eric Schmitt + 7 more2026-02-27🤖 cs.LG

Learning Continuous Wasserstein Barycenter Space for Generalized All-in-One Image Restoration

O artigo apresenta o BaryIR, um framework de aprendizado de representação que generaliza a restauração de imagens ao alinhar características degradadas em um espaço de baricentro de Wasserstein para extrair conteúdos invariantes, enquanto descarta subespaços residuais para preservar conhecimentos específicos de cada degradação, resultando em robustez superior frente a degradações não vistas e mistas.

Xiaole Tang, Xiaoyi He, Jiayi Xu + 2 more2026-02-27💻 cs

Latent Gaussian Splatting for 4D Panoptic Occupancy Tracking

O artigo apresenta o LaGS, um método inovador que utiliza splatting gaussiano latente para integrar rastreamento de câmera e previsão de ocupação panorática multivista, alcançando desempenho de ponta na rastreamento de ocupação panorâmica 4D.

Maximilian Luz, Rohit Mohan, Thomas Nürnberg + 3 more2026-02-27🤖 cs.AI

Phys-3D: Physics-Constrained Real-Time Crowd Tracking and Counting on Railway Platforms

O artigo apresenta o Phys-3D, um sistema de rastreamento e contagem de multidões em tempo real em plataformas de trem que utiliza uma câmera montada no trem e um modelo de Kalman com restrições físicas para superar desafios como oclusões e movimento da câmera, alcançando uma precisão de 2,97% de erro no conjunto de dados MOT-RPCH.

Bin Zeng, Johannes Künzel, Anna Hilsmann + 1 more2026-02-27💻 cs

FairQuant: Fairness-Aware Mixed-Precision Quantization for Medical Image Classification

O artigo apresenta o FairQuant, um framework de quantização de precisão mista que otimiza simultaneamente a eficiência e a justiça algorítmica em modelos de classificação de imagens médicas, demonstrando resultados superiores em desempenho e equidade em comparação com abordagens tradicionais sob orçamentos de bits restritos.

Thomas Woergaard, Raghavendra Selvan2026-02-27🤖 cs.LG

ColoDiff: Integrating Dynamic Consistency With Content Awareness for Colonoscopy Video Generation

O artigo apresenta o ColoDiff, um framework baseado em difusão que gera vídeos de colonoscopia dinâmicos e consistentes com controle preciso de atributos clínicos, utilizando módulos inovadores para superar desafios estruturais e reduzir drasticamente o tempo de amostragem, visando mitigar a escassez de dados e auxiliar no diagnóstico e análise clínica.

Junhu Fu, Shuyu Liang, Wutong Li + 9 more2026-02-27🤖 cs.AI

Through BrokenEyes: How Eye Disorders Impact Face Detection?

Este trabalho apresenta um framework computacional baseado no sistema BrokenEyes que simula cinco distúrbios oculares comuns para analisar e quantificar, por meio de métricas como energia de ativação e similaridade de cosseno, como essas condições degradam as representações de características em modelos de aprendizado profundo, revelando impactos críticos especialmente na catarata e no glaucoma.

Prottay Kumar Adhikary2026-02-27💻 cs

Plug-and-Play Diffusion Meets ADMM: Dual-Variable Coupling for Robust Medical Image Reconstruction

Este artigo propõe o "Dual-Coupled PnP Diffusion", um novo framework para reconstrução de imagens médicas que combina variáveis duais para garantir convergência assintótica com os dados físicos e uma técnica de homogeneização espectral para transformar resíduos estruturados em ruído compatível com modelos de difusão, resolvendo assim o compromisso entre viés e alucinações.

Chenhe Du, Xuanyu Tian, Qing Wu + 4 more2026-02-27⚡ eess

Multidimensional Task Learning: A Unified Tensor Framework for Computer Vision Tasks

Este artigo apresenta a Aprendizagem Multidimensional de Tarefas (MTL), uma estrutura matemática unificada baseada em GE-MLPs que opera diretamente sobre tensores via produto de Einstein, superando as limitações das abordagens matriciais atuais ao permitir a formulação natural e sem perda de informação de tarefas complexas de visão computacional, como classificação, segmentação e detecção, dentro de um espaço de tarefas dimensionalmente mais amplo.

Alaa El Ichi, Khalide Jbilou2026-02-27🔢 math

UniScale: Unified Scale-Aware 3D Reconstruction for Multi-View Understanding via Prior Injection for Robotic Perception

O artigo apresenta o UniScale, um framework unificado e consciente de escala para reconstrução 3D multi-visão em robótica, que integra flexivelmente priores geométricos e estimativa de parâmetros intrínsecos e extrínsecos em uma única rede feed-forward para gerar mapas de profundidade e pontos com escala métrica, aproveitando priores de modelos pré-existentes sem necessidade de treinamento do zero.

Mohammad Mahdavian, Gordon Tan, Binbin Xu + 3 more2026-02-27💻 cs

← Anterior Próximo →