cs.CV artigos | Gist.Science

An Extended Topological Model For High-Contrast Optical Flow

Este artigo propõe um modelo topológico estendido baseado em feixes de círculos para explicar a estrutura de subconjuntos de fluxo óptico de alto contraste no conjunto de dados Sintel, revelando que os padrões mais frequentes e importantes para a visão computacional residem em círculos de bordas binárias e não no toro previamente hipotetizado.

Brad Turow, Jose A. Perea2026-03-10🔢 math

ColonSplat: Reconstruction of Peristaltic Motion in Colonoscopy with Dynamic Gaussian Splatting

Este artigo apresenta o ColonSplat, um novo framework de *Gaussian Splatting* dinâmico e o conjunto de dados sintético DynamicColon, projetados para superar as limitações dos métodos atuais na reconstrução 3D precisa de movimentos peristálticos durante colonoscopias, garantindo consistência geométrica global.

Weronika Smolak-Dy\.zewska, Joanna Kaleta, Diego Dall'Alba, Przemysław Spurek2026-03-10💻 cs

IGLU: The Integrated Gaussian Linear Unit Activation Function

O artigo apresenta o IGLU, uma nova função de ativação paramétrica baseada em uma mistura de escalas de portas GELU que utiliza uma distribuição de Cauchy para garantir gradientes não nulos e maior robustez, além de sua aproximação computacionalmente eficiente (IGLU-Approx), ambas demonstrando desempenho competitivo ou superior ao ReLU e GELU em tarefas de visão e linguagem.

Mingi Kang, Zai Yang, Jeova Farias Sales Rocha Neto2026-03-10🤖 cs.LG

A prior information informed learning architecture for flying trajectory prediction

Este artigo apresenta um novo framework de aprendizado eficiente em hardware para previsão de trajetórias de voo, que integra informações prévias ambientais a uma arquitetura de Transformer em cascata dupla (DTC) para prever com precisão pontos de aterrissagem, como demonstrado na trajetória de bolas de tênis.

Xianda Huang, Zidong Han, Ruibo Jin, Zhenyu Wang, Wenyu Li, Xiaoyang Li, Yi Gong2026-03-10💻 cs

PICS: Pairwise Image Compositing with Spatial Interactions

O artigo apresenta o PICS, um paradigma auto-supervisionado de composição por decomposição que utiliza um Transformer de Interação com Mixture-of-Experts e aumentações geométricas para gerar composições de imagens em pares com relações espaciais coerentes e maior estabilidade, superando os métodos atuais em diversas configurações.

Hang Zhou, Xinxin Zuo, Sen Wang, Li Cheng2026-03-10💻 cs

OPTED: Open Preprocessed Trachoma Eye Dataset Using Zero-Shot SAM 3 Segmentation

O artigo apresenta o OPTED, um conjunto de dados aberto e pré-processado de imagens oculares para classificação de tracoma, construído na África Subsaariana utilizando um pipeline automatizado de quatro etapas baseado no modelo de segmentação zero-shot SAM 3 para extrair e padronizar regiões de interesse.

Kibrom Gebremedhin, Hadush Hailu, Bruk Gebregziabher2026-03-10💻 cs

Learning From Design Procedure To Generate CAD Programs for Data Augmentation

Este artigo propõe uma nova paradigma de aumento de dados que utiliza Grandes Modelos de Linguagem para gerar programas CAD mais diversos e complexos, inspirados em procedimentos de design industrial e condicionados a superfícies de formas orgânicas, superando assim as limitações geométricas dos conjuntos de dados existentes.

Yan-Ying Chen, Dule Shu, Matthew Hong, Andrew Taber, Jonathan Li, Matthew Klenk2026-03-10🤖 cs.LG

PaQ-DETR: Learning Pattern and Quality-Aware Dynamic Queries for Object Detection

O artigo apresenta o PaQ-DETR, um framework unificado que supera as limitações de consultas fixas em modelos DETR ao gerar consultas dinâmicas baseadas em padrões latentes compartilhados e empregar uma estratégia de atribuição consciente da qualidade para melhorar a adaptabilidade, o equilíbrio de supervisão e a precisão na detecção de objetos.

Zhengjian Kang, Jun Zhuang, Kangtong Mo, Qi Chen, Rui Liu, Ye Zhang2026-03-10💻 cs

DLRMamba: Distilling Low-Rank Mamba for Edge Multispectral Fusion Object Detection

O artigo propõe o DLRMamba, um método que combina um modelo de espaço de estado seletivo bidimensional de baixo posto com uma estratégia de destilação consciente da estrutura para otimizar a detecção de objetos por fusão multiespectral em dispositivos de borda, alcançando um equilíbrio superior entre eficiência computacional e precisão.

Qianqian Zhang, Leon Tabaro, Ahmed M. Abdelmoniem, Junshe An2026-03-10💻 cs

Small Target Detection Based on Mask-Enhanced Attention Fusion of Visible and Infrared Remote Sensing Images

Este trabalho apresenta o ESM-YOLO+, uma rede leve de fusão de imagens visíveis e infravermelhas que utiliza um módulo de fusão de atenção aprimorado por máscara e um aprimoramento estrutural durante o treinamento para detectar com alta precisão alvos pequenos em imagens de sensoriamento remoto, superando métodos anteriores com menor complexidade computacional.

Qianqian Zhang, Xiaolong Jia, Ahmed M. Abdelmoniem, Li Zhou, Junshe An2026-03-10💻 cs

HIERAMP: Coarse-to-Fine Autoregressive Amplification for Generative Dataset Distillation

O artigo apresenta o HIERAMP, um método que melhora a destilação de datasets gerativos ao explorar a hierarquia semântica inerente às imagens, utilizando o modelo autoregressivo de visão (VAR) para amplificar seletivamente as características discriminativas em diferentes escalas, desde a estrutura global até os detalhes finos.

Lin Zhao, Xinru Jiang, Xi Xiao, Qihui Fan, Lei Lu, Yanzhi Wang, Xue Lin, Octavia Camps, Pu Zhao, Jianyang Gu2026-03-10💻 cs

Extracting and analyzing 3D histomorphometric features related to perineural and lymphovascular invasion in prostate cancer

Este artigo apresenta um pipeline analítico que utiliza segmentação 3D e aprendizado de máquina para extrair características histomorfométricas relacionadas à invasão perineural e linfovascular em câncer de próstata, demonstrando que essas características tridimensionais superam as bidimensionais na previsão de recorrência bioquímica.

Sarah S. L. Chow, Rui Wang, Robert B. Serafin, Yujie Zhao, Elena Baraznenok, Xavier Farré, Jennifer Salguero-Lopez, Gan Gao, Huai-Ching Hsieh, Lawrence D. True, Priti Lal, Anant Madabhushi, Jonathan T. C. Liu2026-03-10💻 cs

Virtual Intraoperative CT (viCT): Sequential Anatomic Updates for Modeling Tissue Resection Throughout Endoscopic Sinus Surgery

Este artigo apresenta o Virtual Intraoperative CT (viCT), um método que utiliza reconstruções 3D de vídeo endoscópico monoculares para atualizar sequencialmente a tomografia computadorizada pré-operatória durante a cirurgia endoscópica de seios paranasais, permitindo a visualização em formato de CT das fronteiras de ressecção em evolução com precisão submilimétrica.

Nicole M. Gunderson, Graham J. Harris, Jeremy S. Ruthberg, Pengcheng Chen, Di Mao, Randall A. Bly, Waleed M. Abuzeid, Eric J. Seibel2026-03-10💻 cs

SurgCUT3R: Surgical Scene-Aware Continuous Understanding of Temporal 3D Representation

O SurgCUT3R é um framework inovador que supera as limitações de dados supervisionados e a degradação de desempenho em vídeos longos para reconstrução de cenas cirúrgicas a partir de vídeos endoscópicos monoculares, utilizando um pipeline de geração de dados sintéticos, uma estratégia de supervisão híbrida e uma inferência hierárquica para alcançar estimativa de pose precisa e eficiente em ambientes cirúrgicos.

Kaiyuan Xu, Fangzhou Hong, Daniel Elson, Baoru Huang2026-03-10💻 cs

Conditional Unbalanced Optimal Transport Maps: An Outlier-Robust Framework for Conditional Generative Modeling

Este artigo apresenta o framework Conditional Unbalanced Optimal Transport (CUOT) e seu modelo gerativo CUOTM, que superam a sensibilidade a outliers dos métodos de transporte ótimo condicional tradicionais ao relaxar as restrições de correspondência de distribuição via penalidades de divergência de Csiszár, mantendo marginais de condicionamento estritas e demonstrando robustez e eficiência superiores em experimentos.

Jiwoo Yoon, Kyumin Choi, Jaewoong Choi2026-03-10🤖 cs.LG

T2SGrid: Temporal-to-Spatial Gridification for Video Temporal Grounding

O artigo apresenta o T2SGrid, um novo framework para Grounding Temporal em Vídeo que transforma sequências temporais em layouts espaciais bidimensionais organizados em grade, superando as limitações das abordagens existentes ao melhorar a compreensão das dinâmicas temporais e a atenção visual.

Chaohong Guo, Yihan He, Yongwei Nie, Fei Ma, Xuemiao Xu, Chengjiang Long2026-03-10💻 cs

Optimizing Multi-Modal Models for Image-Based Shape Retrieval: The Role of Pre-Alignment and Hard Contrastive Learning

Este artigo propõe uma abordagem para a recuperação de formas baseada em imagens que utiliza codificadores pré-alinhados de imagem e nuvem de pontos, eliminando a necessidade de síntese de visualizações e permitindo recuperação zero-shot, enquanto introduz uma perda de contraste difícil multimodal que alcança desempenho state-of-the-art em múltiplos conjuntos de dados.

Paul Julius Kühn, Cedric Spengler, Michael Weinmann, Arjan Kuijper, Saptarshi Neil Sinha2026-03-10💻 cs

Perception-Aware Multimodal Spatial Reasoning from Monocular Images

Este artigo propõe um framework de raciocínio multimodal consciente da percepção que aprimora a compreensão espacial em imagens monoculares para direção autônoma, representando objetos por meio de tokens visuais de referência em vez de caixas delimitadoras textuais e utilizando um dataset de Cadeia de Pensamento Multimodal, alcançando desempenho superior no benchmark SURDS.

Yanchun Cheng, Rundong Wang, Xulei Yang, Alok Prakash, Daniela Rus, Marcelo H Ang Jr, ShiJie Li2026-03-10💻 cs

ADAS-TO: A Large-Scale Multimodal Naturalistic Dataset and Empirical Characterization of Human Takeovers during ADAS Engagement

O artigo apresenta o ADAS-TO, o primeiro grande conjunto de dados naturalístico multimodal focado em transições de ADAS para controle manual, contendo mais de 15 mil eventos de retomada que permitem uma caracterização empírica detalhada, incluindo a identificação de casos críticos de segurança e evidências de que sinais visuais acionáveis podem anteceder em até 3 segundos as intervenções humanas.

Yuhang Wang, Yiyao Xu, Jingran Sun, Hao Zhou2026-03-10💻 cs

MipSLAM: Alias-Free Gaussian Splatting SLAM

O artigo apresenta o MipSLAM, um sistema de SLAM baseado em Gaussian Splatting 3D que utiliza algoritmos de anti-aliasing adaptativo e otimização de pose no domínio espectral para alcançar síntese de novas vistas de alta fidelidade e estimativa de pose robusta, superando as limitações de aliasing e deriva de trajetória existentes.

Yingzhao Li, Yan Li, Shixiong Tian, Yanjie Liu, Lijun Zhao, Gim Hee Lee2026-03-10💻 cs

← Anterior Próximo →