cs.CV artigos | Gist.Science

A prior information informed learning architecture for flying trajectory prediction

Este artigo apresenta um novo framework de aprendizado eficiente em hardware para previsão de trajetórias de voo, que integra informações prévias ambientais a uma arquitetura de Transformer em cascata dupla (DTC) para prever com precisão pontos de aterrissagem, como demonstrado na trajetória de bolas de tênis.

Xianda Huang, Zidong Han, Ruibo Jin, Zhenyu Wang, Wenyu Li, Xiaoyang Li, Yi Gong2026-03-10💻 cs

PICS: Pairwise Image Compositing with Spatial Interactions

O artigo apresenta o PICS, um paradigma auto-supervisionado de composição por decomposição que utiliza um Transformer de Interação com Mixture-of-Experts e aumentações geométricas para gerar composições de imagens em pares com relações espaciais coerentes e maior estabilidade, superando os métodos atuais em diversas configurações.

Hang Zhou, Xinxin Zuo, Sen Wang, Li Cheng2026-03-10💻 cs

OPTED: Open Preprocessed Trachoma Eye Dataset Using Zero-Shot SAM 3 Segmentation

O artigo apresenta o OPTED, um conjunto de dados aberto e pré-processado de imagens oculares para classificação de tracoma, construído na África Subsaariana utilizando um pipeline automatizado de quatro etapas baseado no modelo de segmentação zero-shot SAM 3 para extrair e padronizar regiões de interesse.

Kibrom Gebremedhin, Hadush Hailu, Bruk Gebregziabher2026-03-10💻 cs

Learning From Design Procedure To Generate CAD Programs for Data Augmentation

Este artigo propõe uma nova paradigma de aumento de dados que utiliza Grandes Modelos de Linguagem para gerar programas CAD mais diversos e complexos, inspirados em procedimentos de design industrial e condicionados a superfícies de formas orgânicas, superando assim as limitações geométricas dos conjuntos de dados existentes.

Yan-Ying Chen, Dule Shu, Matthew Hong, Andrew Taber, Jonathan Li, Matthew Klenk2026-03-10🤖 cs.LG

PaQ-DETR: Learning Pattern and Quality-Aware Dynamic Queries for Object Detection

O artigo apresenta o PaQ-DETR, um framework unificado que supera as limitações de consultas fixas em modelos DETR ao gerar consultas dinâmicas baseadas em padrões latentes compartilhados e empregar uma estratégia de atribuição consciente da qualidade para melhorar a adaptabilidade, o equilíbrio de supervisão e a precisão na detecção de objetos.

Zhengjian Kang, Jun Zhuang, Kangtong Mo, Qi Chen, Rui Liu, Ye Zhang2026-03-10💻 cs

DLRMamba: Distilling Low-Rank Mamba for Edge Multispectral Fusion Object Detection

O artigo propõe o DLRMamba, um método que combina um modelo de espaço de estado seletivo bidimensional de baixo posto com uma estratégia de destilação consciente da estrutura para otimizar a detecção de objetos por fusão multiespectral em dispositivos de borda, alcançando um equilíbrio superior entre eficiência computacional e precisão.

Qianqian Zhang, Leon Tabaro, Ahmed M. Abdelmoniem, Junshe An2026-03-10💻 cs

Small Target Detection Based on Mask-Enhanced Attention Fusion of Visible and Infrared Remote Sensing Images

Este trabalho apresenta o ESM-YOLO+, uma rede leve de fusão de imagens visíveis e infravermelhas que utiliza um módulo de fusão de atenção aprimorado por máscara e um aprimoramento estrutural durante o treinamento para detectar com alta precisão alvos pequenos em imagens de sensoriamento remoto, superando métodos anteriores com menor complexidade computacional.

Qianqian Zhang, Xiaolong Jia, Ahmed M. Abdelmoniem, Li Zhou, Junshe An2026-03-10💻 cs

HIERAMP: Coarse-to-Fine Autoregressive Amplification for Generative Dataset Distillation

O artigo apresenta o HIERAMP, um método que melhora a destilação de datasets gerativos ao explorar a hierarquia semântica inerente às imagens, utilizando o modelo autoregressivo de visão (VAR) para amplificar seletivamente as características discriminativas em diferentes escalas, desde a estrutura global até os detalhes finos.

Lin Zhao, Xinru Jiang, Xi Xiao, Qihui Fan, Lei Lu, Yanzhi Wang, Xue Lin, Octavia Camps, Pu Zhao, Jianyang Gu2026-03-10💻 cs

Extracting and analyzing 3D histomorphometric features related to perineural and lymphovascular invasion in prostate cancer

Este artigo apresenta um pipeline analítico que utiliza segmentação 3D e aprendizado de máquina para extrair características histomorfométricas relacionadas à invasão perineural e linfovascular em câncer de próstata, demonstrando que essas características tridimensionais superam as bidimensionais na previsão de recorrência bioquímica.

Sarah S. L. Chow, Rui Wang, Robert B. Serafin, Yujie Zhao, Elena Baraznenok, Xavier Farré, Jennifer Salguero-Lopez, Gan Gao, Huai-Ching Hsieh, Lawrence D. True, Priti Lal, Anant Madabhushi, Jonathan T. C. Liu2026-03-10💻 cs

Virtual Intraoperative CT (viCT): Sequential Anatomic Updates for Modeling Tissue Resection Throughout Endoscopic Sinus Surgery

Este artigo apresenta o Virtual Intraoperative CT (viCT), um método que utiliza reconstruções 3D de vídeo endoscópico monoculares para atualizar sequencialmente a tomografia computadorizada pré-operatória durante a cirurgia endoscópica de seios paranasais, permitindo a visualização em formato de CT das fronteiras de ressecção em evolução com precisão submilimétrica.

Nicole M. Gunderson, Graham J. Harris, Jeremy S. Ruthberg, Pengcheng Chen, Di Mao, Randall A. Bly, Waleed M. Abuzeid, Eric J. Seibel2026-03-10💻 cs

SurgCUT3R: Surgical Scene-Aware Continuous Understanding of Temporal 3D Representation

O SurgCUT3R é um framework inovador que supera as limitações de dados supervisionados e a degradação de desempenho em vídeos longos para reconstrução de cenas cirúrgicas a partir de vídeos endoscópicos monoculares, utilizando um pipeline de geração de dados sintéticos, uma estratégia de supervisão híbrida e uma inferência hierárquica para alcançar estimativa de pose precisa e eficiente em ambientes cirúrgicos.

Kaiyuan Xu, Fangzhou Hong, Daniel Elson, Baoru Huang2026-03-10💻 cs

Conditional Unbalanced Optimal Transport Maps: An Outlier-Robust Framework for Conditional Generative Modeling

Este artigo apresenta o framework Conditional Unbalanced Optimal Transport (CUOT) e seu modelo gerativo CUOTM, que superam a sensibilidade a outliers dos métodos de transporte ótimo condicional tradicionais ao relaxar as restrições de correspondência de distribuição via penalidades de divergência de Csiszár, mantendo marginais de condicionamento estritas e demonstrando robustez e eficiência superiores em experimentos.

Jiwoo Yoon, Kyumin Choi, Jaewoong Choi2026-03-10🤖 cs.LG

T2SGrid: Temporal-to-Spatial Gridification for Video Temporal Grounding

O artigo apresenta o T2SGrid, um novo framework para Grounding Temporal em Vídeo que transforma sequências temporais em layouts espaciais bidimensionais organizados em grade, superando as limitações das abordagens existentes ao melhorar a compreensão das dinâmicas temporais e a atenção visual.

Chaohong Guo, Yihan He, Yongwei Nie, Fei Ma, Xuemiao Xu, Chengjiang Long2026-03-10💻 cs

Optimizing Multi-Modal Models for Image-Based Shape Retrieval: The Role of Pre-Alignment and Hard Contrastive Learning

Este artigo propõe uma abordagem para a recuperação de formas baseada em imagens que utiliza codificadores pré-alinhados de imagem e nuvem de pontos, eliminando a necessidade de síntese de visualizações e permitindo recuperação zero-shot, enquanto introduz uma perda de contraste difícil multimodal que alcança desempenho state-of-the-art em múltiplos conjuntos de dados.

Paul Julius Kühn, Cedric Spengler, Michael Weinmann, Arjan Kuijper, Saptarshi Neil Sinha2026-03-10💻 cs

Perception-Aware Multimodal Spatial Reasoning from Monocular Images

Este artigo propõe um framework de raciocínio multimodal consciente da percepção que aprimora a compreensão espacial em imagens monoculares para direção autônoma, representando objetos por meio de tokens visuais de referência em vez de caixas delimitadoras textuais e utilizando um dataset de Cadeia de Pensamento Multimodal, alcançando desempenho superior no benchmark SURDS.

Yanchun Cheng, Rundong Wang, Xulei Yang, Alok Prakash, Daniela Rus, Marcelo H Ang Jr, ShiJie Li2026-03-10💻 cs

ADAS-TO: A Large-Scale Multimodal Naturalistic Dataset and Empirical Characterization of Human Takeovers during ADAS Engagement

O artigo apresenta o ADAS-TO, o primeiro grande conjunto de dados naturalístico multimodal focado em transições de ADAS para controle manual, contendo mais de 15 mil eventos de retomada que permitem uma caracterização empírica detalhada, incluindo a identificação de casos críticos de segurança e evidências de que sinais visuais acionáveis podem anteceder em até 3 segundos as intervenções humanas.

Yuhang Wang, Yiyao Xu, Jingran Sun, Hao Zhou2026-03-10💻 cs

MipSLAM: Alias-Free Gaussian Splatting SLAM

O artigo apresenta o MipSLAM, um sistema de SLAM baseado em Gaussian Splatting 3D que utiliza algoritmos de anti-aliasing adaptativo e otimização de pose no domínio espectral para alcançar síntese de novas vistas de alta fidelidade e estimativa de pose robusta, superando as limitações de aliasing e deriva de trajetória existentes.

Yingzhao Li, Yan Li, Shixiong Tian, Yanjie Liu, Lijun Zhao, Gim Hee Lee2026-03-10💻 cs

AdaGen: Learning Adaptive Policy for Image Synthesis

O artigo apresenta o AdaGen, um framework geral e adaptável que utiliza aprendizado por reforço com recompensas adversariais para otimizar automaticamente o agendamento de parâmetros em processos de síntese de imagem iterativos, superando as limitações de regras manuais e melhorando significativamente a qualidade e a eficiência de diversos modelos generativos.

Zanlin Ni, Yulin Wang, Yeguo Hua, Renping Zhou, Jiayi Guo, Jun Song, Bo Zheng, Gao Huang2026-03-10💻 cs

TrajPred: Trajectory-Conditioned Joint Embedding Prediction for Surgical Instrument-Tissue Interaction Recognition in Vision-Language Models

O artigo apresenta o TrajPred, um framework que melhora o reconhecimento de interações entre instrumentos e tecidos em cirurgias robóticas ao codificar trajetórias instrumentais para capturar informações temporais e gerar embeddings visuais mais precisos, resultando em melhor desempenho e alinhamento semântico no benchmark CholecT50.

Jiajun Cheng, Xiaofan Yu, Subarna, Sainan Liu, Shan Lin2026-03-10💻 cs

OV-DEIM: Real-time DETR-Style Open-Vocabulary Object Detection with GridSynthetic Augmentation

O artigo apresenta o OV-DEIM, um detector de objetos em tempo real baseado em arquitetura DETR que alcança desempenho de ponta em detecção de vocabulário aberto através da integração do framework DEIMv2, uma estratégia de suplementação de consultas e uma técnica de aumento de dados chamada GridSynthetic para melhorar a discriminação semântica e a eficiência.

Leilei Wang, Longfei Liu, Xi Shen, Xuanlong Yu, Ying Tiffany He, Fei Richard Yu, Yingyi Chen2026-03-10💻 cs

← Anterior Próximo →