ColonSplat: Reconstruction of Peristaltic Motion in Colonoscopy with Dynamic Gaussian Splatting

Este artigo apresenta o ColonSplat, um novo framework de *Gaussian Splatting* dinâmico e o conjunto de dados sintético DynamicColon, projetados para superar as limitações dos métodos atuais na reconstrução 3D precisa de movimentos peristálticos durante colonoscopias, garantindo consistência geométrica global.

Weronika Smolak-Dy\.zewska, Joanna Kaleta, Diego Dall'Alba, Przemysław Spurek2026-03-10💻 cs

IGLU: The Integrated Gaussian Linear Unit Activation Function

O artigo apresenta o IGLU, uma nova função de ativação paramétrica baseada em uma mistura de escalas de portas GELU que utiliza uma distribuição de Cauchy para garantir gradientes não nulos e maior robustez, além de sua aproximação computacionalmente eficiente (IGLU-Approx), ambas demonstrando desempenho competitivo ou superior ao ReLU e GELU em tarefas de visão e linguagem.

Mingi Kang, Zai Yang, Jeova Farias Sales Rocha Neto2026-03-10🤖 cs.LG

Learning From Design Procedure To Generate CAD Programs for Data Augmentation

Este artigo propõe uma nova paradigma de aumento de dados que utiliza Grandes Modelos de Linguagem para gerar programas CAD mais diversos e complexos, inspirados em procedimentos de design industrial e condicionados a superfícies de formas orgânicas, superando assim as limitações geométricas dos conjuntos de dados existentes.

Yan-Ying Chen, Dule Shu, Matthew Hong, Andrew Taber, Jonathan Li, Matthew Klenk2026-03-10🤖 cs.LG

PaQ-DETR: Learning Pattern and Quality-Aware Dynamic Queries for Object Detection

O artigo apresenta o PaQ-DETR, um framework unificado que supera as limitações de consultas fixas em modelos DETR ao gerar consultas dinâmicas baseadas em padrões latentes compartilhados e empregar uma estratégia de atribuição consciente da qualidade para melhorar a adaptabilidade, o equilíbrio de supervisão e a precisão na detecção de objetos.

Zhengjian Kang, Jun Zhuang, Kangtong Mo, Qi Chen, Rui Liu, Ye Zhang2026-03-10💻 cs

DLRMamba: Distilling Low-Rank Mamba for Edge Multispectral Fusion Object Detection

O artigo propõe o DLRMamba, um método que combina um modelo de espaço de estado seletivo bidimensional de baixo posto com uma estratégia de destilação consciente da estrutura para otimizar a detecção de objetos por fusão multiespectral em dispositivos de borda, alcançando um equilíbrio superior entre eficiência computacional e precisão.

Qianqian Zhang, Leon Tabaro, Ahmed M. Abdelmoniem, Junshe An2026-03-10💻 cs

Small Target Detection Based on Mask-Enhanced Attention Fusion of Visible and Infrared Remote Sensing Images

Este trabalho apresenta o ESM-YOLO+, uma rede leve de fusão de imagens visíveis e infravermelhas que utiliza um módulo de fusão de atenção aprimorado por máscara e um aprimoramento estrutural durante o treinamento para detectar com alta precisão alvos pequenos em imagens de sensoriamento remoto, superando métodos anteriores com menor complexidade computacional.

Qianqian Zhang, Xiaolong Jia, Ahmed M. Abdelmoniem, Li Zhou, Junshe An2026-03-10💻 cs

HIERAMP: Coarse-to-Fine Autoregressive Amplification for Generative Dataset Distillation

O artigo apresenta o HIERAMP, um método que melhora a destilação de datasets gerativos ao explorar a hierarquia semântica inerente às imagens, utilizando o modelo autoregressivo de visão (VAR) para amplificar seletivamente as características discriminativas em diferentes escalas, desde a estrutura global até os detalhes finos.

Lin Zhao, Xinru Jiang, Xi Xiao, Qihui Fan, Lei Lu, Yanzhi Wang, Xue Lin, Octavia Camps, Pu Zhao, Jianyang Gu2026-03-10💻 cs

Extracting and analyzing 3D histomorphometric features related to perineural and lymphovascular invasion in prostate cancer

Este artigo apresenta um pipeline analítico que utiliza segmentação 3D e aprendizado de máquina para extrair características histomorfométricas relacionadas à invasão perineural e linfovascular em câncer de próstata, demonstrando que essas características tridimensionais superam as bidimensionais na previsão de recorrência bioquímica.

Sarah S. L. Chow, Rui Wang, Robert B. Serafin, Yujie Zhao, Elena Baraznenok, Xavier Farré, Jennifer Salguero-Lopez, Gan Gao, Huai-Ching Hsieh, Lawrence D. True, Priti Lal, Anant Madabhushi, Jonathan T. C. Liu2026-03-10💻 cs

Virtual Intraoperative CT (viCT): Sequential Anatomic Updates for Modeling Tissue Resection Throughout Endoscopic Sinus Surgery

Este artigo apresenta o Virtual Intraoperative CT (viCT), um método que utiliza reconstruções 3D de vídeo endoscópico monoculares para atualizar sequencialmente a tomografia computadorizada pré-operatória durante a cirurgia endoscópica de seios paranasais, permitindo a visualização em formato de CT das fronteiras de ressecção em evolução com precisão submilimétrica.

Nicole M. Gunderson, Graham J. Harris, Jeremy S. Ruthberg, Pengcheng Chen, Di Mao, Randall A. Bly, Waleed M. Abuzeid, Eric J. Seibel2026-03-10💻 cs

SurgCUT3R: Surgical Scene-Aware Continuous Understanding of Temporal 3D Representation

O SurgCUT3R é um framework inovador que supera as limitações de dados supervisionados e a degradação de desempenho em vídeos longos para reconstrução de cenas cirúrgicas a partir de vídeos endoscópicos monoculares, utilizando um pipeline de geração de dados sintéticos, uma estratégia de supervisão híbrida e uma inferência hierárquica para alcançar estimativa de pose precisa e eficiente em ambientes cirúrgicos.

Kaiyuan Xu, Fangzhou Hong, Daniel Elson, Baoru Huang2026-03-10💻 cs

Conditional Unbalanced Optimal Transport Maps: An Outlier-Robust Framework for Conditional Generative Modeling

Este artigo apresenta o framework Conditional Unbalanced Optimal Transport (CUOT) e seu modelo gerativo CUOTM, que superam a sensibilidade a outliers dos métodos de transporte ótimo condicional tradicionais ao relaxar as restrições de correspondência de distribuição via penalidades de divergência de Csiszár, mantendo marginais de condicionamento estritas e demonstrando robustez e eficiência superiores em experimentos.

Jiwoo Yoon, Kyumin Choi, Jaewoong Choi2026-03-10🤖 cs.LG

Optimizing Multi-Modal Models for Image-Based Shape Retrieval: The Role of Pre-Alignment and Hard Contrastive Learning

Este artigo propõe uma abordagem para a recuperação de formas baseada em imagens que utiliza codificadores pré-alinhados de imagem e nuvem de pontos, eliminando a necessidade de síntese de visualizações e permitindo recuperação zero-shot, enquanto introduz uma perda de contraste difícil multimodal que alcança desempenho state-of-the-art em múltiplos conjuntos de dados.

Paul Julius Kühn, Cedric Spengler, Michael Weinmann, Arjan Kuijper, Saptarshi Neil Sinha2026-03-10💻 cs

Perception-Aware Multimodal Spatial Reasoning from Monocular Images

Este artigo propõe um framework de raciocínio multimodal consciente da percepção que aprimora a compreensão espacial em imagens monoculares para direção autônoma, representando objetos por meio de tokens visuais de referência em vez de caixas delimitadoras textuais e utilizando um dataset de Cadeia de Pensamento Multimodal, alcançando desempenho superior no benchmark SURDS.

Yanchun Cheng, Rundong Wang, Xulei Yang, Alok Prakash, Daniela Rus, Marcelo H Ang Jr, ShiJie Li2026-03-10💻 cs

ADAS-TO: A Large-Scale Multimodal Naturalistic Dataset and Empirical Characterization of Human Takeovers during ADAS Engagement

O artigo apresenta o ADAS-TO, o primeiro grande conjunto de dados naturalístico multimodal focado em transições de ADAS para controle manual, contendo mais de 15 mil eventos de retomada que permitem uma caracterização empírica detalhada, incluindo a identificação de casos críticos de segurança e evidências de que sinais visuais acionáveis podem anteceder em até 3 segundos as intervenções humanas.

Yuhang Wang, Yiyao Xu, Jingran Sun, Hao Zhou2026-03-10💻 cs