MedCLIPSeg: Probabilistic Vision-Language Adaptation for Data-Efficient and Generalizable Medical Image Segmentation

O artigo apresenta o MedCLIPSeg, um novo framework que adapta modelos de visão e linguagem como o CLIP para a segmentação de imagens médicas, utilizando atenção cruzada probabilística e perda contrastiva suave para alcançar alta precisão, eficiência de dados e generalização de domínio com mapas de incerteza interpretáveis.

Taha Koleilat, Hojat Asgariandehkordi, Omid Nejati Manzari + 3 more2026-02-25💬 cs.CL

SceMoS: Scene-Aware 3D Human Motion Synthesis by Planning with Geometry-Grounded Tokens

O artigo apresenta o SceMoS, um framework de síntese de movimento 3D que alcança estado da arte ao desacoplar o planejamento global e a execução local utilizando representações 2D leves (imagens em vista de pássaro e mapas de altura), eliminando a necessidade de dados 3D volumétricos computacionalmente caros enquanto mantém alta fidelidade física e realismo.

Anindita Ghosh, Vladislav Golyanik, Taku Komura + 3 more2026-02-25💻 cs

Path-Decoupled Hyperbolic Flow Matching for Few-Shot Adaptation

O artigo propõe o "Path-Decoupled Hyperbolic Flow Matching" (HFM), um novo método para adaptação com poucos exemplos que supera as limitações da geometria euclidiana ao utilizar a expansão exponencial da variedade de Lorentz para desacoplar trajetórias e alinhar características visuais e semânticas de forma mais eficiente, alcançando resultados state-of-the-art em 11 benchmarks.

Lin Li, Ziqi Jiang, Gefan Ye + 5 more2026-02-25💻 cs

Pip-Stereo: Progressive Iterations Pruner for Iterative Optimization based Stereo Matching

O artigo apresenta o Pip-Stereo, um método de correspondência estéreo que alcança alta precisão e eficiência em dispositivos de borda ao combinar uma estratégia de poda progressiva de iterações, uma transferência de prior monococular colaborativa e um operador FlashGRU otimizado para hardware, eliminando a dependência de redes recorrentes tradicionais e permitindo inferência em tempo real.

Jintu Zheng, Qizhe Liu, HuangXin Xu + 1 more2026-02-25💻 cs

Strategy-Supervised Autonomous Laparoscopic Camera Control via Event-Driven Graph Mining

Este artigo apresenta um framework autônomo para controle de câmera laparoscópica que combina mineração de grafos de eventos para extrair primitivas estratégicas e um modelo de visão-linguagem para execução em tempo real, demonstrando superioridade sobre cirurgiões júnior na estabilidade da imagem e precisão do campo de visão em experimentos ex vivo.

Keyu Zhou, Peisen Xu, Yahao Wu + 3 more2026-02-25💻 cs

Beyond Human Performance: A Vision-Language Multi-Agent Approach for Quality Control in Pharmaceutical Manufacturing

Este artigo apresenta uma abordagem de agentes múltiplos que combina detecção profunda e modelos de visão-linguagem para automatizar a contagem de unidades formadoras de colônias na fabricação farmacêutica, alcançando uma redução de 85% na verificação humana e garantindo conformidade regulatória através de um sistema escalável e autoaperfeiçoável.

Subhra Jyoti Mandal, Lara Rachidi, Puneet Jain + 2 more2026-02-25💻 cs

The Finite Primitive Basis Theorem for Computational Imaging: Formal Foundations of the OperatorGraph Representation

Este artigo apresenta o Teorema da Base Primitiva Finita, que prova que qualquer modelo de imagem computacional pode ser aproximado com precisão arbitrária por um grafo acíclico direcionado composto exclusivamente por 11 primitivas canônicas, estabelecendo assim as fundações matemáticas para a representação unificada de modalidades de imagem lineares e não lineares.

Chengshuai Yang2026-02-25💻 cs

WildGHand: Learning Anti-Perturbation Gaussian Hand Avatars from Monocular In-the-Wild Videos

O artigo apresenta o WildGHand, um framework baseado em otimização que utiliza splatting gaussiano 3D adaptativo e um módulo de desemaranhamento de perturbações para reconstruir avatares de mãos de alta fidelidade a partir de vídeos monoculares em cenários do mundo real, superando desafios como interações com objetos, poses extremas e mudanças de iluminação.

Hanhui Li, Xuan Huang, Wanquan Liu + 5 more2026-02-25💻 cs

BFA++: Hierarchical Best-Feature-Aware Token Prune for Multi-View Vision Language Action Model

O artigo apresenta o BFA++, um framework de poda dinâmica de tokens projetado especificamente para modelos de Visão-Linguagem-Ação (VLA) que utiliza uma estratégia hierárquica de dois níveis para identificar regiões e vistas críticas, resultando em maior eficiência computacional e taxas de sucesso aprimoradas em tarefas de manipulação robótica.

Haosheng Li, Weixin Mao, Zihan Lan + 6 more2026-02-25💻 cs