cs.CV artigos | Gist.Science

Diversity over Uniformity: Rethinking Representation in Generated Image Detection

O artigo propõe um novo framework de aprendizado anti-colapso de características que, ao preservar múltiplas perspectivas de julgamento e evitar a dependência de poucas pistas salientes, supera os métodos atuais na detecção de imagens geradas, especialmente em cenários de generalização cruzada entre diferentes modelos.

Qinghui He, Haifeng Zhang, Qiao Qin + 3 more2026-03-03💻 cs

UniHM: Unified Dexterous Hand Manipulation with Vision Language Model

O UniHM é um framework pioneiro que utiliza um modelo de linguagem e visão para planejar manipulação destreza de mãos robóticas a partir de instruções de linguagem livre, empregando um tokenizador unificado para generalizar entre diferentes morfologias e um módulo de refinamento guiado por física para garantir sequências de movimento realistas e fisicamente viáveis.

Zhenhao Zhang, Jiaxin Liu, Ye Shi + 1 more2026-03-03💻 cs

Stroke outcome and evolution prediction from CT brain using a spatiotemporal diffusion autoencoder

Este trabalho apresenta um autoencoder difusivo espaço-temporal que gera representações semânticas auto-supervisionadas a partir de imagens de TC cerebral para prever com alta precisão a evolução e o desfecho funcional de pacientes com AVC, superando métodos existentes em um grande conjunto de dados multicêntrico.

Adam Marcus, Paul Bentley, Daniel Rueckert2026-03-03🤖 cs.AI

Analyzing and Improving Fast Sampling of Text-to-Image Diffusion Models

Este artigo propõe o TORS, uma estratégia de agendamento de amostragem baseada nas propriedades geométricas dos modelos de difusão que supera métodos existentes sem treinamento, gerando imagens de alta qualidade em apenas 10 passos.

Zhenyu Zhou, Defang Chen, Siwei Lyu + 2 more2026-03-03💻 cs

DUCX: Decomposing Unfairness in Tool-Using Chest X-ray Agents

O artigo DUCX apresenta uma auditoria sistemática de agentes de IA que utilizam ferramentas para responder a perguntas sobre radiografias de tórax, introduzindo uma decomposição de justiça em etapas que revela como disparidades demográficas surgem não apenas no desempenho final, mas também em comportamentos intermediários específicos como a exposição a ferramentas, padrões de roteamento e raciocínio, destacando a necessidade de auditorias de justiça em nível de processo para garantir a equidade na implantação clínica.

Zikang Xu, Ruinan Jin, Xiaoxiao Li2026-03-03💻 cs

Neural Functional Alignment Space: Brain-Referenced Representation of Artificial Neural Networks

O artigo propõe o Espaço de Alinhamento Funcional Neural (NFAS), uma estrutura de representação ancorada no cérebro que utiliza a decomposição de modos dinâmicos e o Índice de Consistência Sinal-Ruído para caracterizar e comparar a organização funcional de redes neurais artificiais em diversas modalidades, revelando tanto agrupamentos específicos quanto convergências cruzadas com sistemas neurais biológicos.

Ruiyu Yan, Hanqi Jiang, Yi Pan + 4 more2026-03-03💻 cs

Efficient Conformal Volumetry for Template-Based Segmentation

O artigo apresenta o ConVOLT, um novo framework de previsão conformal que utiliza características do campo de deformação em segmentações baseadas em modelos para gerar intervalos de incerteza volumétrica mais precisos e eficientes do que os métodos existentes em pipelines de imagem médica.

Matt Y. Cheung, Ashok Veeraraghavan, Guha Balakrishnan2026-03-03🧬 q-bio

NERFIFY: A Multi-Agent Framework for Turning NeRF Papers into Code

O NERFIFY é um framework multi-agente inovador que converte automaticamente artigos de pesquisa sobre NeRF em plugins executáveis para o Nerfstudio, garantindo alta qualidade visual e reprodutibilidade em minutos através de uma abordagem específica de domínio que supera as limitações dos modelos de linguagem genéricos.

Seemandhar Jain, Keshav Gupta, Kunal Gupta + 1 more2026-03-03💻 cs

COMBAT: Conditional World Models for Behavioral Agent Training

O artigo apresenta o COMBAT, um modelo de mundo condicional em tempo real baseado em difusão que, ao ser treinado apenas com dados de um jogador em Tekken 3, consegue gerar implicitamente o comportamento reativo e sofisticado de um oponente dinâmico sem a necessidade de supervisão explícita para a política do adversário.

Anmol Agarwal, Pranay Meshram, Sumer Singh + 5 more2026-03-03💻 cs

MME: Mixture of Mesh Experts with Random Walk Transformer Gating

O artigo apresenta o MME, um novo framework de Mistura de Especialistas que utiliza um mecanismo de portão baseado em passeio aleatório e atenção para especializar diferentes modelos em classes específicas de malhas, alcançando resultados state-of-the-art em classificação, recuperação e segmentação semântica.

Amir Belder, Ayellet Tal2026-03-03💻 cs

Neural Discrimination-Prompted Transformers for Efficient UHD Image Restoration and Enhancement

Os autores propõem o UHDPromer, um Transformer baseado em priores de discriminação neural que explora as diferenças entre características de alta e baixa resolução para restaurar e aprimorar imagens em ultra-alta definição com eficiência computacional e desempenho de ponta.

Cong Wang, Jinshan Pan, Liyan Wang + 2 more2026-03-03💻 cs

PPC-MT: Parallel Point Cloud Completion with Mamba-Transformer Hybrid Architecture

O artigo apresenta o PPC-MT, um novo framework paralelo para conclusão de nuvens de pontos que combina uma arquitetura híbrida Mamba-Transformer e uma estratégia guiada por PCA para equilibrar alta eficiência computacional com reconstrução de alta fidelidade, superando os métodos mais avançados em diversos benchmarks.

Jie Li, Shengwei Tian, Long Yu + 1 more2026-03-03🤖 cs.AI

MMTA: Multi Membership Temporal Attention for Fine-Grained Stroke Rehabilitation Assessment

O artigo apresenta o MMTA, um modelo de atenção temporal que permite a cada quadro assistir a múltiplas janelas temporais simultaneamente, melhorando significativamente a precisão na segmentação de micro-movimentos e transições de fase para a avaliação de reabilitação de AVC, tanto em vídeos quanto em dados de sensores vestíveis.

Halil Ismail Helvaci, Justin Huber, Jihye Bae + 1 more2026-03-03💻 cs

Uncertainty-Aware Concept and Motion Segmentation for Semi-Supervised Angiography Videos

O artigo propõe o SMART, um novo framework semi-supervisionado baseado em SAM3 que utiliza consistência de movimento e regularização progressiva de confiança para superar desafios como bordas desfocadas e falta de dados anotados, alcançando desempenho superior na segmentação de artérias coronárias em vídeos de angiografia.

Yu Luo, Guangyu Wei, Yangfan Li + 2 more2026-03-03💻 cs

Solving a Nonlinear Blind Inverse Problem for Tagged MRI with Physics and Deep Generative Priors

Este artigo apresenta um novo quadro de inversão não linear e cego que unifica pela primeira vez a recuperação da anatomia, a síntese de imagens cine de alta resolução e a estimativa de movimento em ressonância magnética com marcação, combinando física de MR e priores generativos profundos para superar desafios como o desvanecimento das marcas e a entrelaçamento entre anatomia e movimento.

Zhangxing Bian, Shuwen Wei, Samuel W. Remedios + 4 more2026-03-03⚡ eess

VEMamba: Efficient Isotropic Reconstruction of Volume Electron Microscopy with Axial-Lateral Consistent Mamba

O artigo apresenta o VEMamba, um framework eficiente que utiliza um novo paradigma de reordenação de dependências 3D e simulação realista de degradação para realizar reconstrução isotrópica de microscopia eletrônica volumétrica, superando as limitações de métodos existentes ao garantir consistência axial-lateral com menor custo computacional.

Longmi Gao, Pan Gao2026-03-03💻 cs

pySpatial: Generating 3D Visual Programs for Zero-Shot Spatial Reasoning

O artigo apresenta o pySpatial, uma estrutura de programação visual que capacita modelos de linguagem multimodais a realizar raciocínio espacial zero-shot em 3D através da geração de código Python para interagir com ferramentas espaciais, superando significativamente os modelos de base em benchmarks desafiadores e demonstrando eficácia em navegação robótica real.

Zhanpeng Luo, Ce Zhang, Silong Yong + 6 more2026-03-03💻 cs

UD-SfPNet: An Underwater Descattering Shape-from-Polarization Network for 3D Normal Reconstruction

Este artigo apresenta o UD-SfPNet, uma rede neural unificada que combina descortinamento de imagens subaquáticas com estimativa de normais de superfície baseada em polarização para realizar reconstrução 3D precisa, superando os desafios da dispersão de luz e alcançando a maior acurácia relatada no conjunto de dados MuS-Polar3D.

Puyun Wang, Kaimin Yu, Huayang He + 3 more2026-03-03💻 cs

On the Exact Algorithmic Extraction of Finite Tesselations Through Prime Extraction of Minimal Representative Forms

Este artigo propõe um algoritmo determinístico hierárquico que extrai exata e eficientemente tesselações retangulares finitas em grades planas através da descoberta de padrões compostos, normalização para formas representativas mínimas e extração de primos, preenchendo uma lacuna na análise simbólica de estruturas repetitivas para aplicações como resolução de quebra-cabeças.

Sushish Baral, Paulo Garcia, Warisa Sritriratanarak2026-03-03💻 cs

VGGT-Det: Mining VGGT Internal Priors for Sensor-Geometry-Free Multi-View Indoor 3D Object Detection

O artigo apresenta o VGGT-Det, o primeiro framework para detecção 3D de objetos em ambientes internos multi-visão sem geometria de sensores, que integra um encoder VGGT em um pipeline baseado em transformer com mecanismos de geração de consultas guiada por atenção e agregação de características orientada por consultas para explorar priores semânticos e geométricos internos, superando significativamente os métodos existentes.

Yang Cao, Feize Wu, Dave Zhenyu Chen + 3 more2026-03-03💻 cs

← Anterior Próximo →