cs.CV artigos | Gist.Science

Seeking Necessary and Sufficient Information from Multimodal Medical Data

Este artigo propõe um novo método para aprendizado multimodal em dados médicos que, ao decompor representações em componentes invariantes e específicos de modalidade e utilizar a Probabilidade de Necessidade e Suficiência (PNS) como objetivo de aprendizado, visa extrair características essenciais que melhoram tanto o desempenho preditivo quanto a robustez do modelo frente à ausência de modalidades.

Boyu Chen, Weiye Bao, Junjie Liu + 5 more2026-03-03💻 cs

Proof-of-Perception: Certified Tool-Using Multimodal Reasoning with Compositional Conformal Guarantees

O artigo apresenta o Proof-of-Perception (PoP), um framework de raciocínio multimodal que utiliza grafos executáveis com garantias de conformidade para fornecer incerteza calibrada em cada etapa, permitindo um controle eficiente de recursos computacionais e reduzindo alucinações em comparação com métodos existentes.

Arya Fayyazi, Haleh Akrami2026-03-03💻 cs

Diffusion-Based Low-Light Image Enhancement with Color and Luminance Priors

Este artigo propõe um novo quadro de difusão condicional equipado com o Módulo de Incorporação de Controle Estruturado (SCEM), que decompõe imagens de baixa luminosidade em componentes físicos para guiar a melhoria estruturada, alcançando desempenho superior e generalização robusta em múltiplos conjuntos de dados sem necessidade de ajuste fino.

Xuanshuo Fu, Lei Kang, Javier Vazquez-Corral2026-03-03💻 cs

Percept-Aware Surgical Planning for Visual Cortical Prostheses with Vascular Avoidance

Este artigo apresenta um quadro de planejamento cirúrgico consciente da percepção para próteses visuais corticais que formula a colocação de eletrodos como um problema de otimização diferenciável, melhorando a fidelidade da reconstrução perceptual enquanto garante a segurança vascular e a viabilidade anatômica.

Galen Pogoncheff, Alvin Wang, Jacob Granley + 1 more2026-03-03💻 cs

Deep Learning-Based Meat Freshness Detection with Segmentation and OOD-Aware Classification

Este estudo apresenta um sistema de detecção de frescor de carne baseado em aprendizado profundo que utiliza segmentação U-Net e classificação com mecanismos de rejeição de dados fora de distribuição, demonstrando que o modelo EfficientNet-B0 alcança a maior precisão (98,10%) em imagens RGB e é viável para implantação em dispositivos móveis.

Hutama Arif Bramantyo, Mukarram Ali Faridi, Rui Chen + 2 more2026-03-03⚡ eess

Unsupervised Semantic Segmentation in Synchrotron Computed Tomography with Self-Correcting Pseudo Labels

Este artigo apresenta um novo framework não supervisionado para segmentação semântica em imagens de tomografia computadorizada de raios-X de síncrotron, que elimina a necessidade de anotação manual ao gerar e refinar automaticamente rótulos pseudo-rotulados através de clustering e da abordagem "Unbiased Teacher", resultando em melhorias significativas na precisão e no mIoU.

Austin Yunker, Peter Kenesei, Hemant Sharma + 3 more2026-03-03💻 cs

DiffSOS: Acoustic Conditional Diffusion Model for Speed-of-Sound Reconstruction in Ultrasound Computed Tomography

O artigo apresenta o DiffSOS, um modelo de difusão condicional que utiliza um ControlNet acústico e uma função de perda híbrida para realizar reconstruções de alta fidelidade e em tempo quase real de mapas de velocidade do som em tomografia ultrassônica, superando os métodos existentes ao fornecer também uma estimativa de incerteza pixel a pixel.

Yujia Wu, Shuoqi Chen, Shiru Wang + 3 more2026-03-03💻 cs

SSR: Pushing the Limit of Spatial Intelligence with Structured Scene Reasoning

O artigo apresenta o SSR, um framework de raciocínio de cena estruturada que integra representações 2D e 3D por meio de um mecanismo de alinhamento leve e geração incremental de grafos de cena, alcançando desempenho de ponta em benchmarks de inteligência espacial com apenas 7 bilhões de parâmetros ao superar modelos muito maiores.

Yi Zhang, Youya Xia, Yong Wang + 7 more2026-03-03💻 cs

PointAlign: Feature-Level Alignment Regularization for 3D Vision-Language Models

O artigo apresenta o PointAlign, um método de regularização que alinha tokens de nuvem de pontos intermediários com tokens visuais em Modelos Visão-Linguagem 3D para preservar informações geométricas e semânticas, resultando em melhorias significativas em tarefas de classificação e descrição de objetos 3D com baixo custo computacional.

Yuanhao Su, Shaofeng Zhang, Xiaosong Jia + 1 more2026-03-03💻 cs

DiffTrans: Differentiable Geometry-Materials Decomposition for Reconstructing Transparent Objects

O artigo apresenta o DiffTrans, uma nova estrutura de renderização diferenciável que decompõe e reconstrói com precisão a geometria e os materiais de objetos transparentes em cenas complexas, utilizando FlexiCubes para a geometria inicial e um rastreador de raios recursivo otimizado em CUDA para refinar simultaneamente a forma, o índice de refração e a taxa de absorção de forma eficiente e end-to-end.

Changpu Li, Shuang Wu, Songlin Tang + 3 more2026-03-03💻 cs

Station2Radar: query conditioned gaussian splatting for precipitation field

O artigo apresenta o Station2Radar, um novo framework de "Query-Conditioned Gaussian Splatting" que funde dados de estações meteorológicas e imagens de satélite para gerar campos de precipitação em tempo real com maior eficiência e precisão, superando significativamente os produtos de precipitação em grade convencionais.

Doyi Kim, Minseok Seo, Changick Kim2026-03-03💻 cs

An Interpretable Local Editing Model for Counterfactual Medical Image Generation

O artigo apresenta o InstructX2X, um modelo editável local e interpretável para geração de imagens médicas contrafactuais que, utilizando o novo conjunto de dados MIMIC-EDIT-INSTRUCTION, evita alterações indesejadas em atributos demográficos ao restringir modificações a regiões específicas enquanto fornece mapas de orientação explicativos, alcançando desempenho superior ao estado da arte em imagens de raio-X de tórax.

Hyungi Min, Taeseung You, Hangyeul Lee + 2 more2026-03-03🤖 cs.AI

LLM-Bootstrapped Targeted Finding Guidance for Factual MLLM-based Medical Report Generation

O artigo apresenta o Fact-Flow, um framework inovador que mitiga a instabilidade factual na geração de laudos médicos por MLLMs ao separar a identificação de achados visuais da redação do texto, utilizando um LLM para criar automaticamente um conjunto de dados rotulados e demonstrando superior precisão factual em comparação com os modelos mais avançados.

Cunyuan Yang, Dejuan Song, Xiaotao Pang + 7 more2026-03-03💬 cs.CL

Taxonomy-Aware Representation Alignment for Hierarchical Visual Recognition with Large Multimodal Models

O artigo propõe o TARA, uma estratégia que alinha representações visuais de Modelos Multimodais Grandes com o conhecimento taxonômico de modelos fundacionais biológicos para melhorar a consistência hierárquica e a precisão no reconhecimento de categorias conhecidas e novas.

Hulingxiao He, Zhi Tan, Yuxin Peng2026-03-03🤖 cs.AI

TAP-SLF: Parameter-Efficient Adaptation of Vision Foundation Models for Multi-Task Ultrasound Image Analysis

O artigo propõe o TAP-SLF, um framework unificado e eficiente em parâmetros que adapta modelos de visão fundamentais para análise multi-tarefa de imagens de ultrassom, combinando prompts suaves específicos de tarefa com ajuste fino seletivo nas camadas superiores do encoder para superar desafios de generalização e custo computacional.

Hui Wan, Libin Lan2026-03-03🤖 cs.AI

Self-Correction Inside the Model: Leveraging Layer Attention to Mitigate Hallucinations in Large Vision Language Models

Este artigo apresenta o ICLA, um mecanismo de auto-correção interna que utiliza atenção entre camadas para refinar os estados ocultos durante a geração, mitigando efetivamente alucinações em Modelos de Linguagem Visuais Grandes (LVLMs) avançados sem depender de sinais de correção externos.

April Fu2026-03-03💻 cs

Mamba-CAD: State Space Model For 3D Computer-Aided Design Generative Modeling

O artigo apresenta o Mamba-CAD, um modelo generativo auto-supervisionado baseado em arquitetura Mamba que, treinado em um novo conjunto de dados com 77.078 modelos CAD, utiliza representações latentes aprendidas para gerar sequências paramétricas de CAD complexas e de maior comprimento, superando limitações de modelos anteriores.

Xueyang Li, Yunzhong Lou, Yu Song + 1 more2026-03-03🤖 cs.AI

SesaHand: Enhancing 3D Hand Reconstruction via Controllable Generation with Semantic and Structural Alignment

O artigo apresenta o SesaHand, um método que aprimora a reconstrução 3D de mãos ao gerar imagens sintéticas diversificadas e alinhadas semanticamente e estruturalmente, utilizando inferência de Cadeia de Pensamento para capturar comportamentos humanos e fusão estrutural hierárquica para garantir a coerência entre a mão e o corpo.

Zhuoran Zhao, Xianghao Kong, Linlin Yang + 3 more2026-03-03💻 cs

Improved Adversarial Diffusion Compression for Real-World Video Super-Resolution

Este trabalho propõe um método aprimorado de compressão adversarial de difusão para super-resolução de vídeo no mundo real, que distila um modelo DiT pesado em uma rede leve com convoluções temporais e um esquema de distilação adversarial de dupla cabeça, reduzindo a complexidade em 95% e acelerando a inferência em 8 vezes sem comprometer a qualidade visual ou a consistência temporal.

Bin Chen, Weiqi Li, Shijie Zhao + 4 more2026-03-03💻 cs

Explainable Continuous-Time Mask Refinement with Local Self-Similarity Priors for Medical Image Segmentation

Este artigo apresenta o LSS-LTCNet, um modelo explicável e eficiente para segmentação de úlceras nos pés que combina descritores de auto-similaridade local e dinâmica neural de tempo contínuo para alcançar precisão de borda superior e transparência em ambientes de saúde móvel.

Rajdeep Chatterjee, Sudip Chakrabarty, Trishaani Acharjee2026-03-03💻 cs

← Anterior Próximo →