Seeking Necessary and Sufficient Information from Multimodal Medical Data

Este artigo propõe um novo método para aprendizado multimodal em dados médicos que, ao decompor representações em componentes invariantes e específicos de modalidade e utilizar a Probabilidade de Necessidade e Suficiência (PNS) como objetivo de aprendizado, visa extrair características essenciais que melhoram tanto o desempenho preditivo quanto a robustez do modelo frente à ausência de modalidades.

Boyu Chen, Weiye Bao, Junjie Liu + 5 more2026-03-03💻 cs

Deep Learning-Based Meat Freshness Detection with Segmentation and OOD-Aware Classification

Este estudo apresenta um sistema de detecção de frescor de carne baseado em aprendizado profundo que utiliza segmentação U-Net e classificação com mecanismos de rejeição de dados fora de distribuição, demonstrando que o modelo EfficientNet-B0 alcança a maior precisão (98,10%) em imagens RGB e é viável para implantação em dispositivos móveis.

Hutama Arif Bramantyo, Mukarram Ali Faridi, Rui Chen + 2 more2026-03-03⚡ eess

Unsupervised Semantic Segmentation in Synchrotron Computed Tomography with Self-Correcting Pseudo Labels

Este artigo apresenta um novo framework não supervisionado para segmentação semântica em imagens de tomografia computadorizada de raios-X de síncrotron, que elimina a necessidade de anotação manual ao gerar e refinar automaticamente rótulos pseudo-rotulados através de clustering e da abordagem "Unbiased Teacher", resultando em melhorias significativas na precisão e no mIoU.

Austin Yunker, Peter Kenesei, Hemant Sharma + 3 more2026-03-03💻 cs

DiffSOS: Acoustic Conditional Diffusion Model for Speed-of-Sound Reconstruction in Ultrasound Computed Tomography

O artigo apresenta o DiffSOS, um modelo de difusão condicional que utiliza um ControlNet acústico e uma função de perda híbrida para realizar reconstruções de alta fidelidade e em tempo quase real de mapas de velocidade do som em tomografia ultrassônica, superando os métodos existentes ao fornecer também uma estimativa de incerteza pixel a pixel.

Yujia Wu, Shuoqi Chen, Shiru Wang + 3 more2026-03-03💻 cs

DiffTrans: Differentiable Geometry-Materials Decomposition for Reconstructing Transparent Objects

O artigo apresenta o DiffTrans, uma nova estrutura de renderização diferenciável que decompõe e reconstrói com precisão a geometria e os materiais de objetos transparentes em cenas complexas, utilizando FlexiCubes para a geometria inicial e um rastreador de raios recursivo otimizado em CUDA para refinar simultaneamente a forma, o índice de refração e a taxa de absorção de forma eficiente e end-to-end.

Changpu Li, Shuang Wu, Songlin Tang + 3 more2026-03-03💻 cs

An Interpretable Local Editing Model for Counterfactual Medical Image Generation

O artigo apresenta o InstructX2X, um modelo editável local e interpretável para geração de imagens médicas contrafactuais que, utilizando o novo conjunto de dados MIMIC-EDIT-INSTRUCTION, evita alterações indesejadas em atributos demográficos ao restringir modificações a regiões específicas enquanto fornece mapas de orientação explicativos, alcançando desempenho superior ao estado da arte em imagens de raio-X de tórax.

Hyungi Min, Taeseung You, Hangyeul Lee + 2 more2026-03-03🤖 cs.AI

LLM-Bootstrapped Targeted Finding Guidance for Factual MLLM-based Medical Report Generation

O artigo apresenta o Fact-Flow, um framework inovador que mitiga a instabilidade factual na geração de laudos médicos por MLLMs ao separar a identificação de achados visuais da redação do texto, utilizando um LLM para criar automaticamente um conjunto de dados rotulados e demonstrando superior precisão factual em comparação com os modelos mais avançados.

Cunyuan Yang, Dejuan Song, Xiaotao Pang + 7 more2026-03-03💬 cs.CL

SesaHand: Enhancing 3D Hand Reconstruction via Controllable Generation with Semantic and Structural Alignment

O artigo apresenta o SesaHand, um método que aprimora a reconstrução 3D de mãos ao gerar imagens sintéticas diversificadas e alinhadas semanticamente e estruturalmente, utilizando inferência de Cadeia de Pensamento para capturar comportamentos humanos e fusão estrutural hierárquica para garantir a coerência entre a mão e o corpo.

Zhuoran Zhao, Xianghao Kong, Linlin Yang + 3 more2026-03-03💻 cs

Improved Adversarial Diffusion Compression for Real-World Video Super-Resolution

Este trabalho propõe um método aprimorado de compressão adversarial de difusão para super-resolução de vídeo no mundo real, que distila um modelo DiT pesado em uma rede leve com convoluções temporais e um esquema de distilação adversarial de dupla cabeça, reduzindo a complexidade em 95% e acelerando a inferência em 8 vezes sem comprometer a qualidade visual ou a consistência temporal.

Bin Chen, Weiqi Li, Shijie Zhao + 4 more2026-03-03💻 cs