cs.CV artículos | Gist.Science

Subclass Classification of Gliomas Using MRI Fusion Technique

Este estudio presenta un algoritmo que fusiona imágenes de resonancia magnética multimodal (T1, T2, T1ce y FLAIR) mediante técnicas de segmentación 2D/3D con U-Net y promedios ponderados, logrando una clasificación de subclases de gliomas con una precisión del 99,25% utilizando un modelo ResNet50.

Kiranmayee Janardhan, Christy Bobby Thomas2026-03-10💻 cs

A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning

El artículo presenta LOOP, un nuevo método de aprendizaje por refuerzo para el ajuste fino de modelos de difusión texto-a-imagen que combina técnicas de reducción de varianza de REINFORCE con la robustez de PPO para lograr un mejor equilibrio entre eficiencia de muestreo y rendimiento final.

Shashank Gupta, Chaitanya Ahuja, Tsung-Yu Lin + 4 more2026-03-10🤖 cs.AI

Enhancing Alzheimer's Diagnosis: Leveraging Anatomical Landmarks in Graph Convolutional Neural Networks on Tetrahedral Meshes

Este trabajo propone un modelo de aprendizaje profundo geométrico basado en transformadores que utiliza mallas tetraédricas y puntos de referencia anatómicos para mejorar el diagnóstico de la enfermedad de Alzheimer y predecir la positividad de amiloide cerebral en pacientes de riesgo medio, evitando así la necesidad de costosos y invasivos escáneres PET.

Yanxi Chen, Mohammad Farazi, Zhangsihao Yang, Yonghui Fan, Nicholas Ashton, Eric M Reiman, Yi Su, Yalin Wang2026-03-10💻 cs

Snapmoji: Instant Generation of Animatable Dual-Stylized Avatars

El artículo presenta Snapmoji, un sistema que genera instantáneamente avatares 3D personalizables y animables en dispositivos móviles mediante una técnica de "dual-stylization" que adapta la identidad del usuario a un estilo principal y luego aplica un estilo secundario, superando las limitaciones de las plataformas existentes.

Eric M. Chen, Di Liu, Sizhuo Ma, Michael Vasilkovsky, Bing Zhou, Qiang Gao, Wenzhou Wang, Jiahao Luo, Dimitris N. Metaxas, Vincent Sitzmann, Jian Wang2026-03-10💻 cs

SceneEval: Evaluating Semantic Coherence in Text-Conditioned 3D Indoor Scene Synthesis

Este artículo presenta SceneEval, un marco de evaluación y un nuevo benchmark (SceneEval-500) diseñados para medir de manera integral la coherencia semántica en la síntesis de escenas interiores 3D condicionadas por texto, abordando tanto los requisitos explícitos del usuario como las expectativas implícitas de plausibilidad que las métricas actuales ignoran.

Hou In Ivan Tam, Hou In Derek Pun, Austin T. Wang, Angel X. Chang, Manolis Savva2026-03-10💻 cs

Prototype Perturbation for Relaxing Alignment Constraints in Backward-Compatible Learning

Este trabajo propone un método de Aprendizaje Compatible hacia Atrás (BCL) que relaja las estrictas restricciones de alineación mediante la introducción de perturbaciones en los prototipos de características antiguas, preservando así la capacidad discriminativa del nuevo modelo sin necesidad de costosos procesos de recálculo de embeddings.

Zikun Zhou, Yushuai Sun, Wenjie Pei, Xin Li, Yaowei Wang2026-03-10💻 cs

From 2D Alignment to 3D Plausibility: Unifying Heterogeneous 2D Priors and Penetration-Free Diffusion for Occlusion-Robust Two-Hand Reconstruction

Este trabajo presenta un método unificado para la reconstrucción robusta de dos manos a partir de imágenes monoculares que combina la alineación de priores estructurales heterogéneos de modelos fundacionales en 2D con un modelo de difusión libre de penetración en 3D para lograr interacciones físicamente creíbles y resistentes a oclusiones.

Gaoge Han, Yongkang Cheng, Zhe Chen, Shaoli Huang, Tongliang Liu2026-03-10💻 cs

Point-based Instance Completion with Scene Constraints

Este trabajo propone un modelo de completado de instancias basado en nubes de puntos que integra restricciones de escena mediante un mecanismo de atención cruzada para recuperar geometrías faltantes con mayor fidelidad y plausibilidad, validado mediante un nuevo dataset llamado ScanWCF.

Wesley Khademi, Li Fuxin2026-03-10💻 cs

LEL: Lipschitz Continuity Constrained Ensemble Learning for Efficient EEG-Based Intra-subject Emotion Recognition

El artículo presenta LEL, un marco de aprendizaje conjunto con restricciones de continuidad de Lipschitz que mejora la estabilidad, precisión y robustez del reconocimiento de emociones basado en EEG intra-sujeto, logrando resultados superiores en tres conjuntos de datos públicos.

Shengyu Gong, Yueyang Li, Zijian Kang, Bo Chai, Weiming Zeng, Hongjie Yan, Zhiguo Zhang, Wai Ting Siok, Nizhuan Wang2026-03-10💻 cs

Task-Oriented Semantic Compression for Localization at the Network Edge

Este artículo presenta un marco de comunicación orientado a tareas que utiliza un codificador O-VIB con determinación automática de relevancia y restricciones ortogonales para extraer características multivista compactas y lograr una localización visual precisa en entornos urbanos con limitaciones de ancho de banda y recursos.

Zhengru Fang, Senkang Hu, Yu Guo, Yiqin Deng, Yuguang Fang2026-03-10💻 cs

DeepSparse: A Foundation Model for Sparse-View CBCT Reconstruction

El artículo presenta DeepSparse, el primer modelo fundacional para la reconstrucción de CBCT de vistas escasas, que utiliza la arquitectura DiCE y el marco HyViP para lograr una alta calidad de imagen con menor radiación y una mejor generalización que los métodos existentes.

Yiqun Lin, Jixiang Chen, Hualiang Wang, Jiewen Yang, Jiarong Guo, Yi Zhang, Xiaomeng Li2026-03-10💻 cs

M3CAD: Towards Generic Cooperative Autonomous Driving Benchmark

El artículo presenta M³CAD, un benchmark integral multimodal con 204 secuencias diseñado para impulsar la investigación en conducción autónoma cooperativa genérica y multi-tarea, incluyendo una nueva estrategia de fusión que equilibra la eficiencia de comunicación con la precisión de la percepción.

Morui Zhu, Yongqi Zhu, Yihao Zhu, Qi Chen, Deyuan Qu, Song Fu, Qing Yang2026-03-10💻 cs

FoldNet: Learning Generalizable Closed-Loop Policy for Garment Folding via Keypoint-Driven Asset and Demonstration Synthesis

El artículo presenta FoldNet, un marco que genera un conjunto de datos sintético basado en keypoints y utiliza el algoritmo KG-DAgger para entrenar políticas de aprendizaje por imitación en bucle cerrado que logran un 75% de éxito en tareas reales de doblado de prendas.

Yuxing Chen, Bowen Xiao, He Wang2026-03-10💻 cs

MTVCraft: Tokenizing 4D Motion for Arbitrary Character Animation

MTVCraft es un marco pionero que tokeniza secuencias de movimiento 3D en tokens de movimiento 4D para animar personajes arbitrarios, superando las limitaciones de los métodos basados en imágenes 2D mediante una generalización cero-shot superior y un control más flexible en entornos complejos.

Yanbo Ding, Xirui Hu, Zhizhi Guo, Yan Zhang, Xinrui Wang, Zhixiang He, Chi Zhang, Yali Wang, Xuelong Li2026-03-10💻 cs

Deep Unrolled Meta-Learning for Multi-Coil and Multi-Modality MRI with Adaptive Optimization

Los autores proponen un marco unificado de meta-aprendizaje profundo basado en la desenrolladura de algoritmos de optimización convergente que mejora significativamente la reconstrucción de resonancia magnética acelerada y la síntesis de modalidades cruzadas, logrando una adaptación rápida y generalizable a patrones de muestreo no vistos y cambios de dominio mediante la fusión de fidelidad de datos y regularización no convexa.

Merham Fouladvand, Peuroly Batra2026-03-10🔢 math

EgoDex: Learning Dexterous Manipulation from Large-Scale Egocentric Video

El artículo presenta EgoDex, el conjunto de datos más grande y diverso hasta la fecha de manipulación hábil humana grabada con visión egocéntrica mediante Apple Vision Pro, que incluye 829 horas de video con anotaciones de pose de manos en 3D para 194 tareas cotidianas, con el objetivo de abordar la escasez de datos en el aprendizaje por imitación y fomentar avances en robótica y visión por computadora.

Ryan Hoque, Peide Huang, David J. Yoon, Mouli Sivapurapu, Jian Zhang2026-03-10🤖 cs.LG

Vid2World: Crafting Video Diffusion Models to Interactive World Models

El artículo presenta Vid2World, un enfoque general que transforma modelos de difusión de video preentrenados en modelos de mundo interactivos mediante la causalización de su arquitectura y un mecanismo de guía de acciones, permitiendo así la generación autoregresiva de alta fidelidad para la toma de decisiones en entornos complejos.

Siqiao Huang, Jialong Wu, Qixing Zhou, Shangchen Miao, Mingsheng Long2026-03-10🤖 cs.LG

Generative Prior-Guided Neural Interface Reconstruction for 3D Electrical Impedance Tomography

Este artículo presenta un marco innovador de "solver en el bucle" que combina un prior generativo 3D preentrenado con un solver riguroso de ecuaciones integrales de frontera para reconstruir interfaces complejas en tomografía de impedancia eléctrica, logrando una alta precisión geométrica y eficiencia de datos al imponer las leyes físicas como restricciones estrictas en lugar de penalizaciones suaves.

Haibo Liu, Junqing Chen, Guang Lin2026-03-10🔢 math

ViTaPEs: Visuotactile Position Encodings for Cross-Modal Alignment in Multimodal Transformers

El artículo presenta ViTaPEs, una arquitectura basada en transformadores que introduce un mecanismo de inyección posicional en dos etapas (local y global) para alinear eficazmente las modalidades visual y táctil, logrando un rendimiento superior en tareas de reconocimiento y generalización cero en escenarios no vistos sin depender de modelos preentrenados.

Fotios Lygerakis, Ozan Özdenizci, Elmar Rückert2026-03-10🤖 cs.LG

From Semantic To Instance: A Semi-Self-Supervised Learning Approach

Este artículo presenta GLMask, un enfoque de aprendizaje semi-autosupervisado que transforma la segmentación semántica en segmentación de instancias con mínima anotación manual, logrando un rendimiento superior al estado del arte en la detección de espigas de trigo y en el conjunto de datos COCO.

Keyhan Najafian, Farhad Maleki, Lingling Jin, Ian Stavness2026-03-10🤖 cs.LG

← Anterior Siguiente →