Optimizing Neural Network Architecture for Medical Image Segmentation Using Monte Carlo Tree Search

Este artículo presenta MNAS-Unet, un marco innovador que combina la Búsqueda de Arquitectura Neuronal con Búsqueda por Árbol Monte Carlo para optimizar la segmentación de imágenes médicas, logrando mayor precisión, una reducción del 54% en el presupuesto de búsqueda y un modelo ligero de solo 0.6M de parámetros en comparación con los métodos existentes.

Liping Meng, Fan Nie, Yunyun Zhang + 1 more2026-02-27💻 cs

Enhancing Renal Tumor Malignancy Prediction: Deep Learning with Automatic 3D CT Organ Focused Attention

Este estudio presenta un marco de aprendizaje profundo con una función de pérdida de atención enfocada en órganos (OFA) que predice la malignidad de tumores renales en tomografías computarizadas 3D sin necesidad de segmentación manual, logrando un rendimiento superior a los modelos tradicionales y ofreciendo una herramienta más eficiente para la toma de decisiones clínicas.

Zhengkang Fan, Chengkun Sun, Russell Terry + 2 more2026-02-27🤖 cs.AI

MolFM-Lite: Multi-Modal Molecular Property Prediction with Conformer Ensemble Attention and Cross-Modal Fusion

MolFM-Lite es un modelo de aprendizaje profundo multimodal que mejora la predicción de propiedades moleculares mediante la fusión atenta de representaciones 1D, 2D y 3D (incluyendo conjuntos de conformeros ponderados termodinámicamente) y el condicionamiento contextual, logrando mejoras significativas en rendimiento sobre enfoques unimodales.

Syed Omer Shah, Mohammed Maqsood Ahmed, Danish Mohiuddin Mohammed + 2 more2026-02-27🤖 cs.LG

MammoWise: Multi-Model Local RAG Pipeline for Mammography Report Generation

El artículo presenta MammoWise, un pipeline local y reproducible que utiliza modelos de lenguaje visuales de código abierto, técnicas de prompting avanzado y recuperación aumentada por generación (RAG) para automatizar la generación de informes y la clasificación en mamografías, demostrando que el ajuste fino eficiente de MedGemma mejora significativamente la precisión en la evaluación de BI-RADS, densidad mamaria y calcificaciones.

Raiyan Jahangir, Nafiz Imtiaz Khan, Amritanand Sudheerkumar + 1 more2026-02-27💻 cs

Space Syntax-guided Post-training for Residential Floor Plan Generation

Este artículo propone la Post-entrenamiento Guiado por Sintaxis Espacial (SSPT), un paradigma que integra conocimientos de sintaxis espacial en modelos generativos de planos residenciales mediante un oráculo no diferenciable y estrategias de aprendizaje por refuerzo, logrando así una jerarquía funcional más clara y una mayor dominancia de espacios públicos en comparación con los modelos basados únicamente en distribuciones de datos.

Zhuoyang Jiang, Dongqing Zhang2026-02-27🤖 cs.LG

Pix2Key: Controllable Open-Vocabulary Retrieval with Semantic Decomposition and Self-Supervised Visual Dictionary Learning

Pix2Key es un enfoque de recuperación de imágenes compuestas que representa consultas y candidatos como diccionarios visuales de vocabulario abierto mediante aprendizaje auto-supervisado, logrando así una coincidencia de intenciones más precisa y una mayor diversidad en los resultados sin necesidad de triplets supervisados.

Guoyizhe Wei, Yang Jiao, Nan Xi + 4 more2026-02-27💻 cs

HARU-Net: Hybrid Attention Residual U-Net for Edge-Preserving Denoising in Cone-Beam Computed Tomography

Este artículo presenta HARU-Net, una nueva arquitectura de red neuronal que combina mecanismos de atención híbrida y aprendizaje residual para eliminar eficazmente el ruido en imágenes de tomografía computarizada de haz cónico (CBCT) de baja dosis, logrando una preservación de bordes superior y una mayor calidad diagnóstica con un costo computacional reducido en comparación con los métodos actuales.

Khuram Naveed, Ruben Pauwels2026-02-27⚡ eess

DisQ-HNet: A Disentangled Quantized Half-UNet for Interpretable Multimodal Image Synthesis Applications to Tau-PET Synthesis from T1 and FLAIR MRI

El artículo presenta DisQ-HNet, un marco de síntesis de imágenes multimodales cuantizado y desentrelazado que genera PET de tau a partir de resonancias magnéticas T1 y FLAIR, logrando alta fidelidad y ofreciendo interpretabilidad mediante el análisis de la contribución específica de cada modalidad a la patología del Alzheimer.

Agamdeep S. Chopra, Caitlin Neher, Tianyi Ren + 2 more2026-02-27🤖 cs.AI

SwiftNDC: Fast Neural Depth Correction for High-Fidelity 3D Reconstruction

SwiftNDC es un marco rápido y general que utiliza un campo de corrección de profundidad neuronal para generar mapas de profundidad consistentes entre vistas y una geometría densa inicial, lo que acelera significativamente la reconstrucción de mallas y mejora la calidad de la síntesis de vistas novedosas mediante la optimización de la inicialización para el Splatting Gaussiano 3D.

Kang Han, Wei Xiang, Lu Yu + 3 more2026-02-27💻 cs

Guidance Matters: Rethinking the Evaluation Pitfall for Text-to-Image Generation

Este trabajo expone una crítica falacia de evaluación en la generación de imágenes texto-a-imagen, donde los modelos de preferencia humana favorecen sesgadamente escalas de guía altas que degradan la calidad visual, y propone un nuevo marco de evaluación (GA-Eval) y un método de guía (TDG) para desentrañar mejoras reales de estas ilusiones métricas.

Dian Xie, Shitong Shao, Lichen Bai + 5 more2026-02-27🤖 cs.AI

GIFSplat: Generative Prior-Guided Iterative Feed-Forward 3D Gaussian Splatting from Sparse Views

GIFSplat es un marco de refinamiento iterativo puramente feed-forward que mejora la reconstrucción 3D a partir de vistas escasas mediante actualizaciones residuales y la incorporación de un prior generativo distilado, logrando un rendimiento superior al estado del arte con inferencia en segundos sin necesidad de poses de cámara ni optimización de gradientes en tiempo de prueba.

Tianyu Chen, Wei Xiang, Kang Han + 4 more2026-02-27💻 cs

BetterScene: 3D Scene Synthesis with Representation-Aligned Generative Model

BetterScene es un enfoque que mejora la síntesis de nuevas vistas en escenas reales con fotos extremadamente dispersas al integrar un modelo de salpicadura gaussiana 3D con un modelo generativo SVD preentrenado, optimizando su módulo VAE mediante regularización de equivalencia temporal y representaciones alineadas con modelos de visión fundamentales para eliminar artefactos y garantizar consistencia.

Yuci Han, Charles Toth, John E. Anderson + 2 more2026-02-27🤖 cs.AI

ϕϕ-DPO: Fairness Direct Preference Optimization Approach to Continual Learning in Large Multimodal Models

Este artículo presenta I¨•Ï•-DPO, un nuevo marco de optimización directa de preferencias que aborda simultáneamente el olvido catastrófico y los sesgos por desequilibrio de datos en el aprendizaje continuo de modelos multimodales grandes, logrando un rendimiento superior al estado del arte en múltiples benchmarks.

Thanh-Dat Truong, Huu-Thien Tran, Jackson Cothren + 2 more2026-02-27🤖 cs.LG