cs.CV artículos | Gist.Science

Optimizing Neural Network Architecture for Medical Image Segmentation Using Monte Carlo Tree Search

Este artículo presenta MNAS-Unet, un marco innovador que combina la Búsqueda de Arquitectura Neuronal con Búsqueda por Árbol Monte Carlo para optimizar la segmentación de imágenes médicas, logrando mayor precisión, una reducción del 54% en el presupuesto de búsqueda y un modelo ligero de solo 0.6M de parámetros en comparación con los métodos existentes.

Liping Meng, Fan Nie, Yunyun Zhang + 1 more2026-02-27💻 cs

AeroDGS: Physically Consistent Dynamic Gaussian Splatting for Single-Sequence Aerial 4D Reconstruction

El artículo presenta AeroDGS, un marco de reconstrucción 4D basado en *Gaussian Splatting* que utiliza guías físicas y un módulo de elevación geométrica para superar las ambigüedades de la visión monocular en videos aéreos de UAV, logrando una reconstrucción dinámica precisa y físicamente consistente en entornos reales.

Hanyang Liu, Rongjun Qin2026-02-27🤖 cs.AI

Enhancing Renal Tumor Malignancy Prediction: Deep Learning with Automatic 3D CT Organ Focused Attention

Este estudio presenta un marco de aprendizaje profundo con una función de pérdida de atención enfocada en órganos (OFA) que predice la malignidad de tumores renales en tomografías computarizadas 3D sin necesidad de segmentación manual, logrando un rendimiento superior a los modelos tradicionales y ofreciendo una herramienta más eficiente para la toma de decisiones clínicas.

Zhengkang Fan, Chengkun Sun, Russell Terry + 2 more2026-02-27🤖 cs.AI

Vision Transformers Need More Than Registers

Este trabajo identifica que los artefactos en los Vision Transformers se originan en una agregación perezosa que utiliza parches de fondo irrelevantes como atajos semánticos, y propone una solución que integra selectivamente las características de los parches en el token CLS para mitigar este problema y mejorar el rendimiento en múltiples tareas de supervisión.

Cheng Shi, Yizhou Yu, Sibei Yang2026-02-27💻 cs

MolFM-Lite: Multi-Modal Molecular Property Prediction with Conformer Ensemble Attention and Cross-Modal Fusion

MolFM-Lite es un modelo de aprendizaje profundo multimodal que mejora la predicción de propiedades moleculares mediante la fusión atenta de representaciones 1D, 2D y 3D (incluyendo conjuntos de conformeros ponderados termodinámicamente) y el condicionamiento contextual, logrando mejoras significativas en rendimiento sobre enfoques unimodales.

Syed Omer Shah, Mohammed Maqsood Ahmed, Danish Mohiuddin Mohammed + 2 more2026-02-27🤖 cs.LG

SimpleOCR: Rendering Visualized Questions to Teach MLLMs to Read

El artículo presenta SimpleOCR, una estrategia de entrenamiento plug-and-play que utiliza preguntas visualizadas para obligar a los modelos de lenguaje multimodal a procesar activamente el texto en imágenes, superando así la "pereza modal" y mejorando significativamente su rendimiento en tareas de OCR sin necesidad de modificaciones arquitectónicas.

Yibo Peng, Peng Xia, Ding Zhong + 6 more2026-02-27🤖 cs.LG

Exploring Multimodal LMMs for Online Episodic Memory Question Answering on the Edge

Este artículo demuestra la viabilidad de ejecutar modelos de lenguaje grandes multimodales en dispositivos de borde para la recuperación de memoria episódica en tiempo real, logrando resultados competitivos en precisión y latencia que preservan la privacidad sin depender de la nube.

Giuseppe Lando, Rosario Forte, Antonino Furnari2026-02-27💻 cs

MammoWise: Multi-Model Local RAG Pipeline for Mammography Report Generation

El artículo presenta MammoWise, un pipeline local y reproducible que utiliza modelos de lenguaje visuales de código abierto, técnicas de prompting avanzado y recuperación aumentada por generación (RAG) para automatizar la generación de informes y la clasificación en mamografías, demostrando que el ajuste fino eficiente de MedGemma mejora significativamente la precisión en la evaluación de BI-RADS, densidad mamaria y calcificaciones.

Raiyan Jahangir, Nafiz Imtiaz Khan, Amritanand Sudheerkumar + 1 more2026-02-27💻 cs

Space Syntax-guided Post-training for Residential Floor Plan Generation

Este artículo propone la Post-entrenamiento Guiado por Sintaxis Espacial (SSPT), un paradigma que integra conocimientos de sintaxis espacial en modelos generativos de planos residenciales mediante un oráculo no diferenciable y estrategias de aprendizaje por refuerzo, logrando así una jerarquía funcional más clara y una mayor dominancia de espacios públicos en comparación con los modelos basados únicamente en distribuciones de datos.

Zhuoyang Jiang, Dongqing Zhang2026-02-27🤖 cs.LG

Pix2Key: Controllable Open-Vocabulary Retrieval with Semantic Decomposition and Self-Supervised Visual Dictionary Learning

Pix2Key es un enfoque de recuperación de imágenes compuestas que representa consultas y candidatos como diccionarios visuales de vocabulario abierto mediante aprendizaje auto-supervisado, logrando así una coincidencia de intenciones más precisa y una mayor diversidad en los resultados sin necesidad de triplets supervisados.

Guoyizhe Wei, Yang Jiao, Nan Xi + 4 more2026-02-27💻 cs

HARU-Net: Hybrid Attention Residual U-Net for Edge-Preserving Denoising in Cone-Beam Computed Tomography

Este artículo presenta HARU-Net, una nueva arquitectura de red neuronal que combina mecanismos de atención híbrida y aprendizaje residual para eliminar eficazmente el ruido en imágenes de tomografía computarizada de haz cónico (CBCT) de baja dosis, logrando una preservación de bordes superior y una mayor calidad diagnóstica con un costo computacional reducido en comparación con los métodos actuales.

Khuram Naveed, Ruben Pauwels2026-02-27⚡ eess

DisQ-HNet: A Disentangled Quantized Half-UNet for Interpretable Multimodal Image Synthesis Applications to Tau-PET Synthesis from T1 and FLAIR MRI

El artículo presenta DisQ-HNet, un marco de síntesis de imágenes multimodales cuantizado y desentrelazado que genera PET de tau a partir de resonancias magnéticas T1 y FLAIR, logrando alta fidelidad y ofreciendo interpretabilidad mediante el análisis de la contribución específica de cada modalidad a la patología del Alzheimer.

Agamdeep S. Chopra, Caitlin Neher, Tianyi Ren + 2 more2026-02-27🤖 cs.AI

DrivePTS: A Progressive Learning Framework with Textual and Structural Enhancement for Driving Scene Generation

DrivePTS es un marco de aprendizaje progresivo que mejora la generación de escenas de conducción mediante el uso de descripciones jerárquicas multimodales y una pérdida de estructura guiada por frecuencias para resolver las dependencias entre condiciones geométricas y aumentar el detalle semántico y estructural.

Zhechao Wang, Yiming Zeng, Lufan Ma + 4 more2026-02-27🤖 cs.AI

SwiftNDC: Fast Neural Depth Correction for High-Fidelity 3D Reconstruction

SwiftNDC es un marco rápido y general que utiliza un campo de corrección de profundidad neuronal para generar mapas de profundidad consistentes entre vistas y una geometría densa inicial, lo que acelera significativamente la reconstrucción de mallas y mejora la calidad de la síntesis de vistas novedosas mediante la optimización de la inicialización para el Splatting Gaussiano 3D.

Kang Han, Wei Xiang, Lu Yu + 3 more2026-02-27💻 cs

Quality-Aware Robust Multi-View Clustering for Heterogeneous Observation Noise

El artículo propone QARMVC, un marco innovador de agrupamiento multivista robusto que supera las limitaciones de los métodos existentes al cuantificar y mitigar el ruido de observación heterogéneo mediante un mecanismo de cuello de botella de información y una estrategia de aprendizaje jerárquico ponderado por la calidad.

Peihan Wu, Guanjie Cheng, Yufei Tong + 2 more2026-02-27🤖 cs.AI

Guidance Matters: Rethinking the Evaluation Pitfall for Text-to-Image Generation

Este trabajo expone una crítica falacia de evaluación en la generación de imágenes texto-a-imagen, donde los modelos de preferencia humana favorecen sesgadamente escalas de guía altas que degradan la calidad visual, y propone un nuevo marco de evaluación (GA-Eval) y un método de guía (TDG) para desentrañar mejoras reales de estas ilusiones métricas.

Dian Xie, Shitong Shao, Lichen Bai + 5 more2026-02-27🤖 cs.AI

GIFSplat: Generative Prior-Guided Iterative Feed-Forward 3D Gaussian Splatting from Sparse Views

GIFSplat es un marco de refinamiento iterativo puramente feed-forward que mejora la reconstrucción 3D a partir de vistas escasas mediante actualizaciones residuales y la incorporación de un prior generativo distilado, logrando un rendimiento superior al estado del arte con inferencia en segundos sin necesidad de poses de cámara ni optimización de gradientes en tiempo de prueba.

Tianyu Chen, Wei Xiang, Kang Han + 4 more2026-02-27💻 cs

Causal Motion Diffusion Models for Autoregressive Motion Generation

Este trabajo presenta CMDM, un marco unificado basado en un transformador de difusión causal y un espacio latente alineado semánticamente que permite la generación autoregresiva de movimiento humano de alta calidad, en tiempo real y sin errores acumulativos, superando a los modelos existentes en fidelidad semántica y suavidad temporal.

Qing Yu, Akihisa Watanabe, Kent Fujiwara2026-02-27💻 cs

BetterScene: 3D Scene Synthesis with Representation-Aligned Generative Model

BetterScene es un enfoque que mejora la síntesis de nuevas vistas en escenas reales con fotos extremadamente dispersas al integrar un modelo de salpicadura gaussiana 3D con un modelo generativo SVD preentrenado, optimizando su módulo VAE mediante regularización de equivalencia temporal y representaciones alineadas con modelos de visión fundamentales para eliminar artefactos y garantizar consistencia.

Yuci Han, Charles Toth, John E. Anderson + 2 more2026-02-27🤖 cs.AI

$ϕ$ -DPO: Fairness Direct Preference Optimization Approach to Continual Learning in Large Multimodal Models

Este artículo presenta $Ï$ -DPO, un nuevo marco de optimización directa de preferencias que aborda simultáneamente el olvido catastrófico y los sesgos por desequilibrio de datos en el aprendizaje continuo de modelos multimodales grandes, logrando un rendimiento superior al estado del arte en múltiples benchmarks.

Thanh-Dat Truong, Huu-Thien Tran, Jackson Cothren + 2 more2026-02-27🤖 cs.LG

← Anterior Siguiente →

cs.CV