cs.CV artículos | Gist.Science

Unsupervised Domain Adaptation with Target-Only Margin Disparity Discrepancy

Este artículo presenta un marco novedoso de adaptación de dominio no supervisada basado en la discrepancia de disparidad de márgenes (MDD) que mejora la segmentación del hígado en imágenes de tomografía computarizada cónica (CBCT) intervencionista al aprovechar datos anotados de TC, logrando un rendimiento de vanguardia tanto en escenarios no supervisados como de pocos ejemplos.

Gauthier Miralles, Loïc Le Folgoc, Vincent Jugnon, Pietro Gori2026-03-11💻 cs

No Image, No Problem: End-to-End Multi-Task Cardiac Analysis from Undersampled k-Space

El artículo presenta k-MTR, un marco de aprendizaje de representaciones en el espacio k que alinea datos submuestreados directamente con etiquetas fisiológicas en un espacio latente compartido, superando la necesidad de reconstruir imágenes intermedias para lograr un análisis cardíaco multi-tarea preciso y eficiente.

Yundi Zhang, Sevgi Gokce Kafali, Niklas Bubeck, Daniel Rueckert, Jiazhen Pan2026-03-11🤖 cs.AI

Leveraging whole slide difficulty in Multiple Instance Learning to improve prostate cancer grading

Este artículo propone y valida dos métodos de Aprendizaje Multi-Instancia que aprovechan la dificultad de las diapositivas completas, definida por el desacuerdo entre patólogos expertos y no expertos, para mejorar significativamente la clasificación del cáncer de próstata, especialmente en los grados Gleason más altos.

Marie Arrivat, Rémy Peyret, Elsa Angelini, Pietro Gori2026-03-11💻 cs

From Semantics to Pixels: Coarse-to-Fine Masked Autoencoders for Hierarchical Visual Understanding

El paper presenta C2FMAE, un autoencoder enmascarado de aprendizaje auto-supervisado que resuelve la tensión entre el aprendizaje de semántica global y detalles locales mediante un enfoque jerárquico de tres niveles (semántico, de instancia y píxel) con un decodificador en cascada y un currículo de enmascaramiento progresivo, logrando mejoras significativas en tareas de visión por computadora.

Wenzhao Xiang, Yue Wu, Hongyang Yu, Feng Gao, Fan Yang, Xilin Chen2026-03-11🤖 cs.LG

BEACON: Language-Conditioned Navigation Affordance Prediction under Occlusion

El artículo presenta BEACON, un método que mejora la navegación guiada por lenguaje en entornos con oclusiones al predecir mapas de calor de viabilidad en vista cenital (BEV) que incluyen áreas ocultas, superando significativamente a los enfoques basados en imágenes al integrar un modelo de lenguaje visual con características de profundidad derivadas de observaciones multivista.

Xinyu Gao, Gang Chen, Javier Alonso-Mora2026-03-11🤖 cs.AI

ReCoSplat: Autoregressive Feed-Forward Gaussian Splatting Using Render-and-Compare

ReCoSplat es un modelo de Splatting Gaussiano autoregresivo que utiliza un módulo Render-and-Compare para estabilizar la reconstrucción de escenas ante errores de pose y una estrategia de compresión de caché híbrida para manejar secuencias largas, logrando así un rendimiento superior en la síntesis de nuevas vistas en línea.

Freeman Cheng, Botao Ye, Xueting Li, Junqi You, Fangneng Zhan, Ming-Hsuan Yang2026-03-11💻 cs

From Data Statistics to Feature Geometry: How Correlations Shape Superposition

Este artículo demuestra que, en escenarios realistas con características correlacionadas, la superposición en redes neuronales puede aprovechar la interferencia constructiva mediante la organización de características según sus patrones de co-activación, lo que genera estructuras semánticas y cíclicas que no se explican mediante el modelo tradicional de superposición basado en características no correlacionadas.

Lucas Prieto, Edward Stevinson, Melih Barsbey, Tolga Birdal, Pedro A. M. Mediano2026-03-11🤖 cs.AI

Differentiable Microscopy Designs an All Optical Phase Retrieval Microscope

El artículo presenta "diferenciabilidad microscópica" ( $\partial\mu$ ), un enfoque de diseño de arriba hacia abajo basado en datos que supera a los métodos tradicionales y existentes para la recuperación de fase óptica, validado experimentalmente con muestras biológicas.

Kithmini Herath, Hasindu Kariyawasam, Ramith Hettiarachchi, Udith Haputhanthri, Dineth Jayakody, Raja N. Ahmad, Azeem Ahmad, Balpreet S. Ahluwalia, Chamira U. S. Edussooriya, Dushan N. Wadduwage2026-03-10🔬 physics.optics

Class Overwhelms: Mutual Conditional Blended-Target Domain Adaptation

Este artículo propone un método de adaptación de dominio para objetivos mezclados que, mediante un discriminador de dominio categórico guiado por incertidumbre y la alineación mutua de distribuciones condicionales, supera a los métodos actuales sin necesidad de etiquetas de dominio, logrando un rendimiento superior especialmente bajo desplazamientos en la distribución de etiquetas.

Pengcheng Xu, Boyu Wang, Charles Ling2026-03-10💻 cs

altiro3D: Scene representation from single image and novel view synthesis

El artículo presenta altiro3D, una biblioteca de código abierto que genera experiencias 3D realistas y síntesis de vistas novedosas a partir de una sola imagen o video plano, utilizando estimación de profundidad, técnicas de inpainting y algoritmos de proyección para crear múltiples puntos de vista visualizables en pantallas LCD de libre visión.

E. Canessa, L. Tenze2026-03-10💻 cs

Multi-Scale Distillation for RGB-D Anomaly Detection on the PD-REAL Dataset

Este trabajo presenta PD-REAL, un nuevo conjunto de datos a gran escala para la detección de anomalías en 3D utilizando modelos de Play-Doh, junto con un marco de destilación jerárquica multiescala que aprovecha la información RGB-D para superar las limitaciones de los enfoques unimodales y mejorar la precisión en la detección de anomalías.

Jianjian Qin, Chao Zhang, Chunzhi Gu, Zi Wang, Jun Yu, Yijin Wei, Hui Xiao, Xin Yua2026-03-10💻 cs

CA-Jaccard: Camera-aware Jaccard Distance for Person Re-identification

El artículo propone CA-Jaccard, una nueva métrica de distancia para la reidentificación de personas que mejora la fiabilidad del método Jaccard tradicional al incorporar información de cámara mediante vecinos k-recíprocos y expansión de consultas locales para mitigar el impacto negativo de las variaciones entre cámaras.

Yiyu Chen, Zheyi Fan, Zhaoru Chen, Yixuan Zhu2026-03-10💻 cs

DivCon: Divide and Conquer for Complex Numerical and Spatial Reasoning in Text-to-Image Generation

El artículo presenta DivCon, un enfoque de dividir y conquistar que mejora la generación de imágenes texto-a-imagen al desacoplar la predicción de la disposición espacial y la síntesis de objetos en subtasas manejables, permitiendo a modelos de lenguaje ligeros lograr una precisión superior y una mejor calidad perceptual en prompts complejos con múltiples objetos.

Yuhao Jia, Wenhan Tan2026-03-10💻 cs

Deepfake Generation and Detection: A Benchmark and Survey

Esta encuesta presenta una revisión integral y un benchmark de las tecnologías más avanzadas para la generación y detección de deepfakes, abarcando definiciones de tareas, conjuntos de datos, métricas, cuatro campos representativos (intercambio de rostros, reenactment, generación de rostros parlantes y edición de atributos faciales) y sus desafíos futuros.

Gan Pei, Jiangning Zhang, Menghan Hu, Zhenyu Zhang, Chengjie Wang, Yunsheng Wu, Guangtao Zhai, Jian Yang, Dacheng Tao2026-03-10💻 cs

Goldilocks Test Sets for Face Verification

Los autores proponen tres nuevos conjuntos de prueba de alta calidad denominados Hadrian, Eclipse y ND-Twins para evaluar la verificación facial en escenarios desafiantes como diferencias en atributos faciales y similitud entre individuos, evitando la degradación artificial de las imágenes y aplicando reglas estrictas para garantizar una evaluación equilibrada y rigurosa.

Haiyu Wu, Sicong Tian, Aman Bhatta, Jacob Gutierrez, Grace Bezold, Genesis Argueta, Karl Ricanek Jr., Michael C. King, Kevin W. Bowyer2026-03-10💻 cs

Exploring Diffusion Models' Corruption Stage in Few-Shot Fine-tuning and Mitigating with Bayesian Neural Networks

Este artículo identifica y explica la etapa de corrupción en el ajuste fino de pocos ejemplos de modelos de difusión, proponiendo el uso de redes neuronales bayesianas para mitigar este fenómeno y mejorar la fidelidad, calidad y diversidad de las imágenes generadas sin incurrir en costos adicionales de inferencia.

Xiaoyu Wu, Jiaru Zhang, Yang Hua, Bohan Lyu, Hao Wang, Tao Song, Haibing Guan2026-03-10🤖 cs.LG

RDM: Recurrent Diffusion Model for Human Motion Generation

El artículo presenta RDM, un nuevo modelo de difusión recurrente que utiliza flujos normalizadores para generar secuencias largas de movimiento humano alineadas con texto, evitando el costoso proceso de desruido completo de los marcos anteriores y reduciendo significativamente los costos computacionales durante la inferencia.

Mirgahney Mohamed, Harry Jake Cunningham, Marc P. Deisenroth, Lourdes Agapito2026-03-10💻 cs

Improving Visual Object Tracking through Visual Prompting

El artículo presenta PiVOT, un nuevo mecanismo de visual prompting que aprovecha el modelo fundacional CLIP para generar y refinar dinámicamente indicaciones visuales en línea, mejorando así la capacidad de los rastreadores de objetos genéricos para suprimir distracciones y distinguir el objetivo de su entorno.

Shih-Fang Chen, Jun-Cheng Chen, I-Hong Jhuo, Yen-Yu Lin2026-03-10💻 cs

Pose Prior Learner: Unsupervised Categorical Prior Learning for Pose Estimation

El artículo presenta al Pose Prior Learner (PPL), un método no supervisado que aprende priores categóricos generales de pose para cualquier categoría de objeto mediante un aprendizaje auto-supervisado y una memoria jerárquica, mejorando así la precisión en la estimación de poses incluso en imágenes ocluidas sin requerir anotaciones humanas adicionales.

Ziyu Wang, Shuangpeng Han, Mengmi Zhang2026-03-10💻 cs

ExpGest: Expressive Speaker Generation Using Diffusion Model and Hybrid Audio-Text Guidance

El artículo presenta ExpGest, un marco innovador basado en modelos de difusión que utiliza información sincronizada de audio y texto para generar gestos corporales completos, expresivos y controlables, superando las limitaciones de rigidez y falta de contenido semántico de los métodos existentes.

Yongkang Cheng, Mingjiang Liang, Shaoli Huang, Gaoge Han, Jifeng Ning, Wei Liu2026-03-10💻 cs

← Anterior Siguiente →