cs.CV artículos | Gist.Science

Cross-Resolution Distribution Matching for Diffusion Distillation

El artículo presenta RMD, un nuevo marco de destilación que cierra las brechas distributivas entre resoluciones mediante emparejamiento de distribuciones y reinyección de ruido, logrando aceleraciones de inferencia de hasta 33,4 veces en modelos como SDXL y Wan2.1-14B sin comprometer la fidelidad visual.

Feiyang Chen, Hongpeng Pan, Haonan Xu, Xinyu Duan, Yang Yang, Zhefeng Wang2026-03-09💻 cs

Place-it-R1: Unlocking Environment-aware Reasoning Potential of MLLM for Video Object Insertion

El paper presenta Place-it-R1, un marco end-to-end que aprovecha el razonamiento de modelos de lenguaje multimodal (MLLM) mediante una estrategia de "pensar antes de colocar" para lograr inserciones de objetos en video que son físicamente coherentes y ambientalmente conscientes, superando las limitaciones de fidelidad visual sin causalidad física de las técnicas actuales.

Bohai Gu, Taiyi Wu, Dazhao Du, Jian Liu, Shuai Yang, Xiaotong Zhao, Alan Zhao, Song Guo2026-03-09🤖 cs.AI

Spatial Colour Mixing Illusions as a Perception Stress Test for Vision-Language Models

Este artículo demuestra que los modelos de visión y lenguaje son vulnerables a ilusiones de mezcla de color espacial que degradan drásticamente su precisión, a diferencia de los humanos, y sugiere que el preprocesamiento inspirado en la percepción humana puede mejorar su robustez.

Nicoleta-Nina Basoc, Adrian Cosma, Emilian Radoi2026-03-09💻 cs

Longitudinal NSCLC Treatment Progression via Multimodal Generative Models

Este trabajo presenta un marco de "Tratamiento Virtual" basado en modelos generativos difusivos que, al condicionar la síntesis de imágenes de tomografía computarizada con dosis de radiación y variables clínicas, logra predecir con mayor precisión y estabilidad la evolución anatómica del cáncer de pulmón de células no pequeñas durante la radioterapia en comparación con los modelos basados en GAN.

Massimiliano Mantegna, Elena Mulero Ayllón, Alice Natalina Caragliano, Francesco Di Feola, Claudia Tacconi, Michele Fiore, Edy Ippolito, Carlo Greco, Sara Ramella, Philippe C. Cattin, Paolo Soda, Matteo Tortora, Valerio Guarrasi2026-03-09💻 cs

VLM-RobustBench: A Comprehensive Benchmark for Robustness of Vision-Language Models

El artículo presenta VLM-RobustBench, un benchmark integral que evalúa la robustez de modelos de visión-lingüística frente a 133 tipos de perturbaciones y revela que, aunque estos modelos son semánticamente fuertes, son espacialmente frágiles, ya que las distorsiones geométricas y de muestreo degradan su rendimiento más que las corrupciones fotométricas visualmente severas.

Rohit Saxena, Alessandro Suglia, Pasquale Minervini2026-03-09🤖 cs.AI

Reflective Flow Sampling Enhancement

Este artículo presenta RF-Sampling, un marco de mejora en la inferencia sin entrenamiento y fundamentado teóricamente diseñado específicamente para modelos de flujo como FLUX, que optimiza la alineación con el prompt y la calidad de generación mediante una derivación formal que realiza implícitamente un ascenso de gradiente en la puntuación de alineación texto-imagen.

Zikai Zhou, Muyao Wang, Shitong Shao, Lichen Bai, Haoyi Xiong, Bo Han, Zeke Xie2026-03-09🤖 cs.AI

FreeOcc: Training-free Panoptic Occupancy Prediction via Foundation Models

El artículo presenta FreeOcc, una metodología sin entrenamiento que aprovecha modelos fundacionales preentrenados para lograr la predicción de ocupación panóptica en 3D a partir de imágenes multivista, logrando resultados competitivos con métodos supervisados y estableciendo nuevas bases para la comprensión de escenas 3D sin necesidad de datos de entrenamiento específicos.

Andrew Caunes, Thierry Chateau, Vincent Fremont2026-03-09💻 cs

A Semi-Supervised Framework for Breast Ultrasound Segmentation with Training-Free Pseudo-Label Generation and Label Refinement

Este artículo presenta un marco de aprendizaje semi-supervisado para la segmentación de imágenes de ultrasonido mamario que, mediante la generación de pseudoetiquetas sin entrenamiento basada en descripciones visuales simples y técnicas de refinamiento de etiquetas, logra un rendimiento comparable al de modelos totalmente supervisados utilizando solo el 2,5% de datos etiquetados.

Ruili Li, Jiayi Ding, Ruiyu Li, Yilun Jin, Shiwen Ge, Yuwen Zeng, Xiaoyong Zhang, Eichi Takaya, Jan Vrba, Noriyasu Homma2026-03-09💻 cs

JOPP-3D: Joint Open Vocabulary Semantic Segmentation on Point Clouds and Panoramas

El artículo presenta JOPP-3D, un marco de segmentación semántica de vocabulario abierto que combina datos de nubes de puntos 3D e imágenes panorámicas para permitir la comprensión de escenas mediante consultas en lenguaje natural, logrando un rendimiento superior al estado del arte en ambas modalidades.

Sandeep Inuganti, Hideaki Kanayama, Kanta Shimizu, Mahdi Chamseddine, Soichiro Yokota, Didier Stricker, Jason Rambach2026-03-09💻 cs

Optimizing 3D Diffusion Models for Medical Imaging via Multi-Scale Reward Learning

Este artículo presenta un método que optimiza modelos de difusión 3D para imágenes médicas mediante aprendizaje por refuerzo con retroalimentación multiescala, mejorando significativamente la calidad de la generación y la utilidad de los datos sintéticos en tareas de clasificación de tumores y enfermedades.

Yueying Tian, Xudong Han, Meng Zhou, Rodrigo Aviles-Espinosa, Rupert Young, Philip Birch2026-03-09💻 cs

Making Training-Free Diffusion Segmentors Scale with the Generative Power

El artículo propone las técnicas de agregación automática y reescalado por píxel para superar las limitaciones de los segmentores de difusión sin entrenamiento, permitiendo que aprovechen mejor la potencia generativa de los modelos avanzados y logren un rendimiento superior en tareas de segmentación semántica.

Benyuan Meng, Qianqian Xu, Zitai Wang, Xiaochun Cao, Longtao Huang, Qingming Huang2026-03-09💻 cs

Contrastive-to-Self-Supervised: A Two-Stage Framework for Script Similarity Learning

Este artículo propone un marco de dos etapas que combina aprendizaje contrastivo supervisado en alfabetos inventados con destilación de conocimiento no supervisada para aprender métricas de similitud entre sistemas de escritura históricos sin depender de relaciones evolutivas verificadas.

Claire Roman, Philippe Meyer2026-03-09🤖 cs.AI

Towards Motion Turing Test: Evaluating Human-Likeness in Humanoid Robots

Este artículo propone el "Motion Turing Test" y el conjunto de datos HHMotion para evaluar la similitud humana en robots humanoides mediante información cinemática, revelando que las actuales grandes modelos de lenguaje son insuficientes para esta tarea y presentando un modelo de referencia superior que supera a los métodos basados en LLM.

Mingzhe Li, Mengyin Liu, Zekai Wu, Xincheng Lin, Junsheng Zhang, Ming Yan, Zengye Xie, Changwang Zhang, Chenglu Wen, Lan Xu, Siqi Shen, Cheng Wang2026-03-09💻 cs

CRIMSON: A Clinically-Grounded LLM-Based Metric for Generative Radiology Report Evaluation

El artículo presenta CRIMSON, un marco de evaluación basado en modelos de lenguaje grande y fundamentado clínicamente para informes de radiología de tórax que incorpora el contexto completo del paciente y una taxonomía de errores ponderada por gravedad, demostrando una fuerte alineación con el juicio de radiólogos expertos en múltiples benchmarks.

Mohammed Baharoon, Thibault Heintz, Siavash Raissi, Mahmoud Alabbad, Mona Alhammad, Hassan AlOmaish, Sung Eun Kim, Oishi Banerjee, Pranav Rajpurkar2026-03-09🤖 cs.AI

SpaCRD: Multimodal Deep Fusion of Histology and Spatial Transcriptomics for Cancer Region Detection

El artículo presenta SpaCRD, un método de aprendizaje por transferencia que fusiona multimodalmente imágenes de histología y datos de transcriptómica espacial mediante una red de atención cruzada bidireccional para detectar con mayor precisión las regiones de cáncer en diversos muestras, plataformas y lotes, superando a los métodos existentes.

Shuailin Xue, Jun Wan, Lihua Zhang, Wenwen Min2026-03-09💻 cs

Adaptive Language-Aware Image Reflection Removal Network

Este trabajo presenta ALANet, una red que elimina reflejos complejos en imágenes utilizando descripciones lingüísticas incluso cuando estas son inexactas, mediante estrategias de filtrado y optimización, y valida su eficacia con el nuevo conjunto de datos CRLAV.

Siyan Fang, Yuntao Wang, Jinpu Zhang, Ziwen Li, Yuehuan Wang2026-03-09💻 cs

Point-Supervised Skeleton-Based Human Action Segmentation

Este trabajo presenta un marco de segmentación de acciones humanas basado en esqueletos y supervisado por puntos que, al utilizar datos multimodales y métodos innovadores de pseudoetiquetado, logra un rendimiento competitivo e incluso superior a algunos métodos totalmente supervisados con un esfuerzo de anotación significativamente reducido.

Hongsong Wang, Yiqin Shen, Pengbo Yan, Jie Gui2026-03-09💻 cs

VG3S: Visual Geometry Grounded Gaussian Splatting for Semantic Occupancy Prediction

El artículo presenta VG3S, un marco innovador que mejora la predicción de ocupación semántica 3D integrando fundamentos geométricos de modelos de visión preentrenados mediante un adaptador jerárquico, logrando avances significativos en precisión sobre el conjunto de datos nuScenes.

Xiaoyang Yan, Muleilan Pei, Shaojie Shen2026-03-09💻 cs

Cut to the Chase: Training-free Multimodal Summarization via Chain-of-Events

El artículo presenta CoE, un marco de resumen multimodal sin entrenamiento que supera a los métodos actuales mediante un razonamiento estructurado guiado por un Grafo de Eventos Jerárquico para mejorar la alineación intermodal y la modelización temporal.

Xiaoxing You, Qiang Huang, Lingyu Li, Xiaojun Chang, Jun Yu2026-03-09🤖 cs.AI

EntON: Eigenentropy-Optimized Neighborhood Densification in 3D Gaussian Splatting

El artículo presenta EntON, una estrategia de densificación de vecindarios optimizada por entropía de autovalores para la proyección gaussiana 3D que mejora la precisión geométrica y la calidad de renderizado mientras reduce el número de gaussianas y el tiempo de entrenamiento mediante un enfoque de densificación alternada consciente de la geometría local.

Miriam Jäger, Boris Jutzi2026-03-09💻 cs

← Anterior Siguiente →