cs.CV artículos | Gist.Science

Stochastic Self-Guidance for Training-Free Enhancement of Diffusion Models

El artículo propone S²-Guidance, un método de mejora sin entrenamiento que utiliza el bloqueo estocástico de bloques para refinar las predicciones subóptimas de los modelos de difusión y superar el rendimiento de la Guía sin Clasificador (CFG) en tareas de generación de imágenes y videos.

Chubin Chen, Jiashu Zhu, Xiaokun Feng + 7 more2026-03-05💻 cs

Adaptive Quantized Planetary Crater Detection System for Autonomous Space Exploration

Este artículo de concepto propone el Sistema de Detección Adaptativa de Cráteres Planetarios Cuantizado (AQ-PCDSys), una arquitectura que integra redes neuronales cuantizadas y fusión sensorial adaptativa para superar las limitaciones de memoria y potencia de los sistemas de exploración espacial autónoma.

Aditri Paul, Archan Paul2026-03-05🤖 cs.AI

ROBUST-MIPS: A Combined Skeletal Pose and Instance Segmentation Dataset for Laparoscopic Surgical Instruments

El artículo presenta ROBUST-MIPS, un nuevo conjunto de datos que combina anotaciones de pose esquelética y segmentación de instancias de instrumentos quirúrgicos laparoscópicos para superar las limitaciones de datos anotados y facilitar el estudio comparativo de estos métodos en tecnologías de intervención asistida por computadora.

Zhe Han, Charlie Budd, Gongyu Zhang + 3 more2026-03-05💻 cs

Index-Preserving Lightweight Token Pruning for Efficient Document Understanding in Vision-Language Models

Los autores proponen un marco de poda de tokens ligero que preserva el índice, el cual elimina las regiones de fondo no informativas de las imágenes de documentos antes de procesarlas en modelos de visión y lenguaje, logrando así reducir significativamente los costos computacionales sin comprometer la precisión en la comprensión de documentos.

Jaemin Son, Sujin Choi, Inyong Yun2026-03-05🤖 cs.AI

QDFlow: A Python package for physics simulations of quantum dot devices

QDFlow es un paquete de código abierto en Python que simula dispositivos de puntos cuánticos mediante un modelo físico autoconsistente y módulos de ruido personalizables para generar datos sintéticos realistas con etiquetas de verdad absoluta, facilitando así el desarrollo y la validación de enfoques de aprendizaje automático en este campo.

Donovan L. Buterakos, Sandesh S. Kalantre, Joshua Ziegler + 2 more2026-03-05⚛️ quant-ph

Enhancing Feature Fusion of U-like Networks with Dynamic Skip Connections

Este artículo propone un bloque de conexión de salto dinámica (DSC) que supera las limitaciones de las redes tipo U en la segmentación de imágenes médicas mediante módulos de entrenamiento en tiempo de prueba y núcleos dinámicos multiescala para adaptar la fusión de características al contenido y a la escala global.

Yue Cao, Quansong He, Kaishen Wang + 3 more2026-03-05💻 cs

Segment-to-Act: Label-Noise-Robust Action-Prompted Video Segmentation Towards Embodied Intelligence

Este trabajo presenta el primer estudio y benchmark (ActiSeg-NL) sobre segmentación de objetos en video basada en acciones bajo ruido de etiquetas, introduciendo un nuevo mecanismo de cabezal de máscara paralelo y analizando estrategias de aprendizaje robustas para abordar el ruido en prompts textuales y anotaciones de máscaras.

Wenxin Li, Kunyu Peng, Di Wen + 4 more2026-03-05🤖 cs.LG

Category-Level Object Shape and Pose Estimation in Less Than a Millisecond

Los autores presentan un solucionador local rápido y con certificado de optimalidad global para la estimación de forma y pose de objetos a nivel de categoría, el cual utiliza un modelo de forma activa lineal y un método de iteración de campo autoconsistente para resolver el problema en menos de un milisegundo.

Lorenzo Shaikewitz, Tim Nguyen, Luca Carlone2026-03-05💻 cs

Raw-JPEG Adapter: Efficient Raw Image Compression with JPEG

Este artículo presenta el "Raw-JPEG Adapter", un pipeline preprocesamiento ligero e invertible que adapta imágenes en crudo para su compresión eficiente mediante JPEG, permitiendo una reconstrucción precisa y superando la fidelidad del almacenamiento directo en este formato.

Mahmoud Afifi, Ran Zhang, Michael S. Brown2026-03-05💻 cs

Vision-Zero: Scalable VLM Self-Improvement via Strategic Gamified Self-Play

El artículo presenta Vision-Zero, un marco de auto-juego multiagente libre de etiquetas que entrena modelos de visión y lenguaje mediante juegos estratégicos generados a partir de imágenes arbitrarias y una optimización iterativa de políticas, logrando mejoras sostenibles y un rendimiento superior en diversas tareas de razonamiento visual sin depender de verificación humana.

Qinsi Wang, Bo Liu, Tianyi Zhou + 6 more2026-03-05🤖 cs.AI

Training-Free Reward-Guided Image Editing via Trajectory Optimal Control

Este trabajo presenta un marco innovador para la edición de imágenes sin entrenamiento que formula el proceso como un problema de control óptimo de trayectorias, logrando un equilibrio superior entre la maximización de recompensas y la fidelidad a la imagen original sin recurrir a trucos de recompensa.

Jinho Chang, Jaemin Kim, Jong Chul Ye2026-03-05🤖 cs.AI

Factuality Matters: When Image Generation and Editing Meet Structured Visuals

Este trabajo presenta una investigación integral sobre la generación y edición de visuales estructurados, que incluye la creación de un gran dataset con razonamiento, el entrenamiento de un modelo unificado basado en FLUX.1 y VLM, y el lanzamiento de StructBench y StructScore para evaluar la precisión factual, demostrando que la inferencia con razonamiento mejora significativamente el rendimiento frente a los sistemas existentes.

Le Zhuo, Songhao Han, Yuandong Pu + 8 more2026-03-05💻 cs

TIGeR: Tool-Integrated Geometric Reasoning in Vision-Language Models for Robotics

El artículo presenta TIGeR, un marco innovador que transforma los Modelos Visuales-Lingüísticos en "computadoras geométricas" mediante la integración de herramientas de cálculo externo y un nuevo dataset, logrando así una precisión a nivel de centímetro esencial para la manipulación robótica en el mundo real.

Yi Han, Enshen Zhou, Shanyu Rong + 6 more2026-03-05🤖 cs.AI

Topological Alignment of Shared Vision-Language Embedding Space

El artículo presenta ToMCLIP, un marco que mejora la alineación multilingüe en modelos visión-idioma mediante restricciones topológicas basadas en homología persistente, logrando una mayor coherencia estructural y un mejor rendimiento en tareas de recuperación y clasificación.

Junwon You, Dasol Kang, Jae-Hun Jung2026-03-05🤖 cs.AI

Composition-Grounded Data Synthesis for Visual Reasoning

El artículo presenta COGS, un marco eficiente en datos que mejora las capacidades de razonamiento de los modelos de lenguaje multimodal en dominios como gráficos y documentos renderizados, mediante la síntesis de grandes conjuntos de datos de preguntas y respuestas a partir de semillas limitadas y el entrenamiento con recompensas de proceso a nivel de factores.

Xinyi Gu, Jiayuan Mao, Zhang-Wei Hong + 5 more2026-03-05🤖 cs.LG

A Geometry-Based View of Mahalanobis OOD Detection

Este estudio demuestra que el rendimiento de la detección de distribuciones fuera de entrenamiento (OOD) basada en Mahalanobis depende críticamente de la geometría de las representaciones de características, identificando la estructura espectral y la dimensionalidad intrínseca local como predictores clave, y proponiendo una normalización radial escalada que optimiza la detección al modificar los radios de las características preservando sus direcciones.

Denis Janiak, Jakub Binkowski, Tomasz Kajdanowicz2026-03-05🤖 cs.LG

Kaleido: Open-Sourced Multi-Subject Reference Video Generation Model

Kaleido es un modelo de generación de video basado en múltiples imágenes de referencia que supera las limitaciones actuales en consistencia y fidelidad mediante un pipeline de construcción de datos optimizado y una nueva técnica de codificación posicional rotatoria (R-RoPE) para la integración de referencias.

Zhenxing Zhang, Jiayan Teng, Zhuoyi Yang + 6 more2026-03-05🤖 cs.AI

Weakly Supervised Concept Learning with Class-Level Priors for Interpretable Medical Diagnosis

Este artículo presenta el Predictor de Conceptos Guiado por Priors (PCP), un marco de aprendizaje débilmente supervisado que elimina la necesidad de anotaciones de conceptos explícitas al aprovechar priors a nivel de clase y mecanismos de refinamiento para lograr diagnósticos médicos interpretables con un rendimiento superior a los modelos basados en lenguaje cero-shot y comparable a los modelos totalmente supervisados.

Md Nahiduzzaman, Steven Korevaar, Alireza Bab-Hadiashar + 1 more2026-03-05💻 cs

Improving Multi-View Reconstruction via Texture-Guided Gaussian-Mesh Joint Optimization

Este artículo presenta un marco unificado que optimiza simultáneamente la geometría de mallas y los colores de los vértices mediante una renderización diferenciable guiada por Gaussianas, mejorando la reconstrucción 3D multi-vista para facilitar tareas de edición posteriores como el re-iluminado y la deformación.

Zhejia Cai, Puhua Jiang, Shiwei Mao + 2 more2026-03-05🤖 cs.AI

Re-coding for Uncertainties: Edge-awareness Semantic Concordance for Resilient Event-RGB Segmentation

Este artículo presenta un marco de concurrencia semántica consciente de bordes que utiliza un recodificado latente y diccionarios de bordes para fusionar de manera resiliente datos heterogéneos de eventos y RGB, logrando así una segmentación semántica superior en condiciones extremas.

Nan Bao, Yifan Zhao, Lin Zhu + 1 more2026-03-05💻 cs

← Anterior Siguiente →