cs.CV artículos | Gist.Science

ScribeTokens: Fixed-Vocabulary Tokenization of Digital Ink

El artículo presenta ScribeTokens, un método de tokenización de tinta digital basado en un vocabulario fijo de 10 símbolos que, combinado con una estrategia de preentrenamiento auto-supervisado, supera a las representaciones vectoriales en tareas de generación y reconocimiento de escritura manuscrita.

Douglass Wang2026-03-04💻 cs

Scale-invariant Gaussian derivative residual networks

Este artículo presenta las redes residuales de derivadas gaussianas (GaussDerResNets), una arquitectura que combina bloques de derivadas gaussianas covariantes con conexiones residuales para lograr una generalización robusta a escalas de imagen no vistas durante el entrenamiento, manteniendo alta precisión y reduciendo la complejidad computacional mediante convoluciones separables por profundidad.

Andrzej Perzanowski, Tony Lindeberg2026-03-04🤖 cs.LG

Nodes Are Early, Edges Are Late: Probing Diagram Representations in Large Vision-Language Models

Mediante el uso de un conjunto de datos sintético de grafos dirigidos, este estudio revela que, aunque la información de los nodos y la estructura global se codifica linealmente en el codificador visual de los modelos de lenguaje-vision grandes (LVLM), la información de las aristas solo emerge tardíamente en los tokens de texto, lo que explica las dificultades de estos modelos para comprender las relaciones direccionales.

Haruto Yoshida, Keito Kudo, Yoichi Aoki + 4 more2026-03-04💬 cs.CL

Multimodal-Prior-Guided Importance Sampling for Hierarchical Gaussian Splatting in Sparse-View Novel View Synthesis

Este trabajo presenta un método de muestreo de importancia guiado por prios multimodales para el Splatting Gaussiano 3D jerárquico, que fusiona residuos fotométricos y prios semánticos y geométricos para optimizar la síntesis de nuevas vistas en escenarios con pocas imágenes, logrando resultados de vanguardia al reducir el sobreajuste y mejorar la reconstrucción geométrica.

Kaiqiang Xiong, Zhanke Wang, Ronggang Wang2026-03-04💻 cs

SIGMark: Scalable In-Generation Watermark with Blind Extraction for Video Diffusion

SIGMark es un marco de marcaje de agua en generación para modelos de difusión de video que permite una extracción ciega y escalable mediante claves de codificación pseudoaleatoria y un módulo de ordenamiento de segmentos, logrando una alta robustez ante perturbaciones temporales y espaciales sin degradar la calidad del video.

Xinjie Zhu, Zijing Zhao, Hui Jin + 5 more2026-03-04💻 cs

SemanticDialect: Semantic-Aware Mixed-Format Quantization for Video Diffusion Transformers

El artículo presenta SemanticDialect, un método de cuantización mixta semánticamente consciente que optimiza la asignación de formatos por bloques y utiliza descomposición de activaciones para reducir el error de cuantización, logrando así una calidad de generación de video casi equivalente a FP16 en modelos DiT con costes computacionales y de memoria significativamente reducidos.

Wonsuk Jang, Thierry Tambe2026-03-04💻 cs

StegaFFD: Privacy-Preserving Face Forgery Detection via Fine-Grained Steganographic Domain Lifting

El artículo presenta StegaFFD, un marco de detección de falsificaciones faciales que protege la privacidad ocultando las imágenes dentro de portadoras naturales mediante esteganografía y empleando mecanismos de atención y alineación de dominio para mantener la precisión de detección sin despertar sospechas.

Guoqing Ma, Xun Lin, Hui Ma + 6 more2026-03-04🤖 cs.AI

LLandMark: A Multi-Agent Framework for Landmark-Aware Multimodal Interactive Video Retrieval

El artículo presenta LLandMark, un marco modular multiagente que mejora la recuperación de videos interactivos mediante la integración de agentes especializados para el razonamiento de hitos, la síntesis multimodal y el reconocimiento de texto en vietnamita, logrando así una búsqueda adaptable y culturalmente fundamentada.

Minh-Chi Phung, Thien-Bao Le, Cam-Tu Tran-Thi + 2 more2026-03-04💻 cs

Intrinsic Geometry-Appearance Consistency Optimization for Sparse-View Gaussian Splatting

El artículo presenta MVD-HuGaS, un método que logra la reconstrucción 3D de humanos de alta fidelidad a partir de una sola imagen mediante un modelo de difusión multi-vista, un módulo de alineación para la optimización conjunta de poses y Gaussians, y una mitigación de distorsiones faciales basada en profundidad, superando así los límites de generalización y calidad de las técnicas anteriores.

Kaiqiang Xiong, Rui Peng, Jiahao Wu + 5 more2026-03-04💻 cs

3D-DRES: Detailed 3D Referring Expression Segmentation

Este artículo introduce 3D-DRES, una nueva tarea de segmentación de expresiones de referencia 3D detallada respaldada por el dataset DetailRefer y el modelo base DetailBase, que mapean frases específicas a elementos 3D para mejorar la comprensión visión-lingüística fina y superar los enfoques tradicionales a nivel de oración.

Qi Chen, Changli Wu, Jiayi Ji + 2 more2026-03-04💻 cs

ProGIC: Progressive and Lightweight Generative Image Compression with Residual Vector Quantization

ProGIC es un códec de compresión de imágenes generativo progresivo y ligero basado en cuantización vectorial residual que, mediante una arquitectura eficiente, ofrece una transmisión flexible, ahorros significativos de bitrate y una velocidad de codificación y decodificación muy superior a los métodos anteriores.

Hao Cao, Chengbin Liang, Wenqi Guo + 2 more2026-03-04💻 cs

Harmonic Beltrami Signature Network: a Shape Prior Module in Deep Learning Framework

Este artículo presenta la Red de Firma Beltrami Armónica (HBSN), una arquitectura de aprendizaje profundo que calcula eficientemente representaciones de forma invariantes para integrar información geométrica como conocimiento previo y mejorar el rendimiento de modelos de segmentación.

Chenran Lin, Lok Ming Lui2026-03-04💻 cs

Articulation in Motion: Prior-free Part Mobility Analysis for Articulated Objects By Dynamic-Static Disentanglement

El artículo presenta "Articulation in Motion" (AiM), un marco novedoso que utiliza un video de interacción y una escaneo 3D inicial para inferir la descomposición de partes, la cinemática de articulación y la reconstrucción de réplicas digitales interactivas de objetos articulados sin necesidad de conocimiento previo sobre el número de partes, superando así las limitaciones de los métodos anteriores mediante la disociación dinámica-estática y un análisis de movilidad secuencial robusto.

Hao Ai, Wenjie Chang, Jianbo Jiao + 2 more2026-03-04💻 cs

HDINO: A Concise and Efficient Open-Vocabulary Detector

El artículo presenta HDINO, un detector de objetos de vocabulario abierto eficiente que elimina la dependencia de conjuntos de datos curados manualmente y la extracción de características intensiva en recursos mediante una estrategia de entrenamiento en dos etapas, logrando un rendimiento superior al estado del arte en COCO con menos datos de entrenamiento.

Hao Zhang, Yiqun Wang, Qinran Lin + 2 more2026-03-04💻 cs

GloPath: An Entity-Centric Foundation Model for Glomerular Lesion Assessment and Clinicopathological Insights

GloPath es un modelo fundacional centrado en entidades, entrenado con más de un millón de glomérulos, que supera a los métodos actuales en la evaluación de lesiones glomerulares y descubre asociaciones significativas entre parámetros morfológicos y clínicos, avanzando hacia una inteligencia artificial clínicamente traslacional en la patología renal.

Qiming He, Jing Li, Tian Guan + 26 more2026-03-04💻 cs

TC-Padé: Trajectory-Consistent Padé Approximation for Diffusion Acceleration

El artículo presenta TC-Padé, un marco de aproximación racional basado en Padé que acelera significativamente la generación de modelos de difusión en pocos pasos al modelar la evolución de características con mayor precisión que los métodos polinómicos, logrando una aceleración de hasta 2.88x en modelos como FLUX.1-dev sin comprometer la calidad.

Benlei Cui, Shaoxuan He, Bukun Huang + 8 more2026-03-04💻 cs

Leveraging Label Proportion Prior for Class-Imbalanced Semi-Supervised Learning

Este trabajo propone un marco ligero que integra una pérdida de proporción, derivada del aprendizaje a partir de proporciones de etiquetas, como término de regularización en el aprendizaje semi-supervisado para mitigar el sesgo de clases mayoritarias y mejorar el rendimiento en escenarios de desequilibrio de clases.

Kohki Akiba, Shinnosuke Matsuo, Shota Harada + 1 more2026-03-04🤖 cs.LG

Semi-Supervised Few-Shot Adaptation of Vision-Language Models

Este trabajo propone un método semi-supervisado eficiente que aprovecha datos no etiquetados para propagar pseudo-etiquetas informadas por texto, mejorando la adaptación de modelos visión-lingüísticos en escenarios de pocos ejemplos en el ámbito médico y reduciendo la necesidad de anotación experta en más del 50%.

Julio Silva-Rodríguez, Ender Konukoglu2026-03-04💻 cs

Improving Anomaly Detection with Foundation-Model Synthesis and Wavelet-Domain Attention

Este artículo propone un enfoque para la detección de anomalías industriales que combina un pipeline de síntesis basado en modelos fundamentales (FMAS) para generar muestras anómalas realistas y un módulo de atención en el dominio de las wavelets (WDAM) para mejorar la extracción de características, logrando así un rendimiento superior en conjuntos de datos como MVTec AD y VisA.

Wensheng Wu, Zheming Lu, Ziqian Lu + 5 more2026-03-04💻 cs

TagaVLM: Topology-Aware Global Action Reasoning for Vision-Language Navigation

TagaVLM es un marco de razonamiento de acción global que integra explícitamente estructuras topológicas en modelos de visión y lenguaje mediante mecanismos de atención residual y prompts de navegación, logrando un rendimiento de vanguardia en la navegación visión-lenguaje al demostrar que las mejoras dirigidas en modelos de código abierto pueden superar al escalado masivo.

Jiaxing Liu, Zexi Zhang, Xiaoyan Li + 3 more2026-03-04💻 cs

← Anterior Siguiente →