cs.CV artículos | Gist.Science

Volley Revolver: A Novel Matrix-Encoding Method for Privacy-Preserving Neural Networks (Inference)

Este trabajo presenta un nuevo método de codificación matricial que permite realizar inferencias de redes neuronales convolucionales sobre datos cifrados mediante cifrado homomórfico, logrando clasificar imágenes de MNIST en la nube pública con un solo cifrado de entrada y un tiempo de procesamiento de aproximadamente 287 segundos.

John Chiang2026-03-05💻 cs

Schrödinger's Camera: First Steps Towards a Quantum-Based Privacy Preserving Camera

Este trabajo propone un sistema de cámara basado en estados cuánticos que preserva la privacidad y la utilidad de las imágenes mediante un algoritmo de aprendizaje por refuerzo que controla el anonimato antes de la medición, demostrando en simulación la viabilidad de equilibrar ambos factores en un entorno cuántico.

Hannah Kirkland, Sanjeev J. Koppal2026-03-05⚛️ quant-ph

GeoTop: Advancing Image Classification with Geometric-Topological Analysis

GeoTop es un marco matemático interpretable que combina el Análisis Topológico de Datos y las Curvaturas de Lipschitz-Killing para superar la ambigüedad de la equivalencia topológica en imágenes diagnósticas, logrando mejoras significativas en la precisión de clasificación y reduciendo errores en la detección de lesiones cutáneas.

Mariem Abaach, Ian Morilla2026-03-05🤖 cs.LG

Catch Me If You Can Describe Me: Open-Vocabulary Camouflaged Instance Segmentation with Diffusion

Este artículo propone un nuevo método basado en modelos de difusión para la segmentación de instancias camufladas de vocabulario abierto (OVCIS), que fusiona características visuales y textuales para superar los desafíos de la segmentación de objetos ocultos y permitir la detección de clases no vistas previamente, con aplicaciones en vigilancia y monitoreo de vida silvestre.

Tuan-Anh Vu, Duc Thanh Nguyen, Qing Guo + 4 more2026-03-05🤖 cs.AI

Learning to Generate Conditional Tri-plane for 3D-aware Expression Controllable Portrait Animation

El artículo presenta Export3D, un método de animación de retratos en una sola toma que genera un triplano 3D condicional mediante un marco de preentrenamiento contrastivo para controlar la expresión y la vista de la cámara sin intercambiar la apariencia de la identidad.

Taekyung Ki, Dongchan Min, Gyeongsu Chae2026-03-05🤖 cs.AI

FireANTs: Adaptive Riemannian Optimization for Multi-Scale Diffeomorphic Matching

El artículo presenta FireANTs, un algoritmo de optimización riemanniana adaptativa multi-escala sin entrenamiento que logra un registro de imágenes difeomórfico denso rápido, preciso y robusto en múltiples modalidades, superando significativamente en velocidad y eficiencia de memoria a los métodos tradicionales y de aprendizaje profundo.

Rohit Jena, Pratik Chaudhari, James C. Gee2026-03-05💻 cs

Merlin: A Computed Tomography Vision-Language Foundation Model and Dataset

El artículo presenta a Merlin, un modelo fundacional de visión-idioma tridimensional entrenado sin anotaciones manuales en un vasto conjunto de datos de tomografías computarizadas abdominales, que supera a los modelos existentes en una amplia gama de tareas diagnósticas, pronósticas y de generación de informes, demostrando una alta generalización en múltiples instituciones.

Louis Blankemeier, Ashwin Kumar, Joseph Paul Cohen + 37 more2026-03-05🤖 cs.AI

Natural Adversaries: Fuzzing Autonomous Vehicles with Realistic Roadside Object Placements

Este trabajo presenta TrashFuzz, un algoritmo de fuzzing de caja negra que genera escenarios realistas de adversarios al manipular la ubicación de objetos comunes en el borde de la carretera para engañar a los sistemas de percepción de vehículos autónomos y provocar violaciones de leyes de tránsito, demostrando su eficacia al inducir infracciones en 15 de 24 leyes probadas en el sistema Apollo.

Yang Sun, Haoyu Wang, Christopher M. Poskitt + 1 more2026-03-05💻 cs

FINE: Factorizing Knowledge for Initialization of Variable-sized Diffusion Models

El artículo presenta FINE, un método de pre-entrenamiento innovador que factoriza el conocimiento en componentes fundamentales llamados "learngenes", permitiendo la inicialización eficiente y directa de modelos de difusión de tamaños variables sin necesidad de un nuevo pre-entrenamiento completo.

Yucheng Xie, Fu Feng, Ruixiao Shi + 4 more2026-03-05💻 cs

Scaling Laws For Diffusion Transformers

Este estudio establece por primera vez leyes de escalado para los transformadores de difusión (DiT), demostrando que su pérdida de preentrenamiento sigue una relación de ley de potencia con la capacidad computacional, lo que permite predecir con precisión el tamaño óptimo del modelo, los requisitos de datos y la calidad de generación para presupuestos de cálculo masivos.

Zhengyang Liang, Hao He, Ceyuan Yang + 1 more2026-03-05💻 cs

TextMaster: A Unified Framework for Realistic Text Editing via Glyph-Style Dual-Control

El artículo presenta TextMaster, un marco unificado que logra una edición de texto realista y de alta calidad mediante el control dual de glifos y estilo, mejorando la precisión de los trazos, la fidelidad del renderizado y la capacidad de transferir estilos de manera controlada.

Zhenyu Yan, Jian Wang, Aoqiang Wang + 3 more2026-03-05💻 cs

FlowCLAS: Enhancing Normalizing Flow Via Contrastive Learning For Anomaly Segmentation

El artículo presenta FlowCLAS, un marco híbrido que mejora los flujos normalizadores para la segmentación de anomalías en robótica al combinar su objetivo de verosimilitud máxima con una pérdida de contraste, logrando así un rendimiento de vanguardia al cerrar la brecha con los métodos discriminatorios.

Chang Won Lee, Selina Leveugle, Svetlana Stolpner + 4 more2026-03-05🤖 cs.LG

Building a Mind Palace: Structuring Environment-Grounded Semantic Graphs for Effective Long Video Analysis with LLMs

El paper presenta VideoMindPalace, un marco que organiza momentos clave de videos largos en un grafo semántico estructurado inspirado en el "Palacio de la Memoria" para mejorar el razonamiento espaciotemporal de los modelos de lenguaje grandes, junto con un nuevo benchmark (VMB) para evaluar estas capacidades.

Zeyi Huang, Yuyang Ji, Xiaofang Wang + 11 more2026-03-05💻 cs

DCENWCNet: A Deep CNN Ensemble Network for White Blood Cell Classification with LIME-Based Explainability

El artículo presenta DCENWCNet, un nuevo modelo de red neuronal convolucional en conjunto que integra tres arquitecturas con configuraciones únicas para clasificar células blancas de la sangre con alta precisión y utiliza LIME para mejorar la interpretabilidad de sus predicciones.

Sibasish Dhibar2026-03-05🤖 cs.AI

Token Adaptation via Side Graph Convolution for Efficient Fine-tuning of 3D Point Cloud Transformers

Este artículo presenta STAG, un nuevo algoritmo de ajuste fino eficiente que utiliza convolución gráfica lateral para adaptar tokens en Transformers de nubes de puntos 3D, logrando una reducción significativa en costos computacionales y de memoria sin sacrificar la precisión, junto con la introducción del nuevo benchmark PCC13 para su evaluación.

Takahiko Furuya2026-03-05💻 cs

A dataset of high-resolution plantar pressures for gait analysis across varying footwear and walking speeds

Este artículo presenta el conjunto de datos UNB StepUP-P150, que ofrece registros de alta resolución de presiones plantares de 150 individuos bajo diversas condiciones de calzado y velocidad para impulsar la investigación en reconocimiento de la marcha, biomecánica y aprendizaje profundo.

Robyn Larracy, Angkoon Phinyomark, Ala Salehi + 5 more2026-03-05🤖 cs.LG

Generative Human Geometry Distribution

Este artículo presenta un nuevo marco generativo basado en distribuciones de geometría que, mediante la codificación de distribuciones en mapas de características 2D y el uso de modelos SMPL, logra una generación de avatares humanos realistas con detalles de ropa de alta fidelidad, superando a los métodos existentes con una mejora del 57% en la calidad geométrica.

Xiangjun Tang, Biao Zhang, Peter Wonka2026-03-05💻 cs

Implicit U-KAN2.0: Dynamic, Efficient and Interpretable Medical Image Segmentation

Este trabajo presenta Implicit U-KAN 2.0, una arquitectura de segmentación médica basada en ecuaciones diferenciales neuronales de segundo orden y capas MultiKAN que mejora la interpretabilidad, la eficiencia y el rendimiento teórico frente a los métodos actuales.

Chun-Wun Cheng, Yining Zhao, Yanqi Cheng + 3 more2026-03-05🤖 cs.LG

Beyond Accuracy: What Matters in Designing Well-Behaved Image Classification Models?

Este estudio presenta una evaluación a gran escala de 326 modelos de clasificación de imágenes que analiza nueve dimensiones de calidad más allá de la precisión, revelando que los modelos de visión-lingüística y el aprendizaje auto-supervisado mejoran significativamente estas propiedades y proponiendo la métrica QUBA para clasificar y recomendar modelos según necesidades específicas.

Robin Hesse, Doğukan Bağcı, Bernt Schiele + 2 more2026-03-05🤖 cs.LG

Beyond the Encoder: Joint Encoder-Decoder Contrastive Pre-Training Improves Dense Prediction

El paper presenta DeCon, un marco de aprendizaje auto-supervisado que mejora significativamente las tareas de predicción densa al pre-entrenar conjuntamente el codificador y el decodificador mediante una pérdida contrastiva ponderada, superando así a los métodos convencionales que solo pre-entrenan el codificador.

Sébastien Quetin, Tapotosh Ghosh, Farhad Maleki2026-03-05💻 cs

← Anterior Siguiente →