cs.CV artículos | Gist.Science

Evaluating and Correcting Human Annotation Bias in Dynamic Micro-Expression Recognition

Este artículo presenta la arquitectura GAMDSS, un método innovador que mejora el reconocimiento de microexpresiones mediante la reelección dinámica de fotogramas clave para corregir los sesgos de anotación humana, especialmente en escenarios multiculturales, sin aumentar la complejidad del modelo.

Feng Liu, Bingyu Nan, Xuezhong Qian + 1 more2026-03-06💻 cs

DSA-SRGS: Super-Resolution Gaussian Splatting for Dynamic Sparse-View DSA Reconstruction

Este artículo presenta DSA-SRGS, el primer marco de *gaussian splatting* de superresolución para la reconstrucción dinámica de angiografía por sustracción digital (DSA) con vistas escasas, que integra aprendizaje de texturas multirresolución y densificación radiativa de subpíxeles para recuperar detalles vasculares finos y superar las limitaciones de desenfoque y aliasing de los métodos actuales.

Shiyu Zhang, Zhicong Wu, Huangxuan Zhao + 7 more2026-03-06💻 cs

MADCrowner: Margin Aware Dental Crown Design with Template Deformation and Refinement

El artículo presenta MADCrowner, un marco de generación de mallas dental consciente del margen que combina deformación de plantillas y segmentación de bordes cervicales para superar las limitaciones de precisión y ruido de los métodos existentes en el diseño automatizado de coronas dentales.

Linda Wei, Chang Liu, Wenran Zhang + 9 more2026-03-06💻 cs

Privacy-Aware Camera 2.0 Technical Report

Este artículo propone un marco de percepción que preserva la privacidad mediante una arquitectura colaborativa borde-nube que transforma las imágenes en vectores de características abstractos e irreconstruibles en el borde para eliminar la identidad, permitiendo al mismo tiempo la recuperación de referencias visuales ilustrativas en la nube para el reconocimiento de comportamientos sin exponer datos visuales crudos.

Huan Song, Shuyu Tian, Ting Long + 5 more2026-03-06💻 cs

RMK RetinaNet: Rotated Multi-Kernel RetinaNet for Robust Oriented Object Detection in Remote Sensing Imagery

El artículo presenta RMK RetinaNet, un detector de objetos orientados para imágenes de teledetección que supera las limitaciones actuales mediante un bloque de kernels multiescala, un mecanismo de atención contextual direccional, una ruta de camino ascendente y un módulo de codificación de ángulos de Euler para lograr una detección más robusta y precisa.

Huiran Sun2026-03-06💻 cs

LAW & ORDER: Adaptive Spatial Weighting for Medical Diffusion and Segmentation

Este artículo presenta "LAW & ORDER", un enfoque que utiliza adaptadores de red para el ponderamiento espacial adaptativo, mejorando significativamente tanto la síntesis de imágenes médicas mediante difusión como la segmentación eficiente de lesiones, logrando avances sustanciales en métricas de calidad generativa y precisión de segmentación en conjuntos de datos de pólipos y tumores renales.

Anugunj Naman, Ayushman Singh, Gaibo Zhang + 1 more2026-03-06💻 cs

Comparative Evaluation of Traditional Methods and Deep Learning for Brain Glioma Imaging. Review Paper

Esta revisión compara los métodos tradicionales con el aprendizaje profundo para la segmentación y clasificación de gliomas cerebrales en imágenes de resonancia magnética, concluyendo que las arquitecturas de redes neuronales convolucionales superan a las técnicas tradicionales en estas tareas.

Kiranmayee Janardhan, Vinay Martin DSa Prabhu, T. Christy Bobby2026-03-06💻 cs

MASQuant: Modality-Aware Smoothing Quantization for Multimodal Large Language Models

El artículo presenta MASQuant, un nuevo marco de cuantización post-entrenamiento que aborda el desajuste de suavizado y la invariancia computacional entre modalidades mediante factores de suavizado específicos por modalidad y una compensación cruzada basada en SVD, logrando un rendimiento estable y competitivo en modelos de lenguaje grandes multimodales.

Lulu Hu, Wenhu Xiao, Xin Chen + 4 more2026-03-06💻 cs

Guiding Diffusion-based Reconstruction with Contrastive Signals for Balanced Visual Representation

Este trabajo presenta la Reconstrucción Contrastiva de Difusión (DCR), un método que integra señales contrastivas derivadas de imágenes reconstruidas dentro del proceso de difusión para equilibrar la capacidad discriminativa y la percepción de detalles en las representaciones visuales de CLIP, superando así las limitaciones de enfoques anteriores.

Boyu Han, Qianqian Xu, Shilong Bao + 4 more2026-03-06💻 cs

Meta-D: Metadata-Aware Architectures for Brain Tumor Analysis and Missing-Modality Segmentation

Este trabajo presenta Meta-D, una arquitectura que aprovecha los metadatos categóricos de los escáneres para guiar la extracción de características y mejorar tanto la detección de tumores cerebrales como la segmentación ante la ausencia de modalidades de imagen, logrando aumentos significativos en las métricas de rendimiento y una reducción de parámetros.

SangHyuk Kim, Daniel Haehn, Sumientra Rampersad2026-03-06💻 cs

Revisiting Shape from Polarization in the Era of Vision Foundation Models

Este trabajo demuestra que, al abordar las brechas de dominio mediante un conjunto de datos sintéticos de alta calidad basado en escaneos 3D reales y aumentos de datos conscientes del sensor, un modelo ligero entrenado con señales de polarización puede superar significativamente a los modelos fundacionales de visión basados únicamente en RGB en la estimación de normales de superficie, logrando un rendimiento superior con una fracción de los datos de entrenamiento y parámetros.

Chenhao Li, Taishi Ono, Takeshi Uemori + 1 more2026-03-06💻 cs

Mitigating Instance Entanglement in Instance-Dependent Partial Label Learning

Este trabajo propone el marco CAD, que mitiga el enredo de instancias en el aprendizaje de etiquetas parciales dependientes de la instancia mediante regulaciones intra e interclase que refuerzan las características específicas de cada clase y penalizan las etiquetas ambiguas para mejorar la claridad de los límites entre clases.

Rui Zhao, Bin Shi, Kai Sun + 1 more2026-03-06🤖 cs.LG

Towards Highly Transferable Vision-Language Attack via Semantic-Augmented Dynamic Contrastive Interaction

Este trabajo propone SADCA, un ataque adversarial que mejora la transferibilidad en modelos de visión-lingüística mediante interacciones dinámicas contrastivas y aumento semántico para superar las limitaciones de los métodos existentes.

Yuanbo Li, Tianyang Xu, Cong Hu + 3 more2026-03-06💻 cs

Multi-Paradigm Collaborative Adversarial Attack Against Multi-Modal Large Language Models

Este trabajo propone MPCAttack, un nuevo marco de ataque adversarial colaborativo que mejora la transferibilidad de ejemplos adversarios contra modelos de lenguaje grandes multimodales mediante la optimización conjunta de representaciones semánticas visuales y textuales para equilibrar los sesgos de representación y superar las limitaciones de los métodos existentes.

Yuanbo Li, Tianyang Xu, Cong Hu + 3 more2026-03-06💻 cs

GloSplat: Joint Pose-Appearance Optimization for Faster and More Accurate 3D Reconstruction

GloSplat es un marco que mejora la reconstrucción 3D mediante la optimización conjunta de pose y apariencia en el entrenamiento de 3D Gaussian Splatting, preservando rastros de características SfM explícitos como anclajes geométricos para evitar la deriva de pose y lograr un rendimiento superior tanto en variantes sin COLMAP como en las basadas en él.

Tianyu Xiong, Rui Li, Linjie Li + 1 more2026-03-06💻 cs

On Multi-Step Theorem Prediction via Non-Parametric Structural Priors

Este trabajo aborda el desafío de la predicción de teoremas multi-paso mediante un enfoque libre de entrenamiento que utiliza Grafos de Precedencia de Teoremas para imponer restricciones topológicas explícitas, logrando una precisión del 89,29% en el benchmark FormalGeo7k y superando significativamente a los métodos de aprendizaje en contexto estándar.

Junbo Zhao, Ting Zhang, Can Li + 3 more2026-03-06🤖 cs.AI

Scalable Injury-Risk Screening in Baseball Pitching From Broadcast Video

Este trabajo presenta un pipeline de video monoculares basado en DreamPose3D que recupera métricas biomecánicas precisas de grabaciones de transmisión en vivo para realizar una detección escalable del riesgo de lesiones en lanzadores de béisbol, logrando un rendimiento comparable a los sistemas de captura de movimiento de estadio y demostrando su eficacia en la predicción de cirugías como la de Tommy John.

Jerrin Bright, Justin Mende, John Zelek2026-03-06💻 cs

SURE: Semi-dense Uncertainty-REfined Feature Matching

El artículo presenta SURE, un marco de coincidencia de características semidensas que mejora la fiabilidad en escenarios desafiantes al predecir simultáneamente correspondencias y su confianza mediante la modelización de incertidumbres aleatorias y epistémicas, superando así a los modelos existentes en precisión y eficiencia.

Sicheng Li, Zaiwang Gu, Jie Zhang + 3 more2026-03-06💻 cs

Diffusion-Based sRGB Real Noise Generation via Prompt-Driven Noise Representation Learning

Este artículo presenta un marco llamado Generación de Ruido Impulsada por Prompts (PNG) que utiliza representaciones de ruido de alto nivel basadas en prompts para sintetizar imágenes ruidosas realistas en el espacio sRGB sin depender de metadatos de cámara, mejorando así la generalización y aplicabilidad en la eliminación de ruido del mundo real.

Jaekyun Ko, Dongjin Kim, Soomin Lee + 2 more2026-03-06💻 cs

Interpretable Pre-Release Baseball Pitch Type Anticipation from Broadcast 3D Kinematics

Este estudio demuestra que es posible predecir con un 80,4% de precisión el tipo de lanzamiento de béisbol analizando únicamente la cinemática 3D del cuerpo del lanzador, revelando que la mecánica del torso y la muñeca son los factores más determinantes y estableciendo un límite empírico para la información que puede obtenerse antes de que la pelota sea lanzada.

Jerrin Bright, Michelle Lu, John Zelek2026-03-06🤖 cs.AI

← Anterior Siguiente →