cs.CV artículos | Gist.Science

MSJoE: Jointly Evolving MLLM and Sampler for Efficient Long-Form Video Understanding

El artículo presenta MSJoE, un marco novedoso que optimiza conjuntamente un modelo de lenguaje multimodal y un muestreador de fotogramas clave mediante aprendizaje por refuerzo para lograr una comprensión eficiente de videos largos, logrando mejoras significativas en precisión sobre los métodos existentes.

Wenhui Tan, Xiaoyi Yu, Jiaze Li + 5 more2026-02-27💻 cs

pMoE: Prompting Diverse Experts Together Wins More in Visual Adaptation

El artículo presenta pMoE, un método de ajuste fino eficiente en parámetros que combina tokens de prompt especializados y un despachador dinámico para integrar conocimientos de múltiples expertos en diversos dominios, logrando un rendimiento superior y un equilibrio óptimo entre eficiencia computacional y efectividad en 47 tareas de adaptación visual.

Shentong Mo, Xufang Luo, Dongsheng Li2026-02-27🤖 cs.AI

Velocity and stroke rate reconstruction of canoe sprint team boats based on panned and zoomed video recordings

Este artículo presenta un marco automatizado que reconstruye con alta precisión la velocidad y la frecuencia de remada de canoas de sprint a partir de grabaciones de video con panorámica y zoom, utilizando detección de objetos, calibración de homografía y seguimiento óptico para ofrecer a los entrenadores una alternativa viable a los sistemas GPS.

Julian Ziegler, Daniel Matthes, Finn Gerdts + 5 more2026-02-27💻 cs

Cross-Task Benchmarking of CNN Architectures

Este proyecto compara cinco variantes de redes neuronales convolucionales basadas en ResNet-18, demostrando que los mecanismos de atención y los métodos de convolución dinámica, especialmente ODConv, superan a las CNN convencionales en precisión, eficiencia y generalización a través de tareas de clasificación, segmentación y series temporales.

Kamal Sherawat, Vikrant Bhati2026-02-27💻 cs

MM-NeuroOnco: A Multimodal Benchmark and Instruction Dataset for MRI-Based Brain Tumor Diagnosis

Este trabajo presenta MM-NeuroOnco, un conjunto de datos de instrucciones multimodales a gran escala y una evaluación de referencia para el diagnóstico de tumores cerebrales mediante resonancia magnética, que demuestra mediante el modelo NeuroOnco-GPT cómo el ajuste fino con estos datos mejora significativamente el razonamiento diagnóstico clínico.

Feng Guo, Jiaxiang Liu, Yang Li + 2 more2026-02-27🤖 cs.AI

Can Agents Distinguish Visually Hard-to-Separate Diseases in a Zero-Shot Setting? A Pilot Study

Este estudio piloto evalúa el rendimiento de agentes multimodales en un entorno de cero disparos para distinguir enfermedades visualmente similares, demostrando que un marco de adjudicación contrastiva mejora la precisión y reduce afirmaciones infundadas, aunque el desempeño aún no es suficiente para su implementación clínica.

Zihao Zhao, Frederik Hauke, Juliana De Castilhos + 2 more2026-02-27💻 cs

UCM: Unifying Camera Control and Memory with Time-aware Positional Encoding Warping for World Models

UCM es un marco novedoso que unifica el control de cámara y la memoria a largo plazo mediante un mecanismo de deformación de codificación posicional consciente del tiempo, superando a los métodos actuales en consistencia escénica y control preciso para la generación de video de alta fidelidad.

Tianxing Xu, Zixuan Wang, Guangyuan Wang + 5 more2026-02-27💻 cs

An automatic counting algorithm for the quantification and uncertainty analysis of the number of microglial cells trainable in small and heterogeneous datasets

Este trabajo presenta un algoritmo automático no paramétrico basado en un contador de kernels que cuantifica el número de células microgliales en imágenes de alta resolución de ratas, permitiendo su entrenamiento en conjuntos de datos pequeños y heterogéneos mientras ofrece estimaciones de incertidumbre y maneja múltiples opiniones de expertos.

L. Martino, M. M. Garcia, P. S. Paradas + 1 more2026-02-27⚡ eess

SubspaceAD: Training-Free Few-Shot Anomaly Detection via Subspace Modeling

SubspaceAD es un método libre de entrenamiento para la detección de anomalías en pocos ejemplos que, mediante la proyección de características de un modelo DINOv2 congelado en un subespacio normal estimado con PCA, logra un rendimiento de vanguardia en la detección de anomalías industriales sin necesidad de bancos de memoria, ajuste de prompts o conjuntos de datos auxiliares.

Camile Lendering, Erkut Akdag, Egor Bondarev2026-02-27🤖 cs.LG

Small Object Detection Model with Spatial Laplacian Pyramid Attention and Multi-Scale Features Enhancement in Aerial Images

Este artículo propone un modelo de detección de objetos pequeños en imágenes aéreas que integra una Atención de Pirámide Laplaciana Espacial y una Mejora de Características Multiescala con convoluciones deformables para superar los desafíos de tamaño reducido y distribución densa, logrando un rendimiento superior en los conjuntos de datos VisDrone y DOTA.

Zhangjian Ji, Huijia Yan, Shaotong Qiao + 2 more2026-02-27💻 cs

D-FINE-seg: Object Detection and Instance Segmentation Framework with multi-backend deployment

El artículo presenta D-FINE-seg, una extensión de detección de instancias para D-FINE que incorpora un cabezal de máscara ligero y supervisión mejorada, superando a YOLO26 en precisión en el conjunto de datos TACO bajo un protocolo TensorRT FP16 unificado y ofreciendo un pipeline de código abierto para la implementación multiplataforma en ONNX, TensorRT y OpenVINO.

Argo Saakyan, Dmitry Solntsev2026-02-27💻 cs

GeoWorld: Geometric World Models

GeoWorld es un modelo de mundo geométrico que mejora la planificación visual a largo plazo mapeando representaciones latentes a variedades hiperbólicas mediante un JEPA hiperbólico y aprendizaje por refuerzo geométrico, logrando mejoras significativas en tareas complejas frente a los métodos actuales.

Zeyu Zhang, Danning Li, Ian Reid + 1 more2026-02-27💻 cs

Align then Adapt: Rethinking Parameter-Efficient Transfer Learning in 4D Perception

El artículo presenta PointATA, un nuevo paradigma de transferencia de aprendizaje eficiente en parámetros que supera las limitaciones de adaptación de modelos 3D preentrenados a tareas de percepción 4D mediante un enfoque de dos etapas ("Alinear luego Adaptar") que cierra la brecha modal y mitiga el sobreajuste, logrando un rendimiento superior o comparable al ajuste completo con una fracción de los parámetros.

Yiding Sun, Jihua Zhu, Haozhe Cheng + 4 more2026-02-27💻 cs

Cytoarchitecture in Words: Weakly Supervised Vision-Language Modeling for Human Brain Microscopy

Este artículo presenta un método de aprendizaje débilmente supervisado que vincula modelos de visión y lenguaje mediante etiquetas para generar descripciones en lenguaje natural de la citoarquitectura del cerebro humano a partir de imágenes de microscopía, superando así la escasez de datos emparejados imagen-texto en este dominio.

Matthew Sutton, Katrin Amunts, Timo Dickscheid + 1 more2026-02-27💻 cs

Locally Adaptive Decay Surfaces for High-Speed Face and Landmark Detection with Event Cameras

Este artículo presenta las Superficies de Decaimiento Adaptativo Local (LADS), una nueva representación para cámaras de eventos que modula dinámicamente el decaimiento temporal según la actividad local, logrando un rendimiento superior en la detección de rostros y puntos de referencia faciales a altas frecuencias en comparación con los métodos existentes.

Paul Kielty, Timothy Hanley, Peter Corcoran2026-02-27💻 cs

SpectralMamba-UNet: Frequency-Disentangled State Space Modeling for Texture-Structure Consistent Medical Image Segmentation

El artículo presenta SpectralMamba-UNet, un marco innovador que descompone las características en el dominio de la frecuencia para modelar de manera eficiente tanto las estructuras anatómicas globales como los detalles de los bordes, mejorando así la segmentación de imágenes médicas mediante la integración de modelos de espacio de estado con transformadas espectrales.

Fuhao Zhang, Lei Liu, Jialin Zhang + 2 more2026-02-27💻 cs

FLIGHT: Fibonacci Lattice-based Inference for Geometric Heading in real-Time

El artículo propone FLIGHT, un método en tiempo real que utiliza una generalización de la transformada de Hough sobre la esfera unitaria con una red de Fibonacci para estimar con precisión y eficiencia la dirección de la cámara en video monoculares ruidosos, mejorando así la inicialización de la pose en sistemas SLAM.

David Dirnfeld, Fabien Delattre, Pedro Miraldo + 1 more2026-02-27💻 cs

Devling into Adversarial Transferability on Image Classification: Review, Benchmark, and Evaluation

Este trabajo aborda la falta de un marco estandarizado para evaluar los ataques adversariales transferibles en la clasificación de imágenes mediante una revisión exhaustiva, la propuesta de una nueva plataforma de referencia y la identificación de estrategias clave y sesgos comunes en la comparación de métodos.

Xiaosen Wang, Zhijin Ge, Bohan Liu + 5 more2026-02-27🤖 cs.AI

TriLite: Efficient Weakly Supervised Object Localization with Universal Visual Features and Tri-Region Disentanglement

TriLite es un marco de localización de objetos débilmente supervisado de una sola etapa que utiliza características visuales universales de un ViT congelado y un módulo TriHead para desentrañar regiones, logrando un nuevo estado del arte con una eficiencia de parámetros y un costo de entrenamiento significativamente menores.

Arian Sabaghi, José Oramas2026-02-27💻 cs

From Calibration to Refinement: Seeking Certainty via Probabilistic Evidence Propagation for Noisy-Label Person Re-Identification

El artículo presenta CARE, un marco de dos etapas que aborda la identificación de personas con etiquetas ruidosas mediante la calibración de evidencia probabilística para eliminar la sobreconfianza del softmax y un refinamiento basado en márgenes angulares compuestos que preserva las muestras positivas difíciles mientras descarta las etiquetas incorrectas.

Xin Yuan, Zhiyong Zhang, Xin Xu + 2 more2026-02-27💻 cs

← Anterior Siguiente →