cs.CV artículos | Gist.Science

MERG3R: A Divide-and-Conquer Approach to Large-Scale Neural Visual Geometry

MERG3R es un marco de trabajo sin entrenamiento que utiliza un enfoque de dividir y conquistar para reordenar, reconstruir localmente y alinear globalmente colecciones de imágenes desordenadas, permitiendo que los modelos de geometría visual neuronal escalen más allá de los límites de memoria de la GPU para lograr reconstrucciones 3D de alta calidad.

Leo Kaixuan Cheng, Abdus Shaikh, Ruofan Liang + 3 more2026-03-04💻 cs

Beyond Caption-Based Queries for Video Moment Retrieval

Este trabajo identifica y aborda las limitaciones de generalización de los métodos actuales de recuperación de momentos en video al pasar de consultas basadas en subtítulos a consultas de búsqueda, proponiendo modificaciones arquitectónicas que mitigan el colapso de las consultas del decodificador y logran mejoras significativas en el rendimiento, especialmente en consultas de búsqueda que abarcan múltiples momentos.

David Pujol-Perich, Albert Clapés, Dima Damen + 2 more2026-03-04💻 cs

Retrieving Patient-Specific Radiomic Feature Sets for Transparent Knee MRI Assessment

Este artículo propone un marco de selección de conjuntos de características radiómicas específico para cada paciente que, mediante una estrategia de recuperación en dos etapas, supera las limitaciones de los enfoques tradicionales de "top-k" y los modelos de aprendizaje profundo de caja negra, logrando un rendimiento diagnóstico competitivo en tareas de resonancia magnética de rodilla mientras garantiza una alta transparencia y auditabilidad clínica.

Yaxi Chen, Simin Ni, Jingjing Zhang + 7 more2026-03-04💻 cs

Cultural Counterfactuals: Evaluating Cultural Biases in Large Vision-Language Models with Counterfactual Examples

Este trabajo presenta "Cultural Counterfactuals", un conjunto de datos sintético de alta calidad con 60.000 imágenes generadas mediante edición para evaluar y cuantificar los sesgos culturales (religión, nacionalidad y estatus socioeconómico) en Modelos Grandes de Visión y Lenguaje (LVLM) al colocar a las mismas personas en diversos contextos culturales.

Phillip Howard, Xin Su, Kathleen C. Fraser2026-03-04💻 cs

Aligning Fetal Anatomy with Kinematic Tree Log-Euclidean PolyRigid Transforms

Este trabajo presenta un modelo volumétrico diferenciable basado en SMPL y en una nueva transformación KTPolyRigid que, al resolver ambigüedades en movimientos articulares, permite una alineación anatómica fetal precisa con menos artefactos, facilitando así el registro de imágenes y la segmentación de órganos en resonancias magnéticas fetales.

Yingcheng Liu, Athena Taymourtash, Yang Liu + 5 more2026-03-04💻 cs

Authenticated Contradictions from Desynchronized Provenance and Watermarking

Este trabajo expone y demuestra empíricamente la "colisión de integridad", una vulnerabilidad en la que un activo digital puede pasar simultáneamente la verificación de un manifiesto C2PA que afirma autoría humana y un marcaje de agua que lo identifica como generado por IA, proponiendo a continuación un protocolo de auditoría cruzada que resuelve esta contradicción con un 100% de precisión sin comprometer la criptografía.

Alexander Nemecek, Hengzhi He, Guang Cheng + 1 more2026-03-04⚡ eess

Advancing Earth Observation Through Machine Learning: A TorchGeo Tutorial

Este artículo presenta una tutoría que demuestra cómo utilizar la biblioteca TorchGeo para implementar flujos de trabajo de aprendizaje automático en observación terrestre, ilustrando su aplicación práctica mediante un estudio de caso sobre la segmentación de aguas superficiales en imágenes Sentinel-2.

Caleb Robinson, Nils Lehmann, Adam J. Stewart + 4 more2026-03-04💻 cs

OpenMarcie: Dataset for Multimodal Action Recognition in Industrial Environments

OpenMarcie es el conjunto de datos multimodal más grande hasta la fecha para la reconocimiento de acciones humanas en entornos industriales, que integra más de 37 horas de datos de sensores portátiles y cámaras de 36 participantes en tareas de ensamblaje realistas para evaluar la clasificación de actividades, la generación de descripciones y la alineación cruzada de modalidades.

Hymalai Bello, Lala Ray, Joanna Sorysz + 2 more2026-03-04⚡ eess

From Fewer Samples to Fewer Bits: Reframing Dataset Distillation as Joint Optimization of Precision and Compactness

El artículo presenta QuADD, un marco unificado para la destilación de conjuntos de datos que optimiza conjuntamente la compacidad y la precisión mediante cuantización diferenciable, logrando un rendimiento superior en bits por muestra en comparación con los métodos existentes.

My H. Dinh, Aditya Sant, Akshay Malhotra + 2 more2026-03-04🤖 cs.AI

TruckDrive: Long-Range Autonomous Highway Driving Dataset

Este artículo presenta TruckDrive, un nuevo conjunto de datos multimodal diseñado específicamente para la conducción autónoma de camiones en autopistas a larga distancia, que revela mediante sus 475.000 muestras anotadas que los modelos actuales de vanguardia no logran generalizar más allá de los 150 metros, exponiendo una brecha crítica en la percepción y planificación a larga distancia.

Filippo Ghilotti, Edoardo Palladin, Samuel Brucker + 3 more2026-03-04💻 cs

MIRAGE: Knowledge Graph-Guided Cross-Cohort MRI Synthesis for Alzheimer's Disease Prediction

El marco MIRAGE mejora la predicción de la enfermedad de Alzheimer en cohortes sin resonancia magnética al utilizar un grafo de conocimiento biomédico y un decodificador 3D congelado para extraer representaciones latentes diagnósticas a partir de registros de salud electrónicos, evitando así la reconstrucción volumétrica costosa y superando las limitaciones de datos multimodales.

Guanchen Wu, Zhe Huang, Yuzhang Xie + 6 more2026-03-04🤖 cs.AI

ORCA: Orchestrated Reasoning with Collaborative Agents for Document Visual Question Answering

El artículo presenta ORCA, un marco innovador de agentes colaborativos que mejora la respuesta a preguntas visuales en documentos mediante la descomposición de consultas, el enrutamiento a agentes especializados y un mecanismo de debate para garantizar la fiabilidad de las respuestas.

Aymen Lassoued, Mohamed Ali Souibgui, Yousri Kessentini2026-03-04💻 cs

Deep Learning Based Wildfire Detection for Peatland Fires Using Transfer Learning

Este trabajo presenta un enfoque de aprendizaje profundo basado en transferencia de conocimiento que adapta modelos entrenados en incendios forestales generales para detectar eficazmente los incendios de turbera en Malasia, superando las limitaciones de los datos etiquetados y mejorando la precisión en condiciones desafiantes como el humo de baja intensidad y la combustión subsuperficial.

Emadeldeen Hamdan, Ahmad Faiz Tharima, Mohd Zahirasri Mohd Tohir + 4 more2026-03-04🤖 cs.AI

Large-Scale Dataset and Benchmark for Skin Tone Classification in the Wild

Este trabajo presenta un marco integral para la equidad en la clasificación de tonos de piel que incluye el gran conjunto de datos abierto STW, un benchmark que demuestra la superioridad del aprendizaje profundo sobre los métodos clásicos, y el modelo SkinToneNet, un ViT ajustado que logra un estado del arte en generalización para auditar la equidad en conjuntos de datos públicos.

Vitor Pereira Matias, Márcus Vinícius Lobo Costa, João Batista Neto + 1 more2026-03-04🤖 cs.LG

E2E-GNet: An End-to-End Skeleton-based Geometric Deep Neural Network for Human Motion Recognition

El artículo presenta E2E-GNet, una red neuronal profunda geométrica de extremo a extremo para el reconocimiento de movimientos humanos basada en esqueletos, que utiliza una capa de transformación geométrica y una optimización consciente de la distorsión para mejorar la precisión de clasificación en espacios no euclidianos con menor costo computacional.

Mubarak Olaoluwa, Hassen Drira2026-03-04💻 cs

ModalPatch: A Plug-and-Play Module for Robust Multi-Modal 3D Object Detection under Modality Drop

El artículo presenta ModalPatch, un módulo plug-and-play que mejora la robustez de la detección 3D de objetos multimodal en vehículos autónomos compensando las caídas temporales de sensores mediante el uso de datos históricos y una estrategia de fusión guiada por incertidumbre.

Shuangzhi Li, Lei Ma, Xingyu Li2026-03-04💻 cs

MUSE: A Run-Centric Platform for Multimodal Unified Safety Evaluation of Large Language Models

El artículo presenta MUSE, una plataforma de código abierto centrada en la ejecución que evalúa la seguridad multimodal de los modelos de lenguaje mediante la generación automática de ataques, un sistema de juicio dual y la técnica de cambio de modalidad entre turnos, revelando que las estrategias de múltiples turnos pueden eludir las defensas de los modelos incluso cuando estos tienen altas tasas de rechazo en interacciones de un solo turno.

Zhongxi Wang, Yueqian Lin, Jingyang Zhang + 2 more2026-03-04⚡ eess

Geometric structures and deviations on James' symmetric positive-definite matrix bicone domain

Este trabajo introduce dos nuevas estructuras geométricas, una de Finsler y otra dual de información-geométrica, derivadas de la reparametrización de James del dominio de matrices simétricas definidas positivas, las cuales garantizan que las geodésicas sean líneas rectas y generalizan distancias clásicas como la de Hilbert para aplicaciones en aprendizaje automático y otras disciplinas.

Jacek Karwowski, Frank Nielsen2026-03-04📊 stat

WTHaar-Net: a Hybrid Quantum-Classical Approach

El artículo presenta WTHaar-Net, una arquitectura híbrida cuántico-clásica que sustituye la Transformada de Hadamard por la Transformada de Ondícula Haar para lograr una reducción significativa de parámetros y un rendimiento superior en tareas de visión, validando su implementación en hardware cuántico real.

Vittorio Palladino, Tsai Idden, Ahmet Enis Cetin2026-03-04💻 cs

Biomechanically Accurate Gait Analysis: A 3d Human Reconstruction Framework for Markerless Estimation of Gait Parameters

Este artículo presenta un marco de reconstrucción humana 3D basado en video que, al extraer marcadores biomecánicos interpretables e integrarlos con OpenSim, permite una estimación precisa y sin marcadores de los parámetros de la marcha, superando a los métodos convencionales de estimación de pose y facilitando su aplicación clínica.

Akila Pemasiri, Ethan Goan, Glen Lichtwark + 3 more2026-03-04⚡ eess

← Anterior Siguiente →