cs.CV artículos | Gist.Science

NeuCLIP: Efficient Large-Scale CLIP Training with Neural Normalizer Optimization

El artículo presenta NeuCLIP, un marco de optimización novedoso que reformula la pérdida de contraste mediante análisis convexo y variacional para entrenar una red neuronal auxiliar que estima eficientemente la función de normalización, permitiendo un entrenamiento de modelos CLIP a gran escala con mayor precisión y sin depender de lotes masivos.

Xiyuan Wei, Chih-Jen Lin, Tianbao Yang2026-03-05🤖 cs.LG

Scriboora: Rethinking Human Pose Forecasting

Este artículo presenta Scriboora, un marco unificado que identifica problemas de reproducibilidad en la predicción de poses humanas, demuestra que los modelos de lenguaje adaptados del procesamiento del habla superan el estado del arte y evalúa la robustez de estos modelos ante ruido realista mediante un nuevo conjunto de datos y ajuste fino no supervisado.

Daniel Bermuth, Alexander Poeppel, Wolfgang Reif2026-03-05💻 cs

MatPedia: A Universal Generative Foundation for High-Fidelity Material Synthesis

El artículo presenta MatPedia, un modelo generativo fundacional unificado que, mediante una representación conjunta RGB-PBR y arquitecturas de difusión de video, supera a los métodos existentes en la síntesis de alta fidelidad de materiales PBR para múltiples tareas como la generación y descomposición intrínseca.

Di Luo, Shuhui Yang, Mingxin Yang + 6 more2026-03-05💻 cs

VideoChat-M1: Collaborative Policy Planning for Video Understanding via Multi-Agent Reinforcement Learning

El artículo presenta VideoChat-M1, un sistema multiagente que utiliza planificación colaborativa de políticas y aprendizaje por refuerzo multiagente para optimizar dinámicamente la invocación de herramientas en la comprensión de video, logrando un rendimiento superior al estado del arte en múltiples benchmarks.

Boyu Chen, Zikang Wang, Zhengrong Yue + 9 more2026-03-05💻 cs

UniLight: A Unified Representation for Lighting

El artículo presenta UniLight, una representación unificada de iluminación en un espacio latente compartido que alinea mediante aprendizaje contrastivo múltiples modalidades (texto, imágenes, irradiancia y mapas de entorno) para permitir la transferencia cruzada y la manipulación flexible de la iluminación en tareas como la recuperación, la generación de mapas y la síntesis de imágenes.

Zitian Zhang, Iliyan Georgiev, Michael Fischer + 3 more2026-03-05💻 cs

Measurement-Consistent Langevin Corrector for Stabilizing Latent Diffusion Inverse Problem Solvers

Este trabajo presenta el Corrector de Langevin Consistente con la Medición (MCLC), un módulo teórico y plug-and-play que estabiliza los solucionadores de problemas inversos basados en modelos de difusión latente al corregir la discrepancia entre la dinámica del solver y la difusión inversa aprendida mediante actualizaciones de Langevin consistentes con las mediciones.

Lee Hyoseok, Sohwi Lim, Eunju Cha + 1 more2026-03-05🤖 cs.LG

3D Wavelet-Based Structural Priors for Controlled Diffusion in Whole-Body Low-Dose PET Denoising

Este artículo presenta WCC-Net, un marco de difusión 3D basado en wavelets que utiliza priores estructurales en el dominio de la frecuencia para mejorar el desruido de imágenes PET de cuerpo entero a baja dosis, logrando una mayor consistencia anatómica y rendimiento cuantitativo superior frente a métodos existentes.

Peiyuan Jing, Yue Yang, Chun-Wun Cheng + 8 more2026-03-05🤖 cs.AI

Tracing 3D Anatomy in 2D Strokes: A Multi-Stage Projection Driven Approach to Cervical Spine Fracture Identification

Este estudio presenta un pipeline automatizado de detección de fracturas de columna cervical que, mediante la fusión de segmentaciones 2D ortogonales para estimar volúmenes 3D y su posterior análisis con modelos CNN-Transformer, logra un rendimiento diagnóstico comparable al de radiólogos expertos mientras reduce la dimensionalidad de los procesos intermedios.

Fabi Nahian Madhurja, Rusab Sarmun, Muhammad E. H. Chowdhury + 3 more2026-03-05🤖 cs.AI

Improving Medical Visual Reinforcement Fine-Tuning via Perception and Reasoning Augmentation

Este trabajo presenta VRFT-Aug, un marco de ajuste fino por refuerzo visual diseñado para el dominio médico que, mediante estrategias de inyección de conocimiento previo, refinamiento de políticas y recompensas informadas, mejora significativamente tanto la percepción visual como el razonamiento estructurado en comparación con los métodos tradicionales.

Guangjing Yang, ZhangYuan Yu, Ziyuan Qin + 7 more2026-03-05🤖 cs.AI

First International StepUP Competition for Biometric Footstep Recognition: Methods, Results and Remaining Challenges

El artículo presenta los resultados del Primer Concurso Internacional StepUP para el reconocimiento biométrico de pisadas, donde 23 equipos utilizaron el nuevo conjunto de datos StepUP-P150 para desarrollar modelos de aprendizaje profundo, logrando un mejor error igualado del 10,77% y destacando que, a pesar de los avances, la generalización ante cambios en el calzado sigue siendo un desafío crítico.

Robyn Larracy, Eve MacDonald, Angkoon Phinyomark + 5 more2026-03-05🤖 cs.LG

VidEoMT: Your ViT is Secretly Also a Video Segmentation Model

El artículo presenta VidEoMT, un modelo de segmentación de video basado únicamente en un codificador ViT que elimina la necesidad de módulos de seguimiento especializados mediante un mecanismo de propagación de consultas, logrando una precisión competitiva con una velocidad de procesamiento entre 5 y 10 veces superior a los métodos existentes.

Narges Norouzi, Idil Esen Zulfikar, Niccolò Cavagnero + 4 more2026-03-05💻 cs

When Safety Collides: Resolving Multi-Category Harmful Conflicts in Text-to-Image Diffusion via Adaptive Safety Guidance

El artículo presenta CASG, un marco de guía de seguridad adaptable y sin entrenamiento que resuelve los conflictos entre múltiples categorías de contenido dañino en modelos de difusión texto-a-imagen mediante la identificación dinámica de la categoría de riesgo más relevante y la aplicación de una dirección de seguridad alineada, logrando así una reducción significativa en la tasa de generación de contenido perjudicial.

Yongli Xiang, Ziming Hong, Zhaoqing Wang + 3 more2026-03-05💻 cs

Skullptor: High Fidelity 3D Head Reconstruction in Seconds with Multi-View Normal Prediction

Skullptor es un método híbrido que combina la predicción de normales de superficie multi-vista mediante atención cruzada con la optimización de renderizado inverso para lograr una reconstrucción 3D de alta fidelidad de cabezas en segundos, superando las limitaciones de detalle de los modelos de una sola imagen y la necesidad de costosas cámaras densas de la fotogrametría tradicional.

Noé Artru, Rukhshanda Hussain, Emeline Got + 3 more2026-03-05💻 cs

Momentum Memory for Knowledge Distillation in Computational Pathology

El artículo presenta MoMKD, un marco de destilación de conocimiento impulsado por una memoria actualizada con momento que supera las limitaciones de los métodos actuales al integrar información genómica e histopatológica a través de lotes, logrando así un rendimiento superior y una mejor generalización en tareas de diagnóstico de cáncer mediante inferencia basada únicamente en histología.

Yongxin Guo, Hao Lu, Onur C. Koyun + 3 more2026-03-05💻 cs

Automatic Map Density Selection for Locally-Performant Visual Place Recognition

Este artículo propone un enfoque dinámico de mapeo para el reconocimiento visual de lugares que selecciona automáticamente la densidad del mapa necesaria para garantizar que un porcentaje específico del entorno cumpla con un nivel de recuperación local definido por el usuario, superando así las limitaciones de los métodos actuales que solo optimizan el rendimiento global.

Somayeh Hussaini, Tobias Fischer, Michael Milford2026-03-05💻 cs

Beyond Dominant Patches: Spatial Credit Redistribution For Grounded Vision-Language Models

El artículo propone SCR (Redistribución de Crédito Espacial), un método de inferencia sin entrenamiento que mitiga las alucinaciones en modelos de visión y lenguaje al corregir el colapso espacial de la atención mediante la redistribución de estados ocultos entre parches vecinos, logrando una reducción significativa de errores en múltiples benchmarks sin comprometer la calidad de generación ni la latencia.

Niamul Hassan Samin, Md Arifur Rahman, Abdullah Ibne Hanif Arean + 2 more2026-03-05🤖 cs.AI

EvalMVX: A Unified Benchmarking for Neural 3D Reconstruction under Diverse Multiview Setups

El artículo presenta EvalMVX, un nuevo conjunto de datos del mundo real que incluye 25 objetos con mallas 3D de referencia y múltiples condiciones de iluminación, diseñado para evaluar y comparar de manera unificada métodos de reconstrucción 3D basados en estereovisión multivista, fotometría multivista y forma a partir de polarización.

Zaiyan Yang, Jieji Ren, Xiangyi Wang + 5 more2026-03-05💻 cs

Improved MambdaBDA Framework for Robust Building Damage Assessment Across Disaster Domains

Este trabajo mejora el marco MambaBDA para la evaluación robusta de daños en edificios mediante la integración de pérdida focal, puertas de atención y un módulo de alineación, logrando ganancias significativas en el rendimiento tanto dentro como fuera del dominio en diversos desastres naturales.

Alp Eren Gençoğlu, Hazım Kemal Ekenel2026-03-05💻 cs

A Unified Revisit of Temperature in Classification-Based Knowledge Distillation

Este trabajo presenta un estudio unificado que examina sistemáticamente la relación entre el parámetro de temperatura y otros componentes del entrenamiento en la destilación de conocimiento, identificando situaciones clave para guiar a los practicantes en su selección óptima.

Logan Frank, Jim Davis2026-03-05🤖 cs.LG

ITO: Images and Texts as One via Synergizing Multiple Alignment and Training-Time Fusion

El marco ITO mejora el aprendizaje de representaciones visuales mediante la alineación múltiple multimodal y una fusión ligera durante el entrenamiento que elimina la brecha entre modalidades y estabiliza el proceso, todo ello sin comprometer la eficiencia en la inferencia.

HanZpeng Liu, Yaqian Li, Zidan Wang + 6 more2026-03-05🤖 cs.AI

← Anterior Siguiente →