cs.CV artículos | Gist.Science

Physics-Driven 3D Gaussian Rendering for Zero-Shot MRI Super-Resolution

Este artículo propone un marco de superresolución de MRI de cero disparos basado en representaciones gaussianas explícitas y física de señales, que equilibra la eficiencia computacional y la fidelidad de los datos sin requerir conjuntos de entrenamiento emparejados.

Shuting Liu, Lei Zhang, Wei Huang, Zhao Zhang, Zizhou WangWed, 11 Ma💻 cs

Decoder-Free Distillation for Quantized Image Restoration

El artículo presenta QDR, un marco de distilación libre de decodificador que combina auto-distilación, reponderación de magnitud aprendible y un modelo ligero para superar los cuellos de botella de la cuantización en la restauración de imágenes, logrando un rendimiento cercano al de precisión completa y alta velocidad en dispositivos de borde.

S. M. A. Sharif, Abdur Rehman, Seongwan Kim, Jaeho LeeWed, 11 Ma💻 cs

Grounding Synthetic Data Generation With Vision and Language Models

Este trabajo presenta un marco interpretable basado en modelos de visión y lenguaje para la generación y evaluación de datos sintéticos en teledetección, introduciendo el dataset ARAS400k que demuestra que la combinación de datos reales y sintéticos mejora consistentemente el rendimiento en tareas de segmentación semántica y descripción de imágenes.

Ümit Mert Ça\u{g}lar, Alptekin TemizelWed, 11 Ma🤖 cs.AI

X-GS: An Extensible Open Framework Unifying 3DGS Architectures with Downstream Multimodal Models

El artículo presenta X-GS, un marco abierto y extensible que unifica técnicas de 3DGS con modelos multimodales mediante un pipeline eficiente llamado X-GS-Perceiver para generar mapas 3D semánticos en tiempo real que habilitan tareas avanzadas como la detección de objetos y la generación de descripciones.

Yueen Ma, Irwin KingWed, 11 Ma💬 cs.CL

OTPL-VIO: Robust Visual-Inertial Odometry with Optimal Transport Line Association and Adaptive Uncertainty

El artículo presenta OTPL-VIO, un sistema de odometría visual-inercial estéreo que mejora la precisión y robustez en entornos con baja textura y cambios de iluminación mediante la asociación global de líneas basada en transporte óptimo con descriptores profundos sin entrenamiento y una ponderación adaptativa de la incertidumbre.

Zikun Chen, Wentao Zhao, Yihe Niu, Tianchen Deng, Jingchuan WangWed, 11 Ma💻 cs

When to Lock Attention: Training-Free KV Control in Video Diffusion

El artículo presenta KV-Lock, un marco de entrenamiento gratuito para modelos de difusión de video basados en DiT que sincroniza dinámicamente el bloqueo de claves y valores del fondo con la escala de guía condicional para mejorar la calidad del primer plano manteniendo la consistencia del fondo.

Tianyi Zeng, Jincheng Gao, Tianyi Wang, Zijie Meng, Miao Zhang, Jun Yin, Haoyuan Sun, Junfeng Jiao, Christian Claudel, Junbo Tan, Xueqian WangWed, 11 Ma🤖 cs.AI

DiffWind: Physics-Informed Differentiable Modeling of Wind-Driven Object Dynamics

El artículo presenta DiffWind, un marco de modelado diferenciable basado en física que utiliza la simulación de partículas y restricciones de dinámica de fluidos para reconstruir y simular con alta precisión la interacción entre el viento y objetos deformables a partir de observaciones de video.

Yuanhang Lei, Boming Zhao, Zesong Yang, Xingxuan Li, Tao Cheng, Haocheng Peng, Ru Zhang, Yang Yang, Siyuan Huang, Yujun Shen, Ruizhen Hu, Hujun Bao, Zhaopeng CuiWed, 11 Ma💻 cs

VarSplat: Uncertainty-aware 3D Gaussian Splatting for Robust RGB-D SLAM

VarSplat es un sistema de SLAM RGB-D basado en 3D Gaussian Splatting que mejora la robustez y la precisión en la estimación de pose y reconstrucción al aprender explícitamente la varianza de incertidumbre por gaussiana para guiar el rastreo y la optimización hacia regiones fiables.

Anh Thuan Tran, Jana KoseckaWed, 11 Ma💻 cs

Improving 3D Foot Motion Reconstruction in Markerless Monocular Human Motion Capture

Este artículo presenta FootMR, un método de refinamiento que mejora la reconstrucción de movimientos finos de los pies en la captura de movimiento humano monocular sin marcadores al levantar secuencias de keypoints 2D a 3D utilizando datos de captura de movimiento a gran escala, y introduce el conjunto de datos MOOF para evaluar este rendimiento.

Tom Wehrbein, Bodo RosenhahnWed, 11 Ma💻 cs

AutoViVQA: A Large-Scale Automatically Constructed Dataset for Vietnamese Visual Question Answering

Este trabajo presenta AutoViVQA, un conjunto de datos a gran escala construido automáticamente para la Respuesta Visual a Preguntas en vietnamita, donde se exploran arquitecturas basadas en transformers y se comparan sistemáticamente métricas de evaluación automáticas en entornos multilingües.

Nguyen Anh Tuong, Phan Ba Duc, Nguyen Trung Quoc, Tran Dac Thinh, Dang Duy Lan, Nguyen Quoc Thinh, Tung LeWed, 11 Ma🤖 cs.AI

DRIFT: Dual-Representation Inter-Fusion Transformer for Automated Driving Perception with 4D Radar Point Clouds

El artículo presenta DRIFT, un modelo transformador de doble representación que fusiona características locales y globales mediante una arquitectura de dos vías para mejorar la percepción en la conducción automatizada utilizando nubes de puntos de radar 4D, superando a los métodos existentes en tareas de detección de objetos y estimación de carreteras.

Siqi Pei, Andras Palffy, Dariu M. GavrilaWed, 11 Ma💻 cs

TemporalDoRA: Temporal PEFT for Robust Surgical Video Question Answering

El artículo presenta TemporalDoRA, un método de ajuste fino eficiente en parámetros diseñado para mejorar la robustez y la precisión temporal en la respuesta a preguntas sobre videos quirúrgicos mediante la integración de atención temporal dentro de la adaptación de bajo rango, validado con el nuevo conjunto de datos REAL-Colon-VQA.

Luca Carlini, Chiara Lena, Cesare Hassan, Danail Stoyanov, Elena De Momi, Sophia Bano, Mobarak I. HoqueWed, 11 Ma💻 cs

TriFusion-SR: Joint Tri-Modal Medical Image Fusion and SR

El artículo presenta TriFusion-SR, un marco de difusión condicional guiado por wavelets que realiza de forma conjunta la fusión de imágenes médicas tri-modales y la superresolución, superando a los métodos existentes mediante la descomposición de frecuencias y la calibración de coeficientes para lograr mejoras significativas en la calidad perceptual y métricas de precisión.

Fayaz Ali Dharejo, Sharif S. M. A., Aiman Khalil, Nachiket Chaudhary, Rizwan Ali Naqvi, Radu TimofteWed, 11 Ma💻 cs

ProGS: Towards Progressive Coding for 3D Gaussian Splatting

El artículo presenta ProGS, un nuevo códec que organiza los datos de 3D Gaussian Splatting en una estructura de octree para habilitar una codificación progresiva, logrando una reducción de almacenamiento de 45 veces y una mejora del 10% en la fidelidad visual.

Zhiye Tang, Lingzhuo Liu, Shengjie Jiao, Qiudan Zhang, Junhui Hou, You Yang, Xu WangWed, 11 Ma💻 cs

GSStream: 3D Gaussian Splatting based Volumetric Scene Streaming System

El artículo presenta GSStream, un sistema innovador de transmisión de escenas volumétricas basado en 3D Gaussian Splatting que integra predicción de visuales colaborativa y adaptación de bitrate mediante aprendizaje por refuerzo profundo para optimizar la calidad visual y el uso de la red.

Zhiye Tang, Qiudan Zhang, Lei Zhang, Junhui Hou, You Yang, Xu WangWed, 11 Ma💻 cs

FrameDiT: Diffusion Transformer with Frame-Level Matrix Attention for Efficient Video Generation

El artículo presenta FrameDiT, un modelo de generación de video que introduce el mecanismo de atención matricial a nivel de cuadro para equilibrar la eficiencia y la coherencia temporal, logrando resultados de vanguardia al preservar la estructura espacio-temporal global sin comprometer el rendimiento computacional.

Minh Khoa Le, Kien Do, Duc Thanh Nguyen, Truyen TranWed, 11 Ma💻 cs

EXPLORE-Bench: Egocentric Scene Prediction with Long-Horizon Reasoning

El artículo presenta EXPLORE-Bench, un nuevo benchmark basado en videos en primera persona diseñado para evaluar la capacidad de los modelos de lenguaje multimodal para predecir escenas egocéntricas tras secuencias de acciones de largo alcance, revelando una brecha significativa frente al rendimiento humano y explorando estrategias de razonamiento paso a paso para mejorar esta tarea.

Chengjun Yu, Xuhan Zhu, Chaoqun Du, Pengfei Yu, Wei Zhai, Yang Cao, Zheng-Jun ZhaWed, 11 Ma🤖 cs.AI

FetalAgents: A Multi-Agent System for Fetal Ultrasound Image and Video Analysis

El artículo presenta FetalAgents, el primer sistema multiagente diseñado para analizar imágenes y videos de ecografías fetales mediante la coordinación dinámica de expertos visuales especializados, logrando un rendimiento superior en diagnóstico, medición y segmentación, además de generar informes clínicos estructurados a partir de flujos de video completos.

Xiaotian Hu, Junwei Huang, Mingxuan Liu, Kasidit Anmahapong, Yifei Chen, Yitong Luo, Yiming Huang, Xuguang Bai, Zihan Li, Yi Liao, Haibo Qu, Qiyuan TianWed, 11 Ma💻 cs

$M^2$ -Occ: Resilient 3D Semantic Occupancy Prediction for Autonomous Driving with Incomplete Camera Inputs

El artículo presenta $M^2$ -Occ, un marco innovador que mejora la predicción de ocupación semántica 3D para la conducción autónoma al manejar entradas de cámaras incompletas mediante la reconstrucción de vistas faltantes y el uso de una memoria de características, logrando así una mayor robustez y precisión incluso en escenarios con múltiples vistas perdidas.

Kaixin Lin, Kunyu Peng, Di Wen, Yufan Chen, Ruiping Liu, Kailun YangWed, 11 Ma⚡ eess

Let's Reward Step-by-Step: Step-Aware Contrastive Alignment for Vision-Language Navigation in Continuous Environments

Este artículo presenta SACA, un marco de alineación contrastiva sensible a los pasos que mejora la navegación visión-lenguaje en entornos continuos al extraer supervisión densa de trayectorias imperfectas para resolver los problemas de errores acumulativos y recompensas dispersas que limitan a los modelos actuales.

Haoyuan Li, Rui Liu, Hehe Fan, Yi YangWed, 11 Ma💻 cs

← Anterior Siguiente →

cs.CV