cs.CV artículos | Gist.Science

Circuit Tracing in Vision-Language Models: Understanding the Internal Mechanisms of Multimodal Thinking

Este artículo presenta el primer marco de trazado de circuitos para modelos visión-idioma que, mediante el uso de transcodificadores y gráficos de atribución, revela y valida causalmente cómo estos modelos integran jerárquicamente conceptos visuales y semánticos para realizar razonamiento multimodal.

Jingcheng Yang, Tianhu Xiong, Shengyi Qian + 2 more2026-02-25🤖 cs.AI

Large-scale Photorealistic Outdoor 3D Scene Reconstruction from UAV Imagery Using Gaussian Splatting Techniques

Este estudio presenta una arquitectura integral que transforma flujos de video de drones en reconstrucciones 3D fotorrealistas de gran escala en tiempo real mediante la fusión de estimación de poses y la técnica de 3D Gaussian Splatting, logrando un rendimiento de renderizado superior y una latencia significativamente menor en comparación con los enfoques basados en NeRF.

Christos Maikos, Georgios Angelidis, Georgios Th. Papadopoulos2026-02-25💻 cs

BiRQA: Bidirectional Robust Quality Assessment for Images

El artículo presenta BiRQA, un modelo compacto y robusto de evaluación de calidad de imágenes de referencia completa que combina una arquitectura bidireccional multiscale con un entrenamiento adversarial anclado para superar a los métodos actuales en precisión, velocidad y resistencia a ataques.

Aleksandr Gushchin, Dmitriy S. Vatolin, Anastasia Antsiferova2026-02-25💻 cs

3DSPA: A 3D Semantic Point Autoencoder for Evaluating Video Realism

El artículo presenta 3DSPA, un marco de evaluación automatizado basado en un autoencoder de puntos espaciotemporales 3D que integra trayectorias, profundidad y características semánticas para medir la realismo, coherencia temporal y plausibilidad física de videos generados por IA sin necesidad de un video de referencia.

Bhavik Chandna, Kelsey R. Allen2026-02-25💻 cs

Momentum Guidance: Plug-and-Play Guidance for Flow Models

El artículo presenta Momentum Guidance, un método plug-and-play que mejora la calidad de las muestras en modelos generativos basados en flujo mediante la extrapolación de la velocidad de la trayectoria ODE, logrando ganancias significativas en fidelidad sin incrementar el costo computacional de la inferencia.

Runlong Liao, Jian Yu, Baiyu Su + 3 more2026-02-25🤖 cs.LG

Aesthetic Camera Viewpoint Suggestion with 3D Aesthetic Field

Este trabajo introduce un campo estético 3D que, mediante una red de Splatting Gaussiano 3D y un proceso de búsqueda en dos etapas, permite sugerir puntos de vista estéticamente superiores a partir de capturas esparsas, superando las limitaciones de los métodos existentes que dependen de entornos 3D densos o búsquedas costosas por aprendizaje por refuerzo.

Sheyang Tang, Armin Shafiee Sarvestani, Jialu Xu + 2 more2026-02-25💻 cs

SimLBR: Learning to Detect Fake Images by Learning to Detect Real Images

El artículo presenta SimLBR, un marco eficiente que mejora la generalización en la detección de imágenes falsas al aprender un límite de decisión ajustado alrededor de la distribución de imágenes reales mediante la regularización de mezcla latente, superando significativamente a los métodos existentes en benchmarks desafiantes.

Aayush Dhakal, Subash Khanal, Srikumar Sastry + 4 more2026-02-25💻 cs

gQIR: Generative Quanta Image Reconstruction

El artículo presenta gQIR, un enfoque que adapta modelos de difusión latente de texto a imagen para reconstruir imágenes de alta calidad a partir de ráfagas de fotones escasos y ruidosos capturados por sensores SPAD, superando significativamente a los métodos existentes en términos de fidelidad fotométrica y calidad perceptual.

Aryan Garg, Sizhuo Ma, Mohit Gupta2026-02-25💻 cs

MedCLIPSeg: Probabilistic Vision-Language Adaptation for Data-Efficient and Generalizable Medical Image Segmentation

MedCLIPSeg es un marco innovador que adapta modelos de visión-idioma como CLIP mediante atención cruzada probabilística y una pérdida de contraste suave para lograr una segmentación de imágenes médicas precisa, eficiente en datos y generalizable, proporcionando además mapas de incertidumbre interpretables.

Taha Koleilat, Hojat Asgariandehkordi, Omid Nejati Manzari + 3 more2026-02-25💬 cs.CL

SceMoS: Scene-Aware 3D Human Motion Synthesis by Planning with Geometry-Grounded Tokens

El artículo presenta SceMoS, un marco de síntesis de movimiento humano 3D consciente de la escena que logra un estado del arte en realismo y precisión de contacto mediante la descomposición de la planificación global y la ejecución local utilizando representaciones 2D eficientes (imágenes de vista cenital y mapas de altitud) en lugar de costosos datos 3D volumétricos.

Anindita Ghosh, Vladislav Golyanik, Taku Komura + 3 more2026-02-25💻 cs

Path-Decoupled Hyperbolic Flow Matching for Few-Shot Adaptation

El artículo presenta la HFM (Flow Matching Hiperbólico Desacoplado por Trayectorias), un nuevo enfoque que supera las limitaciones de la geometría euclidiana en la adaptación de pocos ejemplos mediante un alineamiento centrípeto y un objetivo de desacoplamiento de trayectorias en variedades hiperbólicas, logrando así un nuevo estado del arte en 11 benchmarks.

Lin Li, Ziqi Jiang, Gefan Ye + 5 more2026-02-25💻 cs

Pip-Stereo: Progressive Iterations Pruner for Iterative Optimization based Stereo Matching

El artículo presenta Pip-Stereo, un método de coincidencia estéreo que logra un rendimiento en tiempo real y alta precisión en hardware de borde mediante una poda progresiva de iteraciones, una transferencia de priores monoculares colaborativa y un operador FlashGRU optimizado, superando a los métodos existentes en velocidad y eficiencia sin sacrificar la exactitud.

Jintu Zheng, Qizhe Liu, HuangXin Xu + 1 more2026-02-25💻 cs

Strategy-Supervised Autonomous Laparoscopic Camera Control via Event-Driven Graph Mining

Este trabajo presenta un marco autónomo para el control de cámaras laparoscópicas que combina la minería de grafos de eventos para extraer estrategias quirúrgicas reutilizables con un modelo de visión-linguaje y control de bucle cerrado, logrando una estabilidad de imagen y precisión superiores a las de cirujanos noveles en experimentos ex vivo.

Keyu Zhou, Peisen Xu, Yahao Wu + 3 more2026-02-25💻 cs

How Do Inpainting Artifacts Propagate to Language?

Este estudio demuestra que los artefactos visuales introducidos por la inpainting basada en difusión afectan sistemáticamente la generación de lenguaje en modelos visión-idioma, estableciendo una relación directa entre la fidelidad de la reconstrucción visual y la calidad semántica y léxica de los textos generados.

Pratham Yashwante, Davit Abrahamyan, Shresth Grover + 1 more2026-02-25🤖 cs.AI

A Lightweight Vision-Language Fusion Framework for Predicting App Ratings from User Interfaces and Metadata

Este estudio propone un marco de fusión ligero que combina MobileNetV3 y DistilBERT para predecir las calificaciones de aplicaciones móviles integrando eficazmente características visuales de la interfaz de usuario y datos semánticos, logrando un alto rendimiento predictivo validado mediante métricas rigurosas.

Azrin Sultana, Firoz Ahmed2026-02-25💻 cs

Progressive Per-Branch Depth Optimization for DEFOM-Stereo and SAM3 Joint Analysis in UAV Forestry Applications

Este artículo presenta una tubería de optimización de profundidad progresiva que integra DEFOM-Stereo, SAM3 y técnicas de filtrado avanzado para generar nubes de puntos 3D robustas y precisas de ramas individuales en bosques, facilitando así la poda autónoma de árboles mediante drones.

Yida Lin, Bing Xue, Mengjie Zhang + 2 more2026-02-25⚡ eess

Beyond Human Performance: A Vision-Language Multi-Agent Approach for Quality Control in Pharmaceutical Manufacturing

Este artículo presenta un sistema de control de calidad automatizado para la industria farmacéutica que combina modelos de aprendizaje profundo y agentes de visión-lingüística para detectar colonias bacterianas con una precisión superior al 99%, reduciendo la verificación humana en un 85% y ofreciendo una solución escalable y regulada que supera las limitaciones de los métodos tradicionales.

Subhra Jyoti Mandal, Lara Rachidi, Puneet Jain + 2 more2026-02-25💻 cs

Robust Spiking Neural Networks Against Adversarial Attacks

Este estudio propone un método de optimización de protección umbral (TGO) que mejora significativamente la robustez de las redes neuronales de pulsos (SNN) entrenadas directamente contra ataques adversarios al alejar los potenciales de membrana de los umbrales y convertir el mecanismo de disparo neuronal en probabilístico.

Shuai Wang, Malu Zhang, Yulin Jiang + 7 more2026-02-25💻 cs

Sample-efficient evidence estimation of score based priors for model selection

Este trabajo presenta un método eficiente en términos de muestras para estimar la evidencia del modelo en priores basados en difusión, permitiendo la selección precisa de modelos y el diagnóstico de errores en problemas inversos de imagen altamente mal condicionados mediante el aprovechamiento de muestras intermedias del proceso de muestreo posterior.

Frederic Wang, Katherine L. Bouman2026-02-25📊 stat

The Finite Primitive Basis Theorem for Computational Imaging: Formal Foundations of the OperatorGraph Representation

Este artículo establece el Teorema de la Base Finita, demostrando que cualquier modelo de imagen computacional puede representarse de manera constructiva y minimalista como un grafo acíclico dirigido compuesto por exactamente 11 primitivas canónicas, sentando así las bases matemáticas para el marco del Modelo de Mundo Físico.

Chengshuai Yang2026-02-25💻 cs

← Anterior Siguiente →