cs.CV artículos | Gist.Science

Intelligent Spatial Estimation for Fire Hazards in Engineering Sites: An Enhanced YOLOv8-Powered Proximity Analysis Framework

Este estudio propone un marco de trabajo mejorado basado en YOLOv8 que combina la detección de fuego y humo con el análisis de proximidad a objetos circundantes para generar una evaluación cuantitativa de riesgos y alertas prioritarias en sitios de ingeniería.

Ammar K. AlMhdawi, Nonso Nnamoko, Alaa Mashan Ubaid2026-03-11💻 cs

GST-VLA: Structured Gaussian Spatial Tokens for 3D Depth-Aware Vision-Language-Action Models

El artículo presenta GST-VLA, un modelo de visión-lenguaje-acción que mejora la percepción geométrica y el razonamiento espacial mediante un tokenizador de Gaussiana 3D y un proceso de pensamiento encadenado consciente de la profundidad, logrando un rendimiento superior en tareas de manipulación robótica.

Md Selim Sarowar, Omer Tariq, Sungho Kim2026-03-11🤖 cs.AI

OmniEdit: A Training-free framework for Lip Synchronization and Audio-Visual Editing

OmniEdit es un marco de trabajo sin entrenamiento que aborda la sincronización labial y la edición audio-visual mediante la reformulación del proceso de edición para eliminar el ajuste supervisado, reduciendo así la sobrecarga computacional y los requisitos de datos.

Lixiang Lin, Siyuan Jin, Jinshan Zhang2026-03-11💻 cs

Chain of Event-Centric Causal Thought for Physically Plausible Video Generation

Este artículo presenta un marco para la generación de videos físicamente plausibles que aborda la progresión causal mediante dos módulos clave: el razonamiento de cadenas de eventos impulsado por la física y la instrucción cruzada multimodal consciente de las transiciones, logrando así una superioridad en benchmarks como PhyGenBench y VideoPhy.

Zixuan Wang, Yixin Hu, Haolan Wang, Feng Chen, Yan Liu, Wen Li, Yinjie Lei2026-03-11💻 cs

Reading, Not Thinking: Understanding and Bridging the Modality Gap When Text Becomes Pixels in Multimodal LLMs

Este estudio diagnostica sistemáticamente la brecha de rendimiento entre el texto y las imágenes en modelos multimodales, identificando que las imágenes de texto amplifican errores de lectura y cálculo, y propone un método de auto-distilación que utiliza trazas de razonamiento en texto puro para cerrar esta brecha y mejorar significativamente la precisión en tareas visuales.

Kaiser Sun, Xiaochuang Yuan, Hongjun Liu, Chen Zhao, Cheng Zhang, Mark Dredze, Fan Bai2026-03-11💬 cs.CL

MedKCO: Medical Vision-Language Pretraining via Knowledge-Driven Cognitive Orchestration

El artículo presenta MedKCO, un método de preentrenamiento visión-idioma médico que supera las limitaciones cognitivas actuales mediante una orquestación basada en el conocimiento que organiza los datos en un currículo de dos niveles y utiliza una pérdida de contraste asimétrica auto-pasiva para mejorar las representaciones de características y el rendimiento en tareas posteriores.

Chenran Zhang, Ruiqi Wu, Tao Zhou, Yi Zhou2026-03-11💻 cs

Training-free Motion Factorization for Compositional Video Generation

Este trabajo propone un marco de factorización de movimiento sin entrenamiento que descompone la generación de video composicional en tres categorías (inmovilidad, movimiento rígido y no rígido) mediante un enfoque de planificación previa a la generación, permitiendo la síntesis de múltiples instancias con apariencia y movimiento diversos de manera agnóstica al modelo.

Zixuan Wang, Ziqin Zhou, Feng Chen, Duo Peng, Yixin Hu, Changsheng Li, Yinjie Lei2026-03-11💻 cs

Composed Vision-Language Retrieval for Skin Cancer Case Search via Joint Alignment of Global and Local Representations

Este artículo presenta un marco basado en transformadores para la recuperación de casos de cáncer de piel mediante consultas compuestas de imagen y texto, que logra mejoras sobre el estado del arte al alinear jerárquicamente representaciones globales y locales mediante un mecanismo de atención espacial y un ponderamiento convexo informado clínicamente.

Yuheng Wang, Yuji Lin, Dongrun Zhu, Jiayue Cai, Sunil Kalia, Harvey Lui, Chunqi Chang, Z. Jane Wang, Tim K. Lee2026-03-11🤖 cs.AI

VIVID-Med: LLM-Supervised Structured Pretraining for Deployable Medical ViTs

El artículo presenta VIVID-Med, un marco innovador que utiliza un modelo de lenguaje grande (LLM) congelado como maestro semántico estructurado para preentrenar transformadores de visión (ViT) médicos, logrando un rendimiento superior en diversas tareas de análisis de imágenes médicas con una fracción de los datos necesarios y eliminando la necesidad de depender del LLM en la fase de despliegue.

Xiyao Wang, Xiaoyu Tan, Yang Dai, Yuxuan Fu, Shuo Li, Xihe Qiu2026-03-11🤖 cs.AI

Progressive Representation Learning for Multimodal Sentiment Analysis with Incomplete Modalities

El artículo presenta PRLF, un marco de aprendizaje progresivo de representaciones para el análisis de sentimientos multimodal que utiliza un estimador de fiabilidad adaptativa y un módulo de interacción progresiva para manejar eficazmente las modalidades incompletas y mejorar la consistencia entre ellas.

Jindi Bao, Jianjun Qian, Mengkai Yan, Jian Yang2026-03-11💻 cs

QUSR: Quality-Aware and Uncertainty-Guided Image Super-Resolution Diffusion Model

El modelo QUSR aborda la super-resolución de imágenes en escenarios reales mediante la integración de un prior de calidad basado en modelos de lenguaje multimodal y una generación de ruido guiada por la incertidumbre que adapta la perturbación para preservar detalles y minimizar artefactos.

Junjie Yin, Jiaju Li, Hanfa Xing2026-03-11🤖 cs.AI

Transformer-Based Multi-Region Segmentation and Radiomic Analysis of HR-pQCT Imaging

Este estudio presenta un marco automatizado basado en SegFormer que segmenta múltiples regiones de imágenes HR-pQCT y extrae características radiómicas, demostrando que el análisis de tejidos blandos supera a los métodos basados únicamente en hueso para la clasificación de osteoporosis.

Mohseu Rashid Subah, Mohammed Abdul Gani Zilani, Thomas L. Nickolas, Matthew R. Allen, Stuart J. Warden, Rachel K. Surowiec2026-03-11💻 cs

Rotation Equivariant Mamba for Vision Tasks

El artículo presenta EQ-VMamba, la primera arquitectura Mamba visual equivariante a la rotación que integra un prior geométrico fundamental mediante una estrategia de escaneo cruzado y bloques de grupo, logrando una mayor robustez, rendimiento y eficiencia de parámetros en diversas tareas de visión por computadora.

Zhongchen Zhao, Qi Xie, Keyu Huang, Lei Zhang, Deyu Meng, Zongben Xu2026-03-11💻 cs

Agentic AI as a Network Control-Plane Intelligence Layer for Federated Learning over 6G

El artículo propone un sistema de Inteligencia Artificial Agente que actúa como capa de control en redes 6G para gestionar el aprendizaje federado, traduciendo objetivos de alto nivel en acciones adaptativas que optimizan la selección de clientes, la asignación de recursos y la programación en tiempo real considerando las condiciones dinámicas de la red y las capacidades de los dispositivos.

Loc X. Nguyen, Ji Su Yoon, Huy Q. Le, Yu Qiao, Avi Deb Raha, Eui-Nam Huh, Nguyen H. Tran, Choong Seon Hong2026-03-11💻 cs

RTFDNet: Fusion-Decoupling for Robust RGB-T Segmentation

El artículo presenta RTFDNet, una arquitectura de red neuronal que unifica la fusión y el desacoplamiento de modalidades mediante regularización cruzada para lograr una segmentación semántica RGB-T robusta y adaptable, incluso cuando faltan señales de sensores.

Kunyu Tan, Mingjian Liang2026-03-11💻 cs

RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning

RubiCap es un marco de aprendizaje por refuerzo que utiliza rúbricas generadas por LLMs para proporcionar señales de recompensa granulares y específicas, logrando así una generación de descripciones de imágenes densas superior a los métodos supervisados y otros enfoques de RL, incluso con modelos de tamaño reducido.

Tzu-Heng Huang, Sirajul Salekin, Javier Movellan, Frederic Sala, Manjot Bilkhu2026-03-11🤖 cs.AI

POLISH'ing the Sky: Wide-Field and High-Dynamic Range Interferometric Image Reconstruction with Application to Strong Lens Discovery

Este trabajo presenta mejoras en el marco POLISH para la reconstrucción de imágenes interferométricas de radio mediante aprendizaje profundo, utilizando estrategias de parches y transformaciones de intensidad para lograr imágenes de gran campo y alto rango dinámico que permiten descubrir significativamente más lentes gravitacionales fuertes en futuras encuestas astronómicas.

Zihui Wu, Liam Connor, Samuel McCarty, Katherine L. Bouman2026-03-11🔭 astro-ph

Progressive Split Mamba: Effective State Space Modelling for Image Restoration

El artículo presenta PS-Mamba, un marco jerárquico de espacio de estados que mejora la restauración de imágenes mediante una partición geométrica que preserva la topología local y conexiones simétricas que mitigan la decadencia de información a larga distancia, superando así las limitaciones de los modelos Mamba y Transformers existentes.

Mohammed Hassanin, Nour Moustafa, Weijian Deng, Ibrahim Radwan2026-03-11💻 cs

Point Cloud as a Foreign Language for Multi-modal Large Language Model

El artículo presenta SAGE, el primer modelo de lenguaje grande multimodal (MLLM) de extremo a extremo que procesa nubes de puntos sin codificadores preentrenados, tratando los datos 3D como un "idioma extranjero" mediante un tokenizador ligero y una estrategia de optimización de preferencias para superar las limitaciones de alineación semántica y eficiencia computacional de los métodos existentes.

Sneha Paul, Zachary Patterson, Nizar Bouguila2026-03-11💻 cs

MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data

El artículo presenta MM-Zero, el primer marco basado en aprendizaje por refuerzo que permite la autoevolución de modelos de visión y lenguaje desde cero sin datos, mediante un sistema de tres roles especializados (propuestor, codificador y solucionador) que generan conceptos visuales abstractos, crean imágenes ejecutables y realizan razonamiento multimodal.

Zongxia Li, Hongyang Du, Chengsong Huang, Xiyang Wu, Lantao Yu, Yicheng He, Jing Xie, Xiaomin Wu, Zhichao Liu, Jiarui Zhang, Fuxiao Liu2026-03-11🤖 cs.LG

← Anterior Siguiente →