cs.CV artículos | Gist.Science

AdaGen: Learning Adaptive Policy for Image Synthesis

El artículo presenta AdaGen, un marco general y adaptable que utiliza aprendizaje por refuerzo con una recompensa adversarial para optimizar dinámicamente los parámetros de síntesis de imágenes en múltiples paradigmas generativos, logrando mejoras significativas en calidad y diversidad con menor costo computacional.

Zanlin Ni, Yulin Wang, Yeguo Hua, Renping Zhou, Jiayi Guo, Jun Song, Bo Zheng, Gao Huang2026-03-10💻 cs

TrajPred: Trajectory-Conditioned Joint Embedding Prediction for Surgical Instrument-Tissue Interaction Recognition in Vision-Language Models

El artículo presenta TrajPred, un marco que mejora el reconocimiento de interacciones entre instrumentos y tejidos en cirugía robótica mediante la codificación de trayectorias instrumentales y un módulo predictor de embebidos semánticos visuales, logrando así una mejor alineación visión-texto y un rendimiento superior en el benchmark CholecT50.

Jiajun Cheng, Xiaofan Yu, Subarna, Sainan Liu, Shan Lin2026-03-10💻 cs

OV-DEIM: Real-time DETR-Style Open-Vocabulary Object Detection with GridSynthetic Augmentation

El artículo presenta OV-DEIM, un detector de objetos de vocabulario abierto basado en la arquitectura DETR que logra un rendimiento en tiempo real y superior mediante la integración del marco DEIMv2, una estrategia de suplemento de consultas y una nueva técnica de aumento de datos llamada GridSynthetic.

Leilei Wang, Longfei Liu, Xi Shen, Xuanlong Yu, Ying Tiffany He, Fei Richard Yu, Yingyi Chen2026-03-10💻 cs

Two Frames Matter: A Temporal Attack for Text-to-Video Model Jailbreaking

Este artículo presenta TFM, un marco de ataque temporal que explota la vulnerabilidad de los modelos de texto-a-video al rellenar trayectorias intermedias a partir de prompts fragmentados de dos marcos, logrando así evadir los filtros de seguridad y aumentar la tasa de éxito de las inyecciones de jailbreak.

Moyang Chen, Zonghao Ying, Wenzhuo Xu, Quancheng Zou, Deyue Zhang, Dongdong Yang, Xiangzheng Zhang2026-03-10💻 cs

Fine-Grained 3D Facial Reconstruction for Micro-Expressions

Este artículo propone un método novedoso de reconstrucción 3D de microexpresiones faciales que integra características dinámicas globales y locales enriquecidas para superar los desafíos de la escasez de datos y la sutileza de estas expresiones, logrando una mayor precisión geométrica y detalle perceptual que los métodos actuales.

Che Sun, Xinjie Zhang, Rui Gao, Xu Chen, Yuwei Wu, Yunde Jia2026-03-10💻 cs

Looking Back and Forth: Cross-Image Attention Calibration and Attentive Preference Learning for Multi-Image Hallucination Mitigation

El artículo presenta CAPL, un marco estructurado que mitiga las alucinaciones en tareas de múltiples imágenes mediante la calibración de la atención cruzada entre imágenes y el aprendizaje de preferencias, logrando así una mejor alineación de entidades y una mayor dependencia de la evidencia visual genuina sin comprometer el rendimiento en tareas de imagen única.

Xiaochen Yang, Hao Fang, Jiawei Kong, Yaoxin Mao, Bin Chen, Shu-Tao Xia2026-03-10💻 cs

SODA: Sensitivity-Oriented Dynamic Acceleration for Diffusion Transformer

El artículo presenta SODA, un método de aceleración dinámica orientado a la sensibilidad que optimiza el caché y la poda en los Transformadores de Difusión mediante un modelado de error de sensibilidad detallado y programación dinámica, logrando así una mayor fidelidad de generación en comparación con los métodos existentes bajo ratios de aceleración controlados.

Tong Shao, Yusen Fu, Guoying Sun, Jingde Kong, Zhuotao Tian, Jingyong Su2026-03-10💻 cs

MedSteer: Counterfactual Endoscopic Synthesis via Training-Free Activation Steering

MedSteer es un marco de guiado de activaciones sin entrenamiento que genera pares sintéticos contrafactuales en imágenes endoscópicas preservando la estructura anatómica y superando a los métodos basados en inversión en la generación de datos causales para la detección de pólipos.

Trong-Thang Pham, Loc Nguyen, Anh Nguyen, Hien Nguyen, Ngan Le2026-03-10💻 cs

VirtueBench: Evaluating Trustworthiness under Uncertainty in Long Video Understanding

El artículo presenta VirtueBench, un nuevo benchmark diseñado para evaluar la fiabilidad de los modelos de visión y lenguaje en la comprensión de videos largos al distinguir entre casos respondibles e irrespondibles, revelando que la mayoría de los modelos actuales prefieren adivinar en lugar de rechazar honestamente responder bajo incertidumbre.

Xueqing Yu, Bohan Li, Yan Li, Zhenheng Yang2026-03-10💻 cs

Physics-Guided VLM Priors for All-Cloud Removal

El artículo presenta PhyVLM-CR, un enfoque unificado para la eliminación de nubes en imágenes ópticas que integra los conocimientos semánticos de un modelo de visión-lingüístico con principios físicos para restaurar tanto nubes delgadas como espesas de manera coherente, preservando la fidelidad radiométrica y evitando la acumulación de errores.

Liying Xu, Huifang Li, Huanfeng Shen2026-03-10💻 cs

Retinex Meets Language: A Physics-Semantics-Guided Underwater Image Enhancement Network

El artículo presenta PSG-UIENet, una red de mejora de imágenes submarinas que combina la corrección de iluminación basada en Retinex con guías semánticas derivadas de texto mediante CLIP, junto con la creación del primer conjunto de datos multimodal LUIQD-TD y una función de pérdida de similitud semántica para lograr resultados superiores a los métodos existentes.

Shixuan Xu, Yabo Liu, Junyu Dong, Xinghui Dong2026-03-10💻 cs

Aligning What EEG Can See: Structural Representations for Brain-Vision Matching

Este trabajo presenta un nuevo enfoque para la decodificación visual a partir de señales EEG que introduce el concepto de "Visibilidad Neural" y un marco de fusión jerárquica complementaria para alinear las señales cerebrales con capas intermedias de modelos visuales, logrando un rendimiento sin precedentes del 84,6% en decodificación zero-shot.

Jingyi Tang, Shuai Jiang, Fei Su, Zhicheng Zhao2026-03-10💻 cs

mAVE: A Watermark for Joint Audio-Visual Generation Models

El artículo presenta mAVE, un marco de marca de agua diseñado nativamente para modelos de generación audio-visual conjunta que resuelve la vulnerabilidad de los ataques de intercambio mediante el enlace criptográfico de los latentes de audio y video, garantizando así la integridad de la autoría sin pérdida de rendimiento.

Luyang Si, Leyi Pan, Lijie Wen2026-03-10💻 cs

Facial Expression Generation Aligned with Human Preference for Natural Dyadic Interaction

Este artículo propone un método de generación de expresiones faciales para interacciones diádicas naturales que alinea las respuestas del oyente con las preferencias humanas mediante un bucle de retroalimentación cerrado, un modelo de visión-lenguaje-acción y una estrategia de aprendizaje por refuerzo guiada por retroalimentación humana.

Xu Chen, Rui Gao, Xinjie Zhang, Haoyu Zhang, Che Sun, Zhi Gao, Yuwei Wu, Yunde Jia2026-03-10💻 cs

NuNext: Reframing Nucleus Detection as Next-Point Detection

El artículo presenta NuNext, un enfoque que reformula la detección de núcleos en histopatología como una tarea de predicción del siguiente punto utilizando un modelo de lenguaje multimodal entrenado mediante aprendizaje supervisado con supervisión suave y estrategia de pensamiento visual, seguido de ajuste fino por refuerzo con recompensas de coincidencia de distribución, para lograr un rendimiento superior en múltiples benchmarks.

Zhongyi Shui, Honglin Li, Xiaozhong Ji, Ye Zhang, Zijiang Yang, Chenglu Zhu, Yuxuan Sun, Kai Yao, Conghui He, Cheng Tan2026-03-10💻 cs

Efficient Chest X-ray Representation Learning via Semantic-Partitioned Contrastive Learning

Este artículo presenta S-PCL, un marco de aprendizaje auto-supervisido eficiente para radiografías de tórax que, mediante la partición semántica de parches sin necesidad de aumentos agresivos ni decodificadores auxiliares, logra un rendimiento competitivo con menor costo computacional en comparación con los métodos existentes.

Wangyu Feng, Shawn Young, Lijian Xu2026-03-10💻 cs

TIQA: Human-Aligned Text Quality Assessment in Generated Images

El artículo presenta TIQA, un nuevo marco y conjunto de datos para la evaluación de la calidad del texto en imágenes generadas, junto con el método ligero ANTIQA, que supera a las métricas existentes al alinearse mejor con el juicio humano y mejorar la selección de imágenes en flujos de trabajo de generación.

Kirill Koltsov, Aleksandr Gushchin, Dmitriy Vatolin, Anastasia Antsiferova2026-03-10💻 cs

Inter-Image Pixel Shuffling for Multi-focus Image Fusion

Este artículo presenta Inter-image Pixel Shuffling (IPS), un método novedoso que entrena redes neuronales para la fusión de imágenes multifoco sin necesidad de datos reales, reformulando la tarea como un problema de clasificación de píxeles mediante el intercambio aleatorio de píxeles enfocados y desenfocados de una misma imagen, y logrando resultados superiores al integrar redes convolucionales con modelos de espacio de estados.

Huangxing Lin, Rongrong Ma, Cheng Wang2026-03-10💻 cs

Deep Expert Injection for Anchoring Retinal VLMs with Domain-Specific Knowledge

El artículo presenta EyExIn, un marco eficiente en datos que mejora el razonamiento médico en modelos de visión y lenguaje para oftalmología mediante la inyección profunda de conocimiento experto, el cual aborda las brechas de percepción y razonamiento para reducir las alucinaciones y lograr un rendimiento superior en la interpretación de imágenes retinianas.

Shuai Lu, Meng Wang, Jia Guo, Jiawei Du, Bo Liu, Shengzhu Yang, Weihang Zhang, Huazhu Fu, Huiqi Li2026-03-10💻 cs

The Model Knows Which Tokens Matter: Automatic Token Selection via Noise Gating

El artículo presenta AutoSelect, un método que optimiza la inferencia de modelos visuales-lingüísticos mediante la selección automática de tokens visuales más relevantes utilizando una puerta de ruido y un desruidor, logrando una aceleración significativa sin sacrificar la precisión ni requerir objetivos de entrenamiento adicionales.

Landi He, Xiaoyu Yang, Lijian Xu2026-03-10💻 cs

← Anterior Siguiente →