cs.CV artículos | Gist.Science

FOCA: Frequency-Oriented Cross-Domain Forgery Detection, Localization and Explanation via Multi-Modal Large Language Model

El artículo presenta FOCA, un marco basado en modelos de lenguaje grandes multimodales que integra características de los dominios espacial y frecuencial para mejorar la detección, localización y explicación interpretable de manipulaciones de imágenes, respaldado por el nuevo conjunto de datos FSE-Set.

Zhou Liu, Tonghua Su, Hongshi Zhang + 4 more2026-02-24🤖 cs.AI

Characterization of Residual Morphological Substructure Using Supervised and Unsupervised Deep Learning

Este estudio evalúa el uso de redes neuronales convolucionales supervisadas y autoencoders variacionales no supervisados para caracterizar subestructuras residuales en imágenes de galaxias del sondeo CANDELS, concluyendo que el enfoque supervisado logra distinguir eficazmente entre subestructuras de diferente intensidad, mientras que el no supervisado carece de poder discriminatorio claro.

Kameswara Bharadwaj Mantha, Daniel H. McIntosh, Cody Ciaschi + 9 more2026-02-24🔭 astro-ph

PhysConvex: Physics-Informed 3D Dynamic Convex Radiance Fields for Reconstruction and Simulation

El artículo presenta PhysConvex, un campo de radiación dinámica 3D basado en física que utiliza primitivas convexas gobernadas por mecánica de medios continuos para unificar la reconstrucción visual de alta fidelidad y la simulación física de escenas deformables, superando las limitaciones de los métodos existentes en la captura de deformaciones complejas y consistencia física.

Dan Wang, Xinrui Cui, Serge Belongie + 1 more2026-02-24💻 cs

Beyond Stationarity: Rethinking Codebook Collapse in Vector Quantization

Este trabajo identifica la naturaleza no estacionaria de las actualizaciones del codificador como la causa fundamental del colapso del código en la cuantización vectorial y propone dos nuevos métodos, NSVQ y TransVQ, que logran una utilización casi completa del código y una calidad de reconstrucción superior en modelos generativos.

Hao Lu, Onur C. Koyun, Yongxin Guo + 3 more2026-02-24💻 cs

PrivacyBench: Privacy Isn't Free in Hybrid Privacy-Preserving Vision Systems

El artículo presenta PrivacyBench, un marco de referencia que demuestra cómo la combinación de técnicas de privacidad en sistemas de visión híbridos puede generar fallos críticos y costos elevados, ofreciendo una plataforma sistemática para evaluar y guiar el diseño de despliegues robustos antes de su implementación.

Nnaemeka Obiefuna, Samuel Oyeneye, Similoluwa Odunaiya + 2 more2026-02-24💻 cs

SCHEMA for Gemini 3 Pro Image: A Structured Methodology for Controlled AI Image Generation on Google's Native Multimodal Model

Este artículo presenta SCHEMA, una metodología de ingeniería de prompts estructurada y validada empíricamente para el modelo nativo multimodal Google Gemini 3 Pro Image, que mediante un sistema modular de tres niveles y componentes específicos logra un control direccional superior (hasta un 95%) y altas tasas de cumplimiento en la generación de imágenes profesionales.

Luca Cazzaniga2026-02-24💻 cs

PCA-VAE: Differentiable Subspace Quantization without Codebook Collapse

El artículo presenta PCA-VAE, un modelo generativo que reemplaza la cuantización vectorial tradicional con un cuello de botella de PCA diferenciable y sin código, logrando una mayor calidad de reconstrucción, una eficiencia de bits superior y latentes semánticamente interpretables sin sufrir colapso de código.

Hao Lu, Onur C. Koyun, Yongxin Guo + 3 more2026-02-24🤖 cs.LG

Marginalized Bundle Adjustment: Multi-View Camera Pose from Monocular Depth Estimates

Este trabajo propone la Ajuste de Haz Marginalizado (MBA), un método que integra estimaciones de profundidad monoculares densas en la estructura a partir del movimiento para mitigar sus errores y lograr resultados competitivos en tareas de localización y reconstrucción 3D a gran escala.

Shengjie Zhu, Ahmed Abdelkader, Mark J. Matthews + 2 more2026-02-24💻 cs

DeepInterestGR: Mining Deep Multi-Interest Using Multi-Modal LLMs for Generative Recommendation

DeepInterestGR es un marco de recomendación generativa que supera las limitaciones de los métodos actuales al extraer intereses profundos y multimodales mediante LLMs, etiquetarlos con recompensas y codificarlos en identificadores semánticos para optimizar un modelo de generación mediante aprendizaje por refuerzo, logrando así un rendimiento superior en benchmarks de recomendación.

Yangchen Zeng2026-02-24🤖 cs.LG

Global Commander and Local Operative: A Dual-Agent Framework for Scene Navigation

El artículo presenta DACo, un marco de agentes duales que desacopla la planificación estratégica global de la ejecución local mediante un "Comandante Global" y un "Operativo Local", logrando mejoras significativas en la navegación guiada por visión y lenguaje en entornos complejos y de largo alcance.

Kaiming Jin, Yuefan Wu, Shengqiong Wu + 3 more2026-02-24💻 cs

Depth-Enhanced YOLO-SAM2 Detection for Reliable Ballast Insufficiency Identification

Este artículo presenta un marco de detección mejorado con profundidad que combina YOLOv8 y SAM2, junto con un pipeline de corrección geométrica de datos RGB-D, para identificar de manera fiable la insuficiencia de balasto en vías férreas, logrando un aumento significativo en la sensibilidad (de 0,49 a 0,80) y la puntuación F1 (superior a 0,80) en comparación con los modelos basados únicamente en RGB.

Shiyu Liu, Dylan Lester, Husnu Narman + 2 more2026-02-24⚡ eess

Face Presentation Attack Detection via Content-Adaptive Spatial Operators

Este artículo presenta CASO-PAD, un modelo ligero y de un solo fotograma que utiliza operadores espaciales adaptativos al contenido (involution) sobre MobileNetV3 para detectar ataques de presentación facial con alta precisión y sin necesidad de sensores auxiliares o secuencias temporales.

Shujaat Khan2026-02-24⚡ eess

Frame2Freq: Spectral Adapters for Fine-Grained Video Understanding

El artículo presenta Frame2Freq, una familia de adaptadores sensibles a la frecuencia que utilizan la Transformada Rápida de Fourier para capturar dinámicas temporales multiescala en modelos de visión preentrenados, logrando un rendimiento superior en tareas de reconocimiento de acciones finas en comparación con métodos anteriores.

Thinesh Thiyakesan Ponbagavathi, Constantin Seibold, Alina Roitberg2026-02-24💻 cs

A Benchmark and Knowledge-Grounded Framework for Advanced Multimodal Personalization Study

Este trabajo presenta Life-Bench, un nuevo benchmark multimodal basado en huellas digitales simuladas, y propone LifeGraph, un marco basado en gráficos de conocimiento, para abordar las limitaciones actuales en la personalización avanzada mediante modelos de lenguaje visuales.

Xia Hu, Honglei Zhuang, Brian Potetz + 4 more2026-02-24💻 cs

MoBind: Motion Binding for Fine-Grained IMU-Video Pose Alignment

El artículo presenta MoBind, un marco de aprendizaje contrastivo jerárquico que alinea finamente señales IMU con secuencias de pose 2D mediante el filtrado de fondos irrelevantes y la descomposición del movimiento corporal, logrando un rendimiento superior en tareas de recuperación cruzada, sincronización temporal, localización y reconocimiento de acciones.

Duc Duy Nguyen, Tat-Jun Chin, Minh Hoai2026-02-24💻 cs

GUIDE-US: Grade-Informed Unpaired Distillation of Encoder Knowledge from Histopathology to Micro-UltraSound

Este estudio presenta GUIDE-US, un método de destilación de conocimiento no emparejado que permite a un modelo de micro-ultrasonido inferir la agresividad del cáncer de próstata emulando la representación de modelos de histopatología, mejorando así la detección de cáncer clínicamente significativo sin necesidad de biopsias ni emparejamiento de imágenes.

Emma Willis, Tarek Elghareb, Paul F. R. Wilson + 6 more2026-02-24🤖 cs.LG

TokenTrace: Multi-Concept Attribution through Watermarked Token Recovery

TokenTrace es un marco de marca de agua proactivo que permite la atribución robusta de múltiples conceptos en imágenes generadas por IA mediante la perturbación simultánea de las incrustaciones de texto y el ruido latente inicial, logrando así recuperar y verificar individualmente conceptos específicos como objetos y estilos sin comprometer la calidad visual.

Li Zhang, Shruti Agarwal, John Collomosse + 2 more2026-02-24💻 cs

An interpretable framework using foundation models for fish sex identification

Este artículo presenta FishProtoNet, un marco de visión por computadora no invasivo e interpretable basado en modelos fundacionales que logra una identificación precisa del sexo del pez delta (Hypomesus transpacificus) en sus etapas de desove, aunque enfrenta desafíos en la etapa subadulta debido a las menores diferencias morfológicas.

Zheng Miao, Tien-Chieh Hung2026-02-24🤖 cs.AI

Towards Calibrating Prompt Tuning of Vision-Language Models

Este artículo propone un marco de calibración para el ajuste de prompts en modelos de visión-idioma que, mediante regularizadores de margen y coincidencia de momentos, mejora la fiabilidad predictiva y la incertidumbre sin comprometer la geometría del espacio de incrustaciones preentrenado ni la generalización.

Ashshak Sharifdeen, Fahad Shamshad, Muhammad Akhtar Munir + 6 more2026-02-24💻 cs

A Markovian View of Iterative-Feedback Loops in Image Generative Models: Neural Resonance and Model Collapse

Este artículo demuestra que el colapso de modelos generativos provocado por bucles de retroalimentación iterativa con datos sintéticos puede entenderse como una "resonancia neuronal" que surge de la ergodicidad y la contracción direccional en el espacio latente, lo que permite clasificar estos comportamientos degenerados mediante un marco teórico basado en cadenas de Markov.

Vibhas Kumar Vats, David J. Crandall, Samuel Goree2026-02-24🤖 cs.LG

← Anterior Siguiente →