cs.CV artículos | Gist.Science

A Text-Guided Vision Model for Enhanced Recognition of Small Instances

Este artículo presenta un modelo de detección de objetos guiado por texto basado en una versión mejorada de YOLO-World, que sustituye la capa C2f por C3k2 para optimizar la identificación de objetos pequeños en imágenes de drones, logrando una mayor precisión y un diseño más ligero con menos parámetros y operaciones.

Hyun-Ki Jung2026-02-24💻 cs

Test-Time Computing for Referring Multimodal Large Language Models

El artículo presenta ControlMLLM++, un marco de adaptación en tiempo de prueba que inyecta marcadores visuales aprendibles en modelos multimodales congelados para habilitar el razonamiento visual de región sin reentrenamiento, optimizando tokens latentes mediante una función de energía específica de la tarea e incorporando estrategias mejoradas de optimización y desviación de sesgos en los prompts.

Mingrui Wu, Hao Chen, Jiayi Ji + 5 more2026-02-24💻 cs

Relational Feature Caching for Accelerating Diffusion Transformers

El artículo presenta el Enmascaramiento Relacional de Características (RFC), un marco novedoso que acelera los Transformadores de Difusión (DiT) mejorando la precisión de la predicción de características mediante el aprovechamiento de la correlación entre las entradas y salidas, superando así las limitaciones de los métodos de extrapolación temporal existentes.

Byunggwan Son, Jeimin Jeon, Jeongwoo Choi + 1 more2026-02-24🤖 cs.LG

Variational Trajectory Optimization of Anisotropic Diffusion Schedules

Este trabajo presenta un marco variacional para modelos de difusión que optimiza conjuntamente la red de puntuación y un programa de ruido anisotrópico parametrizado por una matriz, logrando mejoras consistentes sobre el modelo EDM en diversos conjuntos de datos mediante un nuevo solucionador de ODE inversa.

Pengxi Liu, Zeyu Michael Li, Xiang Cheng2026-02-24🤖 cs.LG

OSInsert: Towards High-authenticity and High-fidelity Image Composition

Este trabajo propone una estrategia de dos etapas llamada OSInsert que combina métodos de alta autenticidad y alta fidelidad para lograr composiciones de imágenes generativas que ajusten tanto la pose del objeto como preserven sus detalles con realismo.

Jingyuan Wang, Li Niu2026-02-24💻 cs

Fore-Mamba3D: Mamba-based Foreground-Enhanced Encoding for 3D Object Detection

El artículo presenta Fore-Mamba3D, un nuevo esqueleto basado en Mamba que mejora la detección de objetos 3D mediante la codificación exclusiva de voxels de primer plano, mitigando la atenuación de la respuesta y la restricción contextual mediante una ventana deslizante regional-global y un módulo de fusión espacial de estado asistido por semántica.

Zhiwei Ning, Xuanang Gao, Jiaxi Cao + 5 more2026-02-24🤖 cs.AI

Can a Teenager Fool an AI? Evaluating Low-Cost Cosmetic Attacks on Age Estimation Systems

Este estudio demuestra que modificaciones cosméticas sencillas y accesibles, como barbas o maquillaje, pueden engañar eficazmente a los sistemas de estimación de edad basados en IA, clasificando a menores como adultos y revelando una vulnerabilidad crítica en los mecanismos de verificación de edad en línea.

Xingyu Shen, Tommy Duong, Xiaodong An + 6 more2026-02-24🤖 cs.LG

A Green Learning Approach to LDCT Image Restoration

Este trabajo propone un enfoque de aprendizaje verde (GL) para la restauración de imágenes de tomografía computarizada de baja dosis (LDCT), logrando un rendimiento de vanguardia con mayor transparencia matemática y eficiencia computacional en comparación con los métodos de aprendizaje profundo tradicionales.

Wei Wang, Yixing Wu, C. -C. Jay Kuo2026-02-24🤖 cs.AI

Vinedresser3D: Agentic Text-guided 3D Editing

Vinedresser3D es un marco agéntico que utiliza un modelo de lenguaje grande multimodal y un flujo rectificado basado en inversión para realizar ediciones 3D guiadas por texto de alta calidad, precisas y coherentes directamente en el espacio latente de un modelo generativo nativo.

Yankuan Chi, Xiang Li, Zixuan Huang + 1 more2026-02-24💻 cs

Sculpting the Vector Space: Towards Efficient Multi-Vector Visual Document Retrieval via Prune-then-Merge Framework

Este artículo presenta "Prune-then-Merge", un marco innovador de dos etapas que combina poda y fusión jerárquica para superar el compromiso entre compresión y fidelidad en la recuperación de documentos visuales, logrando un rendimiento superior y una compresión casi sin pérdida en 29 conjuntos de datos.

Yibo Yan, Mingdong Ou, Yi Cao + 5 more2026-02-24💬 cs.CL

A Multimodal Framework for Aligning Human Linguistic Descriptions with Visual Perceptual Data

Este trabajo presenta un marco computacional multimodal que integra representaciones perceptuales basadas en SIFT y UQI con procesamiento lingüístico para modelar la interpretación referencial humana, logrando un rendimiento superior al de los interlocutores humanos en la tarea de alineación lenguaje-percepción del corpus de Stanford.

Joseph Bingham2026-02-24🤖 cs.AI

HOCA-Bench: Beyond Semantic Perception to Predictive World Modeling via Hegelian Ontological-Causal Anomalies

El artículo presenta HOCA-Bench, un nuevo benchmark que evalúa la capacidad de los modelos de lenguaje visual para predecir el mundo físico mediante la detección de anomalías ontológicas y causales, revelando que, aunque los modelos actuales reconocen bien las violaciones estáticas, muestran una deficiencia significativa en el razonamiento sobre mecanismos físicos dinámicos.

Chang Liu, Yunfan Ye, Qingyang Zhou + 5 more2026-02-24💻 cs

Learning Mutual View Information Graph for Adaptive Adversarial Collaborative Perception

Este artículo presenta el ataque MVIG, un marco adversario adaptativo que utiliza un grafo de información de vista mutua y aprendizaje temporal para explotar debilidades en los sistemas de percepción colaborativa, logrando reducir significativamente la eficacia de las defensas existentes mientras mantiene un alto rendimiento en tiempo real.

Yihang Tao, Senkang Hu, Haonan An + 3 more2026-02-24💻 cs

CLCR: Cross-Level Semantic Collaborative Representation for Multimodal Learning

El artículo propone CLCR, un marco de representación colaborativa que organiza las características multimodales en una jerarquía semántica de tres niveles para alinear y fusionar selectivamente la información compartida y privada, mejorando así el rendimiento en diversas tareas de aprendizaje multimodal.

Chunlei Meng, Guanhong Huang, Rong Fu + 3 more2026-02-24🤖 cs.AI

Satellite-Based Detection of Looted Archaeological Sites Using Machine Learning

Este estudio presenta un pipeline escalable basado en imágenes satelitales de PlanetScope y aprendizaje profundo que supera a los métodos tradicionales para detectar sitios arqueológicos saqueados en Afganistán, logrando una puntuación F1 de 0,926 mediante el uso de redes neuronales convolucionales preentrenadas con ImageNet y máscaras espaciales.

Girmaw Abebe Tadesse, Titien Bartette, Andrew Hassanali + 7 more2026-02-24🤖 cs.AI

RAID: Retrieval-Augmented Anomaly Detection

El artículo presenta RAID, un marco de detección de anomalías no supervisada que utiliza una base de datos vectorial jerárquica y una red de expertos guiada para recuperar muestras normales y suprimir el ruido en la generación de mapas de anomalías, logrando un rendimiento superior en diversos conjuntos de datos.

Mingxiu Cai, Zhe Zhang, Gaochang Wu + 2 more2026-02-24💻 cs

Seeing Clearly, Reasoning Confidently: Plug-and-Play Remedies for Vision Language Model Blindness

Este artículo presenta un módulo plug-and-play eficiente que mejora el razonamiento de los modelos de lenguaje visuales sobre objetos raros sin necesidad de ajuste fino, mediante el enriquecimiento de tokens visuales y la generación de pistas contextuales a partir de conocimientos previos y descripciones de texto.

Xin Hu, Haomiao Ni, Yunbei Zhang + 3 more2026-02-24💻 cs

Accurate Planar Tracking With Robust Re-Detection

Este artículo presenta SAM-H y WOFTSAM, dos nuevos rastreadores planares que combinan la segmentación a largo plazo de SAM 2 con la estimación de homografía para lograr un seguimiento preciso y una re-detección robusta, estableciendo un nuevo estado del arte en los benchmarks POT-210 y PlanarTrack.

Jonas Serych, Jiri Matas2026-02-24💻 cs

Localized Concept Erasure in Text-to-Image Diffusion Models via High-Level Representation Misdirection

El artículo presenta HiRM, un método que elimina conceptos específicos en modelos de difusión texto-a-imagen redirigiendo sus representaciones semánticas de alto nivel en el codificador de texto, lo que logra una supresión precisa con mínimo impacto en la calidad de generación y bajo costo computacional.

Uichan Lee, Jeonghyeon Kim, Sangheum Hwang2026-02-24🤖 cs.AI

Personalized Longitudinal Medical Report Generation via Temporally-Aware Federated Adaptation

El artículo presenta FedTAR, un marco de aprendizaje federado que integra adaptadores LoRA personalizados por demografía y una agregación global temporalmente consciente mediante MAML para generar informes médicos longitudinales precisos y coherentes sin comprometer la privacidad de los datos.

He Zhu, Ren Togo, Takahiro Ogawa + 8 more2026-02-24🤖 cs.LG

← Anterior Siguiente →