cs.CV artículos | Gist.Science

Human-Object Interaction via Automatically Designed VLM-Guided Motion Policy

Este trabajo presenta un marco unificado basado en física que utiliza Modelos Visuales-Lingüísticos (VLM) y una nueva representación de Dinámicas de Movimiento Relativo (RMD) para sintetizar automáticamente interacciones humano-objeto a largo plazo sin necesidad de ingeniería manual de recompensas, superando a los métodos existentes en naturalidad y generalización.

Zekai Deng, Ye Shi, Kaiyang Ji + 3 more2026-03-05💻 cs

Generating Fine Details of Entity Interactions

Este artículo presenta un nuevo conjunto de datos y un enfoque basado en modelos de lenguaje multimodal para mejorar la generación de imágenes que capturan interacciones complejas entre entidades mediante la descomposición de conceptos y la refinación iterativa.

Xinyi Gu, Jiayuan Mao2026-03-05🤖 cs.LG

When Memory Becomes a Vulnerability: Towards Multi-turn Jailbreak Attacks against Text-to-Image Generation Systems

Este artículo presenta "Inception", el primer ataque de jailbreak multi-turno contra sistemas de generación de imágenes texto-a-imagen que explota sus mecanismos de memoria mediante segmentación semántica y recursión, logrando una tasa de éxito un 20% superior a los métodos actuales al evadir los filtros de seguridad.

Shiqian Zhao, Jiayang Liu, Yiming Li + 9 more2026-03-05💻 cs

Intelligent Diagnosis Using Dual-Branch Attention Network for Rare Thyroid Carcinoma Recognition with Ultrasound Imaging

Este artículo presenta la CSASN, una red neuronal de aprendizaje multitarea con atención dual que combina EfficientNet y ViT para superar los desafíos de desequilibrio de datos y heterogeneidad morfológica en el diagnóstico preciso de carcinomas tiroideos raros mediante imágenes de ultrasonido.

Peiqi Li, Yincheng Gao, Renxing Li + 10 more2026-03-05💻 cs

Apple's Synthetic Defocus Noise Pattern: Characterization and Forensic Applications

Este artículo caracteriza el Patrón de Ruido de Desenfoque Sintético (SDNP) de Apple en las imágenes de modo retrato, proponiendo un método para su estimación precisa y demostrando su utilidad para la trazabilidad forense de dispositivos iOS y para mejorar la verificación de la fuente de la cámara al reducir falsos positivos en el análisis PRNU.

David Vázquez-Padín, Fernando Pérez-González, Pablo Pérez-Miguélez2026-03-05💻 cs

Why 1 + 1 < 1 in Visual Token Pruning: Beyond Naive Integration via Multi-Objective Balanced Covering

El artículo presenta MoB, un nuevo método de poda de tokens visuales basado en la teoría de recubrimiento que reformula el problema como un caso de cobertura bi-objetivo para equilibrar dinámicamente la alineación con el prompt y la preservación visual, logrando así una reducción significativa de tokens con pérdidas de rendimiento mínimas en modelos multimodales avanzados.

Yangfu Li, Hongjian Zhan, Tianyi Chen + 2 more2026-03-05💬 cs.CL

From Press to Pixels: Evolving Urdu Text Recognition

Este artículo presenta el conjunto de datos Urdu Newspaper Benchmark (UNB) y demuestra que los modelos de lenguaje grande (LLM), especialmente tras un ajuste fino, superan a los sistemas de reconocimiento óptico de caracteres tradicionales en la transcripción de periódicos en urdu, abordando eficazmente los desafíos del script Nastaliq y las imágenes de baja calidad mediante técnicas avanzadas de extracción y superresolución.

Samee Arif, Sualeha Farid2026-03-05💻 cs

Extremely Simple Multimodal Outlier Synthesis for Out-of-Distribution Detection and Segmentation

Este trabajo presenta "Feature Mixing", un método multimodal extremadamente simple y rápido para la síntesis de valores atípicos que mejora la detección y segmentación de datos fuera de distribución, junto con el nuevo conjunto de datos CARLA-OOD, logrando un rendimiento de vanguardia con una aceleración de hasta 370 veces en comparación con métodos anteriores.

Moru Liu, Hao Dong, Jessica Kelly + 2 more2026-03-05🤖 cs.AI

BAH Dataset for Ambivalence/Hesitancy Recognition in Videos for Digital Behavioural Change

Este artículo presenta el conjunto de datos BAH, un recurso multimodal con 1.427 videos de 300 participantes etiquetados por expertos para el reconocimiento automático de ambivalencia y hesitación en intervenciones digitales de cambio de comportamiento, junto con resultados de referencia que destacan la necesidad de modelos espaciotemporales adaptados.

Manuela González-González, Soufiane Belharbi, Muhammad Osama Zeeshan + 6 more2026-03-05🤖 cs.LG

Do We Need All the Synthetic Data? Targeted Image Augmentation via Diffusion Models

El trabajo presenta TADA, un marco que mejora la generalización de los clasificadores de imágenes al aumentar selectivamente solo el 30-40% de los datos de entrenamiento (aquellas muestras no aprendidas tempranamente) mediante imágenes sintéticas generadas por modelos de difusión, logrando un rendimiento superior al de métodos que aumentan todo el conjunto de datos y superando incluso a optimizadores avanzados como SAM.

Dang Nguyen, Jiping Li, Jinghao Zheng + 1 more2026-03-05🤖 cs.LG

Structural Vibration Monitoring with Diffractive Optical Processors

Este trabajo presenta un sistema de monitoreo de vibraciones estructurales de bajo costo y consumo energético que utiliza una capa difractiva óptica optimizada junto con una red neuronal superficial para extraer y reconstruir espectros de vibración 3D de estructuras de forma remota y en tiempo real, superando significativamente la precisión de los métodos ópticos convencionales.

Yuntian Wang, Zafer Yilmaz, Yuhang Li + 5 more2026-03-05🔬 physics.optics

EgoWorld: Translating Exocentric View to Egocentric View using Rich Exocentric Observations

El paper presenta EgoWorld, un marco novedoso que supera las limitaciones de los métodos actuales al reconstruir vistas egocéntricas a partir de observaciones exocéntricas ricas (como nubes de puntos, poses de manos y descripciones textuales) mediante la reproyección de nubes de puntos y modelos de difusión, logrando un rendimiento de vanguardia y una generalización robusta en múltiples conjuntos de datos y escenarios del mundo real.

Junho Park, Andrew Sangwoo Ye, Taein Kwon2026-03-05🤖 cs.AI

Partial Weakly-Supervised Oriented Object Detection

Este trabajo propone PWOOD, el primer marco de detección de objetos orientados parcialmente débilmente supervisado que utiliza anotaciones débiles parciales (cajas horizontales o puntos) y datos no etiquetados para lograr un rendimiento comparable o superior a los métodos semisupervisados tradicionales con un menor costo de anotación.

Mingxin Liu, Peiyuan Zhang, Yuan Liu + 8 more2026-03-05💻 cs

Fast Equivariant Imaging: Acceleration for Unsupervised Learning via Augmented Lagrangian and Auxiliary PnP Denoisers

Este trabajo presenta Fast Equivariant Imaging (FEI), un marco de aprendizaje no supervisado que acelera significativamente el entrenamiento de redes de imagen profunda sin datos reales mediante la reformulación del problema de optimización con multiplicadores de Lagrange y desnoisadores PnP, logrando una velocidad 10 veces superior y mejor rendimiento en tareas como la reconstrucción de CT y la restauración de imágenes.

Guixian Xu, Jinglai Li, Junqi Tang2026-03-05🤖 cs.LG

D2Dewarp: Dual Dimensions Geometric Representation Learning Based Document Image Dewarping

El artículo presenta D2Dewarp, un modelo de aprendizaje profundo que mejora el enderezamiento de imágenes de documentos mediante el aprendizaje de representaciones geométricas en dos dimensiones (horizontal y vertical) y la creación del nuevo conjunto de datos DocDewarpHV, logrando resultados superiores a los métodos actuales en varios benchmarks.

Heng Li, Xiangping Wu, Qingcai Chen2026-03-05💻 cs

VITA: Vision-to-Action Flow Matching Policy

El artículo presenta VITA, un marco de aprendizaje de políticas de flujo de coincidencia libre de ruido y condicionamiento que mapea directamente representaciones visuales a acciones latentes mediante un autoencoder y una decodificación de flujo latente, logrando una inferencia significativamente más rápida y un rendimiento superior en diversas tareas robóticas.

Dechen Gao, Boqi Zhao, Andrew Lee + 6 more2026-03-05🤖 cs.AI

Classification of Histopathology Slides with Persistent Homology Convolutions

Este artículo presenta un método novedoso que utiliza convoluciones de homología persistente para capturar información topológica local en diapositivas de histopatología, demostrando que este enfoque supera a los modelos de redes neuronales convolucionales convencionales en precisión y robustez.

Shrunal Pothagoni, Benjamin Schweinhart2026-03-05💻 cs

Towards Generalizable AI-Generated Image Detection via Image-Adaptive Prompt Learning

Este artículo presenta IAPL, un nuevo paradigma de aprendizaje de prompts adaptativos a la imagen que mejora la generalización en la detección de imágenes generadas por IA al ajustar dinámicamente los prompts durante la inferencia, logrando un rendimiento superior en conjuntos de datos no vistos.

Yiheng Li, Zichang Tan, Guoqing Xu + 3 more2026-03-05💻 cs

GaitSnippet: Gait Recognition Beyond Unordered Sets and Ordered Sequences

El artículo presenta GaitSnippet, un nuevo enfoque para el reconocimiento de la marcha que supera las limitaciones de los métodos basados en conjuntos y secuencias al modelar la marcha como una composición de "fragmentos" (snippets) que capturan contextos temporales multiescala, logrando así un rendimiento superior en múltiples conjuntos de datos.

Saihui Hou, Chenye Wang, Wenpeng Lang + 2 more2026-03-05💻 cs

Reinforcing Video Reasoning Segmentation to Think Before It Segments

El artículo presenta Veason-R1, un modelo de lenguaje e visión grande especializado en segmentación de razonamiento en video que, mediante un entrenamiento con optimización de política relativa grupal (GRPO) e inicialización de cadena de pensamiento (CoT), supera el estado del arte al mejorar la interpretabilidad, la consistencia temporal y la precisión espacial en la localización de objetos.

Sitong Gong, Lu Zhang, Yunzhi Zhuge + 3 more2026-03-05💻 cs

← Anterior Siguiente →