cs.CV artículos | Gist.Science

Image Captioning via Compact Bidirectional Architecture

Este artículo presenta un modelo compacto bidireccional de Transformer para la descripción de imágenes que integra flujos de izquierda a derecha y de derecha a izquierda en una arquitectura paralela, logrando resultados de vanguardia en el conjunto de datos MSCOCO mediante estrategias de ensamblaje a nivel de oración y entrenamiento auto-crítico.

Zijie Song, Yuanen Zhou, Zhenzhen Hu, Daqing Liu, Huixia Ben, Richang Hong, Meng WangWed, 11 Ma💬 cs.CL

PnLCalib: Sports Field Registration via Points and Lines Optimization

El artículo presenta PnLCalib, un método de calibración de cámaras para videos deportivos que supera las limitaciones de los enfoques tradicionales mediante una optimización basada en un modelo 3D de campo de fútbol y líneas detectadas, logrando una mayor precisión y robustez en escenarios de transmisión con múltiples vistas y oclusiones.

Marc Gutiérrez-Pérez, Antonio AgudoWed, 11 Ma🤖 cs.AI

TIMotion: Temporal and Interactive Framework for Efficient Human-Human Motion Generation

El artículo presenta TIMotion, un marco eficiente y efectivo para la generación de movimientos entre humanos que mejora el rendimiento mediante la inyección interactiva causal, el escaneo evolutivo de roles y la amplificación de patrones localizados para modelar adecuadamente las secuencias temporales y las interacciones.

Yabiao Wang, Shuo Wang, Jiangning Zhang, Ke Fan, Jiafu Wu, Zhucun Xue, Yong LiuWed, 11 Ma💻 cs

Robust Training of Neural Networks at Arbitrary Precision and Sparsity

Este artículo presenta un marco unificado que modela la cuantización y la dispersión como ruido aditivo y utiliza una transformada de descuantización por regresión de crestas para establecer un camino de gradiente explícito, permitiendo el entrenamiento robusto y estable de redes neuronales a precisiones arbitrarias y niveles de dispersión, incluidos modelos A1W1 y sub-1-bit.

Chengxi Ye, Grace Chu, Yanfeng Liu, Yichi Zhang, Lukasz Lew, Li Zhang, Mark Sandler, Andrew HowardWed, 11 Ma🤖 cs.AI

DRUPI: Dataset Reduction Using Privileged Information

El artículo presenta DRUPI, un método de condensación de datasets que mejora el rendimiento al sintetizar información privilegiada (como etiquetas de características o atención) junto con los datos reducidos, logrando ganancias significativas en diversas tareas de visión por computadora.

Shaobo Wang, Youxin Jiang, Tianle Niu, Yantai Yang, Ruiji Zhang, Shuhao Hu, Shuaiyu Zhang, Chenghao Sun, Weiya Li, Conghui He, Xuming Hu, Linfeng ZhangWed, 11 Ma🤖 cs.AI

Unsupervised Representation Learning from Sparse Transformation Analysis

Este artículo propone un método de aprendizaje no supervisado que factoriza las transformaciones de variables latentes en componentes esparsos mediante campos vectoriales rotacionales y potenciales, logrando representaciones disociadas que capturan tanto factores independientes como primitivas de transformación, lo que resulta en un rendimiento superior en verosimilitud de datos y errores de equivarianza aproximada.

Yue Song, Thomas Anderson Keller, Yisong Yue, Pietro Perona, Max WellingWed, 11 Ma🤖 cs.LG

Image Compression Using Novel View Synthesis Priors

Este artículo propone una técnica de compresión de imágenes basada en modelos que utiliza la síntesis de nuevas vistas y la optimización por descenso de gradiente para aprovechar la información previa de la misión, logrando así una compresión superior y robusta para la transmisión en tiempo real de vehículos operados remotamente sin cableado en entornos submarinos.

Luyuan Peng, Mandar Chitre, Hari Vishnu, Yuen Min Too, Bharath Kalyan, Rajat Mishra, Soo Pieng TanWed, 11 Ma⚡ eess

Active Prompt Learning with Vision-Language Model Priors

Este artículo presenta un marco de aprendizaje activo eficiente en presupuesto para modelos visión-idioma que utiliza agrupación guiada por clases y consultas selectivas adaptativas para superar las limitaciones de las estrategias de prompts existentes y lograr mayor precisión con menos datos etiquetados.

Hoyoung Kim, Seokhee Jin, Changhwan Sung, Jaechang Kim, Jungseul OkWed, 11 Ma💻 cs

ARSGaussian: 3D Gaussian Splatting with LiDAR for Aerial Remote Sensing Novel View Synthesis

El artículo presenta ARSGaussian, un método innovador de síntesis de nuevas vistas para la teledetección aérea que integra nubes de puntos LiDAR y un modelo de cámara con parámetros de distorsión dentro de la técnica 3D Gaussian Splatting para resolver problemas de flotadores y crecimiento excesivo, mejorando así la precisión geométrica y la alineación geo-espacial, todo ello respaldado por el lanzamiento del nuevo conjunto de datos abierto AIR-LONGYAN.

Yiling Yao, Bing Zhang, Wenjuan Zhang, Lianru Gao, Dailiang Peng, Bocheng Li, Yaning Wang, Bowen WangWed, 11 Ma💻 cs

CuriousBot: Interactive Mobile Exploration via Actionable 3D Relational Object Graph

Este trabajo presenta a CuriousBot, un sistema que utiliza un grafo relacional de objetos 3D para superar las limitaciones de los métodos actuales de exploración móvil al permitir la interacción activa en entornos complejos y diversos, demostrando una mayor eficacia y generalización que las soluciones basadas únicamente en modelos de visión y lenguaje.

Yixuan Wang, Leonor Fermoselle, Tarik Kelestemur, Jiuguang Wang, Yunzhu LiWed, 11 Ma🤖 cs.LG

Unveiling the Potential of iMarkers: Invisible Fiducial Markers for Advanced Robotics

Este artículo presenta iMarkers, marcadores fiduciales invisibles para humanos pero detectables por robots y dispositivos de realidad aumentada, que resuelven el problema estético de los marcadores tradicionales mediante diseños de hardware y algoritmos de software de código abierto que garantizan una detección robusta y adaptable en diversos escenarios.

Ali Tourani, Deniz Isinsu Avsar, Hriday Bavle, Jose Luis Sanchez-Lopez, Jan Lagerwall, Holger VoosWed, 11 Ma💻 cs

A Survey on Wi-Fi Sensing Generalizability: Taxonomy, Techniques, Datasets, and Future Research Prospects

Esta encuesta ofrece una revisión exhaustiva y estructurada de más de 200 artículos sobre las técnicas, conjuntos de datos y desafíos de generalización en la detección por Wi-Fi, presentando una taxonomía basada en la cadena de procesamiento y proponiendo la plataforma SDP para fomentar la colaboración comunitaria.

Fei Wang, Tingting Zhang, Wei Xi, Han Ding, Ge Wang, Di Zhang, Yuanhao Cui, Fan Liu, Jinsong Han, Jie Xu, Tony Xiao HanWed, 11 Ma💻 cs

Recognition-Synergistic Scene Text Editing

El artículo presenta RS-STE, un enfoque novedoso que integra la edición y el reconocimiento de texto en un marco unificado mediante un decodificador paralelo y un ajuste fino auto-supervisado cíclico, logrando un rendimiento superior en la edición de texto escénico sin necesidad de datos emparejados.

Zhengyao Fang, Pengyuan Lyu, Jingjing Wu, Chengquan Zhang, Jun Yu, Guangming Lu, Wenjie PeiWed, 11 Ma💻 cs

Semi-Supervised Biomedical Image Segmentation via Diffusion Models and Teacher-Student Co-Training

Este artículo presenta un marco novedoso de aprendizaje semi-supervisado para la segmentación de imágenes biomédicas que combina modelos de difusión y un entrenamiento colaborativo maestro-alumno, logrando superar a las técnicas actuales al generar máscaras de segmentación precisas a partir de datos limitados etiquetados.

Luca Ciampi, Gabriele Lagani, Giuseppe Amato, Fabrizio FalchiWed, 11 Ma💻 cs

Zooming In on Fakes: A Novel Dataset for Localized AI-Generated Image Detection with Forgery Amplification Approach

Este trabajo presenta BR-Gen, un nuevo dataset a gran escala de imágenes con manipulaciones localizadas que abarca escenas completas, junto con NFA-ViT, un modelo basado en transformadores que amplifica las huellas de falsificación para mejorar la detección y generalización de alteraciones de IA en imágenes.

Lvpan Cai, Haowei Wang, Jiayi Ji, Yanshu Zhoumen, Shen Chen, Taiping Yao, Xiaoshuai SunWed, 11 Ma💻 cs

M4-SAR: A Multi-Resolution, Multi-Polarization, Multi-Scene, Multi-Source Dataset and Benchmark for optical-SAR Object Detection

Este trabajo presenta M4-SAR, un nuevo conjunto de datos a gran escala y un marco de referencia unificado para la detección de objetos mediante la fusión de imágenes ópticas y SAR, que demuestra mejoras significativas en la precisión de detección, especialmente en entornos complejos.

Chao Wang, Wei Lu, Xiang Li, Jian Yang, Lei LuoWed, 11 Ma💻 cs

MARRS: Masked Autoregressive Unit-based Reaction Synthesis

El trabajo presenta MARRS, un marco novedoso que genera reacciones humanas coordinadas y detalladas mediante representaciones continuas, utilizando un VAE dividido por unidades corporales, fusión condicionada por acciones, modulación adaptativa entre unidades y un modelo de difusión con predictores MLP independientes para superar las limitaciones de los enfoques autoregresivos basados en cuantización vectorial.

Yabiao Wang, Shuo Wang, Jiangning Zhang, Jiafu Wu, Qingdong He, Yong LiuWed, 11 Ma💻 cs

EasyText: Controllable Diffusion Transformer for Multilingual Text Rendering

Este trabajo presenta EasyText, un marco basado en transformadores de difusión que permite la generación precisa y controlable de texto multilingüe mediante la incorporación de codificaciones de posición de caracteres y el uso de un extenso conjunto de datos sintéticos.

Runnan Lu, Yuxuan Zhang, Jiaming Liu, Haofan Wang, Yiren SongWed, 11 Ma💻 cs

SpikeSMOKE: Spiking Neural Networks for Monocular 3D Object Detection with Cross-Scale Gated Coding

El artículo presenta SpikeSMOKE, una arquitectura de redes neuronales de espigas para la detección 3D de objetos monocular que, mediante un nuevo mecanismo de codificación de compuertas de escala cruzada y bloques residuales ligeros, logra una alta precisión en conjuntos de datos como KITTI y NuScenes mientras reduce significativamente el consumo energético y la complejidad computacional en comparación con métodos tradicionales.

Xuemei Chen, Huamin Wang, Jing Peng, Hangchi Shen, Shukai Duan, Shiping Wen, Tingwen HuangWed, 11 Ma💻 cs

Improving Large Vision-Language Models' Understanding for Flow Field Data

El artículo presenta FieldLVLM, un marco innovador que mejora la comprensión de los Grandes Modelos Visuales-Lingüísticos sobre datos de campos científicos mediante una estrategia de generación de lenguaje específica del dominio y un ajuste de modelos multimodales con compresión de datos, logrando un rendimiento superior en tareas de investigación científica.

Xiaomei Zhang, Hanyu Zheng, Xiangyu Zhu, Jinghuan Wei, Junhong Zou, Zhen Lei, Zhaoxiang ZhangWed, 11 Ma💻 cs