cs.MM artículos | Gist.Science

Soundscapes in Spectrograms: Pioneering Multilabel Classification for South Asian Sounds

Este estudio presenta un método innovador basado en espectrogramas y redes neuronales convolucionales que supera a las técnicas tradicionales de coeficientes cepstrales en frecuencia mel para la clasificación multietiqueta de sonidos ambientales en entornos complejos de Asia del Sur, demostrando su superioridad mediante validación en los conjuntos de datos SAS-KIIT y UrbanSound8K.

Sudip Chakrabarty, Pappu Bishwas, Rajdeep Chatterjee, Tathagata Bandyopadhyay, Digonto Biswas, Bibek HowladerTue, 10 Ma💻 cs

Scalable On-the-fly Transcoding for Adaptive Streaming of Dynamic Point Clouds

Este trabajo presenta y evalúa un sistema de transmisión de nubes de puntos dinámicas que utiliza transcodificación bajo demanda, demostrando mediante estrategias de almacenamiento en caché y transcodificación especulativa cómo se puede reducir significativamente la carga de procesamiento para escalar el servicio a un mayor número de clientes simultáneos sin comprometer la experiencia del usuario.

Michael Rudolph, Matthias De Fré, Finn Schnier, Tim Wauter, Amr RizkTue, 10 Ma💻 cs

Data relativistic uncertainty framework for low-illumination anime scenery image enhancement

Este trabajo presenta un marco de incertidumbre relativista de datos (DRU) que aborda la escasez de datos y la degradación por baja iluminación en imágenes de paisajes de anime, logrando una mejora perceptual y estética superior a los métodos existentes al cuantificar y aprovechar dinámicamente la incertidumbre de la iluminación.

Yiquan Gao, John SeeThu, 12 Ma🤖 cs.LG

Chain-of-Thought Compression Should Not Be Blind: V-Skip for Efficient Multimodal Reasoning via Dual-Path Anchoring

El paper presenta V-Skip, un método que optimiza el razonamiento multimodal mediante un mecanismo de doble vía que evita la "amnesia visual" al anclar tokens visualmente relevantes, logrando una aceleración de 2,9 veces sin sacrificar la precisión.

Dongxu Zhang, Yiding Sun, Cheng Tan, Wenbiao Yan, Ning Yang, Jihua Zhu, Haijun ZhangThu, 12 Ma💬 cs.CL

GOT-JEPA: Generic Object Tracking with Model Adaptation and Occlusion Handling using Joint-Embedding Predictive Architecture

El artículo presenta GOT-JEPA, un marco de preentrenamiento predictivo que adapta modelos de seguimiento mediante una arquitectura de incrustación conjunta para mejorar la generalización y el manejo de oclusiones, complementado por OccuSolver para refinar la estimación de visibilidad y los patrones de oclusión.

Shih-Fang Chen, Jun-Cheng Chen, I-Hong Jhuo, Yen-Yu LinThu, 12 Ma🤖 cs.AI

AMB-DSGDN: Adaptive Modality-Balanced Dynamic Semantic Graph Differential Network for Multimodal Emotion Recognition

El artículo presenta AMB-DSGDN, una red neuronal que mejora el reconocimiento de emociones multimodales mediante la construcción de grafos semánticos dinámicos específicos por modalidad y mecanismos de atención diferencial y balanceo adaptativo para eliminar el ruido y equilibrar las contribuciones de texto, audio y visión.

Yunsheng Wang, Yuntao Shou, Yilong Tan, Wei Ai, Tao Meng, Keqin LiThu, 12 Ma🤖 cs.AI

PRoADS: Provably Secure and Robust Audio Diffusion Steganography with latent optimization and backward Euler Inversion

El artículo presenta PRoADS, un marco de esteganografía de audio basado en modelos de difusión que logra una seguridad probada y una alta robustez mediante la proyección de mensajes secretos en el ruido inicial y la optimización de la inversión mediante técnicas de Latent Optimization y Backward Euler, logrando una tasa de error de bits extremadamente baja del 0,15% incluso bajo compresión MP3.

YongPeng Yan, Yanan Li, Qiyang Xiao, Yanzhen RenThu, 12 Ma💻 cs

G-STAR: End-to-End Global Speaker-Tracking Attributed Recognition

El artículo presenta G-STAR, un sistema de reconocimiento automático de habla (ASR) con atribución de hablantes de extremo a extremo que combina un módulo de seguimiento temporal con un modelo de lenguaje grande (Speech-LLM) para generar transcripciones etiquetadas por hablante con consistencia global en conversaciones largas y superpuestas.

Jing Peng, Ziyi Chen, Haoyu Li, Yucheng Wang, Duo Ma, Mengtian Li, Yunfan Du, Dezhu Xu, Kai Yu, Shuai WangThu, 12 Ma⚡ eess

P-GSVC: Layered Progressive 2D Gaussian Splatting for Scalable Image and Video

El artículo presenta P-GSVC, el primer marco de salpicadura gaussiana 2D progresiva en capas que ofrece una solución unificada para la representación escalable de imágenes y videos mediante una estrategia de entrenamiento conjunto que mejora significativamente la calidad de la reconstrucción progresiva en comparación con los métodos secuenciales.

Longan Wang, Yuang Shi, Wei Tsang OoiThu, 12 Ma💻 cs

Chasing RATs: Tracing Reading for and as Creative Activity

El artículo presenta las "Reading Activity Traces" (RATs), un marco que revaloriza la lectura como una actividad creativa en sí misma al hacer visibles los procesos de navegación, interpretación y curación que las herramientas automatizadas suelen ocultar, ilustrado mediante una implementación especulativa en Wikipedia llamada WikiRAT.

Sophia Liu, Shm Garanganao AlmedaThu, 12 Ma💻 cs

V2M-Zero: Zero-Pair Time-Aligned Video-to-Music Generation

El paper presenta V2M-Zero, un enfoque de generación de música a partir de video sin pares de datos que logra una alineación temporal precisa al extraer y transferir estructuras de cambio temporal independientes dentro de cada modalidad mediante curvas de eventos, superando significativamente a los métodos basados en datos pareados.

Yan-Bo Lin, Jonah Casebeer, Long Mai, Aniruddha Mahapatra, Gedas Bertasius, Nicholas J. BryanThu, 12 Ma🤖 cs.AI

Make VLM Recognize Visual Hallucination on Cartoon Character Image with Pose Information

Este artículo propone un sistema de detección de alucinaciones visuales en imágenes de personajes de dibujos animados que utiliza modelos de lenguaje-visión con aprendizaje en contexto y guías de pose, logrando mejoras significativas en la precisión respecto a los métodos basados únicamente en imágenes RGB.

Bumsoo Kim, Wonseop Shin, Kyuchul Lee, Yonghoon Jung, Sanghyun SeoMon, 09 Ma🤖 cs.AI

Evaluating quality metrics through the lenses of psychophysical measurements of low-level vision

Este artículo introduce un conjunto de pruebas basadas en mediciones psicofísicas de la visión de bajo nivel para evaluar la capacidad de 34 métricas de calidad de imagen y video existentes para modelar aspectos clave de la percepción humana, como la sensibilidad al contraste y el enmascaramiento, revelando limitaciones y patrones de comportamiento que no se detectan con los protocolos de evaluación estándar.

Dounia Hammou, Yancheng Cai, Pavan Madhusudanarao, Christos G. Bampis, Rafał K. MantiukMon, 09 Ma💻 cs

Purification Before Fusion: Toward Mask-Free Speech Enhancement for Robust Audio-Visual Speech Recognition

Este trabajo propone un marco de reconocimiento de habla audiovisual (AVSR) robusto y sin máscaras que integra un módulo de fusión basado en Conformer para refinar implícitamente las características de audio ruidosas mediante asistencia visual, preservando la integridad semántica y superando a los métodos basados en máscaras en el benchmark LRS3.

Linzhi Wu, Xingyu Zhang, Hao Yuan, Yakun Zhang, Changyan Zheng, Liang Xie, Tiejun Liu, Erwei YinMon, 09 Ma🤖 cs.AI

Omni-C: Compressing Heterogeneous Modalities into a Single Dense Encoder

El artículo presenta Omni-C, un único codificador Transformer denso que comprime modalidades heterogéneas en representaciones compartidas mediante preentrenamiento contrastivo, logrando un rendimiento competitivo y una mayor eficiencia de memoria al eliminar la necesidad de arquitecturas complejas como la de expertos múltiples (MoE) o supervisiones emparejadas.

Kin Wai Lau, Yasar Abbas Ur Rehman, Lai-Man Po, Pedro Porto Buarque de GusmãoMon, 09 Ma🤖 cs.AI

VDCook:DIY video data cook your MLLMs

El artículo presenta VDCook, un sistema operativo de datos de video autoevolutivo que permite a investigadores y equipos especializados generar, actualizar y gestionar conjuntos de datos de entrenamiento para modelos multimodales mediante consultas en lenguaje natural y un mecanismo automatizado de ingestión basado en el Protocolo de Contexto de Modelo (MCP).

Chengwei WuMon, 09 Ma🤖 cs.AI

Human-Data Interaction, Exploration, and Visualization in the AI Era: Challenges and Opportunities

Este artículo examina los desafíos y oportunidades que la era de la IA plantea para la interacción humano-datos y la visualización, destacando la necesidad de trascender las métricas tradicionales y redefinir los roles humanos y artificiales para abordar problemas como la incertidumbre, la latencia y la escalabilidad en el análisis de datos no estructurados.

Jean-Daniel Fekete, Yifan Hu, Dominik Moritz, Arnab Nandi, Senjuti Basu Roy, Eugene Wu, Nikos Bikakis, George Papastefanatos, Panos K. Chrysanthis, Guoliang Li, Lingyun YuMon, 09 Ma🤖 cs.AI

Alkaid: Resilience to Edit Errors in Provably Secure Steganography via Distance-Constrained Encoding

El artículo presenta Alkaid, un esquema de esteganografía con seguridad demostrable que logra una recuperación determinista de mensajes frente a errores de edición mediante codificación con restricciones de distancia, superando a los métodos actuales en robustez, capacidad y eficiencia.

Zhihan Cao, Gaolei Li, Jun Wu, Jianhua Li, Hang Zhang, Mingzhe ChenMon, 09 Ma🔢 math

Controllable Dance Generation with Style-Guided Motion Diffusion

El artículo presenta SGMD, un modelo de difusión de movimiento guiado por estilo que integra características musicales y prompts de estilo para generar secuencias de danza realistas, coherentes y controlables mediante mecanismos de enmascaramiento espacio-temporal.

Hongsong Wang, Ying Zhu, Xin Geng + 1 more2026-03-11⚡ eess

altiro3D: Scene representation from single image and novel view synthesis

El artículo presenta altiro3D, una biblioteca de código abierto que genera experiencias 3D realistas y síntesis de vistas novedosas a partir de una sola imagen o video plano, utilizando estimación de profundidad, técnicas de inpainting y algoritmos de proyección para crear múltiples puntos de vista visualizables en pantallas LCD de libre visión.

E. Canessa, L. Tenze2026-03-10💻 cs

← Anterior Siguiente →