Automated Coral Spawn Monitoring for Reef Restoration: The Coral Spawn and Larvae Imaging Camera System (CSLICS)

Este artículo presenta el Sistema de Cámara de Imágenes de Desove y Larvas de Coral (CSLICS), una solución automatizada de bajo costo que utiliza visión por computadora para contar desoves de coral con precisión, reduciendo drásticamente el trabajo manual y facilitando la restauración de arrecifes a gran escala.

Dorian Tsai, Christopher A. Brunner, Riki Lamont, F. Mikaela Nordborg, Andrea Severati, Java Terry, Karen Jackel, Matthew Dunbabin, Tobias Fischer, Scarlett RaineWed, 11 Ma💻 cs

Learning Encoding-Decoding Direction Pairs to Unveil Concepts of Influence in Deep Vision Networks

Este trabajo propone un método no supervisado para recuperar los mecanismos de codificación y decodificación de conceptos en redes neuronales profundas mediante la identificación de pares de direcciones latentes, lo que permite desvelar conceptos interpretables, explicar predicciones y corregir errores sin depender de la reconstrucción de características.

Alexandros Doumanoglou, Kurt Driessens, Dimitrios ZarpalasWed, 11 Ma💻 cs

Connectivity Maintenance and Recovery for Multi-Robot Motion Planning

Los autores proponen un algoritmo de planificación de movimiento en tiempo real basado en curvas Bézier y funciones de barrera y Lyapunov (MPC-CLF-CBF) que garantiza la conectividad y mejora la navegación de flotas de robots en entornos cluttered, permitiendo la recuperación ante pérdidas de conexión y validándose mediante simulaciones y experimentos físicos con ocho cuadricópteros Crazyflie.

Yutong Wang, Lishuo Pan, Yichun Qu, Tengxiang Wang, Nora AyanianWed, 11 Ma💻 cs

LARA-Gen: Enabling Continuous Emotion Control for Music Generation Models via Latent Affective Representation Alignment

El artículo presenta LARA-Gen, un marco que habilita el control continuo y fino de las emociones en la generación de música mediante la alineación de representaciones latentes afectivas y un módulo basado en el espacio valencia-activación, superando las limitaciones de los enfoques basados en texto y logrando un rendimiento superior en adherencia emocional y calidad musical.

Jiahao Mei, Xuenan Xu, Zeyu Xie, Zihao Zheng, Ye Tao, Yue Ding, Mengyue WuWed, 11 Ma💻 cs

NaviGait: Navigating Dynamically Feasible Gait Libraries using Deep Reinforcement Learning

NaviGait es un marco jerárquico que combina la optimización de trayectorias con el aprendizaje por refuerzo para sintetizar locomoción bípeda robusta e intuitiva seleccionando y ajustando mínimamente patrones de marcha de una librería offline, lo que simplifica el diseño de recompensas y acelera el entrenamiento en comparación con métodos convencionales.

Neil Janwani, Varun Madabushi, Maegan TuckerWed, 11 Ma💻 cs

Real-Time Neural Video Compression with Unified Intra and Inter Coding

Este trabajo presenta un marco de compresión de video neuronal en tiempo real que unifica la codificación intra e inter en un único modelo adaptativo, superando las limitaciones de propagación de errores y manejo de contenido nuevo de los métodos anteriores para lograr una reducción del 12,1% en la tasa BD-rate con rendimiento en tiempo real.

Hui Xiang, Yifan Bian, Li Li, Jingran Wu, Xianguo Zhang, Dong LiuWed, 11 Ma💻 cs

Revisiting Replanning from Scratch: Real-Time Incremental Planning with Fast Almost-Surely Asymptotically Optimal Planners

Este artículo demuestra que la planificación incremental reactiva puede resolverse de manera más eficiente mediante una serie de problemas independientes utilizando algoritmos de planificación casi-asintóticamente óptimos (ASAO), como EIT* y AORRTC, los cuales encuentran planes globales consistentes en entornos cambiantes sin necesidad de reutilizar explícitamente planes anteriores.

Mitchell E. C. Sabbadini, Andrew H. Liu, Joseph Ruan, Tyler S. Wilson, Zachary Kingston, Jonathan D. GammellWed, 11 Ma💻 cs

Proper Body Landmark Subset Enables More Accurate and 5X Faster Recognition of Isolated Signs in LIBRAS

Este artículo demuestra que la selección estratégica de un subconjunto específico de hitos corporales, combinada con técnicas de imputación, permite reconocer signos aislados de la LIBRAS con una precisión comparable o superior a los métodos actuales mientras reduce el tiempo de procesamiento en más de cinco veces.

Daniele L. V. dos Santos, Thiago B. Pereira, Carlos Eduardo G. R. Alves, Richard J. M. G. Tello, Francisco de A. Boldt, Thiago M. PaixãoWed, 11 Ma💻 cs

EgoMI: Learning Active Vision and Whole-Body Manipulation from Egocentric Human Demonstrations

El artículo presenta EgoMI, un marco que supera la brecha de encarnación en el aprendizaje por imitación al capturar trayectorias sincronizadas de manos y cabeza activa de demostraciones humanas, permitiendo a robots semihumanoides replicar estrategias de fijación visual dinámica mediante una política aumentada con memoria para lograr una manipulación robusta.

Justin Yu, Yide Shentu, Di Wu, Pieter Abbeel, Ken Goldberg, Philipp WuWed, 11 Ma💻 cs

SPAN: Spatial-Projection Alignment for Monocular 3D Object Detection

El artículo presenta SPAN, un nuevo enfoque de alineación de proyección espacial que mejora la detección 3D monocular al imponer restricciones espaciales globales y de proyección 2D-3D para corregir la inconsistencia geométrica inherente a los paradigmas de predicción desacoplada, logrando así un rendimiento superior mediante una estrategia de aprendizaje jerárquico.

Yifan Wang, Yian Zhao, Fanqi Pu, Xiaochen Yang, Yang Tang, Xi Chen, Wenming YangWed, 11 Ma💻 cs

V-Attack: Targeting Disentangled Value Features for Controllable Adversarial Attacks on LVLMs

El artículo presenta V-Attack, un método novedoso que logra ataques adversarios controlables y precisos en Modelos Grandes de Visión y Lenguaje (LVLM) al manipular las características de valor (V) desentrelazadas en lugar de las representaciones de parches enredadas, logrando una tasa de éxito de ataque un 36% superior a los métodos existentes.

Sen Nie, Jie Zhang, Jianxin Yan, Shiguang Shan, Xilin ChenWed, 11 Ma💻 cs

Bootstrap Dynamic-Aware 3D Visual Representation for Scalable Robot Learning

El artículo presenta AFRO, un marco de aprendizaje auto-supervisado que genera representaciones 3D conscientes de la dinámica mediante un proceso difusivo y la modelación conjunta de dinámicas directas e inversas, logrando un rendimiento superior en tareas de manipulación robótica sin necesidad de supervisión de acciones o reconstrucción geométrica explícita.

Qiwei Liang, Boyang Cai, Minghao Lai, Sitong Zhuang, Tao Lin, Yan Qin, Yixuan Ye, Jiaming Liang, Renjing XuWed, 11 Ma💻 cs

AVGGT: Rethinking Global Attention for Accelerating VGGT

Este artículo presenta AVGGT, un método de aceleración sin entrenamiento que analiza y reestructura la atención global en modelos como VGGT y π3\pi^3 mediante la conversión de capas tempranas y el muestreo de tokens, logrando aceleraciones de inferencia de hasta 10 veces en secuencias largas sin sacrificar la precisión.

Xianbing Sun, Zhikai Zhu, Zhengyu Lou, Bo Yang, Jinyang Tang, Liqing Zhang, He Wang, Jianfu ZhangWed, 11 Ma💻 cs