Automated Coral Spawn Monitoring for Reef Restoration: The Coral Spawn and Larvae Imaging Camera System (CSLICS)

Este artigo apresenta o Sistema de Câmera de Imagem de Desova e Larvas de Coral (CSLICS), uma solução automatizada de baixo custo que utiliza visão computacional para contar desovas de coral com precisão, reduzindo drasticamente o trabalho manual e facilitando a restauração de recifes em grande escala.

Dorian Tsai, Christopher A. Brunner, Riki Lamont, F. Mikaela Nordborg, Andrea Severati, Java Terry, Karen Jackel, Matthew Dunbabin, Tobias Fischer, Scarlett RaineWed, 11 Ma💻 cs

Mapping Historic Urban Footprints in France: Balancing Quality, Scalability and AI Techniques

Este estudo apresenta um pipeline de aprendizado profundo escalável baseado em uma abordagem U-Net de dupla passagem para extrair o primeiro conjunto de dados nacional de pegada urbana da França (1925-1950) a partir de mapas históricos Scan Histo, superando desafios de ruído e complexidade estilística para alcançar uma precisão global de 73% e liberar os dados e códigos resultantes para pesquisas futuras.

Walid Rabehi, Marion Le Texier, Rémi LemoyWed, 11 Ma💻 cs

Connectivity Maintenance and Recovery for Multi-Robot Motion Planning

Este artigo propõe um algoritmo de planejamento de movimento em tempo real baseado em curvas de Bézier e funções de barreira de controle (MPC-CLF-CBF) que garante a conectividade de frotas de robôs em ambientes com obstáculos, permitindo a recuperação de conexões perdidas e melhorando significativamente a taxa de sucesso na navegação, conforme validado em simulações e experimentos físicos com oito quadricópteros Crazyflie.

Yutong Wang, Lishuo Pan, Yichun Qu, Tengxiang Wang, Nora AyanianWed, 11 Ma💻 cs

LARA-Gen: Enabling Continuous Emotion Control for Music Generation Models via Latent Affective Representation Alignment

O artigo apresenta o LARA-Gen, um novo framework que permite o controle contínuo e de alta granularidade das emoções na geração de música, alinhando representações latentes afetivas e utilizando um espaço de valência-ativação para superar as limitações dos prompts baseados em texto, resultando em uma aderência emocional e qualidade musical superiores às abordagens existentes.

Jiahao Mei, Xuenan Xu, Zeyu Xie, Zihao Zheng, Ye Tao, Yue Ding, Mengyue WuWed, 11 Ma💻 cs

Real-Time Neural Video Compression with Unified Intra and Inter Coding

Este artigo apresenta um novo framework de compressão de vídeo neural em tempo real que unifica codificação intra e inter em um único modelo adaptativo, superando as limitações de propagação de erro e gerência de novos conteúdos para alcançar uma redução média de 12,1% na taxa BD em comparação com o estado da arte DCVC-RT, mantendo simultaneamente desempenho de codificação e decodificação em tempo real.

Hui Xiang, Yifan Bian, Li Li, Jingran Wu, Xianguo Zhang, Dong LiuWed, 11 Ma💻 cs

Revisiting Replanning from Scratch: Real-Time Incremental Planning with Fast Almost-Surely Asymptotically Optimal Planners

Este artigo desafia a premissa de que o replanejamento reativo exige a atualização de planos existentes, demonstrando que algoritmos de planejamento quase certamente assintoticamente ótimos (ASAO), como EIT* e AORRTC, podem resolver problemas incrementais de forma mais eficiente ao tratar cada consulta como um problema independente, encontrando trajetórias globais consistentes e de alta qualidade em ambientes dinâmicos sem a necessidade de reutilização explícita de planos.

Mitchell E. C. Sabbadini, Andrew H. Liu, Joseph Ruan, Tyler S. Wilson, Zachary Kingston, Jonathan D. GammellWed, 11 Ma💻 cs

Proper Body Landmark Subset Enables More Accurate and 5X Faster Recognition of Isolated Signs in LIBRAS

Este artigo demonstra que a seleção de um subconjunto adequado de marcos corporais, combinada com técnicas de imputação por splines e o uso do MediaPipe, permite reconhecer sinais isolados da LIBRAS com precisão superior ou comparável aos métodos atuais, reduzindo o tempo de processamento em mais de 5 vezes.

Daniele L. V. dos Santos, Thiago B. Pereira, Carlos Eduardo G. R. Alves, Richard J. M. G. Tello, Francisco de A. Boldt, Thiago M. PaixãoWed, 11 Ma💻 cs

SPAN: Spatial-Projection Alignment for Monocular 3D Object Detection

O artigo propõe o SPAN (Spatial-Projection Alignment), um novo método para detecção 3D monocular que supera as limitações de consistência geométrica dos detectores existentes ao alinhar espacialmente as caixas 3D previstas com os verdadeiros e garantir que sua projeção 2D corresponda às caixas de detecção na imagem, resultando em melhor desempenho e estabilidade de treinamento.

Yifan Wang, Yian Zhao, Fanqi Pu, Xiaochen Yang, Yang Tang, Xi Chen, Wenming YangWed, 11 Ma💻 cs

V-Attack: Targeting Disentangled Value Features for Controllable Adversarial Attacks on LVLMs

O artigo propõe o V-Attack, um novo método de ataque adversarial para Modelos Visuais-Linguísticos de Grande Escala (LVLMs) que supera as limitações de controle semântico existentes ao manipular diretamente as características de valor (V) desentrelaçadas, resultando em uma taxa de sucesso de ataque significativamente maior ao permitir a alteração precisa de conceitos locais nas imagens.

Sen Nie, Jie Zhang, Jianxin Yan, Shiguang Shan, Xilin ChenWed, 11 Ma💻 cs

Bootstrap Dynamic-Aware 3D Visual Representation for Scalable Robot Learning

O artigo apresenta o AFRO, um framework de aprendizado auto-supervisionado que gera representações 3D dinâmicas e conscientes de ações para robótica, superando métodos existentes ao modelar transições causais sem necessidade de supervisão por reconstrução geométrica ou dados de ação, resultando em taxas de sucesso significativamente maiores em tarefas de manipulação.

Qiwei Liang, Boyang Cai, Minghao Lai, Sitong Zhuang, Tao Lin, Yan Qin, Yixuan Ye, Jiaming Liang, Renjing XuWed, 11 Ma💻 cs

Beware of the Classical Benchmark Instances for the Traveling Salesman Problem with Time Windows

O artigo demonstra que um método exato simples resolve a maioria das instâncias clássicas de benchmark do Problema do Caixeiro Viajante com Janelas de Tempo em menos de dez segundos, concluindo que essas instâncias não são mais representativas para avaliação de desempenho e exigem cautela no desenho de conjuntos de treinamento para algoritmos de aprendizado de máquina.

Francisco J. SoulignacWed, 11 Ma💻 cs

AVGGT: Rethinking Global Attention for Accelerating VGGT

O artigo AVGGT propõe um esquema de aceleração sem treinamento que, baseado na análise das funções das camadas de atenção global, converte camadas iniciais em atenção de quadro e subsampleia as camadas finais, resultando em ganhos de velocidade de 2x a 10x em modelos como VGGT e π3\pi^3 sem comprometer a precisão em cenários de visão 3D multi-visão densa.

Xianbing Sun, Zhikai Zhu, Zhengyu Lou, Bo Yang, Jinyang Tang, Liqing Zhang, He Wang, Jianfu ZhangWed, 11 Ma💻 cs