Text-only adaptation in LLM-based ASR through text denoising

Este artigo apresenta um método leve de adaptação apenas com texto para sistemas de reconhecimento automático de fala baseados em grandes modelos de linguagem, que formula o processo como uma tarefa de remoção de ruído de texto para adaptar o modelo a novos domínios sem quebrar o alinhamento entre as modalidades de fala e texto, alcançando melhorias significativas em relação aos métodos existentes.

Andrés Carofilis, Sergio Burdisso, Esaú Villatoro-Tello, Shashi Kumar, Kadri Hacioglu, Srikanth Madikeri, Pradeep Rangappa, Manjunath K E, Petr Motlicek, Shankar Venkatesan, Andreas StolckeFri, 13 Ma⚡ eess

[b]=[d]-[t]+[p]: Self-supervised Speech Models Discover Phonological Vector Arithmetic

Este artigo demonstra que modelos de fala auto-supervisionados codificam informações fonéticas através de vetores composicionais e interpretáveis que permitem realizar aritmética vetorial fonológica, onde operações lineares como adição e escalonamento capturam com precisão a realização acústica contínua de características como a sonoridade.

Kwanghee Choi, Eunjung Yeo, Cheol Jun Cho, David Harwath, David R. MortensenFri, 13 Ma⚡ eess

Evaluating Zero-Shot and One-Shot Adaptation of Small Language Models in Leader-Follower Interaction

Este artigo avalia a adaptação de modelos de linguagem pequenos (SLMs) para a classificação de papéis em interações líder-seguidor, demonstrando que o ajuste fino zero-shot do modelo Qwen2.5-0.5B oferece um desempenho robusto e de baixa latência para dispositivos de borda, embora enfrente desafios de degradação em modos de um único exemplo devido a limitações de capacidade arquitetural.

Rafael R. Baptista, André de Lima Salgado, Ricardo V. Godoy, Marcelo Becker, Thiago Boaventura, Gustavo J. G. LahrFri, 13 Ma⚡ eess

Scalable and Convergent Generalized Power Iteration Precoding for Massive MIMO Systems

Este artigo propõe um framework de pré-codificação escalável e convergente baseado em iteração de potência generalizada (GPIP) para sistemas MIMO massivos, que reduz a complexidade computacional ao reformular o problema de beamforming em um espaço de baixa dimensão dependente do número de usuários, garantindo desempenho robusto tanto com informação de canal perfeita quanto imperfeita.

Seunghyeong Yoo, Mintaek Oh, Jeonghun Park, Namyoon Lee, Jinseok ChoiFri, 13 Ma⚡ eess

DRAFTO: Decoupled Reduced-space and Adaptive Feasibility-repair Trajectory Optimization for Robotic Manipulators

Este artigo apresenta o DRAFTO, um novo algoritmo de otimização de trajetória para manipuladores robóticos que combina uma descida de Gauss-Newton em espaço reduzido com reparo adaptativo de viabilidade via programação quadrática, demonstrando alta eficiência e confiabilidade em diversos cenários de planejamento de movimento.

Yichang Feng, Xiao Liang, Minghui ZhengFri, 13 Ma⚡ eess

TATIC: Task-Aware Temporal Learning for Human Intent Inference from Physical Corrections in Human-Robot Collaboration

O artigo apresenta o TATIC, um framework unificado que utiliza estimativa de força de contato baseada em torque e uma rede convolucional temporal orientada a tarefas para inferir simultaneamente a intenção semântica de alto nível e os parâmetros de movimento de baixo nível a partir de correções físicas breves em colaboração humano-robô, permitindo adaptações robóticas robustas e validadas em hardware.

Jiurun Song, Xiao Liang, Minghui ZhengFri, 13 Ma⚡ eess

V2A-DPO: Omni-Preference Optimization for Video-to-Audio Generation

O artigo apresenta o V2A-DPO, um novo framework de Otimização Direta de Preferências (DPO) adaptado para modelos de geração de áudio a partir de vídeo baseados em fluxo, que integra um sistema de pontuação de preferência humana (AudioScore), um pipeline automatizado para geração de dados de preferência e uma estratégia de aprendizado de currículo, resultando em desempenho superior e estado da arte em benchmarks como o VGGSound.

Nolan Chan, Timmy Gang, Yongqian Wang, Yuzhe Liang, Dingdong WangFri, 13 Ma⚡ eess

Multimodal Self-Attention Network with Temporal Alignment for Audio-Visual Emotion Recognition

Este artigo propõe um framework baseado em Transformer para reconhecimento de emoções áudio-visuais que utiliza atenção multimodal, incorporando Embeddings de Posição Rotativa Alinhados Temporalmente (TaRoPE) e uma função de perda de Correspondência Cross-Temporal (CTM) para resolver desalinhamentos de taxa de quadros e melhorar a fusão de características entre modalidades.

Inyong Koo, yeeun Seong, Minseok Son, Jaehyuk Jang, Changick KimFri, 13 Ma⚡ eess

Can LLMs Help Localize Fake Words in Partially Fake Speech?

Este artigo investiga o uso de um modelo de linguagem treinado em fala para localizar palavras falsas em discursos parcialmente editados, descobrindo que o modelo depende excessivamente de padrões de edição específicos do conjunto de dados, o que levanta desafios para a generalização em cenários não vistos.

Lin Zhang, Thomas Thebaud, Zexin Cai, Sanjeev Khudanpur, Daniel Povey, Leibny Paola García-Perera, Matthew Wiesner, Nicholas AndrewsFri, 13 Ma⚡ eess

Cough activity detection for automatic tuberculosis screening

O artigo propõe o uso de um modelo pré-treinado XLS-R, otimizado com apenas suas três primeiras camadas para eficiência computacional, que supera outras arquiteturas na detecção automática de segmentos de tosse em gravações de pacientes com suspeita de tuberculose, viabilizando assim ferramentas de triagem escaláveis para dispositivos móveis.

Joshua Jansen van Vüren, Devendra Singh Parihar, Daphne Naidoo, Kimsey Zajac, Willy Ssengooba, Grant Theron, Thomas NieslerFri, 13 Ma⚡ eess

Self-Speculative Decoding for LLM-based ASR with CTC Encoder Drafts

Os autores propõem uma técnica de decodificação especulativa que utiliza um codificador CTC como modelo de rascunho para acelerar a inferência e melhorar a precisão de sistemas de reconhecimento automático de fala baseados em LLMs, alcançando simultaneamente uma redução na taxa de erro de palavras e um aumento significativo na velocidade de processamento.

George Saon, Samuel Thomas, Takashi Fukuda, Tohru Nagano, Avihu Dekel, Luis LastrasFri, 13 Ma⚡ eess

Conduction-Diffusion in N-Dimensional settings as irreversible port-Hamiltonian systems

Este trabalho estende as formulações de sistemas port-Hamiltonianos irreversíveis (IPHS) unidimensionais para sistemas de parâmetros distribuídos controlados por fronteira em N dimensões, estabelecendo uma estrutura coerente e termodinamicamente consistente para modelar fenômenos de condução-difusão que preservam o balanço global de energia e caracterizam corretamente a produção de entropia.

Luis Mora, Yann Le Gorrec, Hector Ramirez, Denis MatignonFri, 13 Ma⚡ eess

Performance Bounds and Robust Filtering for LEO Inter-Satellite Synchronization under Cross-Epoch Doppler Coupling

Este artigo estabelece limites teóricos de desempenho e propõe um filtro híbrido robusto para a sincronização de satélites em órbita baixa, demonstrando que o acoplamento Doppler entre épocas é essencial para evitar incertezas ilimitadas e validando que a nova abordagem reduz significativamente os erros de fase em comparação com filtros Kalman padrão na presença de ruídos e anomalias.

Haofan Dong, Houtianfu Wang, Hanlin Cai, Ozgur B. AkanFri, 13 Ma⚡ eess

Distributed Kalman--Consensus Filtering with Adaptive Uncertainty Weighting for Multi-Object Tracking in Mobile Robot Networks

Este artigo apresenta uma implementação e avaliação de um Filtro de Kalman-Consenso Distribuído com ponderação adaptativa de incerteza para o rastreamento de múltiplos objetos em redes de robôs móveis, demonstrando que o mecanismo proposto protege as estimativas locais de dados inconsistentes e melhora a precisão do rastreamento, embora o desempenho do sistema permaneça limitado pela latência de comunicação.

Niusha Khosravi, Rodrigo Ventura, Meysam BasiriFri, 13 Ma⚡ eess

Hybrid eTFCE-GRF: Exact Cluster-Size Retrieval with Analytical p-Values for Voxel-Based Morphometry

O artigo apresenta o método híbrido eTFCE-GRF, que combina a estrutura union-find para recuperação exata do tamanho de clusters com inferência analítica baseada em campos aleatórios gaussianos, permitindo mapeamento estatístico de morfometria baseada em voxels com valores-p exatos e sem necessidade de testes de permutação, resultando em uma aceleração de até 75 vezes em comparação com métodos anteriores.

Don Yin, Hao Chen, Takeshi Miki, Boxing Liu, Enyu YangFri, 13 Ma⚡ eess