Text-only adaptation in LLM-based ASR through text denoising

Diese Arbeit stellt eine leichte Text-only-Anpassungsmethode für LLM-basierte Spracherkennung vor, die das Problem als Textentrauschung formuliert, um die Domänenanpassung zu ermöglichen, ohne die kritische Ausrichtung zwischen Sprach- und Textmodalität zu stören.

Andrés Carofilis, Sergio Burdisso, Esaú Villatoro-Tello, Shashi Kumar, Kadri Hacioglu, Srikanth Madikeri, Pradeep Rangappa, Manjunath K E, Petr Motlicek, Shankar Venkatesan, Andreas StolckeFri, 13 Ma⚡ eess

Evaluating Zero-Shot and One-Shot Adaptation of Small Language Models in Leader-Follower Interaction

Die Studie zeigt, dass feinabgestimmte kleine Sprachmodelle (SLMs) eine effiziente und genaue Lösung für die Echtzeit-Rollenklassifizierung in der Mensch-Roboter-Interaktion darstellen, wobei jedoch eine Leistungsverschlechterung bei One-Shot-Modi aufgrund von Kontextlängenbeschränkungen festgestellt wurde.

Rafael R. Baptista, André de Lima Salgado, Ricardo V. Godoy, Marcelo Becker, Thiago Boaventura, Gustavo J. G. LahrFri, 13 Ma⚡ eess

Scalable and Convergent Generalized Power Iteration Precoding for Massive MIMO Systems

Diese Arbeit stellt ein skalierbares und konvergentes verallgemeinertes Power-Iteration-Präkodierungsframework (GPIP) für Massive-MIMO-Systeme vor, das die Komplexität durch die Ausnutzung niedrigdimensionaler Unterräume reduziert und sowohl bei perfekter als auch bei unvollständiger Kanalinformation am Sender eine hohe spektrale Effizienz mit geringem Rechenaufwand gewährleistet.

Seunghyeong Yoo, Mintaek Oh, Jeonghun Park, Namyoon Lee, Jinseok ChoiFri, 13 Ma⚡ eess

TATIC: Task-Aware Temporal Learning for Human Intent Inference from Physical Corrections in Human-Robot Collaboration

Die Arbeit stellt TATIC vor, ein einheitliches Framework, das durch die Kombination von Drehmoment-basierter Kraftschätzung und einem aufgabenbewussten temporalen Faltungsnetzwerk (TCN) in der Mensch-Roboter-Kollaboration aus kurzen physischen Korrekturen sowohl diskrete Aufgabenabsichten als auch kontinuierliche Bewegungsparameter ableitet, um eine robuste und adaptive Roboterkontrolle zu ermöglichen.

Jiurun Song, Xiao Liang, Minghui ZhengFri, 13 Ma⚡ eess

V2A-DPO: Omni-Preference Optimization for Video-to-Audio Generation

Die Arbeit stellt V2A-DPO vor, ein neuartiges Framework zur direkten Präferenzoptimierung für flussbasierte Video-zu-Audio-Generierungsmodelle, das durch ein umfassendes AudioScore-Bewertungssystem, eine automatisierte Datengenerierungspipeline und eine Curriculum-Learning-Strategie die menschlichen Präferenzen in Bezug auf semantische Konsistenz, zeitliche Ausrichtung und klangliche Qualität verbessert und damit den aktuellen Stand der Technik übertrifft.

Nolan Chan, Timmy Gang, Yongqian Wang, Yuzhe Liang, Dingdong WangFri, 13 Ma⚡ eess

Multimodal Self-Attention Network with Temporal Alignment for Audio-Visual Emotion Recognition

Diese Arbeit stellt ein Transformer-basiertes Framework für die audio-visuelle Emotionserkennung vor, das mithilfe von temporär ausgerichteten rotierenden Positionseingebettungen (TaRoPE) und einem Cross-Temporal Matching-Verlust die zeitliche Ausrichtung heterogener Modalitäten verbessert und so die Leistung gegenüber bestehenden Baselines steigert.

Inyong Koo, yeeun Seong, Minseok Son, Jaehyuk Jang, Changick KimFri, 13 Ma⚡ eess

Can LLMs Help Localize Fake Words in Partially Fake Speech?

Die Studie untersucht, ob ein auf Text trainiertes Sprachmodell zur Lokalisierung gefälschter Wörter in teilweise manipulierter Sprache eingesetzt werden kann, und stellt fest, dass das Modell zwar in-domäneneffektiv ist, jedoch zu stark auf spezifische Trainingsmuster angewiesen ist, was die Verallgemeinerung auf unbekannte Bearbeitungsstile erschwert.

Lin Zhang, Thomas Thebaud, Zexin Cai, Sanjeev Khudanpur, Daniel Povey, Leibny Paola García-Perera, Matthew Wiesner, Nicholas AndrewsFri, 13 Ma⚡ eess

Cough activity detection for automatic tuberculosis screening

Die Studie zeigt, dass ein auf XLS-R basierendes Modell mit nur den ersten drei Schichten die Erkennung von Hustenereignissen in Audiodaten für die Tuberkulose-Screening-Programme in Südafrika und Uganda mit hoher Präzision ermöglicht und dabei rechenintensive Alternativen wie den Audio Spectrogram Transformer übertrifft.

Joshua Jansen van Vüren, Devendra Singh Parihar, Daphne Naidoo, Kimsey Zajac, Willy Ssengooba, Grant Theron, Thomas NieslerFri, 13 Ma⚡ eess

Performance Bounds and Robust Filtering for LEO Inter-Satellite Synchronization under Cross-Epoch Doppler Coupling

Diese Arbeit leitet analytische untere Schranken für die Schätzgenauigkeit bei der Synchronisation von LEO-Satelliten unter Berücksichtigung der gekoppelten Doppler-Effekte ab und stellt einen hybriden robusten Filter vor, der durch die Kombination von Hard-Gating und Huber-Schätzung die Phasenfehler im Vergleich zu herkömmlichen Methoden signifikant reduziert.

Haofan Dong, Houtianfu Wang, Hanlin Cai, Ozgur B. AkanFri, 13 Ma⚡ eess

Distributed Kalman--Consensus Filtering with Adaptive Uncertainty Weighting for Multi-Object Tracking in Mobile Robot Networks

Diese Arbeit stellt eine verteilte Kalman-Konsens-Filterung für die Mehrzielverfolgung in mobilen Roboternetzwerken vor, die durch eine adaptive Unsicherheitsgewichtung und eine Rahmenausrichtungsmethode die Fusion heterogener Lokalisierungsdaten verbessert und so die Tracking-Genauigkeit trotz lokaler Drifts erhöht.

Niusha Khosravi, Rodrigo Ventura, Meysam BasiriFri, 13 Ma⚡ eess