Scaling Self-Supervised Speech Models Uncovers Deep Linguistic Relationships: Evidence from the Pacific Cluster

Het onderzoek toont aan dat het opschalen van zelftoezichtende spraakmodellen naar 4.017 talen een niet-lineaire verschuiving teweegbrengt die diepgaande genealogische relaties en complexe taalcontacten blootlegt, met name door de vorming van een robuust macro-cluster in de Stille Oceaan dat gedeelde akoestische kenmerken vastlegt.

Minu Kim, Hoirin Kim, David R. MortensenTue, 10 Ma💬 cs.CL

Seeing the Context: Rich Visual Context-Aware Speech Recognition via Multimodal Reasoning

Dit paper introduceert VASR, een nieuw model voor contextbewuste spraakherkenning dat gebruikmaakt van Audio-Visual Chain-of-Thought om rijke visuele context te redeneren en zo de prestaties te verbeteren door het probleem van eenzijdige modale dominantie aan te pakken.

Wenjie Tian, Mingchen Shao, Bingshen Mu, Xuelong Geng, Chengyou Wang, Yujie Liao, Zhixian Zhao, Ziyu Zhang, Jingbin Hu, Mengqi Wei, Lei XieTue, 10 Ma💻 cs

Disentangling Reasoning in Large Audio-Language Models for Ambiguous Emotion Prediction

Dit artikel introduceert een raamwerk voor grote audio-taalmodellen dat dubbelzinnige spraakemotieherkenning behandelt als een distributief redeneerprobleem door een ambiguiteitsbewust doel en gestructureerde chain-of-thought-supervisie te combineren, wat leidt tot consistente prestatieverbeteringen op benchmarkdatasets.

Xiaofeng Yu, Jiaheng Dong, Jean Honorio, Abhirup Ghosh, Hong Jia, Ting DangTue, 10 Ma💻 cs