BaltiVoice: A Speech Corpus and Fine-tuned Whisper ASR System for the Balti Language
本文介绍了 BaltiVoice,这是首个公开可用的巴尔蒂语语音语料库以及经过微调的 Whisper ASR 模型,该模型将基于 Mozilla Common Voice 的 16.8 小时数据集的词错误率从 182.18% 的零样本基准显著降低至 30.07%。
原作者已查阅我们通俗解释的论文。
本页收录的每篇论文,都有至少一位原作者阅读并参与了我们的通俗解释——或是确认其准确无误,或是提出修正意见并由我们随后采纳。作者的确认并不等同于对每一句话的正式背书,但说明该解释已经过论文作者的审视。
568 篇论文已由作者审阅 · 91–100 / 568
本文介绍了 BaltiVoice,这是首个公开可用的巴尔蒂语语音语料库以及经过微调的 Whisper ASR 模型,该模型将基于 Mozilla Common Voice 的 16.8 小时数据集的词错误率从 182.18% 的零样本基准显著降低至 30.07%。
本文介绍了 FFR,这是首个通过采用序数竞争优度、分层阶梯架构和层级预测,将具有生物学合理性的前向-前向算法应用于回归任务的框架,在实现接近反向传播准确度的同时,显著降低了内存和计算成本。
SPOQ 是一种创新的多智能体软件工程方法论,它集成了基于波形的拓扑调度、双重验证门控以及人类在环监督,旨在显著减少缺陷、消除规划周期,并在保持不同代码库高质量的同时实现大幅度的提速。
本文通过分析 150 多个数据集和 200 项研究,旨在通过确定关键实施障碍、引入差距优先级框架并提供数据集选择与模型部署的可操作指南,来弥合 AI 驱动的网络防御领域中理论研究与实际部署之间的鸿沟。
本文认为,通过阅读并重构代码以创建一个极简且统一的 Python 工具包(EZR.py),可以发现简单的轻量级算法在表格软件工程优化任务中,其表现能够超越复杂的尖端工具,同时仅需显著更少的数据和计算资源。
本文引入了一种无需训练、即插即用的“漂移门控”(drift-gating)机制,该机制利用对抗样本在高噪声扰动下表现出的高度不稳定性来选择性地触发测试时防御,从而在不降低洁净准确率的情况下,显著改善了视觉语言模型的洁净-鲁棒性权衡。
本文提出了用于精细农业采摘的类鱼鳍结构(Fin-Ray-inspired)软体抓取器手指的最优设计与解析建模,利用有限刚性单元法实现了高精度力控制,并通过 ANSYS 仿真与实验测试进行了验证。
本文展示了如何将啤酒瓶的声学共振建模为一维驱动阻尼振子,并建议使用傅里叶方法来高效地收集用于本科实验中参数拟合所需的数据。
该论文介绍了 d2,一种用于掩码扩散语言模型的创新强化学习框架,该框架采用了专门的轨迹似然估计器(d2-AnyOrder 和 d2-StepMerge),显著增强了在逻辑和数学基准测试上的推理能力,并取得了新的最先进性能。
本文批判了将熵定义为量子态对数的传统玻尔兹曼定义,转而提出熵源于亚量子过程,并在数学上将其表达为宏观系统最大状态实现次数的对数与给定观测周期内其量子态出现频率的比值。