Published
2026-01-06
Section
Articles
How to Cite
双路径优化的 HiPAMA 发音评估模型
张 明雨
郑州航空工业管理学院 计算机学院
赵 学民
郑州航空工业管理学院 计算机学院
DOI: https://doi.org/10.59429/kxjsyy.v2i6.12226
Keywords: 发音评估;门控循环单元;注意力机制
Abstract
发音评估在计算机辅助语言学习中具有关键作用,其动态特征感知与多粒度分析能力直接影响着评估结果的 准确性。HiPAMA 模型在多粒度发音评估中有一定的优势,但存在单词重读音感知偏差及语句完整性评估维度缺失 等问题。通过解构其分层注意力架构,提出了引入双向门控循环单元和多尺度动态注意力机制的双路径优化方案, 通过遗忘门与更新门双向的协同作用强化发音连续性建模提升重音边界识别精度;采用可学习权重分配的多尺度动 态注意力机制实现特征通道与时间维度的自适应聚焦。在 speachocean762 基准数据集上的对比实验显示,优化的模 型在推理速度保持原有水平的基础上,单词重读音评估指标与语句完整性评估指标上分别实现 4.8% 和 14.5% 的显著 提升。该方案为智能语音评估系统提供了更鲁棒的特征提取框架,尤其在非母语学习者的韵律纠错场景中展现出独 特优势。
References
[1] Lin B, Wang L, Feng X, et al. Automatic Scoring at Multi-Granularity for L2 Pronunciation[C]//Interspeech. 2020: 3022-3026.
[2] Shi J, Huo N, Jin Q. Context-aware goodness of pronunciation for computer-assisted pronunciation training[J]. arXiv preprint arXiv:2008.08647, 2020.
[3] 赵倾国. 基于 DIVA 模型的英语辅音发音错误自动校正方法[J]. 信息技术,2023, (12): 162-166+171.
[4] Leung W K, Liu X, Meng H. CNN-RNNCTC based end-to-end mispronunciation detection and diagnosis[C]//ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2019: 8132-8136.
[5] Do H, Kim Y, Lee G G. Hierarchical pronunciation assessment with multi-aspect attention[C]//ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2023: 1-5.