HierVST 是一种分层自适应零样本语音风格转换模型,它具备以下功能特点:
零样本语音风格转换:HierVST 可以在没有目标说话者语音数据的情况下,将一个新的说话者的语音风格转换为目标风格。这意味着即使没有目标说话者的语音样本,HierVST 也可以生成具有目标风格的语音。
分层自适应结构:HierVST 使用分层自适应生成器,逐步生成音高表示和波形音频,从而实现逐步转换语音的能力。这种结构让模型能够适应新的语音风格,并逐步进行转换。
自监督表示学习:HierVST 仅使用语音数据集进行训练,而无需使用文本转录。它采用了层次变分推断和自监督表示学习的方法,提高了模型在音频表示上的性能。
性能优于其他模型:在零样本语音风格转换场景中,HierVST 的实验结果表明其性能优于其他 VST 模型,如 AutoVC、VoiceMixer、DiffVC、Speech Resynthesis 和 YourTTS。
相关导航
暂无评论...