文字转语音大师——基于百度 AI 语音识别接口

博客分类: 灵感记录 阅读次数: 102 次

文字转语音大师——基于百度 AI 语音识别接口

项目来源

目前从事的 VR 内容开发工作,经常用到 文字转语音 的功能。需要有一款软件能够方便的实现 文字转语音 的功能,并且声音能够尽可能接近真实人声,没有僵硬的机器声。

目前网上虽然也有很多 TTS 的软件,但是鱼龙混杂,曾经有同学在下载安装的过程中不小心中招, 被安装了全套的垃圾广告软件,确实有点恶心。

于是我决定自己定制一款 文字转语音 的软件,一方面,自己制作的东西安全可靠,没有广告病毒骚扰;另一方面,自己制作也锻炼了自己的编程开发能力。

预期目标

希望制作一款自己的 文字转语音助手 软件,一键将文字生成接近真实人声的语音, 从而实现为课件和视频配音讲解的效果。

功能需求

界面设计图

文本区 :在此区域输入需要转换成语音的文字。
参数设置 :可以设置合成语音的参数,包括数字发音方式、语速、音量三个参数。
选择文件夹 :可以自定义设置文件保存的路径,默认为软件安装路径。
试听 :可以在生成语音文件之前试听,挑选满意的效果。
生成音频 :可以在设置好的路径下生成音频文件,命名规则为 Smart_年月日_时分, 如 Smart_20180911_2230
打开文件夹 :打开生成的音频所在文件夹位置。
发音人选择 :多种发音人可供选择。

百度语音 API 基本参数

基于百度 AI 语音 API (C# SDK),使用 Unity + C# 进行开发。

有四种声音可以选择:

有三个参数可以调节:

科大讯飞语音 API 基本参数

发音人选择

引擎 发音人 音色 语言 参数配置
InterPhonic 小燕 青年女声 中英文(普通话) vcn=xiaoyan(默认)
InterPhonic 小宇 青年男声 中英文(普通话) vcn=xiaoyu
InterPhonic 凯瑟琳 青年女声 英语 vcn=Catherine
InterPhonic 亨利 青年男声 英语 vcn=henry
ViviVoice 玛丽 青年女声 英语 vcn=vimary
ViviVoice 小研 青年女声 中英文(普通话) vcn=vixy
ViviVoice 小琪 青年女声 中英文(普通话) vcn=vixq
ViviVoice 小峰 青年男声 中英文(普通话) vcn=vixf
ViviVoice 小梅 青年女声 中英文(粤语) vcn=vixm
ViviVoice 小莉 青年女声 中英文(台普) vcn=vixl
ViviVoice 小蓉 青年女声 汉语(四川话) vcn=vixr
ViviVoice 小芸 青年女声 汉语(东北话) vcn=vixyun
ViviVoice 小坤 青年男声 汉语(河南话) vcn=vixk
ViviVoice 小强 青年男声 汉语(湖南话) vcn=vixqa
ViviVoice 小莹 青年女声 汉语(陕西话) vcn=vixying
ViviVoice 楠楠 童年女声 汉语(普通话) vcn=vinn
ViviVoice 小新 童年男声 汉语(普通话) vcn=vixx
ViviVoice 老孙 老年男声 汉语(普通话) vcn=vils
Aisound 嘉嘉 青年女声 汉语(普通话) vcn=jiajia
引擎 发音人 音色 语言 参数配置
MultipleTTS 玛丽安 青年女声 法语 vcn=Mariane
MultipleTTS 古丽 青年女声 维吾尔语 vcn=Guli
MultipleTTS 阿拉本 青年女声 俄罗斯语 vcn=Allabent
MultipleTTS 加芙列拉 青年女声 西班牙语 vcn=Gabriela
MultipleTTS 艾伯哈 青年女声 印地语 vcn=Abha
MultipleTTS 小云 青年女声 越南语 vcn=XiaoYun

声音特征设置

语速 参数配置
最慢 spd = x-slow
较慢 spd = slow
正常 spd = medium(默认)
较快 spd = fast
最快 spd = x-fast
音量 参数配置
最低 vol = x-soft
较低 vol = soft
正常 vol = medium(默认)
较高 vol = loud
最高 vol = x-loud
背景音乐 参数配置
bgs = 0(默认)
梁祝 bgs = 1
数字发音 参数配置
数值优先 rdn = 0(默认)
完全数值 rdn = 1
完全字符串 rdn = 2
字符串优先 rdn = 3

文本类型选择

文本类型 参数配置
普通文本 ttp = text(默认)
ssml ttp = ssml