语音转文字服务
本系统支持多种语音转文字服务,包括:
- 阿里云智能语音交互(默认)
- 火山引擎大模型语音识别(推荐,识别准确率更高)
- 讯飞语音识别
要使用语音功能,有以下基本需求:
- 系统需要一个 HTTPS 的域名
- 部署本系统的服务器需要能够访问到对应的语音服务 API
如何修改成自己的阿里云服务
- 在阿里云的智能语音交互中新增一个项目。获得appkey。
- 开启阿里云的api服务,获取accessKey和accessKeySecret(和智能语音交互无关,是一个全局业务)
系统全局参数中配置如下:
{
"thirdParty": {
"alioss": {
"accessKeyId": "xxx",
"accessKeySecret": "xx"
}
},
"voice": {
"appkey": "xxx",
"vocabulary": "可选。热词项目id"
}
}
如何提升语音识别率
可以在阿里云的项目中配置业务热词。配置完成后,有一个热词ID。在系统全局参数中进行配置即可。见上文。
火山引擎大模型语音识别
火山引擎提供基于大模型的语音识别服务,具有更高的识别准确率和更强大的功能。
API 版本
本系统使用 v3 大模型录音文件极速版识别API,主要特性包括:
- ✅ 大模型技术:使用先进的语音识别大模型,准确率更高
- ✅ 长音频支持:最长支持 5 小时音频文件
- ✅ 准实时返回:准实时返回识别结果
- ✅ 智能功能:内置标点、顺滑、数字格式化、智能分句、说话人识别
- ✅ 详细日志:完整的请求和响应日志,便于调试
配置步骤
1. 获取凭证
访问 火山引擎控制台:
- 开通豆包语音服务
- 创建应用
- 获取
appKey和accessKey
2. 配置系统参数
在系统全局参数中配置如下:
{
"voice": {
"platform": "volcengine",
"appKey": "your_app_key",
"accessKey": "your_access_key",
"resourceId": "your_resource_id", // 可选
"uid": "default_user" // 可选
}
}
参考资料
切换成讯飞
全局配置项加入
"voice":{"platform":"xfyun"}
注:科大讯飞API暂时使用的是我司体验key。如需正式版本使用,暂时先请联系技术支持人员。