Skip to main content

语音转文字服务

本系统支持多种语音转文字服务,包括:

  • 阿里云智能语音交互(默认)
  • 火山引擎大模型语音识别(推荐,识别准确率更高)
  • 讯飞语音识别

要使用语音功能,有以下基本需求:

  1. 系统需要一个 HTTPS 的域名
  2. 部署本系统的服务器需要能够访问到对应的语音服务 API

如何修改成自己的阿里云服务

  1. 在阿里云的智能语音交互中新增一个项目。获得appkey。
  2. 开启阿里云的api服务,获取accessKey和accessKeySecret(和智能语音交互无关,是一个全局业务)

系统全局参数中配置如下:

{
"thirdParty": {
"alioss": {
"accessKeyId": "xxx",
"accessKeySecret": "xx"
}
},
"voice": {
"appkey": "xxx",
"vocabulary": "可选。热词项目id"
}
}

如何提升语音识别率

可以在阿里云的项目中配置业务热词。配置完成后,有一个热词ID。在系统全局参数中进行配置即可。见上文。

火山引擎大模型语音识别

火山引擎提供基于大模型的语音识别服务,具有更高的识别准确率和更强大的功能。

API 版本

本系统使用 v3 大模型录音文件极速版识别API,主要特性包括:

  • 大模型技术:使用先进的语音识别大模型,准确率更高
  • 长音频支持:最长支持 5 小时音频文件
  • 准实时返回:准实时返回识别结果
  • 智能功能:内置标点、顺滑、数字格式化、智能分句、说话人识别
  • 详细日志:完整的请求和响应日志,便于调试

配置步骤

1. 获取凭证

访问 火山引擎控制台

  1. 开通豆包语音服务
  2. 创建应用
  3. 获取 appKeyaccessKey

2. 配置系统参数

在系统全局参数中配置如下:

{
"voice": {
"platform": "volcengine",
"appKey": "your_app_key",
"accessKey": "your_access_key",
"resourceId": "your_resource_id", // 可选
"uid": "default_user" // 可选
}
}

参考资料

切换成讯飞

全局配置项加入

"voice":{"platform":"xfyun"}

注:科大讯飞API暂时使用的是我司体验key。如需正式版本使用,暂时先请联系技术支持人员。