服务项目 |
语音识别,腾讯云 |
面向地区 |
腾讯云语音识别(Automatic Speech Recognition,ASR) 为提供语音转文字服务的佳体验。语音识别服务经、腾讯视频、荣耀等大量内部业务验证,同时也在线上线下大量外部客户业务场景下成功落地,具备识别准确率高、接入便捷、性能稳定等特点。腾讯云语音识别服务开放实时语音识别、一句话识别和录音文件识别三种服务形式,满足不同类型需求。
语音识别开放实时语音识别、一句话识别和录音文件识别三种服务形式,满足不同类型需求。
对实时音频流进行识别,实时识别为文字。
适用于有一定实时性要求的场景,例如语音输入、语音机器人、会议现场记录、直播内容审核、视频实时添加字幕等场景。
语言和方言:目前支持中文普通话、英语、粤语和带有一定方言口音的中文普通话,后续将会支持维语。
音频属性:支持 wav、pcm、speex、silk 的音频格式,支持8k、16k采样率的单声道音频流,支持16bit的数据采样精度。
音频数据长度:建议每个数据包的音频分片大不能超过200KB。
对60秒之内的短音频文件进行识别。
适用于语音消息转写场景,例如语音短信、语音搜索等。
语言和方言:目前支持中文普通话、英语、粤语和带有一定方言口音的中文普通话,后续将会支持维语。
音频属性:支持 wav、mp3 的音频格式,支持8k、16k采样率的单声道音频,支持16bit的数据采样精度。
音频数据长度:若采用直接上传音频数据方式,建议整个数据包不能大于600KB;若采用上传音频url方式,建议音频时长不能大于60s。
对不超过一小时的录音文件进行识别。
适用于语音时间较长、对实时性要求低的场景,例如客服质检、视频字幕生成、音频节目字幕生成等。
语言和方言:目前支持中文普通话和带有一定方言口音的中文普通话,后续将会支持英语、粤语。
音频属性:支持 wav、pcm、mp3、silk、speex、amr、m4a 等主流的音频格式,支持8k、16k采样率的单声道或双声道音频识别,支持16bit的数据采样精度。
音频数据长度支持:若采用直接上传音频数据方式,建议音频数据不能大于5MB;若采用上传音频 url 方式,建议音频时长不能大于1小时。
海量数据积累
立足于腾讯庞大的社交数据平台,积累了数十万小时的语音标注数据,拥有丰富多样的语料库,为高识别率奠定数据基础。
算法业界
基于多种序列神经网络结构(LSTM、Attention Model、DeepCNN),采用 Multitask 训练方法,结合T/S方式,在通用以及垂直领域有业内的识别精度。
支持多平台设备
提供 REST API 和 SDK,支持智能硬件、移动应用、网站、桌面客户端和物联网等多种设备终端。
支持语种丰富
现阶段支持中文语音识别和英文语音识别,后续将陆续开放其他语种或方言的识别能力,包括粤语、维语、藏语、韩语等。
噪声环境识别佳
语音识别模型鲁棒性佳,识别精度高,抗噪声的干扰能力强,能够识别来自嘈杂环境的音频信息,不需要客户进行降噪处理。
海量内外部业务验证
经过、腾讯视频、荣耀等内部业务充分验证,也在大量互联网、金融、教育等领域的外部客户业务场景成功落地,日服务亿级用户,性能稳定。
语音输入法
智能语音输入,由实时语音识别实现,为用户节省输入时间、提升输入体验。
语音消息转写
将用户的语音信息转成文字信息,由一句话识别服务实现,提升用户阅读效率。
字幕生成
将直播和录播视频中的语音转换为文字,由录音文件识别服务实现,轻松便捷地生成字幕文件。
会议纪要
将会议、庭审、采访等场景的音频信息转换为文字,由实时语音识别服务实现,降低人工记录成本、提升效率。
电话质检
将坐席通话转成文字,由实语音识别服务或录音文件识别服务实现,全面覆盖质检内容、提升质检效率
最近来访记录