搜狗语音云

· 什么是语音云

作为人机交互最自然便捷的方式之一,语音普遍被认为将引领下一代人机交互革命。 今天,在移动互联网以及云计算等相关产业的推动下,语音技术和应用环境逐步成熟, 语音交互逐渐被用户接受和使用,基于语音技术的相关应用正兴起新一轮高潮。

语音云是采用云计算的方式来执行语音操作,语音交互的大部分运算在“云”端进行。 语音云给用户带来的好处是借助云计算手段,计算和存储的压力都放在云端进行,从而可以实现快速的语音应用, 大大降低应用产品开发的成本。

· 搜狗语音云介绍

概述

目前,随着语音核心技术的快速发展,语音已经逐渐面向实用化,语音技术应用范围正在迅速拓展,应用领域不断扩大, 但是智能语音识别业务的行业门槛相对较高,产品的研发周期相对较长,对于希望集成语音交互技术的开发者来说,从头开发的成本较高。

搜狗语音云基于自主开发、领先业内的语音技术,力求为广大开发者提供最优质的语音服务,开发者只需简单集成语音云控件, 就可以通过API调用搜狗语音云服务,获得搜狗强大的语音技术支持,更加专注于业务需求的开发。

系统架构

开发者初次使用时需登录开发者平台提交申请,获得授权后即可在应用中集成搜狗语音云的前端SDK调用搜狗语音云服务。其中:
1)前端API:支持Android和IOS平台,集成了录音、VAD(智能检测语音起始和结束点)、压缩、降噪等技术;
2)授权/认证系统:对提交到搜狗语音云的请求进行合法性判断,开发者需在开发者平台提交申请并获得授权后才能使用搜狗语音服务;
3)搜狗语音云:提供业内领先的搜狗自有语音技术,目前已陆续推出在线的语音识别以及听歌识曲服务,并向开发者提供离线语音识别及离线语音合成服务, 而更多服务正在逐步集成中,力求进一步降低开发者使用语音的成本;
4)开发者平台/论坛:提供搜狗语音云介绍、最新信息发布、开发者应用申请、授权以及SDK下载等功能。

技术特点

·在线语音识别技术:

该技术让计算机可以“听懂”人类语音,通过机器将语音信号转变为相应的文本, 搜狗语音云提供的语音识别服务使用了国际领先的技术,具体如下:

1)高性能声学建模技术
    基于海量声学模型训练数据;
    基于区分性训练及自适应训练;
    基于深度神经网络技术。
2)高效语言模型建模技术
    基于大规模语料训练;
    基于搜狗业内领先的自然语言处理技术;
    基于分布式语言模型建模技术。
3)高速大规模网络动态解码技术

·离线语音识别技术:

该技术通过本地离线语音包直接将语音输入识别转变为文字,从而代替云端服务器功能。目前提供的离线语音识别SDK具备以下特点:

1)语音识别无需联网、无需流量,方便快捷;
2)语音识别率业界领先;
3)支持Android系统,便于集成;
4)SDK占用空间较小,耗费内存较少。

·在线听歌识曲技术:

该技术基于搜狗自有技术,向广大中小开发者提供免费高效的听歌识曲服务。 从此查找歌名不必大费周章,只需录制提交音乐片段,由搜狗音乐云自动给出演唱者和歌曲名称。使用搜狗音乐云,您可以享受到:

1)无上限的免费使用权;
2)云端海量曲库支持;
3)快速、准确的听歌识曲功能。

·离线语音合成技术:

该技术可以让计算机将外部输入的文本信息转变为自然流畅的汉语口语,使电脑具有类似于人一样的说话能力, 离线语音合成则无需依赖网络即可在设备上合成出高音质的语音,目前提供的离线语音合成SDK具备以下特点:

1)高精度的多音字、变调处理以及韵律层级预测;
2)高性能的声学建模技术以及高质量的合成器;
3)支持Android和IOS系统,便于集成。
4)提供差异化sdk定制,最小不足5M,低运算、低功耗。