当前位置: 主页 > 网站运营 >

阿里云的智能语音交互技术

点击次数: 更新时间:2017-01-21

1、语音识别
提供的是将语音转写成文字的服务,在金融、保险、司法、电商等领域中,在客服通话、演讲、法庭庭审等场景下,阿里云的该项技术,均有过较好的运用。该项技术包括以下三种类型服务:
1.1实时语音识别
该项服务能对音频流做实时转写,达到“边说边出文字”的效果。可用于视频实时直播字幕、实时会议记录、法庭庭审记录等场景
1.2录音文件识别
该项服务能对整个录音文件进行语音转写。可用于对实时性要求不高的客服通话转写,也可用于会议或访谈录音的离线转写。
1.3一句话识别
该项服务能对时长较短的语音进行转写。主要用于一句话的交互模式,如语音搜索、语音指令、语音短消息等场景,一般应用于各类App中
 
2、语音合成
2.1提供将文字转写成语音的服务,目前支持输出男声、女声,也可以指定人声做定制,能调节语速、音量。
支持在线和离线两种调用方式,可以根据网络状况自由切换。
 
3、人机对话
人机对话,集语义解析、意图识别、智能问答、机器人聊天等功能于一体,让机器具备与人做对话沟通的能力。语音识别成文本之后,人机对话功能通过对自然语言的理解,解析用户表达的意图,并对接到对应的服务,返回应答的文字,并可以通过语音合成技术将文字“说“给用户。阿里云的人机对话,包含智能问答、通用领域对话两项服务。
3.1智能问答
提供智能问答的功能。该功能可以精确地理解以自然语言形式描述的用户提问,并通过检索问答知识库(客户提供)寻找语义上匹配的问题描述,并且返回答案。
3.2通用领域对话
在询问天气、附近地点、设定闹钟、查看股票等生活领域,我们已有成型的对话,方便客户便捷地配置常见人机交互对话需求。