讯飞语音平台
讯飞听见的使用方法

讯飞听见的使用方法
讯飞听见是一款智能语音识别APP,能够通过语音指令进行各种操作。
以下是讯飞听见的使用方法:
1. 下载安装:在应用商店中搜索“讯飞听见”,下载并安装。
2. 注册登录:打开APP后,根据提示进行注册和登录。
3. 语音输入:打开讯飞听见后,点击话筒图标,说出你要进行的操作,如“播放音乐”、“查天气”等。
4. 文字输入:如果你不想使用语音输入,也可以手动输入文字指令。
5. 实时翻译:讯飞听见支持实时语音翻译,能够翻译多种语言,方便国际交流。
6. 语音助手:讯飞听见还提供了语音助手功能,可以帮助你完成各种操作,如发送短信、打电话等。
7. 智能家居:如果你的家里安装了智能家居设备,讯飞听见也能够与之配合,实现语音控制。
总之,讯飞听见是一款功能强大的语音识别APP,通过语音指令可以方便快捷地进行各种操作,是生活中不可或缺的智能助手。
- 1 -。
科大讯飞语音云发布会PPT

内容提要一、扑面而来的移动互联网“语时代”二、新一代语音云核心技术及平台特性语音是人类最自然便捷的沟通方式,所有信息设备“能听会说”是必然的趋势。
•语音应用爆发需要的条件已经逐步成熟–关键技术持续进步,达到实用门槛•语音应用爆发需要的条件已经逐步成熟–关键技术持续进步,达到实用门槛–智能终端、无线网络、云计算平台等环境条件基本完备2011年10月苹果公司发布iPhone4S,Siri成为最大卖点谷歌计划今年上半年发布平板电脑Google Nexus,并将搭载Majel网络语音识别技术微软称:新版Tellme将实现人机语音交互,用于Windows 8及下一代Windows Phone系统中2010年10月28日,科大讯飞在业界率先发布“讯飞语音云”,为手机、汽车、智能家电等终端提供高质量语音合成、语音搜索、语音听写等智能语音交互服务能力。
柳传志致辞周光召致辞语音云启动仪式讯飞语音云发布语音云应用日益丰富语音输入微博短信搜索虚拟形象娱乐日程管理生活服务阅读地图导航基于语音云平台的开发伙伴已达3100家!语音云用户规模加速增长100万1000万3300万3300万700万次语音云用户每日请求2012年1-3月2011年7-12月2011年1-6月内容提要一、扑面而来的移动互联网“语时代”二、新一代语音云核心技术及平台特性1、语音合成技术进展•在中英文取得国际领先水平的基础上,多语种合成正在逐步实现世界语言覆盖•基于发音模拟技术,就可以实现虚拟主持人和针对任意人员的个性化合成服务中英文语音合成技术均是业界自然度唯一超过真人发音水平(4.0分)的系统;连续6 年荣获国际最权威的英文合成大赛Blizzard Challenge 冠军。
4.94.23.83.12.92.82.82.72.62.52.42.12.12.12.122 1.9012345ASKIBLHCODJERQ WPTM自然度自然语音科大讯飞唯一自然度大于4分的系统其他参赛单位美国Microsoft、IBM、MIT、CMU英国Edinburgh 日本NITech、ATR 等Blizzard Challenge 2011 国际英文合成大赛比赛结果■合成样例英中热烈欢迎各位来宾出席今天的发布会,感谢大家长期以来对科大讯飞的关心和支持,祝大家身体健康、工作顺利!He refused to identify governments he suspected, but German press reports said investigations were focusing on North Korea and Pakistan覆盖全面的多语种合成系统•多语种合成逐步实现世界语言覆盖法、俄、西、日、韩等语种合成正在研发德、意、葡、阿拉伯、印地等语种合成中文合成多语种合成样例中英法俄西意葡日越南印地英文合成欢迎参加科大讯飞召开的新一代语音云发布暨语音开发者大会!•基于发音模拟、声纹识别、语音文本转写及韵律自动标注技术,实现全自动构建的个性化语音合成系统•基于发音模拟、声纹识别、语音文本转写及韵律自动标注技术,实现全自动构建的个性化语音合成系统丰富多彩的歌唱合成基于声学模型自动构建、韵律自动预测和调性匹配的技术,实现可自编词曲的唱歌语音合成系统2、语音识别技术进展•在语音云规模运营的基础上,核心效果持续进化,通用识别准确性大幅提升•多项核心技术取得突破,有效解决抗噪、口音适应、个性化词汇等技术难题语音识别通用准确性大幅提升面向移动互联应用环境的中文连续语音识别技术性能(识别准确率)89.56% 81.38% 80% 70% 60% 短信、微博 讯飞语音云 搜索、导航 系统N 系统G 系统Q 数字、数值 90.15% 81.83% 92.39% 89.21%90%备注:该结果根据工信部软件促进中心《语音识别测试标准》测试得出语音识别三大技术创新• 首次提出PLA、JFA、IVN综合噪声补偿算法,系统抗噪性能达到国际领先水平 • 率先实现MSDT声学模型训练算法,大幅增强系统口音适应性能 • 独创LSA语言模型自学习算法,个性化词汇识别准确度首次达到实用噪声环境识别性能提升 30.4%口音适应性能相对提升 50.3%个性化词汇识别性能提升 36.3%语音识别技术的应用效果语音识别技术的应用效果NIST说话人识别评测名列前茅由NIST(美国国家标准技术研究院)举办,是国际上规模与影响力最大的 说话人识别评测 1996年第一次评测,之后每两年评测一次,说话人识别任务难度接近大规 模实际应用环境(不同信道、不同环境干扰) 科大讯飞在2008、2010年连续两届评测中均处于国际领先地位测试时间2008 2010三大核心测试指标 Min DCF EER DCF在参测系统中排名 Min DCF EER DCF0.107 0.332.625 5.8720.187 0.4051 21 23 2参赛单位有:CMU、MIT、Stanford、清华大学、中科院自动化所、中科院声学所、 Motorola研究中心、IBM 研究院等国内外50家著名语音研究机构NIST语种识别评测名列前茅• 2009/2011年国际NIST语种识别最混淆方言对测试冠军评测时间:2011年 评测对象:语种识别技术 评测单位:美国国家标准技术研究院(NIST) 参赛单位:麻省理工学院林肯实验室(MITLL)、法国科学研究中心(LIMSI ),捷 克布尔诺科技大学(BUT)、清华大学等不同方言对测试结果排名 P1 1 2 3 P2 1 3 3 P3 1 2 3 P4 3 2 1 P5 1 2 3 P6 1 2 3 P7 2 1 3 P8 1 2 3 P9 1 3 2名次 1 2 3代号 iFLY MITLL BLZ代表机构 科大讯飞 麻省理工学院 林肯实验室 捷克布尔诺科技大学 & 法国科学研究中心2011年语种识别测试中,在9个高混淆度方言对中获7个第一名独家实用的口语评测技术• 科大讯飞口语评测技术唯一通过国家语委鉴定达到实用水平英文口语评测机器和人工评分员对比 国家语委组织的机器和人工评分员对比鉴定结果机器自动评分误差 1分以上仅为5%专家评分误差 1分以上为17%已累计完成国家普通话等级考试500万人测试 在全国各省5000万中小学生的课堂教学中使用高精准度的音乐评测技术• 在语音识别技术体系的基础上,研发出业界唯一可精确反 应音准、节奏和歌词演唱准确度的音乐评测技术,率先完 成业界首个提供在线音乐评测服务的“爱吼网”系统爱吼网独家承办 第十届中国少年儿童卡拉OK电视大赛网络赛区3、语义理解技术进展• 基于识别合成的语言处理算法,研发出完善的人机交互语义词典和语义理解算法体系 • 面向移动互联语音应用,率先完成首个达到实用、覆盖衣食住行的中文语义理解系统完善的语义理解算法体系• 首次提出ISF中文语义框架,具备 灵活高效的多业务扩展能力意图 飞机票 查询 城市:合肥 城市:北京 2012-03-26 ≥19:00请问有没有下周一晚上从合肥到 北京的航班• 实现集词法分析、文法理解、意图 分类及句子语义度量的一体化语义 理解算法体系操作 起点 终点 日期 时间实用全面的语义系统和云进化能力•面向移动互联语音应用,率先完成首个达到实用、覆盖衣食住行等应用领域的中文语义理解系统0%20%40%60%80%100%电话短信应用搜索网站日程音乐天气股票地图餐饮闲聊平均各应用领域语义理解正确率平均性能85%基于语音云平台,形成了持续的语义理解进化能力•讯飞语义理解技术已经在各大运营商的短信营业厅智能化服务中广泛应用短信营业厅网上营业厅掌上营业厅自然语言理解智能语音技术传统电子渠道智能交互系统示例KT 6021 QX 6022示例给我个早晚都能看的报纸吧。
科大讯飞语音识别omap3730平台linux运行

然后当然要将符合我平台的两个库替换目录 msc_test/bin 内的x86版Linux的库
3.编译之前,请从申请你应用的appid,替换test.cpp文件第25行appid参数
ifeq "$(HOST_TYPE)" "SunOS"
CC_TYPE := forte
else
CC_TYPE := gcc ====>> 此处替换为arm gcc编译器 如本人的为: arm-none-linux-gnueabi-gcc
endif
endif
#define some utilites
conf_fini| 4...
conf_fini| 5...
4.修改msc_test目录下的 configure.mk文件
注意:如果之前在msc_test目录下编译过x86版本,并做以下操作直接修改configure.mk文件,
之后的编译可能会发生错误,
解决方法可以是清除编译或者直接拷贝一个新的msc_test目录再重新执行操作
以下是修改configure.mk文件内容
iat_result.txt msc_test test.wav
msc test.o
begin iat test
session begin return 0:msc-resource0001@recognizer
choose a test:
1.tts_test
choose a test:
1.tts_test
本人操作:将msc_test目录拷贝到根目录下
科大讯飞股份有限公司WebAPI开发手册说明书

讯飞翻译Webapi 开发手册科大讯飞股份有限公司USTC iFLYTEK CO., LTD.目录概述 (1)获取令牌 (3)1.接口说明 (3)翻译服务_GET (4)1.接口说明 (4)签名计算 (6)概述开发者是讯飞语音云WebAPI 的使用者,因此在文档中提到的客户等同于开发者。
用户则是开发者所推出产品的直接使用者,也是讯飞语音云WebAPI 的间接使用者。
讯飞语音云开发者用户开发基于讯飞语音云的应用应用依赖于讯飞语音云不知不觉中感受讯飞语音云的服务图1 WebAPI 的服务对象服务器端为MSP 平台的核心部分,提供HTTP 应用、用户管理、语音服务等服务,位于局域网内,对外统一接入Internet ,为客户端提供唯一的访问点。
其中:HTTP 服务器负责将客户端发送的服务请求发送至业务服务器,然后由业务服务器按照具体的服务类型进行处理,调用ISP 语音应用平台获取具体的语音服务,而后把处理结果返回给HTTP 服务器,再回复客户端。
互联网用户直接通过MSP服务器提供的Internet访问点使用语音服务,首先获取令牌,取得服务权限,然后调用后续相关的服务,业务流程如图2。
图2 业务流程现网服务地址:(此地址只可以进行功能调试,禁止压测)获取令牌1.接口说明调用接口获取所需要的服务令牌。
除了HTTP 1.0规范自带的各种字段外,WebAPI支持扩展请求头:X-parX-Par支持的参数列表:经过base64解码后结果:翻译服务_GET1.接口说明本接口将带翻译的文本转换为目标语言文本输出,请求的类型为HTTP GET方式。
消息头说明:响应消息base64解码:参数说明:签名计算1.签名方式概述:在服务请求的server url上增加携带sign参数例如:/webapi/webits/v1/its.do?svc=&token=&q=&from=&to=&sign=sign计算方法:sign = md5sum($(q) + &(x-par) + $(key))其中q为带翻译的文本如:q = 你好其中x-par 为携带在headers中的x-par header的值其中key为云端获取的属于该应用私钥。
科大讯飞 MSC 集成指南说明书

科大讯飞股份有限公司IFLYTEK CO.,LTD. 科大讯飞MSC集成指南目录1. 概述 (1)2. 预备工作 (2)Step 1 导入SDK (2)Step 2 添加用户权限 (2)Step 3 初始化 (3)3. 语音输入UI (5)4. 语音听写 (6)4.1. 上传联系人 (7)4.2. 上传用户词表 (7)5. 命令词识别(语法识别) (9)5.1. 在线命令词识别 (9)5.1.1. 应用级命令词识别 (9)5.1.2. 终端级命令词识别 (11)5.2. 离线命令词识别 (12)6. 语音合成 (13)7. 语义理解 (14)7.1. 语音语义理解 (14)7.2. 文本语义理解 (14)8. 本地功能集成(语记) (15)8.1. 本地识别 (15)8.2. 本地合成 (16)8.3. 获取语记参数 (16)9. 语音评测 (17)10. 唤醒 (19)11. 声纹密码 (19)11.1. 声纹注册 (19)11.2. 声纹验证 (21)11.3. 模型操作 (21)12. 人脸识别 (22)12.1. 人脸注册 (22)12.2. 人脸验证 (23)12.3. 人脸检测 (23)12.4. 人脸聚焦 (23)13. 附录 (24)13.1. 识别结果说明 (24)13.2. 合成发音人列表 (25)13.3. 错误码列表 (26)13.4. 声纹业务 (27)13.5. 人脸识别结果说明 (28)常见问题 (29)1. 概述本文档是集成科大讯飞MSC (Mobile Speech Client ,移动语音终端)Android 版SDK 的用户指南,介绍了语音听写、语音识别、语音合成、语义理解、语音评测等接口的使用。
MSC SDK 的主要功能接口如下图所示:图1 MSC 主要功能接口为了更好地理解后续内容,这里先对文档中出现的若干专有名词进行解释说明:表1 名词解释2.预备工作Step 1 导入SDK将开发工具包中libs目录下的Msc.jar和armeabi复制到Android工程的libs目录(如果工程无libs目录,请自行创建)中,如下图所示:图 2 导入SDK如果您的项目有libs/armeabi-v7a这个目录,请务必把libmsc.so复制一份到这个目录。
科大讯飞Flash平台语音云开发SDK使用指南

本文档可能涉及安徽科大讯飞信息科技股份有限公司的专利 (或正在申请的专利) 、 商 标、版权或其他知识产权,除非得到安徽科大讯飞信息科技股份有限公司的明确书面许可 协议,本文档不授予使用这些专利(或正在申请的专利) 、商标、版权或其他知识产权的任 何许可协议。
本手册提及的其它产品和公司名称均可能是各自所有者的商标。
目 录
第1章 概述 ........................................................................................................................................ 1
1.1 目的 .....................................................................................................................1 1.2 范围 .....................................................................................................................1
第4章 RECOGNIZER 开发接口说明 ....................................................................................................12
4.1 公共方法............................................................................................................12 4.2 事件 ...................................................................................................................12 4.3 构造函数详细信息 .............................................................................................12
讯飞语音云系统交流材料

讯飞“语音云” 服务电信“爱音乐”业务汇报语音产业的时代机遇• 全球已进入高速发展的移动互联网时代2移动互联网带来的人机交互需求互联网时代 移动互联网时代z 互联网时代的人机交互手段: 键盘+鼠标+显示器 z 移动互联网终端的键盘与屏 幕是受限的,语音作为信息 交互最自然、便捷的手段,键盘、鼠标?在小尺寸终端和移动状态下 更是具有明确需求语音交互方式语音技术将带来移动互联网时代人机交互革命3云计算提供语音服务• 云计算平台具备的强大和无限 扩展的存储和计算能力–通过对海量数据的训练,可以 更好的处理困扰语音识别的技 术难点 –用户在实际使用中形成的数据 可以反馈到平台中,形成不断 迭代优化的正反馈机制,持续 提高效果 –众多中小开发者可以低门槛的 获得平台提供的语音交互能力“讯飞语音云”发布• 10月28日,科大讯飞“语音云”发布会在北京香格里拉酒店举行 • 科大讯飞“语音云”的发布,揭开了移动互联网语音应用发展的 新篇章讯飞语音云总体架构• 基于云计算的讯飞语音平台封装了各类智能语音模块,可向开发伙伴 提供便捷的开发环境、向各行业及个人用户提供高效的语音服务讯飞“语音云”服务架构• • 体验最优质的语音合成、 体验最优质的语音合成、 语音识别技术 语音识别技术 • • 方便快捷,随时随地、 方便快捷,随时随地、 按需取用 按需取用 • • 低资源开销,几乎可以 低资源开销,几乎可以 运行在任何设备 运行在任何设备最终用户 工程师• • 易于开发,语音集成时 易于开发,语音集成时 间缩短到几个小时; 间缩短到几个小时; • • 易于获取,基于互联网 易于获取,基于互联网 的开发包随时可以下载 的开发包随时可以下载 测试; 测试; • • 所有应用都可以快速 所有应用都可以快速 Speech Speech Enabled! Enabled!DEVELOPER• • 投入运营前直接开发测 投入运营前直接开发测 试,不必购买语音组件 试,不必购买语音组件 • • 无需投入硬件,无需部 无需投入硬件,无需部 署维护,无需加密锁 署维护,无需加密锁 • • 规模自动伸缩,无限扩 规模自动伸缩,无限扩 展的运算能力 展的运算能力移动互联网应用 合作伙伴 科大讯飞语音云通行证使用过程• 先体验、后注册、再付费–激活用户使用需求,引导用户付费获取服务免费体验在讯飞网站下载语音输 入法等语音云客户端注册通行证免费期结束,提示用户免 费注册语音云通行证讯飞享受丰富应用享受所有语音云合作伙伴 开发特色的丰富多彩语音 应用语音云用户付费通行证的免费期过后,提示 8 用户付费可继续使用丰富多彩的语音应用产品• 丰富的语音应用产品典型应用:语音输入法拼音输入法语音输入界面识别结果直接输入10我们能为互联网带来什么?讯飞语音云计算平台提供最 全面的语音服务!语音识别服务 语音合成服务传统语音 传统语音 合成 合成 个性化语 个性化语 音合成 音合成 变声 变声 命令词 命令词 识别 识别 短信听 短信听 写 写 关键词 关键词 检索 检索搜索 搜索转写 转写 字幕 字幕网站服务 声纹识别服务声音相似 声音相似 声纹验 声纹验 度 度 声纹鉴 证 声纹鉴 证 别 别 语种识 语种识 别 别 用户 用户 管理 管理 论坛 论坛 文本分 文本分 文字客 文字客 析 析 唱歌评 唱歌评 服 服 分 分 语言学 语言学 习 手写识 习 手写识 别 别其他服务11面向移动互联的网络架构12互联网负载均衡方案软件+硬件 的负载均衡 方案,提供 互联网的高 可用性。
语音云开放平台_开放语音合成、语音识别、语音搜索、声纹识别等语音技术_免费快速开发移动互联网语音应用3

您好,欢迎来到语音云开放平台! 请登录 免费注册首页平台介绍在线演示开发者专区下载专区应用推荐语音通行证论坛语音平台· 什么是MSP· 为何选择MSPmsp 主要功能语音技术· 语音合成· 语音识别· 语音转写首页 > 平台介绍目录[隐藏]1. MSP 主要功能1.1 概述1.2 语音合成1.3 语音识别1.4 语法功能1.5 语音听写1.6 开发功能1. MSP 主要功能1.1 概述MSP 语音云平台目前集成了语音识别引擎InterReco 、语音合成引擎InterPhonic 、语音听写引擎IAT ,能够提供语音合成、语音识别、语音听写等语音服务,产品的功能也能够体现这些语音引擎的特点。
1.2 语音合成InterPhonic 语音合成系统是科大讯飞公司推出的新一代文语转化引擎,采用最先进的中文文本、韵律分析算法和大语料库的合成方法,合成语音已经接近真人的自然效果。
主要功能有:1) 高质量语音,将输入文本实时转换为流畅、清晰、自然和具有表现力的语音数据;2) 多语种服务,整合了多语种语音合成引擎,可提供中文、中英文混读、纯正英文、粤语、粤英文混读的语音合成服务;3) 多音色服务,提供丰富、风格多样化的音色选择,如浑厚淳正的男声,温柔甜美的女声,标准地道的英语男女声等等,所有音色库均继承科大讯飞语音合成技术一贯的优良品质。
用户可供根据不同应用业务需要,选择最适合应用场景的语音风格,并支持实时动态的音色切换;4) 高精度文本分析技术,保证了对文本中未登录词(如地名)、多音字、特殊符号(如标点、数字)、韵律短语等智能分析和处理;5) 多字符集支持,支持输入GB2312、GBK 、Big5、Unicode 和UTF-8等多种字符集,普通文本和带有CSSML 标注等多种格式的文本信息;6) 多种数据输出格式,支持输出多种采用率的线性Wav ,A/U 率Wav 和Vox 等格式的语音数据;7) 提供预录音合成模板,对合成文本中符合语音模板固定成分的文本使用发音人预录语音,非固定成分使用合成语音。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1.什么是MSP
移动互联网已迅速成为当今世界发展最快、规模最大和市场前景最好的行业,已吸引众多知名IT公司进军该领域。
由于现有移动终端设备交互方式存在诸多局限,如键盘太小,输入文字不便;屏幕太小,阅读信息不便;以及无法处理特定场景下的交互,如开车和步行情形。
语音技术是人机交互最自然的方式,可以给以上缺陷提供完美的解决方法,移动互联网对语音技术有着天然的需求。
科大讯飞拥有全球领先的中文智能语音技术,多年来一直致力于研发将语音技术应用到千家万户,MSP(iFLY Mobile Speech Platform)便在此背景下诞生。
通过MSP,移动互联网的终端用户可以随时随地的使用语音服务。
语音技术带来品质生活,始终是MSP团队所坚持不懈的理念。
1.1主要功能
iFLY Mobile Speech Platform(以下简称MSP)是一个应用于移动互联网的语音服务平台,其主要目标是:
1) 实现可面向移动2G/3G网络及互联网提供语音服务的服务器,在现有科大讯飞电信级语音服务平台ISP基础上为移动终端应用程序提供多路并发的语音合成、语音识别、语音听写功能,通过架设在互联网的语音应用服务器,用户可以随时随地获得高质量的语音服务;
2) 实现基于移动终端以及桌面平台的语音应用客户端,提供统一的语音应用开发接口,通过该接口用户可以方便、快速地开发语音应用;同时,MSP也将开放一些基于移动以及桌面平台的语音应用,用于展示MSP语音服务平台的功能和使用方法,让用户直接体验到最新的语音技术;
MSP最终提供了架构于互联网的语音云服务和一套移动互联网语音解决方案、应用示例,把语音服务的应用范围拓宽到移动互联网领域,为语音服务产品走向移动互联网市场开辟全新的应用模式。
MSP平台整合了科大讯飞研究院、中国科技大学讯飞语音实验室以及清华大学讯飞语音实验室在语音识别、语音合成等技术上多年的技术成果,语音核心技术上达到了国际领先水平。
MSP系统采用分布式架构,继承了科大讯飞成熟的电信级语音平台高稳定的特点,可以满足电信级应用的高可靠性、高可用性要求。
针对传统语音应用集成开发困难,业务设计繁琐的问题,MSP产品大大简化了集成开发和业务开发的复杂度,为系统集成人员和业务开发人员提供了便捷、高效的开发环境。
1.2语音技术介绍
语音是智能人机交互的最直接最便捷的手段,近些年来,语音正在日益影响和改变人们的日常生活。
随着移动互联网时代的到来,移动终端由于本身输入手段的限制,语音技术带来的交互优势更加明显,可以大大提高移动终端的交互体验和交互效率。
智能语音技术包含语音识别和语音合成技术,这两个技术使得终端具备了能听会说的能力。
语音识别(Auto Speech Recognize,ASR)技术,是让机器通过识别和理解过程使之听懂人类语言的技术。
语音识别技术是信息技术中人机交互的关键技术,目前已经在呼叫中心、电信增值业务、企业信息化系统中有了广泛的应用。
随着语音识别在语音搜索、语音控制等全新应用领域的深入应用,语音识别技术被业界权威人士誉为有可能引发人机界面领域革命的关键技术。
自动语音识别技术所要解决的问题是让计算机能够“听懂”人类的语音,将语音中包含的文字信息“提取”出来。
ASR技术在“能听会说”的智能计算机系统中扮演着重要角色,相当于给计算机系统安装上“耳朵”,使其具备“能听”的功能,进而实现信息时代利用“语音”这一最自然、最便捷的手段进行人机通信和交互。
语音合成(Text To Speech,TTS)技术能够自动将任意文字实时转换为连续的自然语音,是一种能够在任何时间、任何地点,向任何人提供语音信息服务的高效便捷手段,非常符合信息时代海量数据、动态更新和个性化查询的需求。
近年来,语音识别、语音合成等语音技术取得了长足的进步,科大讯飞语音技术历经20年不懈创新,自90年代中期以来,在历次的国内国外评测中,各项关键指标均名列第一。
MSP移动语音平台是科大讯飞针对日益丰富多样的移动互联网应用需求,向移动互联网推出“即开即有、按需取用”的语音服务能力,为快速构建各种各样移动语音应用程序提供强大、稳定、易用的互联网动力引擎。
1.3系统架构
MSP讯飞语音云平台采用基于互联网的C/S架构,基本拓扑结构如下图:
从上图可以看到,MSP系统部署在互联网上,通过运营商的三网接入,无论是传统的互联网终端还是移动互联网终端都能够通过网络获得语音服务。
MSP在互联网上建立多个云服务中心,每个服务中心能够独立提供稳定的互联网语音服务,云服务中心之间自动同步数据。
通过这种机制,用户可以获得高度可用、流畅的语音功能支持。
下图是MSP产品的主要功能组成模块和组成结构:
上图蓝色区域为MSP系统的实现范围,浅色区域是与MSP密切相关的组件或第三方角色。
MSP系统主要包括语音应用接口(Speech Programming Interface,SPI)、客户端(Mobile Speech Client,MSC)、服务器(Mobile Speech Server,MSS)和基础支撑(MSP Infrastructure)四个层次,这四个逻辑层从用户到服务器操作系统底层,共同构成了完整的MSP 系统架构。
应用接口是MSP系统提供的开发接口,集成开发人员应关注这些接口的定义、功能和使用方法。
MSC负责实现这些接口,同时封装了网络通讯、音频编解码(Audio Codec)、语音检测(VAD)、协议解析(MSSP)等功能,同时为了便于开发和使用,系统在这一层提供了一系列高效、易用的工具。
MSS提供语音服务的服务端实现,使用服务端的识别引擎提供语音功能,同时提供管理和维护功能;基础支撑层是MSP的服务基础,负责提供适合云计算架构的负载均衡、并行计算、数据存储等功能。
1.4集成开发
MSP作为一个向互联网和移动互联网开放的语音引擎,提供了功能完善、简单易用的集成开发接口,以便开发人员能够将其与应用程序进行集成,实现具有完整语音能力的应用。
MSP提供的主要开发接口从提供功能考虑可以分为语音识别(包含语音听写)、语音合成开发接口和语音检测开发接口:
1) 语音识别开发接口
语音识别接口(QISR接口)是应用开发者使用识别引擎和语音听写引擎进行语音应用开发所必需使用的接口,该接口接受用户输入的语
音,把语音识别结果返回给应用程序。
2) 语音合成开发接口
语音合成接口(QTTS)可以让应用开发者在应用程序中集成讯飞语音合成引擎的功能,该接口接受应用程序传入的文本内容,返回符合应用要求格式的音频数据。
3) 语音检测开发接口
语音检测(VAD)是语音识别一个重要的输入环节,用于判断用户语音何时开始、何时结束,该接口集成在MSC客户端内部,通过QISR 接口的参数来返回语音状态。
有关MSP语音开发接口的使用请参考《MSP开发手册》。
移动互联网应用程序需要使用在成千上万各式各样的用户终端之上,用户终端类型从非智能终端到智能终端、从手机到智能玩具、从PC 到互联网电视,应用操作系统环境形形色色、品类众多。
为了满足各类客户端操作系统环境上都能够使用讯飞语音云提供的语音功能,MSC为多种终端环境提供了语音开发接口,主要包含Android、iOS、Symbian、Windows Mobile/CE、MTK等。