InterReco 3.0产品白皮书

InterReco 3.0 产品白皮书

安徽科大讯飞信息科技股份有限公司ANHUI USTC iFLYTEK CO.,LTD.

InterReco 3.0 产品白皮书_______________________________________________________________________________

目录

INTERRECO 3.0 (1)

1.介绍 (1)

1.1概述 (1)

1.2主要功能 (1)

1.3系统架构 (1)

1.3.1语法子系统 (2)

1.3.2引擎子系统 (2)

1.3.3端点检测子系统 (2)

1.3.4音频输入子系统 (2)

1.4识别功能 (2)

1.4.1前端语音处理 (2)

1.4.2后端识别处理 (3)

1.5呼叫导航功能 (4)

1.5.1呼叫导航的流程: (4)

1.5.2呼叫导航的特点: (4)

1.5.3呼叫导航的应用: (4)

1.6语法功能 (4)

1.7集成开发 (5)

1.8分析和优化 (6)

2.INTERRECO 3.0产品简介 (6)

2.1主要指标 (7)

2.2文档和相关资料 (7)

3.INTERRECO3.0识别系统性能特性 (8)

3.1性能的度量 (8)

3.2影响性能的因素 (8)

3.3测试环境 (8)

3.3.1软硬件标准测试环境 (8)

3.3.2基准环境 (8)

3.3.3网络调用时的性能 (9)

4.技术支持 (10)

InterReco 3.0 产品白皮书

______________________________________________________________________________

InterReco 3.0

产品白皮书

1. 介绍

1.1 概述

语音识别(Speech Recognize)技术,是让机器通过识别和理解过程使之听懂人类语言的技术。语音识别技术是信息技术中人机交互的关键技术,目前已经在呼叫中心、电信增值业务、企业信息化系统中有了广泛的应用。随着语音识别在语音搜索、语音控制等全新应用领域的深入应用,语音识别技术被业界权威人士誉为有可能引发人机界面领域革命的关键技术。

近年来,语音识别技术取得了长足的进步,科大讯飞是其中的佼佼者,InterReco语音识别系统是科大讯飞针对日益丰富多样的市场需求而推出的,为构建高价值自助语音服务提供强大、稳定、易用的核心动力引擎。

本文档针对希望了解InterReco 3.0语音识别系统的详细功能和性能特性的客户,详细阐述了InterReco 3.0产品的各项指标。通过本文,读者能够了解到世界领先的语音识别系统的整体功能,理解语音识别系统的概念和重要特性。

1.2 主要功能

InterReco是一款与说话人无关的语音识别系统,为自助语音服务提供关键字语音识别和呼叫导航功能。该产品具备优秀的识别率,提供全面的开发支持,丰富的工具易于使用,采用合理的分布式架构,符合电信级应用的高效、稳定要求。

InterReco电话语音识别产品整合了科大讯飞研究院、中国科技大学讯飞语音实验室以及清华大学讯飞语音实验室在语音识别上多年的技术成果,并针对中文语音识别应用做了多层面的优化,核心技术上达到了国际领先水平。针对语音识别应用中面临的方言口音、背景噪声等问题,InterReco基于实际业务系统中所收集的涵盖不同方言和不同类型背景噪声的海量语音数据,通过先进的区分性训练方法进行语音建模,使语音识别器在复杂应用环境下均有良好的效果表现。InterReco语音识别系统采用分布式架构,继承了科大讯飞久经考验的电信级语音平台高稳定的特点,可以满足电信级应用的高可靠性、高可用性要求。针对传

统语音识别产品集成开发困难,业务设计繁琐的问题,InterReco产品大大简化了集成开发和业务开发的复杂度,为系统集成人员和业务开发人员提供了便捷、高效的开发环境。1.3 系统架构

下图是InterReco产品的主要功能组成模块和组成结构:

上图蓝色区域为InterReco语音识别系统的实现范围,白色区域是与InterReco密切相关的组件或第三方角色。

InterReco语音识别系统主要包括应用接口(InterReco Programming Interface)、识别引擎(Recognizer Engine)和操作系统适配(OS Adapters)三个层次,这三个逻辑层共同构成了完整的InterReco 系统架构。

应用接口是InterReco系统提供的开发接口,集成开发人员应关注这些接口的定义、功能和使用方法。识别引擎提供核心的语音识别功能,并作为应用接口的功能实现者;同时为了便于开发和使用,系统在这一层提供了一系列高效、易用的工具。操作系统适配层屏蔽了多操作系统的复杂性,为识别引擎提供操作系统相关的底层支持。

InterReco语音识别系统按照逻辑组成可以分为识别语法(Grammar)、识别引擎核心(Recognizer Core)、语音端点检测(Voice Activation Detector)、音频输入(Audio Source)四个子系统,系统的主要设计和开发将按照这些子系统进行。

1.3.1 语法子系统

语法子系统负责语法编译、优化、加载和管理,主要功能包括:

1) 语法编译

2) 语法加载/卸载

3) 语法激活/逆激活

4) 语法缓存管理

5) 语法优化

1.3.2 引擎子系统

该子系统是整个InterReco产品的核心,主要功能包括:

1) 语音识别核心功能

2) 语音识别开发接口

3) 语音识别参数查询及设置

1.3.3 端点检测子系统

提供和实现语音的端点检测,主要功能包括:

1) 在线检测语音端点

2) 端点检测开发接口

3) 端点检测参数查询及设置

1.3.4 音频输入子系统

处理语音识别的语音输入,主要功能为:

1) 音频输入接口

2) 音频编解码

3) 音频板卡的封装

4) 音频输入的参数配置

1.4 识别功能

这是InterReco系统的基本功能部分,它包括通过端点检测提取说话人的语音,进行识别处理并返回识别结果。主要包括以下功能特性:

1.4.1 前端语音处理

前端语音处理指利用信号处理的方法对说话人语音进行检测、降噪等预处理,以便得到最适合识别引擎处理的语音。主要功能包括:

1) 端点检测

端点检测是对输入的音频流进行分析,确定用户说话的起始和终止的处理过程。一旦检测到用户开始说话,语音开始流向识别引擎,直到检测到用户说话结束。这种方式使识别引擎在用户在说话的同时即开始进行识别处理。

2) 噪音消除

在实际应用中,背景噪声对于语音识别应用是一个现实的挑战,即便说话人处于安静的办公室环境,在电话语音通话过程中也难以避免会有一定的噪声。InterReco语音识别系统具备高效的噪音消除能力,以适应用户在千差万别的环境中应用的要求。

3) 智能打断

智能打断功能使用户可以在自助语音服务的提示语播放过程中随时说出自己的需求,而无需等待播放结束,系统能够自动进行判断,立即停止提示语的播放,对用户的语音指示做出响应。该功能使人机交互更加高效、快捷、自然,有助于增强客户体验。

1.4.2 后端识别处理

后端识别处理对说话人语音进行识别,得到最适合的结果,主要特性有:

1) 大词汇量、独立于说话人的健壮识别功能

InterReco满足大词汇量、与说话人无关的识别要求。InterReco产品可以支持数万条语法规模的词汇量;并能适应不同年龄、不同地域、不同人群、不同信道、不同终端和不同噪声环境的应用环境。

2) 置信度输出

置信度反映了识别结果的可信程度。语音识别引擎可以在返回识别结果时会携带该识别结果的置信度,应用程序可以通过置信度的值进行分析和后续处理。

3) 多识别结果

又称多候选技术,在某些识别过程中,识别引擎可以通过置信度判决的结果向应用程序返回满足条件的多个识别结果,而不是唯一的结果。识别系统提供了可能的识别结果列表,并按置信度结果从高到低进行排列。在业务设计中,可以根据应用要求向用户提供这些结果,供用户进行二次选择。通过置信度判决和多识别结果输出技术可以开发更加灵活、更加人性化的业务流程。

4) 说话人自适应

当用户与语音识别系统进行多次会话过程中,系统能够在线提取通话的语音特征,自动

调整识别参数,使识别效果得到持续优化。

5) 多槽识别

语音识别的槽(Slot)代表一个关键字,即在一次会话过程中可以识别说话人语音中包含的多个关键字,这可以提高语音识别应用的效率,增强用户体验。

6) DTMF识别

DTMF(Dual Tone Multi-Frequency),即双音多频。配合语法设计,InterReco可以识别用户进行电话按键产生的DTMF信号,并向应用程序返回按键识别结果。

7) 热词识别

热词识别使得语音识别应用程序能够在说话者说话的同时检测一个特定的词或短语

当说话者说到这个短语的时候,识别引擎会把控制权交还给应用程序。在应用程序使用该功能可以使识别器能够在后台监听输入的语音,直到用户说出特定的短语进行请求时才与用户交互。

8) 智能调整识别策略

InterReco能够自动根据系统运行情况动态调整语音识别策略,在系统较忙时(CPU占用较高),采用计算量较小但具有足够精度的策略以保证系统的响应速度;在系统不忙时(CPU占用较低),采用精度更高的策略以达到更优的识别效果。该功能在保障稳定运行的基础上,充分利用系统的计算资源,有利于保护客户的设备投资。

9) 语音录入

允许用户通过语音方式动态增加识别语法。该功能使用户可以更加灵活的维护语法,扩展语音识别范围,并且能够提高识别系统对用户语音的适应能力,提高识别的准确率。

10) 呼叫日志

语音识别的呼叫日志在系统中有着非常重要的作用,该日志记录输入的音频、加载的语法、识别过程的中间结果、识别模块呼叫过程、识别使用的各种参数、识别结果以及当时的系统环境信息。这些数据是效果分析和优化的基础和依据。

注:呼叫日志(call log)默认是关闭的。

1.5 呼叫导航功能

呼叫导航功能是科大讯飞为了解决呼叫中心日益复杂的IVR按键菜单而带来的问题而诞生的,传统的IVR流程用户需要按键多次才能找到需要查询的业务,而随着业务的增

长,呼叫菜单变得非常复杂,用户的呼叫时间也越来越长,客户满意度大大降低;当无法使用按键方式获取到自己需要的服务时候,用户便会求助人工,导致呼叫中心人力成本增加。呼叫导航的功能即用户随意说出自己想要办理的业务,如“我的银行卡丢了,我该怎么办?”系统通过语音分析和语义分析将用户需求指向“补办银行卡”的呼叫菜单上,从而实现菜单的扁平化,提高呼叫中心自助率,实现随意说的菜单导航。

1.5.1呼叫导航的流程:

1.5.2呼叫导航的特点:

呼叫导航可以实现业务的自由说,如说出“我想查余额”和“查下我的银行卡上还有多少钱”都可被正确的导航至“余额查询”的业务中。呼叫导航不需要语音识别语法,从而摆脱了传统语音识别只能说出特定关键字的约束。

1.5.3呼叫导航的应用:

呼叫导航只能使用在特定的领域中,并需要相应的资源包支持,如银行业务需要银行资源包支持,电信业务需要电信资源包支持。科大讯飞的业务支持和优化团队可以为特定领域制定专门的自由说资源包。

1.6 语法功能

语法就是用户说话的描述,包括两部分:

?语法:列出用户系统所有能支持的说话语句。

?语义:列出语句中每一个关键词或短语的含义。

语法是语音识别系统非常重要的一个部分,在一般的电话语音应用中,系统在预先设置

的语法范围内判断用户说话内容,输出该语法对应的语义。InterReco采用国际标准语法定义协议,为用户提供最方便易用的语法功能,主要包括:

1) 支持符合SRGS 1.0规范的语法

SRGS(Speech Recognition Grammar Specification)是W3C定义的语音识别语法规格,在规范中定义了XML格式和ABNF格式两种的语法书写规范,InterReco系统同时支持这两种语法格式。

2) 语法编译

语法编译器负责将用户编写的语法文本编译成为语音识别引擎所支持的内部二进制格式。InterReco语音识别引擎既可以支持运行时刻在线编译语法文件,也同时支持直接加载离线预编译的内部二进制文件,以提高系统响应速度。

3) 语法动态加载/卸载

在系统运行过程中,用户可以使用开发接口控制语法的动态加载和卸载。如果该语法没有编译,那么将在加载的同时完成编译。同样,为了释放资源,用户也可以卸载不再被使用的语法。

4) 语法激活/逆激活

在一次识别的交互中,系统允许多个语法同时被加载,但在应用逻辑的每个步骤,并不是所有的语法都需要被激活,用户可以通过开发接口控制当前加载的所有语法中需要被使用的语法,也就是“激活”状态的语法,在当前场景结束后可以把该语法设置为“非激活”状态。

5) 语法缓存

在大规模的语音应用中,有些语法在不同对话过程中可能需要多次被使用,如果在每次对话前都实时对这些需要重复使用的语法进行加载、卸载、编译等操作,会导致系统性能受到明显影响。InterReco系统允许对语法进行缓存处理,缓存方式包括http、磁盘、内存等级别,并允许配置缓存的策略、磁盘使用限制和内存使用限制等参数。

6) 动态语法

动态语法是由应用程序在运行时动态创建和修改的语法。在有些应用中,语法并不能在应用程序启动前完全确定,在运用程序运行过程中,将由系统或用户动态创建或修改语法。InterReco支持动态法语功能。

7) 语法权重

系统允许对语法的不同条目的权重进行指定。通过对业务的合理分析,调整不同条目的权重,可以大提高系统的识别准确率。

8) 语法优化

在语法编译过程中,语法编译器可以自动对语法进行优化,以提高语法的加载速度,或者减少语法编译后的尺寸,达到优化系统性能的目的。

9) 语法远程获取

系统允许通过http协议获取远程服务上的语法文件,以满足不同的应用需求。

10) 提供内置语法

系统内置一些常见应用场景的语法,如航班号、邮编、区号、身份证、时间、日期等。应用程序设计者灵活使用这些内置语法,可以加速开发和应用发布过程,提高产品的可用性。

11) DTMF语法

在语法中允许对DTMF信号进行识别,并可以定义该DTMF信号对应的语义。

1.7 集成开发

InterReco作为一个语音识别引擎,需要提供完善的集成开发接口,以便开发人员能够将其与应用程序进行集成,实现具有语音识别能力的应用。InterReco提供的主要开发接口有:

1) 语音识别开发接口

语音识别接口是InterReco提供的最重要的对外接口,是应用开发人员使用识别引擎进行语音识别开发所必需使用的接口。这个接口提供强大的功能,能够发挥InterReco语音识别系统的优势,通过不同的并发编程模型简化编程复杂度,优化系统性能表现。

2) 语音检测开发接口

端点检测是语音识别一个重要的输入环节,该接口允许用户通过编程对端点检测的处理策略,和语音识别引擎进行交互。

3) 语音录入开发接口

在某些语音识别应用中,有“使用某段语音(而不是某个文本)作为语法的条目”的需求。语音录入开发接口便是为这种需求而设计的。语音录入开发接口提供了对语音确认、冲突检测等功能。用户可以使用该接口,简化特定应用场景的开发过程。

1.8 分析和优化

分析和优化是语音识别开发、应用项目中的重要步骤之一,对于语音识别应用获得成功具有重要的意义。InterReco提供了相关接口和工具,帮助客户更加简单、高效的进行分析和优化,主要包括:

1) 分析识别效果

通过呼叫日志Call log记录,专业识别服务人员使用分析工具分析统计,得出当前应用的总体识别率和语法内正确识别率、正确接受率、错误拒识率,以及语法外的错误接受率、正确拒识率等重要技术指标。这些指标能够反映出当前语音应用的总体识别效果,同时也能够分析应用中存在的问题。

2) 识别优化

通过识别效果的分析,专业识别服务人员可以对识别的语音界面、识别语法、识别

模型、系统参数进行优化,以达到提高用户满意度,提升识别效果的目的。

2. InterReco

3.0产品简介

InterReco语音识别系统包含标准版及专业版,其中标准版对语法的规模及形式有所限制,详细特性支持见下表:

子系统特性标准版专业版

语法子系

统最大语法规模500 无限制

槽的最大嵌套深度 2 无限制

SRGS 1.0规范同时支持ABNF和XML格式语法

ECMA脚本支持ECMA-327规范的脚本语言

用户自定义词典支持自定义格式和PLS标准格式的词典文件

语法动态加载支持语法的动态加载和卸载,动态激活和逆激活语法编译支持语法的在线编译和离线编译

语法文件远程获取支持通过http协议获取远程服务上的语法文件

语法缓存

支持http、磁盘、内存多个级别的缓存,允许配置

缓存的策略、磁盘使用限制、内存使用限制

中英文混合编译支持中文字词、英文字母和单词混合的语法

中文多音字自动处理支持

英文自动发音生成支持

直接使用汉字书写语法支持

语法权重支持设置语法中特定词条的权重

语法优化支持在编译过程中对语法进行自动优化

DTMF语法支持

汉字编码格式支持GB2312、GBK、BIG5、ISO-8859-1、UTF-8、UTF-16

内置语法提供航班号、邮编、区号、身份证、时间、日期、是否等常用语法

识别核心呼叫导航支持

超大规模关键字识别支持

语音标签功能支持

置信度输出支持

识别结果多候选输出支持1-10个候选识别结果输出

中英文混合识别支持

数字识别支持数字串识别

字母识别支持

语音录入支持

识别结果输出格式支持NLSML格式的识别结果输出语义解析支持SISR1.0语义解析规范

在线自适应支持在线说话人自适应

噪声消除支持

自定义语言包支持

Vxml3.0 支持

端点检测工作模式Begin -End、Begin-Only、magic-word 输入

音频

采样率8k

格式8bit uLaw/aLaw,16bit PCM

智能打断支持

状态保存、恢复支持声学状态数据的保存、转移和恢复

集成开发开发接口

提供C风格的语音识别开发接口和WebService

接口,语音检测开发接口和语音录入开发接口

开发样例提供Visual C++编写的识别开发样例

其它网络调用

支持基于C/S结构的网络识别服务,支持MRCP

协议

动态负载均衡支持

系统运行日志支持不同级别的系统运行日志输出

呼叫日志支持

支持操作系统Microsoft Windows 2000/XP/2003

2.1 主要指标

系统尺寸:

操作系统Microsoft Windows 2000/XP/2003 安装前50.1 MB

安装后111 MB

配置要求:

配置CPU RAM HD

最低配置PIV 2.4G 512 MB

80 GB

推荐配置XEON Dual 1.6*2 2 GB

2.2 文档和相关资料

语音合成系统的开发和使用可以参阅以下文档和资料:

?随产品提供的《InterReco 3.0用户开发手册》;

?在线帮助文档《InterReco 3.0帮助支持中心》,位于软件安装目录的Help目录下;

?开发接口使用示例程序,位于安装目录的examples目录下;

3. InterReco3.0识别系统性能特性

3.1 性能的度量

?单台服务器提供90路并发识别服务

?2000条语法的情况下,单路内存消耗不高于10M

3.2 影响性能的因素

InterReco语音识别产品为了实现最好的识别效果,采用了复杂度非常高的算法,也使用了大量的资源文件。因此InterReco语音识别系统的性能指标是受软件和硬件多方面因素影响的。下面将对影响合成系统性能的因素进行一些分析和说明。

1.语音识别系统本身的算法复杂度等因素:因为每个版本的语音识别系统的内部算法和资源使用都不尽相同,不同版本识别系统的性能表现是有差别的,有的系统之间的性能差别会非常大。

2.测试服务器的CPU运算能力:因为识别系统内部进行了大量的逻辑和数学运算,运行语音识别的服务器的CPU运算能力(简单可以用CPU的主频来表示)和CPU的数量,都会极大的影响识别系统的性能表现。CPU主频越高,数量越多,识别系统的性能越高;

3.内存:语音识别系统在服务的过程中,使用了大量的内存进行中间数据的存贮,并且内存中的数据进行了非常频繁的操作和计算,因此内存的可用大小和存取速度对识别系统的性能也有显著的影响,如果内存容量低于要求的大小,识别系统不能表现出最佳的性能;内存的存取速度越快,识别系统的性能也会越好。InterReco3.0建议运行识别服务的计算机配置至少512M的内存,推荐配置1G的内存。

4.操作系统:不同的操作系统对进程和线程的调度、内存管理、网络服务等方面的实现都存在差异。因此科大讯飞公司建议在大规模的语音识别服务应用中使用服务器版操作系统。

5.硬盘:因为识别系统需要频繁的与硬盘交换数据,因此硬盘的随机访问速度也会对识别性能造成影响。建议客户在使用语音识别服务的计算机上配置转速高于7200转的IDE 硬盘或者使用高速的SCSI硬盘。

6.网络环境:在通过网络调用实现远程语音识别服务的应用中,网络环境的配置也会极大地影响识别系统的性能表现。在一台并发运行70路以上语音识别服务的计算机上,其网络交换的数据量会达到几十兆bps甚至更高。因此建议服务端和客户端都配置100Mbps 以上的网卡,并且最好都在同一个局域网内。另外强烈建议使用交换速率和带宽更高的100Mbps网络交换机,而不是100Mbps的集线器。如果局域网带宽为10Mbps,语音识别网络服务的效率会极大地受到限制。

3.3 测试环境

3.3.1 软硬件标准测试环境

测试环境配置

服务器CPU:XEON1.6GHz×2

RAM:4G

OS: Microsoft Windows 2003 Server

客户端CPU:P4 2.4G RAM:1G

OS: Windows XP SP2

3.3.2 基准环境

“硬件标准测试环境”,本地测试使用服务端的硬件环境;

“软件标准测试环境”,本地测试使用服务端的软件环境;

识别参数全部取缺省值;

识别语料准备策略:语法需涵盖语法规范支持的类型,前期不需要很多,但需要全面,

在测试过程需要注意语法的积累。语音需准备足够多的,针对不同的用途要进行相关分

类,测识别率时wav需与语法条目的相对应,测性能时需选择支持的音频格式,并且

大小比较均匀,测系统稳定性等需选择不同格式和大小的语音文件。

数量:wav共有349,274个。

大小:从几k到十几M不等。

格式:语法的格式有abnf和grxml两种格式,wav包含8k16it、8kulaw、8kalaw和其

它不支持的格式如16k16bit、立体声等语音。

3.3.3 网络调用时的性能

下表所列数据为InterReco 3.0在网络环境下不同并发线程时的识别函数响应时间和吞

吐量等测试参数。

测试方法:在服务中将SES启用,客户端用isp客户端。

路数响应时间system resource

max min avg CPU(%)Mem avg Mem max

1 0.11 0.031 0.0678 5.71 93,768 99,861

10 0.219 0 0.0843 33.06 116,879 149,631

20 0.609 0 0.1557 67 135,988 165,339

30 1.063 0 0.4211 77.13 156,875 180,957

40 1.594 0 0.6841 80.49 173,246 226,976

50 2.484 0 1.0334 81.64 201,334 260,538

60 2.718 0 1.211 80.93 214,043 263,754

70 3.016 0 1.2728 80.83 233,383 309,146

80 4.735 0 1.8973 82.7 248,351 318,689

90 6.359 0.015 2.4584 83.26 290,399 370,561

使用Call Routing功能性性能:

路数

响应时间system resource

max avg CPU(%)Mem avg Mem max 1 0.11 0.0341 1.83 131416 127549 10 0.25 0.0634 17.38 170120 153885 20 0.765 0.0878 42.63 195976 179963 30 1.594 0.1884 81.6 224244 205918 40 2.047 0.2652 92.49 252944 231250 50 2.234 0.3248 99.06 282156 259534

60 2.406 0.3373 98.61 308896 285825

70 3.281 0.3863 98.82 355520 314779

80 3.937 0.4616 98.51 350732 331914

90 2.593 0.431 98.55 414820 364100 4. 技术支持

如果您在安装或使用中有任何问题或者建议,请与我们联系!!

联系时的对问题的描述应尽量包含以下内容:

* 系统配置(包括CPU、内存、硬盘、操作系统及产品版本等信息)

* 问题细节(包括问题的重现过程及合成的文本内容等)

* 问题重现(包括详细的操作过程)

?电话支持

请于周一~周五,北京时间9:00~17:00间,拨打电话0551-5331813获得技术支

持信息。

?电子邮件支持

请将问题的详细描述发至:tts_support@https://www.360docs.net/doc/8d8456119.html,

?信件支持

请将问题详细描述发至:安徽省合肥市黄山路616号高新区信息产业基地讯飞大厦

邮政编码:230088

或传真至:0551-5331801 / 5331802

7. 公司介绍

科大讯飞是领先的专业语音技术提供商,拥有自主知识产权的智能语音技术代表了世界最高水平,并始终引领和不懈推动语音产业的发展。2008年,科大讯飞在深圳证券交易所挂牌上市,股票代码:002230。

科大讯飞在智能语音技术领域有着长期的研究积累,并在中文语音合成、语音识别和口语评测等多项技术上拥有国际领先的成果。科大讯飞是我国唯一以语音技术为产业化方向的“国家863计划成果产业化基地”、“国家规划布局内重点软件企业”、“国家火炬计划重点高新技术企业”、“国家高技术产业化示范工程”,并被信息产业部确定为中文语音交互技术标准工作组组长单位,牵头制定中文语音技术标准。2003年,科大讯飞获迄今中国语音产业唯一的“国家科技进步奖”,2005年获中国信息产业自主创新最高荣誉“信息产业重大技术发明奖”。2006年、2007年、2009连续三届在英文语音合成国际大赛(Blizzard Challenge)中蝉联大赛第一名。在2008年由NIST(美国国家标准技术研究院)举办的国际说话人识别评测大赛上,科大讯飞语音实验室送评的识别系统获得综合指标第一名。

语音识别和语音合成技术让信息设备与系统“能听会说”,实现人机语音交互,使人与机器之间沟通变得像人与人沟通一样高效、自然。智能语音技术有着非常广阔的应用前景。科大讯飞是中文语音技术市场的领导者,在电信、金融、能源、交通、政府等主流行业的份额达到80%以上。

?国家863计划成果产业化基地

?国家规划布局内重点软件企业

?国家火炬计划重点高新技术企业

?国家高技术产业化示范工程基地

?国家级优秀软件企业

?中国电子政务IT100强企业

?中国中文语音交互技术标准工作组组长

?国家博士后科研工作站

如果您想了解更多信息,敬请访问https://www.360docs.net/doc/8d8456119.html,。

相关文档
最新文档