当前位置：文档之家› 讯飞语音平台

讯飞语音平台

1.什么是MSP

移动互联网已迅速成为当今世界发展最快、规模最大和市场前景最好的行业，已吸引众多知名IT公司进军该领域。由于现有移动终端设备交互方式存在诸多局限，如键盘太小，输入文字不便；屏幕太小，阅读信息不便；以及无法处理特定场景下的交互，如开车和步行情形。语音技术是人机交互最自然的方式，可以给以上缺陷提供完美的解决方法，移动互联网对语音技术有着天然的需求。

科大讯飞拥有全球领先的中文智能语音技术，多年来一直致力于研发将语音技术应用到千家万户，MSP（iFLY Mobile Speech Platform）便在此背景下诞生。通过MSP，移动互联网的终端用户可以随时随地的使用语音服务。语音技术带来品质生活，始终是MSP团队所坚持不懈的理念。

1.1主要功能

iFLY Mobile Speech Platform（以下简称MSP）是一个应用于移动互联网的语音服务平台，其主要目标是：

1) 实现可面向移动2G/3G网络及互联网提供语音服务的服务器，在现有科大讯飞电信级语音服务平台ISP基础上为移动终端应用程序提供多路并发的语音合成、语音识别、语音听写功能，通过架设在互联网的语音应用服务器，用户可以随时随地获得高质量的语音服务；

2) 实现基于移动终端以及桌面平台的语音应用客户端，提供统一的语音应用开发接口，通过该接口用户可以方便、快速地开发语音应用；同时，MSP也将开放一些基于移动以及桌面平台的语音应用，用于展示MSP语音服务平台的功能和使用方法，让用户直接体验到最新的语音技术；

MSP最终提供了架构于互联网的语音云服务和一套移动互联网语音解决方案、应用示例，把语音服务的应用范围拓宽到移动互联网领域，为语音服务产品走向移动互联网市场开辟全新的应用模式。

MSP平台整合了科大讯飞研究院、中国科技大学讯飞语音实验室以及清华大学讯飞语音实验室在语音识别、语音合成等技术上多年的技术成果，语音核心技术上达到了国际领先水平。

MSP系统采用分布式架构，继承了科大讯飞成熟的电信级语音平台高稳定的特点，可以满足电信级应用的高可靠性、高可用性要求。针对传统语音应用集成开发困难，业务设计繁琐的问题，MSP产品大大简化了集成开发和业务开发的复杂度，为系统集成人员和业务开发人员提供了便捷、高效的开发环境。

1.2语音技术介绍

语音是智能人机交互的最直接最便捷的手段，近些年来，语音正在日益影响和改变人们的日常生活。随着移动互联网时代的到来，移动终端由于本身输入手段的限制，语音技术带来的交互优势更加明显，可以大大提高移动终端的交互体验和交互效率。智能语音技术包含语音识别和语音合成技术，这两个技术使得终端具备了能听会说的能力。

语音识别（Auto Speech Recognize，ASR）技术，是让机器通过识别和理解过程使之听懂人类语言的技术。语音识别技术是信息技术中人机交互的关键技术，目前已经在呼叫中心、电信增值业务、企业信息化系统中有了广泛的应用。随着语音识别在语音搜索、语音控制等全新应用领域的深入应用，语音识别技术被业界权威人士誉为有可能引发人机界面领域革命的关键技术。自动语音识别技术所要解决的问题是让计算机能够“听懂”人类的语音，将语音中包含的文字信息“提取”出来。ASR技术在“能听会说”的智能计算机系统中扮演着重要角色，相当于给计算机系统安装上“耳朵”，使其具备“能听”的功能，进而实现信息时代利用“语音”这一最自然、最便捷的手段进行人机通信和交互。

语音合成（Text To Speech，TTS）技术能够自动将任意文字实时转换为连续的自然语音，是一种能够在任何时间、任何地点，向任何人提供语音信息服务的高效便捷手段，非常符合信息时代海量数据、动态更新和个性化查询的需求。

近年来，语音识别、语音合成等语音技术取得了长足的进步，科大讯飞语音技术历经20年不懈创新，自90年代中期以来，在历次的国内国外评测中，各项关键指标均名列第一。MSP移动语音平台是科大讯飞针对日益丰富多样的移动互联网应用需求，向移动互联网推出“即开即有、按需取用”的语音服务能力，为快速构建各种各样移动语音应用程序提供强大、稳定、易用的互联网动力引擎。

1.3系统架构

MSP讯飞语音云平台采用基于互联网的C/S架构，基本拓扑结构如下图：

从上图可以看到，MSP系统部署在互联网上，通过运营商的三网接入，无论是传统的互联网终端还是移动互联网终端都能够通过网络获得语音服务。MSP在互联网上建立多个云服务中心，每个服务中心能够独立提供稳定的互联网语音服务，云服务中心之间自动同步数据。通过这种机制，用户可以获得高度可用、流畅的语音功能支持。

下图是MSP产品的主要功能组成模块和组成结构：

上图蓝色区域为MSP系统的实现范围，浅色区域是与MSP密切相关的组件或第三方角色。

MSP系统主要包括语音应用接口（Speech Programming Interface，SPI）、客户端（Mobile Speech Client，MSC）、服务器（Mobile Speech Server，MSS）和基础支撑（MSP Infrastructure）四个层次，这四个逻辑层从用户到服务器操作系统底层，共同构成了完整的MSP 系统架构。

应用接口是MSP系统提供的开发接口，集成开发人员应关注这些接口的定义、功能和使用方法。MSC负责实现这些接口，同时封装了网络通讯、音频编解码（Audio Codec）、语音检测（VAD）、协议解析（MSSP）等功能，同时为了便于开发和使用，系统在这一层提供了一系列高效、易用的工具。MSS提供语音服务的服务端实现，使用服务端的识别引擎提供语音功能，同时提供管理和维护功能；基础支撑层是MSP的服务基础，负责提供适合云计算架构的负载均衡、并行计算、数据存储等功能。

1.4集成开发

MSP作为一个向互联网和移动互联网开放的语音引擎，提供了功能完善、简单易用的集成开发接口，以便开发人员能够将其与应用程序进行集成，实现具有完整语音能力的应用。MSP提供的主要开发接口从提供功能考虑可以分为语音识别（包含语音听写）、语音合成开发接口和语音检测开发接口：

1) 语音识别开发接口

语音识别接口（QISR接口）是应用开发者使用识别引擎和语音听写引擎进行语音应用开发所必需使用的接口，该接口接受用户输入的语

音，把语音识别结果返回给应用程序。

2) 语音合成开发接口

语音合成接口（QTTS）可以让应用开发者在应用程序中集成讯飞语音合成引擎的功能，该接口接受应用程序传入的文本内容，返回符合应用要求格式的音频数据。

3) 语音检测开发接口

语音检测（VAD）是语音识别一个重要的输入环节，用于判断用户语音何时开始、何时结束，该接口集成在MSC客户端内部，通过QISR 接口的参数来返回语音状态。

有关MSP语音开发接口的使用请参考《MSP开发手册》。

移动互联网应用程序需要使用在成千上万各式各样的用户终端之上，用户终端类型从非智能终端到智能终端、从手机到智能玩具、从PC 到互联网电视，应用操作系统环境形形色色、品类众多。为了满足各类客户端操作系统环境上都能够使用讯飞语音云提供的语音功能，MSC为多种终端环境提供了语音开发接口，主要包含Android、iOS、Symbian、Windows Mobile/CE、MTK等。

人工语音合成处理系统简要说明

人工语音合成处理系统 V1.0

目录 1引言 (3) 1.1背景 (3) 1.2系统特点 (3) 2系统硬件设计 (4) 2.1总体硬件设计 (4) 2.2蜂鸣器设计 (4) 2.3整体硬件设计电路图 (7) 3系统软件设计 (7) 3.1软件设计构成 (7) 3.2软件设计流程 (8) 4系统应用介绍 (9) 5参考书籍 (11)

1引言 1.1背景现今社会人们依靠各种机电系统和计算机系统从事劳动生产、工业控制和科学研究。当人们操纵这些系统的时候，就自然地出现了人与系统的信息交流，即系统不断的报告自己的运行状态和结果，而人们根据这些状态和结果发出下一步应进入何种状态的命令。长期以来，计算机与人之间的信息交流主要依靠各种形式的键盘，按键等实现的，计算机要报告运行状态，结果只能通过各种显示装置。语音合成技术是实现人机语音通信，建立一个有听说能力的口语系统所必需的关键技术之一。随着计算机运算速度的提高，人工智能领域的研究获得了飞速发展，而人工智能领域的最新研究成果不断地向语音研究渗透，促使语音处理技术及语音合成的研究也产生了突破性的飞跃。和语音识别相比，语音合成技术相对要成熟一些，是该领域中近期最有希望产生突破并形成产业化的一项技术。人工语音合成处理系统V1.0（简称语音合成系统）由软件实现词汇语音合成器，使人们能够甩掉键盘，通过语言命令进行操作。系统在完成其它任务的同时具备语音输出功能，可使单片机系统成本下降，体积减小，可靠性提高。它对于解脱繁琐的事物性和危险性工作更具有现实意义！ 1.2系统特点提高合成语音的自然度就汉语语音合成来说，目前在单字和词组一级上，合成语音的可懂度和自然度已基本解决，但是到句子乃至篇章一级时其自然度问题就比较大。基于语音数据库的语音合成方法进一步提高语音合成的自然度。因为这是一种采用自然语音波形直接拼接的方法，进行拼接的语音单元是从一个预先录下的自然语音数据库中挑选出来的，因此有可能最大限度地保留语音的自然度。丰富合成语音的表现力目前国内外大多数语音合成是针对文语转换系统，且只能解决以某种朗读风格将书面语言转换成口语输出，缺乏不同年龄、性别特征及语气、语速的表现，更不用说赋予个人的感情色彩。本系统对入机交互提出了更高的要求，即语音合成已开始从文字到语音的转换阶段向概念到语音的转换阶段发展。在嵌入式系统中应用语音合成技术在提高合成语音的质量和增强语音合成的表现力以外，在其他实用化方面也有加以改进的地方。目前高质量的汉语文语转换系统～般需要几兆字节到几十兆，甚至几百兆字节的存储容量，这在以PC机或工作站为硬件平台的应用中是没

开源TTS语音合成和处理合集整理

开源TTS/语音合成和处理工具 1.eSpeak-Chinese eSpeak-Chinese是一个TTS软件。它是基于Jonathan Duddington 的eSpeak，由于中文词典太大，eSpeak缺省并不带中文词典，需另外下载。发布 eSpeak-Chinese只是为了方便用户安装。国语支持的主要贡献者： ?Kyle Wang （waxaca at https://www.doczj.com/doc/009274391.html,) –创建了最初的字典，规则和声音文件。 ?Silas S. Brown (https://www.doczj.com/doc/009274391.html,/ssb22/) - 改进词典(加入CEDICT等). 粤语支持的主要贡献者: ?黄冠能 - 创建了粤语字典，简易的规则和声音文件。 eSpeak-Chinese是eGuideDog项目的重要组成部分。另一个中文TTS(余音)在开发中。它在设计上更简易但文件较大。由于使用了真人发声，它比eSpeak的声音更自然。目前它只支持粤语。 2.Flite Flite是一个小型、快速的TTS系统，是著名的语音合成系统festival的c版本。可用于嵌入式系统 3.FreeTTS FreeTTS 是完全采用 Java 开发的语音合成系统，它是卡内基梅隆大学基于Flite 这个小型的语音合成引擎开发的。 FreeTTS是一个语音合成系统写的JavaTM编程语言完全。它是根据Flite公司：一个小运行时语音合成引擎卡内基梅隆大学的发展。弗莱特来源于节语音合成系统，从爱丁堡大学和卡内基梅隆大学的festvox项目。这种FreeTTS版本包括：*核心语音合成引擎*支持的多寡：邻一8kHz的双音子，男，美国英语语音办公16KHz的双音子，男，美国英语语音办公16KHz的有限域，男*美国英语语音的festvox的进口（美国英语的声音只）*对进口的festvox（仅限美式英文）*支持工具中央结算系统的MBROLA北极的具体支持，支持的声音声音（单独下载）：办公自动化16KHz的女性，美国英语语音O 2个16KHz的男性声音*美国英语为JSAPI 1.0 *广泛的API文档部分支持*几个演示应用 4.eSpeak eSpeak是一个紧凑的开放源码软件的语音合成器为英语和其他语言，为Linux 和Windows 。

马来语语音合成系统的设计与实现

Computer Science and Application 计算机科学与应用, 2018, 8(7), 1053-1064 Published Online July 2018 in Hans. https://www.doczj.com/doc/009274391.html,/journal/csa https://https://www.doczj.com/doc/009274391.html,/10.12677/csa.2018.87117 The Design and Implementation of a Malay Speech Synthesis System Meifang Shi, Haoran Feng, Jian Yang* School of Information Science and Engineering, Yunnan University, Kunming Yunnan Received: Jun. 29th, 2018; accepted: Jul. 10th, 2018; published: Jul. 17th, 2018 Abstract Malay is widely used in Malaysia, Singapore and other Southeast Asian countries. Currently, there are about 200 million people using Malay. This paper studies the front-end text analysis method of Malay speech synthesis system, and the back-end speech synthesis method based on HMM. In front-end text analysis and processing, the collection and selection of Malay language data, text normalization, and automatic syllable division were researched and implemented; In the back-end speech synthesis section, the Malay Phonetic list determination, text annotation, context attributes and problem set design, HMM acoustic model training, and speech waveform generation were studied and implemented. Experimental results show that the front-end text analysis and processing method proposed and implemented in this paper can fulfil the requirements of back-end speech synthesis. The back-end speech synthesis system constructed in this paper can synthesize a complete Malay sentence. Keywords Malay Language, Speech Synthesis, Hidden Markov Model, Text Analysis, Acoustic Model 马来语语音合成系统的设计与实现施梅芳，冯浩然，杨鉴* 云南大学信息学院，云南昆明收稿日期：2018年6月29日；录用日期：2018年7月10日；发布日期：2018年7月17日摘要马来语广泛使用于马来西亚、新加坡等东南亚国家，目前使用人数约有2亿多人。本文研究马来语语音*通讯作者。

讯飞语音合成系统的使用方法

讯飞语音合成系统的使用方法大家都知道，语音识别模块没有思考的能力，更加不会听懂人说的话或者自动的回答问题。模块具有问答能力是因为“答”的语音是人事先录制好并且存放进了SD卡中的，然后模块识别到人说话的内容便自动的播放出对应的语音，也就是说答案是早早就准备好的。那么，模块“回答”的语音文件是要用户事先录制好再存放到SD卡中的。目前，制作这个语音文件一般通过下面两种方式： 1.用户自己用电脑通过咪头人工录制。 2.用语音合成软件自动合成（例如：讯飞语音合成系统）。第1种方法做出来的语音文件效果最好，发音自然，但是做起来比较麻烦，经常更换语音就体现了工作量之大了。第2种方法做出来的语音文件效果不太理想，发音比较生硬，但是因为做起来比较方便，是大多数人采用的一种方式。下面将向大家介绍讯飞语音合成系统的使用方法（安装方法请参考《讯飞语音合成系统安装方法.doc》）： 1.点击“开始”---“所有程序”---“科大讯飞”---InterPhonic 5.0---“合成演示程序”打开讯飞语音合成系统。

2.选择一个语音库，我这里选择“小宇”，再输入一个你要转换成语音输出的句子。 3.选定句子（按住鼠标左键不放，从句子的开始拉到结尾，然后松手。或者按键盘的Ctrl+A全选。）

4.点击播放键（或者按F5键）可以试听效果，如果不满意可以再修改。有时候语气并不符合要求，听起来很别扭，我们可以通过用同音词来修改，例如“为” 字，读起来不太好听，我们可以用“胃”字去代替，这些技巧大家多点锻炼就能找出诀窍了。

5.修改句子知道试听效果满意之后就可以导出XXXX.WAV语音文件了。

单片机语音合成系统的设计

本科生毕业论文题目：单片机语音合成系统的设计院系：物理与电子工程学院专业：电子信息工程学生姓名：胡立学号：07128003 指导教师：李文联 2011年4月

单片机语音合成系统的设计摘要：语音合成技术是实现人机语音通信，建立一个有听说能力的口语系统所必需的关键技术之一。随着计算机运算速度的提高，人工智能领域的研究获得了飞速发展，而人工智能领域的最新研究成果不断地向语音研究渗透，促使语音处理技术及语音合成的研究也产生了突破性的飞跃。和语音识别相比，语音合成技术相对要成熟一些，是该领域中近期最有希望产生突破并形成产业化的一项技术。介绍一个以语音合成系统为主电路，在单片机89C51的管理下，用软件编程并通过串行口编程进行通信，产生不同定时来准确地控制乐曲节奏，最终实现蜂鸣器唱歌的过程。此通用合成语音系统能根据需要利用多种语音压缩算法无缝地混合配合，用以优化语音质量和存储容量。此设计使人们能够甩掉键盘，通过语音命令进行操作。系统在完成其它任务的同时具备语音输出功能，可使单片机系统成本下降，体积减小，可靠型提高。它对于解脱繁琐的事物性和危险性工作更具有意义。关键词：89C51单片机；语音压缩算法；语音合成；蜂鸣器

Design Of SCM Speech Synthesis System Abstract：Speech synthesis technology is a human-computer voice communication, listening and speaking ability to establish an oral system one of key technologies required. With the increase in computing speed, artificial intelligence research in the field has made a rapid development, the latest in artificial intelligence research studies continue to penetrate to the voice, speech processing technology and to promote the research of speech synthesis created a breakthrough leap. And voice recognition compared to speech synthesis technology is relatively mature, is the most promising areas of recent breakthroughs in production and the formation of a technology industrialization. Describes a speech synthesis system, the main circuit, under the management of the 89C51 microcontroller, software programming and programming through the serial port to communicate, have different time to accurately control the rhythm of music, and ultimately the process of singing buzzer. The general synthetic speech systems as needed using a variety of voice compression algorithms seamlessly mixed with, to optimize voice quality and storage capacity. This design allows people to get rid of the keyboard, through voice commands to operate. System to complete other tasks at the same time with voice output, SCM systems can lower costs, reduce size, improve reliability type. It complicated things for free and dangerous work more meaningful. Key words: 89C51SCM;Pronunciation compression algorithm;Speech synthesis; Buzzer

语音合成系统的关键技术与应用实例

19 杭州科技双月刊2/2000科海拾贝计算机语音合成系统又称文语转换系统(T IS 系统),它的主要功能是将计算机中任意出现的文字转换成自然流畅的语音输出。一般认为,语音合成系统包括三个主要的组成部分:文本分析模块、韵律生成模块和声学模块。一、语言合成系统的关键技术⒈T IS 系统的文本分析模块语音合成系统首先处理的是文字,也就是它要说的内容。文本分析的主要功能是使计算机能从这些文本中认识文字,进而知道要发什么音、怎么发音,并将发音的方式告诉计算机。另外,还要让计算机知道,在文本中,哪些是词,哪些是短语或句子,发音时应该到哪里停顿及停顿多长时间等。其工作过程可以分为三个主要步骤: ⑴将输入的文本规范化。在这个过程中,要查找拼写错误,并将文本中出现的一些不规范或无法发音的字符过滤掉。 ⑵分析文本中词或短语的边界,确定文字的读音,同时分析文本中出现的数字、姓氏、特殊字符、专有词语以及各种多音字的读音方式。 ⑶根据文本的结构、组成和不同位置上出现的标点符号,确定发音时语气的变换以及不同音的轻重方式。最终,文本分析模式将输入的文字转换成计算机能够处理的内部参数,便于后续模块进一步处理并生成相应的信息。传统的文本分析主要是基于规则(Rule -based )的实现方法。其主要思路是尽可能地将文字中的分词规范、发音方式罗列起来,并总结出规划,依靠这些规则进行文本处理,以获得需要的参数。具有代表性的方法有:最大匹配法、二次扫描法等。这些方法的优点在于结构较为简单、直观,易于实现;缺点是需要大量的时间去总结规则,且模块性能的好坏严重依赖于设计人员的经验以及他们的背景知识。由于这些方法能取得较好的分析效果,因此,直到目前,它们依然被广泛使用。但是近几年来,随着计算机领域中数据挖掘技术的发展,许多统计学方法以及人工神经网络技术在计算机数据处理领域中获得了成功的应用,计算机从大量数据中自动提取规律已完全可能并正在实现。在此背景下,出现了基于数据驱动(Data -driven )的文本分析方法,具有代表性的有:二元文法法(Di -Grammar Met hod )、三元文法法(Tri -Grammar Met hod )、隐马尔可夫模型法(HMM Met hod )和神经网络法(Neural Network Met hod )等。一些比较著名的系统,如IBM 的语音产品就采用了隐马尔可夫模型法。这类方法的特点是,设计人员根据统计学或人工神经网络方面的知识,设计出一种可训练的模型,并用大量已经存在的数据去训练,将训练得到的模型用于文本分析,而系统设计人员并不需要太强的语言学背景知识。对于工程技术人员来说,这类方法无疑减轻了他们研究语言学的负担。目前,这类方法在文本分析精度上,已达到或部分超过了基于规则系统的分析结果,且容易实现多语种的混合,因而越来越广泛地被接受并使用。这类方法的缺点在于,尽管系统容易获得文本信息的共同特征,但忽略了一些个性,而往往这些个别因素对最终的发音方式影响很大。因此,有些系统采取了两类方法相结合的方式。 ⒉T IS 系统的韵律生成模块任何人说话都有韵律特征,比如在汉语中,音节有不同的声调、语气和停顿方式,发音长短也各不相同,这些都属于韵律特征。韵律参数则包括了能影响这些特征的声学参数,如基频、时长、音强等。文本分析的结果只是告诉了计算机发什么音,以及以什么方式发音,这种发音方式还只是抽象的。而要发音的声调是二声还是三声,是重读还是轻读,到哪里停顿,等等,这些最终系统用来进行声信号合成的具体韵律参数还要依靠韵律生成模块。与文本分析的实现方法相类似,韵律的生成方法也分为基于规则和数据驱动两种方法。早期的韵律生成方法均采用基于规则的方法。这种方法要求研究人员有大量的音韵学背景知语音合成系统的关键技术与应用实例