基于数字语音教室的多路混音算法及应用
录播教室设备参数要求

录播教室设备参数要求:序号设备名称设备参数单位数量投标人所投产品品牌型号1 多功能录播主机(必须实现与局现建成的录播管理平台无缝对接,可与其他学校音视频互动,确保使用正常)1、系统采用嵌入式Linux操作系统,高度1U。
2、6路本地高清信号采集接口,最该分辨率可达1080P。
3、2路本地视频输出接口,接口类型为2路HDMI高清数字接口,最高分辨率为1080P60。
4、10路本地音频信号采集接口,2路3.5mm耳机接口立体音输入。
5、2路立体音输出,可根据系统功能模式自由混音输出。
6、6路本地RS232串口,接口类型为绿色3pin端子。
7、1路本地调式串口,接口类型为绿色3pin端子。
可在脱离网络的情况下,使用串口调试和查看芯片状态。
8、1路RJ45网口,1路USB接口。
9、备播通道最多可扩展至10通道。
10、具备Web远程管理功能,可实时监视音视频。
11、具有自动和手动两种方式,实现教师教学、学生听课、电脑、师生互动等多场景的自动或手动切换。
12、系统可自定义导播策略,提供丰富的规则配置。
13、具备台标或LOGO的实时添加编辑功能。
14、具备字幕编辑区,且可定时发送字幕信息。
15、具备预置位切换功能,且可自由定义预置位名称。
16、具备片头片尾的自动合成,且可自由编辑片头片尾的图片以及时间。
17、具备6种多视频叠加模式,默认提供对话模式,画中画,三分屏经典模式,四分屏多画面模式等。
18、具备特效切换功能,支持多语言实时切换。
19、具备通道的云台控制,且可以自定义通道控制速度档位。
20、支持文件下载,在线点播,批量删除功能。
21、具备资源模式三分屏录制、直播观看功能。
22、支持多模式多通道直播,可实现主播、通道的主、子码流直播功能。
23、具备暂停录制功能,同时将功能融合到外接控制终端,如中控,键盘控制器。
24、可自动和手动上传视频到指定的平台。
25、具备终端控制,如手机、PAD等。
可控制系统的工作模式,开始停止录制等等常用操作。
数字化技术融入小学音乐课堂教学探究

数字化技术融入小学音乐课堂教学探究目录1. 内容概述 (2)1.1 研究背景 (3)1.2 研究意义 (3)1.3 研究现状 (5)1.4 研究内容与方法 (6)2. 数字化技术概述 (7)2.1 数字化技术的含义 (8)2.2 数字化技术的发展历程 (9)2.3 数字化技术的应用领域 (11)3. 小学音乐教育现状 (12)3.1 小学音乐教育的重要性 (13)3.2 小学音乐教育的难点 (14)3.3 当前小学音乐课堂教学模式分析 (15)4. 数字化技术融入小学音乐课堂的可行性分析 (17)4.1 技术和教育发展的现状 (18)4.2 数字化技术对课堂教学的影响 (20)4.3 学生和家长对数字化技术的接受度 (21)5. 数字化技术与小学音乐课堂教学融合的模式探索 (22)5.1 数字化的教学工具和资源 (23)5.2 教学方法与策略的创新 (25)5.3 教学评价方式的变化 (26)6. 案例分析与实证研究 (27)6.1 案例选择与背景介绍 (28)6.2 数字化技术在案例中的应用 (30)6.3 应用效果与学生反馈 (31)6.4 教学成果分析与反思 (32)7. 存在问题与解决方案 (33)7.1 技术应用中的问题 (35)7.2 教师专业发展的问题 (35)7.3 学生适应能力的问题 (37)7.4 家长支持与反馈问题 (38)8. 未来发展趋势与展望 (39)8.1 数字化技术发展趋势 (40)8.2 小学音乐教育的发展机遇 (41)8.3 研究的持续性与深入性 (42)1. 内容概述本文档聚焦于“数字化技术融入小学音乐课堂教学探究”的研究主题,旨在探究在小学音乐教育中应用数字化技术对提升教学效果、激发学生的学习兴趣和创造力的可能性和实施路径。
通过整合多种数字工具,包括但不限于互动软件、智能音频设备和多媒体平台,本研究旨在创建一种创新且互动性的学习环境。
该研究将首先对当前小学音乐教学的现状进行回顾,指出现有教学方法的局限性和数字化技术带来的潜在的变革机遇。
智慧教室系统方案设计方案

智慧教室系统方案设计方案1.1 整体设计说明1.1.1系统拓扑图1.1.2五机位录播教室设计高清摄像机:配置5台高清摄像机,主要用于教师特写、板书特写、教师全景、学生特写、学生全景高清视频信号的采集,通过高清SDI同轴电缆传输至嵌入式高清录播主机中,进行高清视频采集、图像合成、编码。
音频处理:教师和学生的语音信号通过领夹话筒和吊顶拾音话筒拾取,输入到数字音频矩阵处理器,通过均衡、降噪和混音等处理,输出1路立体声音频,1路向嵌入式高清录播主机提供音频输入信号,另1路可作为现场扩音。
通过上述设备的完美衔接,最终将整个教学过程中的高清录播教室内所有场景(教师特写、板书特写、教师全景、学生特写、学生全景、学生巡航)全部录制下来生成标准MP4文件,教师或学生可通过录播主机中直播点播或教学资源平台进行直播点播,又或是后期编辑制作精品课程资源。
整个录制过程为保证教师自然上课状态,教师学生全程无需佩戴任何辅助设备即可进行课程录制。
根据用户的要求,需要在教师授课的同时对精品课程教室内所有课堂发生的场景做全程录像,全面反映教师教学与学生情景调动及教学过程中教师使用的任何课件及板书内容等场景元素,这种方案需求下,需要对教师、学生、板书及全景视频信号进行采集,并需要进行音视频切换,同时要求分教室和网络上用户能同时以流媒体的方式在网络中观看直播课堂并能存储在服务器上供课后点播,进行在线学习。
按照图示:一般教室80-100㎡,我司根据用户需求结合自身录播产品进行整个高清录播教室的布局建设;录播教室组建主要设备包括:嵌入式高清录播主机、图像跟踪主机、数字音频处理器、高清摄像机、图像跟踪定位摄像机、指向性话筒、音响功放、录播中控系统、一体化液晶电视等设备。
1.2 音频采集系统设计4.2.1音频示意图方案采用超心形指向话筒,适用于多媒体教室、会场、演播厅;配置数字音频处理设备对多路音频信号的智能混音和音质的调节,使录制声音效果更佳清晰;根据教室的大小此次方案布置6支吊装话筒,采用超心形指向进行拾音,拾音范围如图所示,可将教室内声音进行有效拾取并进入数字音频矩阵进行音频处理。
无感扩声方案

第一章方案背景在教育信息化发展迅猛的今天,大量学校纷纷引入教学一体机、录播 教室、AR实验室等丰富多样的教学辅助工具,教育装备经费逐年增加,“视觉”有了较好的解决,但“听觉”一直未受到足够的重视,教育扩声效果普遍不达标。
在没有扩声设备或扩声效果不佳的情况下,老师长时间大声授课也使咽喉病成为老师的职业病,授课声音在室内不均直接影响了学生听课的质量,最终影响教学效果。
由此可见,高质量的扩声已经成为了健康、高质量教学的必备条件。
2011-2012年“全国绿色学校声环境研究”项目发现,9-14岁的中小学生中,有10.7%的学生不太能听清楚教师讲课,22.5%的学生由于噪声影响不太能集中注意力听课。
2014-2015年,在教育部支持下,由清华大学和阿姆斯壮(中国)公司成立的“学校建筑室内环境研究中心”,在中国开展“中小学室内声环境现场调查”研究项目,涉及国内13个省100多所公立中小学校。
研究结果显示,50%以上的学校教室声学环境不达标。
其中混响不达标教室达69%,噪声不达标的教室达到57%。
如何在声学环境不达标的教室既提升授课声音的信噪比,从而提高教学可懂度和教学体验,又能避免教师因长期高嗓音授课而出现健康问题,学校健康声环境是实施 “健康中国”国家战略的重要举措,是构建高质量校园环境的重要环节。
然而随着教学创新和教育信息化的推进,越来越多的课堂需要利用信息化设备完成各种教学内容的展示和演示,以及学生的参与互动,这需要完全解放手持麦对教师的双手和活动范围的束缚。
穿戴麦(领夹麦/头戴麦)能在一定程度上解放双手,但需要频繁佩戴,且在大量使用时,维护和管理复杂度大幅增加。
此外长时间佩戴也会令人不适,同时在卫生方面也可能会给个别老师造成精神压力,尤其是在当前疫情常态化之下压力更甚。
界面麦可以远距离拾音,但拾音距离短,老师活动范围依然受限,且声音失真度大,易进粉尘,增加维护工作。
我国教学扩声设备经历了有线话筒、界面式话筒、无线话筒、小蜜蜂领夹式话筒等阶段。
多媒体计算机技术之数字语音处理技术

contents •数字语音处理技术概述•数字语音处理基础•数字语音信号的采集与处理•数字语音识别技术•语音合成技术•数字语音处理技术的挑战与未来发展目录定义特点定义与特点发展历程起步阶段01发展阶段02成熟阶段03数字语音处理技术的应用通信领域安全领域教育领域医疗领域模拟信号与数字信号模拟信号是连续的,而数字信号是离散的。
系统一个完整的数字语音处理系统通常包括输入、预处理、特征提取、模式识别等几个主要部分。
数字信号与系统傅里叶变换与逆变换傅里叶变换将时域信号转化为频域信号,用于分析信号的频率特征。
逆变换将频域信号转化回时域信号,用于重构原始信号。
滤波器实现数字滤波器与实现麦克风与前置放大器麦克风前置放大器A/D转换是将模拟信号转化为数字信号的过程。
在数字语音处理中,A/D转换器将麦克风收集的声音信号转化为数字信号。
量化误差在A/D转换过程中,由于采样定理的限制,可能会出现量化误差。
这是由于数字信号只能表示有限个值,而模拟信号可以是任意值。
A/D转换A/D转换与量化误差VS预处理与特征提取预处理特征提取信号预处理模式识别基础特征提取模型训练线性判别分析(LDA)与支持向量机(SVM)线性判别分析(LDA)支持向量机(SVM)深度学习在语音识别中的应用神经网络长短期记忆网络(LSTM)注意力机制010203总结词文法分析是语音合成技术的关键环节之一,它涉及到对输入文本的语法分析和语义理解,从而为后续的语音合成提供正确的信息。
韵律规则则是用来描述和模拟人类语音的节奏和音调。
要点一要点二详细描述文法分析通过对输入文本进行分析,将其转化为计算机能够理解的语法结构,从而指导语音合成系统生成符合语法规则的语音。
韵律规则则关注如何根据语法结构和语义内容调整语音的节奏和音调,使得生成的语音更加自然和流畅。
文法分析与韵律规则总结词参数化合成方法是语音合成技术中的一种重要方法,它将语音信号的参数化表示与声学模型相结合,从而生成新的语音信号。
混音算法——精选推荐

混⾳算法⼀、最简单的混⾳算法现在⼀般的软件混⾳算法是对输⼊的⾳频数据进⾏线性叠加, 即: (1) 或者叠加以后再取平均值: (2) 其中, m 为输⼊⾳频流的个数, n 为⼀帧的样本数⽬, ·[i] 为⼀帧中的第i 个样本, ·[j] 为第j 个⾳频流, 所以, output[i] 为混⾳后的⼀帧中第i 个样本, input[j][i] 为第j 个输⼊⾳频流当前帧的第i 个样本(若经过编码则输⼊⾳频流应在混⾳前通过解码等还原成线性的PCM⾳频流).通常的语⾳数据为16 bit(或者更少, 如8 bit),即可以⽤C 语⾔中的short 类型表⽰, 其取值范围是?32768 ≤ 采样值≤ 32767, 可以预想到多个⾳频流直接线性叠加以后就有可能溢出, 所以式(1) 最后的结果可能会有溢出, 产⽣噪⾳. 两个连续平滑的波形叠加, 其结果也应该是平滑的. 所以产⽣噪⾳的地⽅就是由叠加溢出的地⽅引⼊的. 我们需要采⽤滤波来处理这些溢出部分, 改善由于溢出所造成的质量下降.为了解决溢出的问题, ⼀个常⽤的⽅法就是使⽤更多的位数来表⽰⾳频数据的⼀个样本, 在混⾳完毕以后,再使⽤⼀些算法来降低其振幅, 使其分布在16 bit 所能表⽰的范围之内, 这种⽅法叫做归⼀化(Normalize). 通常使⽤32 bit 来表⽰线性叠加以后的数据, 也就是C 语⾔中的int 类型, 实现简单, 运算也⽐较快, 更能满⾜很多路⾳频同时进⾏混⾳的需要. 式(2)对叠加的和值作平均, 解决了溢出的问题, 但是混⾳以后的声⾳会总体衰减,特别是某⼀路⾳频流的能量与其他路⾳频流的能量反差很⼤的情况下, ⾳量⾮常⼩, 效果⾮常不理想. 进⾏滤波处理的另外⼀种常⽤⽅法就是“箝位”, 当发⽣上溢时, 箝位以后的值为所能表⽰的最⼤值, 当发⽣下溢时, 箝位后的值为所能表⽰的最⼩值, 如式(3) 所⽰: (3) 其中, sample 为叠加以后的样本值, 为32 bit, MAX 是最⼤输出值, 这⾥为32767, MIN 为最⼩输出值, 为?32768. 现在很多现有的论⽂和系统都是采⽤箝位⽅法, 因为实现简单, 快速, 效率很⾼. 但是可以看出, 这种箝位⽅法相当于在最⼤和最⼩的临界值处切强⾏切断波形, ⾮常⽣硬, 会造成较⼤的波形失真, 听觉上引起如嘈杂, 出现突发刺⽿的爆破⾳等.采⽤时域叠加作为基本的处理⼿段, 由于数字⾳频信号存在量化上限和下限的问题,则因叠加运算肯定会造成结果溢出. 通常的处理⼿段是进⾏溢出检测, 然后再进⾏饱和运算(如 4 式的⽅法), 即超过上限的结果被置为上限值, 超过下限的值置为下限值. 这种运算本⾝破坏了语⾳信号原有的时域特征, 从⽽引⼊了噪声. 这就是出现爆破声和语⾳不连续现象的原因. 同时, 随着参与混⾳的⼈数增加, 出现溢出的频率也不断上升, 所以这类⽅法存在⼀个上限, ⽽且这个上限值很低, 实验证明, 采⽤这种时域直接叠加的⽅式进⾏混⾳, ⼀般不能突破 4 路输⼊⾳频流的限制, 否则将⽆法分辨语⾳流的内容了.⼆、改进的混⾳算法混⾳的时候, 还需要屏蔽某⼀路的本地⾳频数据, 这样就不会听到本地的声⾳, 只能听到其他 n ? 1 路的声⾳, 也就是说, 对于第 t 路⾳频, 要发送给这个终端的混⾳后的数据如式(4): (4) 以下提出的算法主要思想就是使⽤⼀个衰减因⼦, 对⾳频数据进⾏衰减, 衰减因⼦会随着数据⽽变化. 当溢出时, 衰减因⼦⽐较⼩, 使溢出的⾳频数据衰减以后处于临界值以内, 当没有溢出时, 衰减因⼦会慢慢增加, 尽量保持数据的平滑变化. ⽽不是对于整帧使⽤同⼀个衰减因⼦来进⾏, 这是不同于式(2) 和式(3) 的地⽅, 既保证了整体的声强不⾄于衰减太快, ⼜保证了较⼩的失真度. 算法如下所述:1. f 初始化为1.2. 对于⼀帧中的样本按顺序处理: (a) output[i] = mixing[i] × f. (b) 如果output[i] > MAX, 求得最⼤的 f0 满⾜output[i] × f0 < MAX, 然后 f = f0, output[i] = MAX. (c) 如果output[i] < MIN, 求得最⼤的 f0 满⾜ output[i]×f0 > MIN, 然后 f = f0, output[i] = MIN.3. 如果f < 1, 则f = f + STEPSIZE. 继续处理下⼀帧, 转2. 其中f 为衰减因⼦, f0 为新的衰减因⼦; mixing[] 为所有⾳频流的某⼀帧线性叠加值, 实际实现的时候如式(4) 所⽰; output[] 为归⼀化以后的输出帧. MAX 为正的最⼤值; MIN 为负的最⼤值. STEPSIZE 为f 变化的步长, 通常取为 (1 ? f)/16 或者 (1 ? f)/32. 特别的, 就是在衰减以后的值溢出的情况下, 求新的衰减因⼦ f0 的⽅法不同, 新的 f0 需要满⾜ output[i] × f0 < MAX 或者 output[i]× f0 > MIN, ⽽不是直接使⽤mixing[i]. 也就是说, 使⽤衰减以后的值output[i] 来计算f0, ⽽不是原始值mixing[i],这样将使得衰减因⼦的变化更为平滑. ⽤数学来表达, S 为溢出的⼀个样本值, 在S × f 仍然溢出的情况下, 可以⽐较⼀下计算出来的新衰减因⼦的⼤⼩:假设是上溢, forig 是原始算法计算出的新的衰减因⼦, 则f`orig < (MAX/S) , 我们改进的算法得出的新衰减因⼦ f`new < (MAX/(S×f)) , 因为 S > (S × f), 所以(MAX/S) < (MAX/(S×f)) , 那么 f`new 很⼤程度上要⼤于f`orig. 衰减因⼦⼤了(更接近1), 相邻的数据变化不会特别⼤, 所以跳跃的现象不会特别明显. 上述改进过的混⾳⽅案在实测中,与常规的混⾳算法(直接线性叠加的⽅式)⽐较, 常规算法在混⼊ 4 路⾳频流的结果, 已经明显听到背景噪⾳, 波形会突变失真, 出现⽐较轻微的爆破⾳, 少量出现语⾳不可以辨认的情况; 如果混⼊ 5 路或者 5 路以上的⾳频流, 则输出的⾳频流质量已经不能从听觉上接受,语声模糊并且爆破⾳明显, 噪⾳⼤, 难以辨别语⾳内容. 采⽤衰减因⼦的⽅式进⾏调整以后, 混⼊ 4 路⾳频流从听觉上基本感觉不到背景噪⾳, 混⼊ 5 路的情况下, 仍然能清晰辨别各路的语⾳内容, 不出现爆破⾳; 混⼊ 6 路到 9 路的情况下仍然能保证语⾳质量, 不会发⽣突变的爆破⾳, 能够满⾜视频会议的要求. 从算法执⾏效率上看, 与常规的混⾳算法⽐较, 其时间复杂度并没有增加⽽具有同等的时间复杂度, 只是调和系数法在计算过程中叠加时需要进⾏⼀次额外的乘法运算(如上述算法描述的 2.a), 并且发⽣溢出的情况下需要重新计算新的调和系数(整数除法运算), 最后在算法的第三步需要进⾏⼀次加法运算(浮点数加法). 因为涉及的数值不会很⼤, 同时⾳频流的数据量较之视频等要⼩得很多, 在视频会议的应⽤中, 采⽤调和系数⽅法进⾏混⾳完全在 MCU 承载的能⼒范围内, 实测与常规混⾳算法⽐较, 格式为 linear PCM raw, 16 bit, 单声道, 采样率为8000 HZ, 时间30 秒, 帧长30 毫秒的情况下, 其差别不会超过 17ms , 并不会由此产⽣很⼤的延迟, 其实时性仍然得到保证, ⽽从混⾳的质量来说较常规混⾳算法要好很多.。
多媒体语音教室设计方案

多媒体语音教室设计方案随着信息技术的快速发展,使用多媒体教学成为教学中的一种流行趋势。
其中,语音教学是一种很常见的教学形式。
本文将讨论如何设计一间多媒体语音教室,以提高教学效果和学习体验。
设计目标一个好的多媒体语音教室需要满足以下几个目标:提供高品质声音高品质声音是语音教学的基础要求。
教室的声学设计要考虑到声音的反射、吸收和散射等问题,以多普勒效应及群聚效应等技术手段来提高音质和清晰度。
提供良好的视野视野是学生在教室内能看到并理解教师与屏幕上演示的重要因素。
所以,设计需要考虑的是教师和学生的位置以及设备在教室内的位置等因素。
提供灵活性和易用性在课堂上,需要经常切换不同模式和设备,这就需要教室提供足够的接口并且设计足够合理,使得教师和学生能够轻松地操作和使用。
提供个性化定制教师可以根据不同的讲课需求对教室进行个性化的定制,以满足对不同学科和年龄段学生的教学需求。
教室布局良好的教室布局能够带来良好的学习效果。
对于多媒体语音教室,教室内可以根据需要设置讲台、投影幕布、幻灯片展示器、电视屏幕、录音设备、音响设备等必要的设备。
同时,教室的布局也需要考虑到学生的观看和听取需求。
一种最常见的布局是采用半圆环式布局,即将学生座位分成两个半圆,两个半圆之间的位置放置录音设备和讲席。
这种布局能够保证每个学生能够看到和听到讲师的讲解,以及观看屏幕上的演示。
设备配置教室的设备配置需要根据课堂教学的需要进行定制。
一般来说,教室内需要配备以下设备:音响设备音响设备是教室中最重要的设备之一。
教室内需要安装一套专业的音响系统,包括设置麦克风、扬声器等用以扩音的设备。
此外,还需考虑传声器的分布与选购合适的音响组合。
投影设备投影设备一般指投影幕或者电视频道。
投影幕可以使学生更直观地观看老师的演示内容。
而电视则可以播放课程录像、PPT、图片和视频等。
录音设备录音设备是用来记录教课的设备,教师可复听录音资料,及时反思教学内容。
录音设备一般包括无线麦克风、扩音器、多媒体音频录制工具等。
基于FPGA电话会议系统研究

基于FPGA的电话会议系统的研究摘要:本文提出了用fpga解决电话会议系统的方案和语音算法,是为了针对小型企业节约成本和优化性能而进行设计的。
会议系统发展飞速,高科技产品越来越多,但高技术含量伴随着高成本,相对而言本研究对小型企业更有其实际意义。
关键词:fpga 电话会议系统语音算法中图分类号:tn948 文献标识码:a 文章编号:1674-098x (2012)09(b)-0006-011 引言随着企业对会议系统要求的逐步提高,更多的企业希望借助科技的发展,在办公方式、管理模式以及运做效率等方面实现更新和突破,希望通过远程办公、远程会议等方式实现高效的通信,并由此来缩短决策周期,提高生产和沟通效率。
传统的面对面会议有几大缺点:第一,它受时间、地点、经费、人力等很多条件制约;第二,其费时费力的组织和召集工作也给人们带来了很多的不便。
电话会议系统的出现解决了传统会议的缺点,优良、多用途、高效的会议通信服务,为客户提供了随时随地、方便快捷的电话会议服务。
电话会议系统的出现极大地提高了企业的工作效率,改善了企业的管理,提升了企业的竞争力。
本文主要针对fpga最近几年发展迅速,并且在成本方面和可操作性方面的优势提出了一种小范围的电话会议系统的方案。
2 系统流程本电话会议系统采用权限处理方法,设置组织形式为主席制,主席为控制中心,对发言顺序和发言方法进行管理,以避免造成会议混乱。
利用fpga的强大功能,设置接收权限和发言权限,并对会议系统进行控制,使电话会议的功能更加的全面。
3 系统功能1)主动呼入与会人员可以通过电话主动呼入到会议系统,通过语音提示进入会议;2)身份验证与会各方可以呼入到会议系统后,系统可以要求其输入用户代码和密码,通过验证后才能进入会议室;3)客户端系统可以主动呼叫其他人参加会议主席可以通过客户端系统进行操作,呼叫其他参加会议的各方电话,接通后被叫方自动进入会议室;4)会议室管理功能主席可以对每个会议室进行管理,也可以给某个会议室设定权限和密码,要进入该会议室必须符合权限并输入密码后才能进入;5)会议录音功能主席可随时通过控制系统对正在进行的会议进行录音,音频文件被存放在存储器中,会议结束后可被权限内用户调出,6)参加会议方式不受限制任一普通电话终端(固定电话或手机)均可参加会议,会议可随时随地召开;7)后台管理功能日志记录和话单查询统计功能,系统对每一个会议都有日志记录,对参加该会议的每一方都有详细记录(包括主叫号码、日期时间等信息)。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于数字语音教室的多路混音算法及应用Multi-Point Audio Mixing Algorithm Based on Digital Classroom for Language learning and Its Application(1.武汉理工大学;2.长沙理工大学;3衡阳师范学院)刘新华13,李方敏1,旷海兰23,张小麟1LIU Xinhua,LI Fangmin,KUANG Hailan, ZHANG Xiaolin摘 要:在研究音频混音技术的基础上,结合基于嵌入式技术的数字语音教室的实际情况,提出了一种应用于数字语音教室的多路实时混音算法,并给出了在数字语音教室中利用多路混音算法实现多人实时音频交互的方法。
关键词:数字语音教室;嵌入式技术;混音中图分类号: TP393 文献标识码: A【Abstract】By researching on audio mixing technology and combining the real situation of digital classroom for language learning based on embedded technology, this paper proposes a algorithm for multi-point real-time audio mixing and its real application in digital classroom for language learning to solve the multi-point real-time audio communication.【Keywords】Digital classroom for language learning; Embedded technology; Audio Mixer0引言随着多媒体语音数码技术、网络通信技术、实时嵌入式软件和硬件技术的进步,数字语音教室的技术日趋成熟。
由于其在语音教学应用上有着传统语音教室无可比拟的强大功能,而被现代教育系统推广。
数字语音教室是建立在网络数据交换的基础上,将经过A/D转换后的语音数据或音频的数据,通过标准的网络协议,传送到用户终端,网络及终端之间的消息传递,以符合标准网络协议的命令数据的形式反映,以达到语言学习的良好音质,满足教学方式多样性需求,充分合理的组建和利用教学资源的一种全新的语言学习系统。
作为现代化教学的手段,数字语音教室将逐渐取代传统的语音教室。
在数字语音教室中,学生终端是基于嵌入式技术,而教师机采用的是计算机多媒体技术,二者通过网络通信技术实现交互,在这种交互过程中,尤其是以学生终端与教师机之间的实时音频交流为主要内容。
在课堂教学中,当教师机进行广播讲话或广播音频时,学生端被动接受音频流;当教师端与学生终端进行一对一谈话时,由于双方均可收发音频流,在基于TCP/IP协议下,可以实现双工通信,但是如果将这种一对一谈话,向全班同学示范,即其他终端均能实时听见双方的谈话内容,就必须将双方的音频流进行混音,实时地广播给其他终端,特别是在一对多实时音频交流、小组实时音频讨论的情况下,需要进行更为复杂的混音处理,即多路混音处理。
因此,多路实时音频混音技术,是设计开发数字语音教室的一个关键技术。
本文从分析数字语音教室的体系结构出发,在考虑学生终端处理能力及网络通信负荷的情况下,对数字音频混音技术进行了研究,提出了一种应用于数字语音教室的多路实时音频混音算法并分析了数字语音教室中混音技术的实际应用。
1数字语音教室的体系结构传统型语言学习系统的结构设计主要就是以录音机机芯为主体,通过各厂家自行定义的相关线缆来进行连接与传输。
数字化系统的核心技术是基于计算机数据传输协议的网络技术,在实际应用中,我们设计开发的数字语音教室的体系结构如图1所示:学生终端基于嵌入式技术,支持TCP/IP网络协议,支持语音输入、输出处理,能够输入4个以上选择项,具有选择和执行菜单功能。
并具有以下外部接口:以太网网卡;电源接口;麦克风/耳机语音输入输出设备、显示屏(LCD)及键盘。
教师机采用普通的PC机,采用Windows系统,利用Visual C++编写的服务器程序来控制包括学习终端的整个系统。
根据实际要求可以为教师端配置磁带卡座、DVD播放器、投影仪、VCD机等外部辅助教学工具,这些均由教师机通过主板上的红外线端口来实现控制操作,并将相关数据传递给各学生终端。
整个系统通信采用TCP/IP协议,通过交换机配置普通的局域网,每个终端和服务器采用各自的IP地址来实现数据通信。
图1 数字语音教室结构图图 图2 混音前后音频波形表示2数字音频多路实时混音的原理在时域上,语音是短时平稳信号,对语音信号的处理是以语音样本缓冲区为基本单位,多个模拟音频源的混音,实际上是以样本缓冲区为基本单位的线性叠加。
事实上,多路数字语音的混音也是基于此原理,假设有n路基于相同采样率的输入音频流进行混音,X i(t)是t时刻的第i路输入语音的线性样本,则t时刻的混音值为:m(t)=∑X i(t),i = 0,1,……,n-1 ( 1 ) 显然,当按(1)式进行线性叠加时,必然涉及到混音后的音频流m(t)线性样本的取值范围问题,如果该样本值超过了输出设备所允许的最大范围,就会产生噪声(如图2 ),因此,必须对混音后得到的样本值进行平滑处理。
对于此类噪声的消除,基本的处理方法是:根据带噪声的音频信号幅度的平均值确定阈值,当信号幅度超过给定的阈值时,判定为脉冲噪声,然后对它进行适当的衰减。
在我们设计开发的数字语音教室中,为了满足教学的基本要求和良好的音质,音频采用采样频率为11025HZ,16位,双声道的数据格式,因此,采样值的范围是-232768~+32767 ,信号的正半周期用0~32767 表示,负半周期用 -232768~0 来表示,没有信号时,采样值为0 。
同时在平常的课堂教学中,参与教学示范或小组讨论的人数一般在2-5人,因此,我们在此基础上进行多路混音算法的设计。
假设有nTotal路基于同一采样率的音频源在某一时刻的数据存贮在缓冲的大小为nBufLen有nTotal个缓冲的lpArraySrcBuf[]缓冲组中,混音结果存贮在目标缓冲区lpDestBuf。
算法如下:void MultiAudioMixer( LPSAMPLE lpDestBuf, LPSAMPLE lpArraySrcBuf[], int nTotal, int nBufLen ){int n = 0;memcpy( lpDestBuf, lpArraySrcBuf[ n++ ], nBufLen );//将存贮在缓冲区的第一路音频数据拷贝到目标缓冲区int nTemp = 0; //定义一个临时变量while( n < nTotal ){short * pDest = ( short * )lpDestBuf;//定义一个指向目标缓冲区的指针short * pSrc = ( short * )lpArraySrcBuf[ n ];//定义一个指向音频源组中下一个将要处理的缓冲区的指针for( int i; i < nBufLen; i++ ){nTemp = pDest[ i ] + pSrc[ i ];//音频数据叠加//叠加后,采用箝位算法对音频数据作平滑处理if( nTemp > 32767 ) nTemp = 32767;if( nTemp < - 32768 ) nTemp = -32768;//将结果写入目标缓冲区相应位置pDest[ i ] = nTemp;}n++;}}采用上述算法可以实现多路音频源的混音。
实验表明,该算法实现的混音能较真实地反映实时多人的交互,并有效保留了原声音的同步性,在2-5路混音的情况下,效果比较理想,能满足数字语音教室的设计要求。
但是,在音频源逐渐增加( 大于5路)的情况下,由于各路音频源自身的背景音,混音后噪音未能得到有效抑制,该算法有待进一步改进。
3多路实时混音技术在数字语音教室中的应用在数字语音教室中,由于基于嵌入技术的学生终端的处理能力有限,因此在实现多人教学示范或小组讨论的功能时,实现多路音频处理的机制应尽可能在教师机端来完成。
在实际应用中,我们根据不同的教学功能,采取不同的混音实现机制。
下面以任意四台学生终端(A、B、C、D )与教师机(T)实时音频交互为例(如图3),分析所有混音在教师机(T)上处理从而实现与多台学生终端的实时音频交互。
图3 学生终端与教师机实时音频交互模型3.1示范教学中的混音机制示范教学是课堂教学中最重要的功能之一,它将教师与1个或多个学生的实时音频交流示范给其他同学,也就是教师在课堂上对某一个同学进行提问或对多个同学同时进行提问或让多个同学就某一问题发表见解并由教师评讲。
从技术上来说,实现这些功能就必须采用多路实时混音技术。
由图3可知,当教师机与四个学生终端进行实时音频示范教学时,采用如下混音机制:(1)T发出指令,指定A、B、C、D参与示范教学;A、B、C、D收到T发来的指令后,将自己的状态置为教学示范状态;(2)置为教学示范状态的A、B、C、D将实时采集的语音数据包发送给T;(3)T收到从A、B、C、D处发来的语音数据包后,作如下混音处理:将A、B、C、D四路语音数据混音后送给T回放,同时,分别给A发送T、B、C、D的四混音数据包,给B发送T、A、C、D的四路混音数据包,给C发送T、A、B、D的四路混音数据包,给D发送T、A、B、C的四路混音数据包,给其他的学生终端广播发送T、A、B、C、D五路混音数据包;(4)A、B、C、D和其他学生终端收到语音包后进行回放;(5)这个过程将不断重复,直到T发出终止教学示范指令,A、B、C、D恢复到正常课堂教学状态。
3.2小组讨论中的混音机制小组讨论也是课堂教学中常用的一种手段,与示范教学相比,小组讨论是学生自由分组或教师指定分组而进行相互交流的一种小组活动。
其实现机制如下:(1)T选择“自由分组”或“指定分组”来确定分组方式,假设ABCD被分为一组(其他组处理方式相同)如图3;T发送分组指令给A、B、C、D,收到指令后,A、B、C、D置自己为小组讨论状态;(2)置为小组讨论状态的A、B、C、D将实时采集的语音数据包发送给T;(3)T收到从A、B、C、D处发来的语音数据包后,作如下混音处理:分别给A发送B、C、D的三路混音数据包,给B发送A、C、D的三路混音数据包,给C发送A、B、D的三路混音数据包,给D发送A、B、C的三路混音数据包。
(4)T可以随时加入任何一个小组,该小组的混音机制类似于示范教学,只是不再向其他学生终端广播发送语音数据包。