一种基于内容的音频流二级分割方法

合集下载

基于内容的音频检索_概念和方法

基于内容的音频检索_概念和方法

文章编号:1000-1220(2000)11-1173-05 收稿日期:1999-09-15 作者简介:李国辉,教授.主要从事多媒体信息检索、超媒体、通信和网络等多媒体信息系统方面的研究及教学工作. email :g uoh li @nud 基于内容的音频检索:概念和方法李国辉 李恒峰(国防科技大学管理科学与工程系多媒体实验室 长沙410073)摘 要:F 过去对视觉媒体的检索,如图象和视频,进行了大量的研究.但是我们注意到音频也是多媒体中的一种典型媒体,是信息的一种常用载体.常规的处理是把数字音频当成非结构化流媒体.然而音频是语音的载体、包含丰富的听觉特征,并且具有结构信息.因此需要并且可以基于这些内容对音频进行存取.本文根据当前相关研究的进展,综述基于内容的音频检索方法,包括面向语音、音乐和音频分析的检索、音频分割等;分析并总结出音频内容及其检索的概念,给出音频检索的系统结构;最后讨论了一些音频检索中的关键研究问题.关键词:音频检索;基于内容的检索;多媒体信息检索分类号:T P 37 文献标识码:A1 引 言对于人的感官来说,有视觉、听觉、触觉和味觉等方面的感知.在视觉方面,可以感知位置、运动、颜色、纹理、形状、符号等;在听觉方面,可以感知位置、运动、音调、音量、旋律等;还有触觉(机械的、热的、电的、肌肉运动方面的)和嗅觉(气味、味道等).除了视觉,人们可以从听觉中获得许多的信息,例如我们日常收听的电台节目中欣赏的音乐、聆听的自然声响等.音频是多媒体中的一种重要媒体.我们能够听见的音频频率范围是60Hz 到20k Hz ,其中语音大约分布在300Hz 到4000Hz 之内,而音乐和其它自然声响是全范围分布.声音经过模拟设备记录或再生,成为模拟音频,它们经数字化成为数字音频.数字化时的采样率必须高于信号带宽的二倍,才能正确恢复信号.样本可用8位或16位比特表示.以前的许多研究工作涉及到语音信号的处理,例如语音识别.机器容易自动识别孤立的字词,例如用在专用的听写和电话应用方面.连续的语音识别较困难,错误较多,但是目前在这方面已经取得了突破性的进展.还研究了说话人的辨别技术.这些研究成果将为音频信息的检索提供很大的帮助.本文关注的是基于内容的音频检索方面的问题〔1,2〕.常规的信息检索(IR)研究主要是基于文本,例如我们已经非常熟悉诸如Yahoo 和AltaV ista 这样的搜索引擎.经典的I R 问题是利用一组关键字组成的查询来定位需要的文本文档.即定位文档中的查询关键字来发现匹配的文档.如果一个文档包含较多的查询项,那么它就被认为比其它包含较少查询项的文档更“相关”.于是文档可以按照“相关”度来排序,并显示给用户以便进一步搜索.虽然这种一般的I R 过程是为文本设计的,但是显然也适用于音频或其它多媒体信息的检索.然而,如果我们把数字音频当成一种不透明的位流来管理,虽然可以赋予名字、文件格式、采样率等属性,然而其中没有可以确认的词,或可比较的实体,因此不能象文本那样搜索或检索其内部的内容.对于音乐和非语音声响也是这样.基于人工输入的属性和描述来进行音频检索是一种首先想到的方法.其主要的缺点反映在几个方面:一是当数据量越来越多时,人工的注释强度加大;人对音频的感知,例如音乐的旋律、音调、音质等,难以用文字注释表达清楚.这些正是基于内容的音频检索需要研究和解决的问题.但我们同时注意到音频检索可以利用的一个优势,就是语音是一种特殊类型的音频,它与文本可以互相转换,因此可以利用文本检索技术进行概念检索,获得更准确的检索结果.国外研究机构对音频检索进行了多方面的研究.M uscle Fish 〔3〕是一个商业化的基于音频感知特征的音频检索引擎.Ca rnegie M ellon 大学的Info rmedia 项目〔15~23〕结合语音识别、视频分析和文本检索技术支持视频广播的检索.Cam bridge 大学的V M R(视频邮件检索)小组〔25~30〕利用基于网格的词组发现技术检索视频邮件中的消息.M ar yland 大学的V oice Graph 〔40~41〕结合基于内容和基于说话人的查询,检索已知的说话人和词语,并设计了一种音频图示查询接口.Speech Skimmer 〔24〕是一种音频交互的接口,它以层次结构构造出音频文档的“鱼饵”视图.〔11~14〕的作者研究了音乐曲调和旋律的检索.另外,M I T 〔33、42〕、Co rnell 大学〔39〕、南加州大学〔9、10〕、澳大利亚W ollongo ng 大学、欧洲EU RO M EDIA 和Euro com 的语音和音频处理小组等研究机构分别开展了用子词方法进行语音检索、通过哼唱查询、音频分类、结构化音频表示和基于说话人的分割和索引等方面的研究.根据当前相关的研究进展,本文将从音频信息存取的角度分析并总结出音频内容和检索的概念,给出音频检索的系统结构;综述音频检索的方法,包括语音的检索、音乐检索、面向音频分析的检索、音频分割等问题;最后给出一些音频检索中的关键研究问题. 第21卷第11期 2000年11月小型微型计算机系统M IN I-M I CRO SY ST EM V o l.21No.11 N ov.2000 2 音频检索的系统结构查询指的是用户的高层接口,即用户提出查询要求,通常是向数据库系统或检索引擎提出请求.检索是查询的执行,它也意味着快速和有效地搜索用户感兴趣的信息.为加速搜索过程,使用索引机制.索引用于定位数据集或数据库中的元素.图1 音频检索系统结构图1给出音频信息检索的系统结构.图的左边是原始音频数据的预处理,包括语音处理,音频分割、特征提取、分类等等.右边是用户的查询,包括用户查询接口和检索引擎.在图的下端是元数据库和音频媒体数据库,而元数据库由特征库、索引和模型描述库等组成.如果原始信号和数字数据是一段长音频,那么在特征提取之前需要进行分割处理,把长音频分割为多个小的音频区段.如果已经是分割好的音频片段,就可以直接进行特征提取.通过分割处理,可以获得音频录音的结构关系.音频经过样本的训练和分类,建立分类目录.语音识别把语音信号转换为文本,存入文本库.提取的声音特征保存在特征数据库中.元数据库中的记录与音频数据库中的媒体记录关联.用户通过用户查询接口检索音频信息.用户可以查询音频信息,或浏览分类目录,对于长段的音频,可以进行基于内容的浏览,即根据音频的结构进行非线性浏览.检索引擎利用相似性和相关度来搜索用户要求的信息.查询矢量和库中音频矢量之间的相似性由距离测度.每类特征都可以有不同的距离测度方法,以便在特定应用或实现中更为有效.3 音频检索的方式音频是声音信号形式.作为一种信息载体,音频可以分为三种类型:·波形声音-对模拟声音数字化得到的数字音频信号,它可以代表语音、音乐、自然界和合成的声响.·语音-具有词字、语法等语素,是一种高度抽象的概念交流媒体.语音经过识别可以转换为文本.文本是语音的一种脚本形式.·音乐-具有节奏、旋律或和声等要素,是人声或/和乐器音响等配合所构成的一种声音.音乐可以用乐谱来表示.不同的类型将具有不同的内在的内容.但从整体看,音频的内容分为三个级别:最低层的物理样本级、中间层的声学特征级和最高层的语义级,如图2所示.从低级到高级,内容逐级抽象,内容的表示逐级概括.在物理样本级,音频内容呈现的是流媒体形式,用户可以图2 音频内容分层描述模型通过时间刻度,检索或调用音频的样本数据.例如现在常见的音频录放程序接口.在下一个较高层是声学特征级.声学特征是从音频数据中自动抽取的.一些听觉特征表达用户对音频的感知,可以直接用于检索;一些特征用于语音的识别或检测,支持更高层的内容表示.另外还有音频的时空结构.最高层是语义级,是音频内容、音频对象的概念级描述.具体来说,在这个级别上,音频的内容是语音识别、检测、辨别的结果;音乐旋律和叙事的说明;以及音频对象和概念的描述.高两层是基于内容的音频检索技术最关心的.在这两个层次上,用户可以提交概念查询,或按照听觉感知来查询.音频的听觉特性决定其查询方式不同于常规的信息检索系统.基于内容的查询是一种相似查询,它实际上是检索出与用户指定的要求非常相似的所有声音.查询中可以指定返回的声音数,或指定相似度的大小.另外可以强调或关闭(忽略)某些特征成分,甚至可以施加逻辑“非”(或模糊的less 匹配关系)来指定检索条件,检索那些不具有或少有某种特征成分(例如指定没有“尖锐”或少有“尖锐”)的声音.另外还可以对给定的一组声音,按照声学特征进行排序(例如这些声音的嘈杂程度怎样?).在查询接口上,用户可以采用以下形式提交查询:·示例-用户选择一个声音例子表达其查询的要求,查找出与该声音在某些特征方面相似的所有声音.例如查询与飞机的轰鸣声相似的所有声音.·直喻-通过选择一些声学/感知物理特性来描述查询要求,例如亮度、音调和音量等.这种方式类似于可视查询中的描绘查询.·拟声-发出与要查找的声音性质相似的声音来表达查询的要求.例如,用户可以发出嗡嗡声来查找蜜蜂或电气嘈杂声.·主观特征-用个人的描述语言来描述声音.这需要训练系统理解这些描述术语的含义.例如一个用户可能要寻找“欢快”的声音.·浏览-浏览是信息发现的一种重要手段,尤其是对于音频这种时基媒体.除了在分类的基础之上浏览目录之外,重1174 小 型 微 型 计 算 机 系 统 2000年要的基于音频的结构进行浏览.根据对音频媒体的划分,可以知道语音、音乐和其它声响具有显著不同的特性,因而目前的处理方法可以分为相应的三种:处理包含语音的音频和不包含语音的音频,后者又把音乐单独划分出来.换句话说,第一种是利用自动语音识别技术,后两种是利用更一般性的音频分析,以适合更广泛的音频媒体,如音乐和声音效果,当然也包含数字化语音信号.音频信息检索于是分为:·语音检索-以语音为中心的检索,采用语音识别等处理技术.例如电台节目、电话交谈、会议录音等;·音乐检索-以音乐为中心的检索,利用音乐的音符和旋律等音乐特性来检索.例如检索乐器、声乐作品等;·音频检索-以波形声音为对象的检索,这里的音频可以是汽车发动机声、雨声、鸟叫声,也可以是语音和音乐等,这些音频都统一用声学特征来检索.4 检索方法4.1 语音检索这类方法是利用语音处理的技术检索音频信息.过去人们对语音信号的处理开展了大量的研究,许多成果可以用于语音的检索.4.1.1 利用大词汇语音识别技术进行检索 这种方法是利用自动语音识别(A SR)技术把语音转换为文本,从而可以采用文本检索方法进行检索.虽然好的连续语音识别系统在小心地操作下可以达到90%以上的词语正确度,但是在实际应用中,例如电话和新闻广播等,识别率并不高.就算是识别率不高,A SR识别出来的脚本仍然对信息检索有用.这是因为检索任务只是匹配包含在音频数据中的查询词句,而不是要求一篇可读性好的文章.Car neig ie M ello n大学的Info r media 项目〔16〕采用这种方法把视频的声音轨迹转换为文本脚本,然后组织成适合全文检索的形式.4.1.2 基于子词单元进行检索 当语音识别系统处理各方面无限制主题的大范围语音资料时,识别性能会变差,尤其是当一些专业的词汇(例如人名,地点)不在系统的词库里时.一种变通的方法是利用子词(sub-w o rd)索引单元.在ET H Zurich的一个研究小组〔32〕选择音节形式的单元作为索引(即V CV,元音-辅音-元音子词单元).例如,“info r ma tio n”这个词的V CV特征是“info”、“o r ma”和“a tio”.当执行查询时,用户的查询首先被分解为子词单元,然后这些单元的特征与库中预先计算好的特征进行匹配.4.1.3 基于关键词发现进行检索 在无约束的语音中自动检测词或短语通常称为关键词发现(Keyw o rd spo tting).利用该技术,识别或标记出长段语音录音或音轨中反映重要时间或用户感兴趣的事件,这些标记就可以用于检索.例如,通过捕捉体育比赛解说词中“进球”的词语可以标记进球的内容.同时,这个技术可以作为音频索引的基础.一些方法是采用固定的预先选择的关键词来识别和索引,适合特定的应用领域.Cambridg e大学的V M R组〔27〕采用预先计算的语音网格计算,容许无限制的关键词发现.4.1.4 基于说话人辨认进行分割 这种技术是简单地辨别出说话人话音的差别,而不是识别出说的是什么.它在合适的环境中可以做到非常准确.利用这种技术,可以根据说话人的变化分割录音,并建立录音的索引.例如用这种技术检测视频或多媒体资源的声音轨迹中的说话人变化,建立索引和确定某种类型的结构(例如对话).Xer ox P ARC〔34~35〕用这种技术分割和分析会议录音,分割的区段对应于不同的说话人或声学类型(例如掌声、音乐等).用户界面以时间线的形式显示分割的区段,可以方便地直接浏览长篇的会议资料.4.2 音乐检索音乐也是我们经常接触的媒体,例如M IDI、M P3和各种压缩音乐制品、实时的音乐广播等.音乐的检索虽然可以利用文本注释,例如在音乐制品销售库中的文本注释.但是音乐的旋律和感受并不都是可以用语言讲得清楚的.通过在查询中出示例子,基于内容的检索技术在某种程度上可以解决这种问题.检索音乐利用的是诸如节奏、音符、乐器特征.节奏是可度量的节拍,是音乐中一种周期特性和表示.音乐的乐谱典型地是以事件形式描述,例如以起始时间、持续时间和一组声学参数(基音、音高、颤音等)来描述一个音乐事件.注意到许多特征是随时间变化的,所以我们应该用统计的方法来度量音乐的特性.在〔41〕中,作者提出人的音乐认知可以基于时间和频率模式,就象其它的声音分析一样.时间结构的分析基于振幅统计,得到现代音乐中的拍子.频谱分析获得音乐和声的基本频率(fuf).他们用fuf进行了音乐检索的试验.而〔39〕使用一种直接的方法得出节奏特征.即假设低音乐器更适合提取节拍特征,于是通过归一化低音时间序列得到节奏特征矢量.除了用示例进行音乐查询之外,用户甚至可以唱或哼出要查找的曲调〔42〕.基音抽取算法把这些录音转换成音符形式的表示,然后用于对音乐数据库的查询.不幸的是,抽取乐谱这样的属性,哪怕是极其简单的一段也是非常困难的.研究人员现在改用M ID I音乐数据格式解决这个问题.用户可以给出一个旋律查询,然后搜索M ID I文件,就可以找出相似的旋律.New Zeala nd W aika to大学〔13,14〕开发的应用使用串匹配算法定位音乐数据中的相似旋律.4.3 音频检索虽然ASR可以对语音内容给出有价值的线索,但是还有大量其它的音频数据需要处理.从声音效果到动物叫声,以及合成声音等.因此对于一般的音频,仅仅有语音技术是不够的.使用户能够从大型音频数据库中或一段长录音中找到感兴趣的音频内容是音频检索要做的事.音频数据的训练、分类和分割方便音频数据库的浏览和查找,基于听觉特征的检索为用户提供高级的音频查询接口.这里指的音频检索就是针对广泛的声音数据的检索,分析和检索的音频可以包含语音和音乐,但是采用的是更一般性的声学特性分析方法.4.3.1 声音训练和分类 通过训练来形成一个声音类.用户选择一些表达某类特性的声音例子(样本),例如“脚步声”.在M uscle Fish音频检索系统〔3,36〕中,对于每个进入数据库中117511期 李国辉等:基于内容的音频检索:概念和方法 的声音,先计算其N维声学特征矢量,然后计算这些训练样本的平均矢量和协方差矩阵.这个均值和协方差就是用户训练得出的表达某类声音的类模型.声音分类是把声音按照预定的类组合.首先计算被分类声音与以上类模型的距离.可以利用Euclidean或Ma nha ttan 距离度量.然后距离值与门限(阈值)比较,以确定是否该声音纳入或不属于比较的声音类.也有这样的情况发生,即一个声音不属于任何比较的类,这时可以建立新的类,或纳入一个“其它”类、或归并到距离最近的类中.4.3.2 听觉检索 听觉感知特性,诸如基音和音高等,可以自动提取并用于听觉感知的检索.也可以提取其它的能够区分不同声音的声学特征,形成特征矢量用于查询.M uscle Fish〔3,36〕 音频检索引擎分析声音文件的一组听觉感知特征.对每个时间片计算四个特征:基音、振幅、音色和带宽.考虑到声音波形随时间而变化,最终的特征矢量包含13个分量:分别计算以上4个特征的3个参数(平均值、方差和自相关值),再加上持续时间.W eb上的演示使用了400个声音文件,包括动物声、机器声、乐器声、语音和其它自然声.在〔4〕中,采用相似的框架但是不同的特征来检索音频数据.它借鉴语音分析中的方法,利用音频数据的频谱表示并构造一个量化树,最后的特征是相对频率分布的直方图.4.3.3 音频分割 以上讨论的是单体声音的情况,例如一小段电话铃声、汽车鸣笛声等.但是一般的情况是一段录音包含许多类型的声音,由多个部分组成.更为复杂的情况是,以上各种声音可能会混在一起.例如一个有背景音乐的朗诵,同声翻译等.这需要在处理单体声音之前分割长段的音频录音.另外还涉及到区分语音、音乐或其它声音.例如对电台新闻节目进行分割,分割出语音、静音、音乐、广告声和音乐背景上的语音等.通过信号的声学分析并查找声音的转变点就可以实现音频的分割.转变点是度量特征突然改变的地方.转变点定义信号的区段,然后这些区段就可以作为单个的声音处理.例如,一段音乐会的录音,通过自动地扫描找到鼓掌声音,确定音乐片断的边界.这些技术包括:暂停段检测、说话人改变检测、男女声辨别,以及其它的声学特征.音频是时基线性媒体.现在我们看到的典型音频播放接口是与磁带录音机相似的界面,具有停止、暂停、播放、快进、到带等按钮.为了不丢失其中的重要东西,必须从头到尾听一遍声音文件,这样要花费很多的时间.即使用“快进”,也容易丢失重要的片断,不能满足信息技术的要求.因此在分割的基础上,需要结构化表示音频的内容,并超越常规的顺序浏览界面,建立基于内容的音频浏览接口.DA R T项目〔37〕就是利用检测声学特性的显著改变点来分割声音轨迹.5 结束语在基于内容的多媒体检索研究中,许多方法是通过自动提取的媒体特征来检索的,例如图象中颜色和纹理.现在的研究关注于语义级的检索,这需要一些语义分析或知识,例如分析注释或对象的标题、字幕等.而语义检索是理想的,因为它是人类所希望的一种检索方式,但是它需要高强度的人工注释,或者需要难以实现的复杂的自动内容分析.从图象中提取语义非常困难,例如如果没有关键字的注释,找出“长城”的照片非常困难.但是现在的自动语音识别技术使得音频检索可以达到语义级,因为可以自动识别出音频流中的词语.因此完全可能自动定位到某人,他正在谈论长城,或是真正找出有关长城的记录片或镜头.因此音频检索具有其自身的优势,并且可以达到较好的效果.在音频数据库领域,许多研究是有关语音方面的,因为语音是音频中一种重要的信息载体.非语音的音频数据检索和混合系统方面的研究工作也开始引起重视.在这项研究中,涉及广泛的学科,包括语音识别、信息检索、音频分析、信号处理、心理声学、机器学习等.现在和未来关注的研究问题有:集成的检索方法,即多特征的集成、音频与视频检索的结合、检索方法的集成来提高检索能力;W WW上基于内容的音频检索问题,需要研究快速的大规模音频库的浏览、检索和提交;长音频的浏览,即结构化表示音频流,并设计出新形式的内容浏览界面;长音频的检索,研究通用的基于片段级的内容检索,在时间轨迹上匹配一组特征,这需要研究模糊的匹配方法;继续研究有效的听觉解析特征,以支持通用和专用的音频检索问题;用户的音频查询接口和检索引擎;音频索引问题,以满足大容量数据库和W W W检索的要求.参 考 文 献1Ruben Gon zalez and Kath y M elih,Con tent bas ed retrieval of audio.〔C〕A TN AC’96Proceeding s2J.T.Foote.An overview of audio information retrieval.ACM-Sp ringer M ultimedia Sys tems.In pres s3Erling W ood el.at,Con tent bas ed classification,s earch,and retrieval of audio.〔J〕IEEE M u ltimedia,19964J onathan Foote.Content bas ed retrieval of music and audio.〔C〕M ultimedia Storage and Archiving Sys tems II,Proc.of S PIE, Vol.3229,138~147,19975J.T.Foote.A similarity meas ure for automatic audio classification.〔C〕In Proc.AAAI1997Sp ring Symposium on Intelligen t In tegration and Use of Text,Image,Vid eo,and Audio Corpora.S tanford,M arch19976M.G.Brow n,J.T.Foo te,G.J. F.Jones,K.Sperck J ones, and S.J.Young.Automatic con tent-based retrieval of b roadcas t news.〔C〕In Proc.ACM M ultim edia95,San Francis co, Nov emb er19957ISO/IEC JT C1/SC29/W G11.M PEG-7applications d ocument v.7,M peg98/N2462,Atlantic City,Nov.19988Yuh-Lin Chang,I.Kam el and R.Alouso.Integ rated imag e and s peech analysis for content-based vid eo indexing.〔C〕IEEE In ter.Con f.on M ultimedia Compu ting and Sys tems,J un e1996, Japan9Tong Zhang and C.-C.J ay Kuo.Content-bas ed classification and retriev al of audio.〔C〕Proceedings of S PIE’s Conference on Adv anced Sig nal Processing Algorithms,Arch itectures,and Implementations VIII,San Diego,July,199810 Tong Zh ang and C.-C.J ay Kuo,Hierarchical s ys tem for con tent-based audio clas sification and retrieval.〔C〕Proceeding s of SPIE’s Conference on M ultimedia Storag e andArchiving Sys tems III,SPIE Vol.3527,p398-409,Bos ton,Nov.,199811 Smith L.A.,M cNab R.J.and W itten I.H.M usic info rmation retriev al u sing audio input.〔C〕Proc AAAI Spring Symposium on Intelligen t In tegration and Us e of Tex t,Image,Video,and Audio Corpora,S tanford,CA,pp12-16.199612 M cNab R.J.,Smith L.A.and W itten I.H.Signal processing for melod y trans crip tion.〔C〕Aus tralasian Computer Science1176 小 型 微 型 计 算 机 系 统 2000年。

H.264编码技术简介.

H.264编码技术简介.

H.264编码技术简介摘要:本文介绍了H.264编码基本概况,技术特点,并与其他标准进行了比较。

简单介绍了H.264视频编码标准的几个关键技术,并针对目前H.264在监控领域的应用做了讲解。

目录摘要: (1)一.引言 (2)二. H.264视频编码基本概况 (2)2.1 什么是H.264编码? (2)2.2 720P H.264高清成市场主流 (2)2.3 H.264 视频编码标准状况 (2)2.4 H.264 视频编码技术先进性 (3)2.5 H.264的核心竞争力是什么? (5)2.6 Main Profile (6)三、H.264与其他标准的比较 (6)3.1H.264与其他标准的比较 (6)3.2 H.264的技术特点 (8)3.2.1 分层设计 (8)3.2.2 高精度、多模式运动设计 (8)3.2.3 帧内预测功能 (8)3.2.4 4×4块的整数变换 (8)3.2.5 统一的VLC (8)3.3 H.264的主要特点 (9)四、关键技术 (10)五、H.264在监控的应用 (12)5.1 TOYA SDVR 7IV 系统简介 (12)5.2 TOYA SDVR 7IV 系统主要特点 (12)5.3 主要技术规格 (13)5.4 系统功能 (13)5.5 TOYA SDVR 7IV系统应用 (13)六、H.264的总体优缺点 (14)七、小结 (15)八、参考文献 (16)一.引言随着社会的不断进步和多媒体信息技术的发展,人们对信息的需求越来越丰富,方便、快捷、灵活地通过语音、数据、图像与视频等方式进行多媒体通信已成不可或缺的工具。

其中视觉信息给人们直观、生动的形象,因此图像与视频的传输更受到广泛的关注。

然而,视频数据具有庞大的数据量,以普通的25帧每秒,CIF格式(分辨率为352×288)的视频图像为例,一秒钟的原始视频数据速率高达3.8M字节。

不对视频信号进行压缩根本无法实时传输如此庞大的数据量,因此,视频压缩技术成为研究热点。

音箱分频器最实用的业余调整方法

音箱分频器最实用的业余调整方法

音箱分频器最实用的业余调整方法——经典呀音箱的"灵魂"----分音器的调整.2]分音器的交*频率的调整.------注:音箱,分音器已定型,分频点已基本符合单元要求,不然就不叫调整成设计了.(分音器有两种设计方法: a)固定阻抗设计. b)分频点阻抗设计.)现在把高低音喇叭和分音器卸下来,分音器上有阻抗补偿的把它卸掉,按正常接法搭棚焊接,接入功放,音量与第一部分测试相同,保持原先是几点钟方位,因为此时音箱以不要,低音声短路,听觉已不准.这可方便,一堆垃圾.万用表接谁都顺手.万用表接入低音喇叭接线端子,测量低音喇叭分到的实际电压值,放1KH音频信号,微调音量电位器,使其为一整数.(此时为方便说明要假设一下:比如说万用表指示为3V.分音器交*频率比如说是雨果正好有一频点是.)好,放500H---12KH的信号,方格纸上描点做图,这是低通曲线.万用表接入高音喇叭接线端子,其它千万别改变!放1KH---20KH音频信号,如法炮制,这是高通曲线.这时我们就可以直观的看到分频点.就是两条曲线的交*点.我们现在只调交*点,其余一概不管.啊啊,它是在我们分频器的分音点上吗它是按我们设计的滚落点交*吗?现在可有办法对症下药了.我瞪着你呢.我们原先假设输出为3V,3V的半功率点是: 3*=,我们只调电容值,(当然假设电感量基本符合)先让低通的点正好落在上.再调高通电容,让它时和这个点正好交*.这样分频点就调好了.必要的交代:之所以不加任何数学证明是为了可操作性.繁琐的数学推导总让人有:你不说我还明白,你越说我越糊涂.但简要的还是要交代一下:是矢量,两单元都各分倍的电压,合成后的功率正好等于原输入功率.以后测频响合成曲线时读者将会发现它们是平坦的.详细的数学推导留给聪明的读者去完成.也许两条曲线很难看,不要紧,啊啊,下一步就是我们的第3步,Q值的调整.3]分音器(低通和高通)的Q值的调整.由于叙述的困难,画了一张草图帮助说明:图中,蓝色的线是理想的分频曲线,相当于分音器的Q值=,也就是最佳阻尼,这是我们调试的基准线.我们要使实际的分频曲线逼近它.(调整之前除了绿色线,其它的线要先画出来).[1]现在把低通的RC串联补偿接入低音扬声器端子.注:RC的取值:-----我们有个前题,就是假定原来设计基本符合要求.(a)用额定扬声器阻抗设计的,比如说8欧,就接入一个欧1W-5W的电阻.(b)用分频点阻抗设计的,就接入分频点扬声器实际阻抗值电阻.(c)感到茫然的初哥,就用扬声器的标称阻抗值接相应的电阻值.(d)C暂取15UF无极电容,耐压值大于功放输出电压值.现在,我们老一套, 放500H---12KH的信号,方格纸上描点做图,这是低通曲线,描出的曲线高于蓝色基准线的,加大电容值,低于基准线的减少电容值.(注意,此时设计正确的分音器,原先调好的交叉点是不变的,交叉点变了的,设计就有问题.)[2] 把高通的RC串联补偿接入高音扬声器端子.(a)电阻取值如低通.(b)C暂取1UF.放1KH---20KH音频信号,如法炮制,这是高通曲线,调整方法如低通.反复调整,直到与图示的绿色线相似----交叉点不变,高低通曲线从下方逼近理想的分频线. 此时分音器阻尼适当,失真最小.方波响应较为理想,交叉点的相位差大约是75度左右.也许你两条曲线不一样高,不要紧,一般是高音单元灵敏度高,曲线也高,可能还高不少,这时就要加衰减电阻来平衡灵敏度,用串入,让高通曲线比低通曲线低上因为高音太亮听感不好,最后统调时按自己的爱好定.现在,三个部分的粗调就算结束了,把我们的零碎一股脑的装入箱内吧。

推荐系统中的基于内容的过滤算法(一)

推荐系统中的基于内容的过滤算法(一)

推荐系统是一种通过对用户行为和偏好的分析, 为用户提供个性化推荐的智能系统。

在推荐系统中,基于内容的过滤算法是一种常用的技术手段。

本文将探讨基于内容的过滤算法的原理和应用。

定义和原理基于内容的过滤算法是一种将物品的特征与用户的兴趣进行匹配,从而实现个性化推荐的算法。

其基本原理是通过分析物品的特征信息,构建物品和用户的关联模型,然后根据用户的兴趣和偏好,推荐相似的物品给用户。

在基于内容的过滤算法中,首先需要对物品的特征进行提取和表示。

这些特征可以是文本、图片、音频、视频等多种形式。

以电影推荐系统为例,可以通过提取电影的标题、演员、导演、类型等信息作为特征。

然后,根据用户的历史行为和偏好,构建用户的兴趣模型。

最后,通过计算物品与用户兴趣模型之间的相似度,选择相似度较高的物品进行推荐。

应用场景基于内容的过滤算法在各个领域都有广泛的应用。

以下是几个典型的应用场景:1. 电影推荐系统:基于电影的特征信息,如导演、演员、类型等,为用户推荐相似的电影。

用户可以根据自己的喜好选择观看。

2. 音乐推荐系统:基于音乐的特征信息,如歌手、流派、歌词等,为用户推荐相似的音乐。

用户可以根据心情和喜好选择听歌。

3. 新闻推荐系统:基于新闻的特征信息,如标题、关键词、内容等,为用户推荐与其兴趣相关的新闻。

用户可以获取到最新的资讯。

优缺点基于内容的过滤算法有以下几个优点:1. 个性化推荐: 通过分析用户的兴趣和偏好,可以向用户推荐他们感兴趣的物品,提高用户体验。

2. 解决冷启动问题: 在用户刚刚使用推荐系统或是没有明确兴趣的情况下,基于内容的过滤算法可以根据物品的特征信息,为用户提供相关推荐。

3. 解释性强: 基于内容的过滤算法可以直观地解释推荐的原因,因为推荐是基于物品的特征与用户兴趣的匹配。

然而,基于内容的过滤算法也存在一些缺点:1. 特征提取困难: 对于一些复杂的特征,如音频和视频,特征的提取和表示比较困难,影响了算法的准确性。

基于内容的音频检索研究

基于内容的音频检索研究
是 通 过 一定 的 计算 机 处 理 ,分 析 音 频 的结 构 和 语 义 ,建 立 它
音频特征抽取是指寻找原始音频信 号表达 形式 ,提取能
代表 原始 信 号 的数 据 。下 面 介 绍 几个 常见 的特 征 。
1音 调。音调与基音周期有关 ,是音频信 号的一个 重要 . 参数 ,在 音频 处理中有重要 的作用 。比如对 于语音数据 ,音
【 摘 要 】文章介绍 了音频检 索系统的通用流程 ,并对其过程逐一进行阐述,最后利 用一个 简单的 系统对基 于内容的音频 检 索方法进行 了测试。
【 键 词 】基 于 内容 的检 索 ;音 频 检 索 系统 ;音 频 关
【 中图分类号】T 3 1 2 P 9. 4
【 文献标识码 】A
基于 内容的音频数据库检索 系统是一种 重要的多媒体信
息 处 理 技 术 。在 音 频 检 索 中 ,需 要 经 过特 征提 取 、音 频 分割 、
其平方根 。 3 短时平 均过零率 ( eo c o s n R t ) . Z r - r s i g a e 。它是指在

音频识别分类和索 引检索这几个关键 步骤 。图 i为基于听觉 内容的间频检索流程图 。
个短时帧 内,离散采样信 号值 由正到负和 由负到正变化的
次数,即两个相邻取样值有不 同符 号时,便出现 “ 过零 ”现


蔓 至 噩
象。单位时间过零的次数称 为 “ 过零率” 。这个量大概能够反 映信 号在短时帧 内里的平均频率 。短 时平均过零率 是区分音
频 信 号 有 声 或 无 声 的 重 要 标 志 之一 。 于音 频 信 号 流 x中 第 m 对
图 1 基 于 听 觉 内容 的 音 频检 索流 程 【 收稿 日期 】2 1 — 2 1 0 0 1— 3

基于内容的音频检索技术

基于内容的音频检索技术
来 检 索 音 频 文 件 的 方 法 , 方 法 相 似 性 的 度 量 是 基 于 出 自一 个 矢 量 量 化 器 的 统 计 表 , 不 是 该 而
匹配 简单的基音 或谱特 点 。
关 键 词 :基 于 内容 的 检 索 ;多媒 体 ;统 计 表 ;相 似 性 ;音 频
引 言
随 着 现 代 信 息 技 术 和 存 储 技 术 的 快 速 发 展 以 及
② 将 查询 特征 与数 据库 中的特 征按照 一 定 的匹
配 算法进行 匹配 :
WWw 的迅速蔓延 . 数据 管理技术 也得 到 了很 大的发 展和 完善 。到 目前 为止 , 数据 管理 技术 已经经 历 了 3 次重大 的变革 , 特别是多媒 体数据 库在人 们 的 日常生
活中用途 非常广泛 。 例如 :
③ 满足一 定相 似性 的一 组候 选结 果按 相 似度 大
小排 列返 回给用户 ;
④ 对系统返 回的一组初 始特 征的查 询结果 , 户 用
可 以通过遍 历( 浏览 ) 挑选 出满意 的结果 , 可 以从候 也
选 结 果 中选 择 一 个 示 例 进 行 特 征 调 整 , 成 一 个 新 的 形
树 型 鬟化
信息不 仅数据量 大 ,而且 包含有 大量 的非结 构信息 。
基 于 内容 的查询和检 索是逐 步求精 的过程 , 在 存

索时文 件 的特征 矢量 序列 经树 型量 化形 成在 子特 征 总 第


个 特 征 调 整 、 新 匹配 的 过 程 : 重
①用户提交查询, 利用系统提供的查询方式形成
查询条件 :
为 了进 行 并 发 检 索 必 须 产 生 一 个 音 频 模 板 . 用 三 并

基于内容的音频与音乐分析综述

基于内容的音频与音乐分析综述

基于内容的音频与音乐分析综述摘要:机器听觉包括三大研究领域:信号处理与识别、一般音频信号分析、基于内容的音乐信号分析.其中,信号处理与识别早已成为一个传统的研究热点。

随着信息科学与技术的迅速,基于内容的音频与音乐信号分析也逐渐成为一个新的研究热点,近几年来取得了大量研究成果。

文章将对1990年以后该领域上所取得的研究成果进行综述,包括基于内容的音频或音乐信号自动分类、分割、检索以及音乐作品自动分析等内容。

关键词:音乐分类;识别;分割;检索;音乐分析;自动摘要;音频信号处理;模式识别1、引言XX听觉是一个非常重要的信息来源,如何能让计算机具有人类的听觉能力是一个十分有趣的问题,有着广阔的应用前景.由于实际应用的需要,同时也为了研究方便,学者们将机器听觉分为三大领域:信号处理与识别、一般音频信号分析、基于内容的音乐分析。

在这三个研究领域当中,有关识别的研究最为深入,每年都有大量的相关研究工作被报道.由于已经存在许多有关识别方面的综述性文章,本文将不再对该领域的研究工作做进一步的归纳和整理。

所谓一般音频信号是指除了信号以外的**种音频信号,其中也包括音乐。

而音乐也是一般音频信号中最重要的一个类别。

我们知道音乐是一种复杂的非自然的声音现象,它是人类智慧与感性思维的体现。

许多无法用语言准确描述的思想感情可以通过音乐表达出来,优秀的音乐作品往往会使人产生情感上的共鸣。

因此,音乐被认为是全人类的共同语言,是人类几千年文化的成果,对它的研究无疑具有非常重要的价值。

由于音乐本身包含着大量不同层次的信息,对音乐信号进行自动分析是十分困难的。

此外,人类已经进入数字化时代,娱**与信息愈来愈紧密地结合在一起。

如何快速有效地搜索、管理和分析多数据已经成为一个非常重要的问题,而基于内容的音频和音乐信号分析则有助于这一难题的解决.XX和信号处理与识别相比,有关基于内容的音乐和一般音频信号分析的研究工作相对较少.但进入20世纪90年代以后,这个领域的研究工作取得了很大进展,国际上发表的有关数量大幅增长。

基于内容的音频检索

基于内容的音频检索

首 先 , 音 是 经 过 取 样 和 量 化 成 为数 字 音 频 , 后 被 计 算 机 声 然
所 接 受 和 处 理 的 , 此 音 频 的 原 始 数 据 是 一 种 非 符 号 化 表 示 因 的二 进 制 位 (i 。这 样 . 检 索 的 过 程 中就 缺 乏 像 文 本 中 那 bt ) 在
话 ,会 议 或 日 常会 话 等 。随 着 人 们 每 次 能 够 处 理 的 音 频 信 息 量 越 来 越 大 , 频 信 息 的 种 类 越 来 越 繁 多 ,要 从 这 海 量 的音 音
频 信 息 中迅 速 , 效 地 检 索 出所 需 要 的 音 频 信 息 就 变 得 越 来 有
越重 要 。
国 内 外 研 究 机 构 对 音 频 检 索 进 行 了 多 方 面 的 研 究 。例 如 , 国 的 Muce F h 一 个 商 业 化 的 基 于 音 频 感 知 特 征 的 美 sl i 是 s 音 频 检 索 引 擎 ,马 里 兰 ( rl d Maya )大 学 的 V i r h 合 n oc Ga 结 e p 基 于 内 容 和 基 于 说 话 人 的 查 询 ,检 索 已 知 的 说 话 人 和 词 语 , 并设 计 了 一 种 音 频 图 示 查 询 接 口。另 外 ,国 内 的 A S系 统 是 R 基 于 内容的音 频信息 检 索与分类 系统 。 S 统 建立 了一个 AR 系
这 些 内 容 特 征 建 立 索 引并 进 行 检 索 , 免 了 用 字 符 标 识 多 媒 避 体 信 息 的 转 化 过 程 。 接 从 多 媒 体 数 据 内 容 中提 取 信 息 线 索 直
的 方 法 大 大 提 高 了检 索 过 程 的效 率 和 适 应 性 。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
( p rme t f C mp t g。T eHo g Ko g P l tc n cU i e s y,Ho g Ko g) De a t n o u i o n h n n oy e h i n v r i t n n
Absr c ta t
Con e t b s d a di e t n — a e u o s gme t ton p a n i p t ntr e i n a i l ys a m ora ol n muli di pp ia i ns tme a a lc to .
维普资讯
第2 9卷
第 3 期





Vo _2 No 3 I 9 .
M a. 2 r 0O6
2 0 年 3月 06
CHI S OuRNAL OF COMPUTERS NE E J

种 基 于 内容 的 音频 流 二 级 分 割方 法
Z ANG — n H Yi Bi Z OU i” B AN h o Qi H Je I Z a— Z ANG vd H Da i
( p rmet fAuo ain,T ig u nvri De at n tm t o o sn h aU ies y,B iig 1 0 8 ) t e n 0 0 4 j
i e p cieo ls iir . Ac o dn ot i fc ,t i p p rp e e t o e r m e r o u i r s e tv fca sf s r e c r i gt h s a t h s a e r s n sa n v l a wo k fra do f s g n a int e u et eflesg n a in .Fis ,ar u h s g e t t n se a e n lr e e me t t or d c h as e me t t s o o rt o g e m n a i t p b s do a g — o
的效 果 . 者 的研 究 表 明 , 尺 度 音 频 片 段 的 分 类 正 确 率 要 明 显 高 于 小 尺 度 音 频 片段 的 分 类 正 确 率 , 且 这 个 趋 势 作 大 并
与分类器选择无关. 基于这个事实 和减少虚假分割点 的 目的, 者提 出了一种 新的音频 流分 割方 法. 作 首先 , 用基 采
于大 尺度 音 频 分 类 的 分 割 方 法 对 音 频 流 进 行 粗 分 割 , 以减 少 虚 假 分 割 点 ; 后 定 义 了 分 割 点 评 价 函 数 , 利 用 它 在 然 并 边 界 区域 中进 一 步 精 确 定 位 分 割 点 . 验 结 果 表 明这 种 音 频 流 分 割 方 法 可 以 比较 精 确 地 获 取 分 割 点 位 置 , 时 将 实 同 虚假 分 割 点 减 少 到 传 统 方 法 的 四 分 之 一 .
I r e o s g n c u a e y a d o —i e n o d rt e me t c r t l n n l ,mo tc n e t n l l o ih r a e n s l s a e a n s o v n i a ag rt ms a e b s d o ma l c l o a d o c a sf a i n a d a wa sr s l i i h f le s g e t t n r t .Th u h r ’ x e i e t l u i ls ii t n l y e u t n ah g a s e m n a i a e c o o ea t o s e p rm n a r s ls s o t a a g — c l u i a e mo e e s l l s iid t a ma l n s n h s t e d i e u t h w h tl r e s a e a d o c n b r a i c a sfe h n s l o e ,a d t i r n s y
s a e a d o ca sfc t n i a e o e s r h n e r l y o h o t n f u i e me t ,wh c c l u i l s i a i t k n t n u e t e i t g a i ft ec n e t d o s g n s i o s t o a ih c n a o d t ec n e u i e a d o b l n i g t h a ek n e n e me t d i t i e e tp e e . a v i h o s c tv u i e o g n o t e s m i d b i g s g n e n o d f r n ic s f
关键词
音频分类 ; 音频 流分割 ; 分割点评价函数 ; 虚假分割 ; 神经网络
T 3l P 9
中 图 法分 类 号
A Two- t g n e tBa e d o S g e t to g r t m — a e Co t n l s d Au i e m n a i n Al o ih S -
张一彬” 周 杰” 边肇祺” 张大鹏幻
”( 华 大 学 自动化 系 清 北京 10 8 ) 0 0 4 ( 港 理工 大学 计 分割是多媒体数据分析领域 中的一个十分重要 和困难 的问题. 目前 大多数传统 的音频
流分割方法是基于小尺度音频分类的 , 但是这类分割方法 普遍存 在虚假 分割点 过多 的缺点 , 重影 响了实 际应 用 严
相关文档
最新文档