北京邮电大学学期实验报告

合集下载

函数信号发生器实验报告 - 北京邮电大学

函数信号发生器实验报告 - 北京邮电大学

北京邮电大学电子电路综合设计实验实验报告实验题目:函数信号发生器的设计院系:电子工程学院班级:2014211212******学号:**********班内序号:07一、课题名称:函数信号发生器的设计二、摘要:采用运算放大器组成的积分电路产生比较理想的方波-三角波,根据所需振荡频率和对方波前后沿陡度、方波和三角波幅度的要求,选择运放、稳压管、限流电阻和电容。

三角波-正弦波转换电路利用差分放大器传输特性曲线的非线性实现,选取合适的滑动变阻器来调节三角波的幅度和电路的对称性,同时利用隔直电容、滤波电容来改善输出正弦波的波形。

关键词:方波三角波正弦波频率可调幅度三、设计任务要求:1.基本要求:设计制作一个方波-三角波-正弦波信号发生器,供电电源为±12V。

1)输出频率能在1KHZ~10KHZ范围内连续可调;2)方波输出电压V opp=12V(误差<20%),上升、下降沿小于10μs;3)三角波输出信号电压V opp=8V(误差<20%);4)正弦波信号输出电压V opp≥1V,无明显失真。

2.提高要求:1)三种波形输出峰峰值V opp均在1~10V范围内连续可调;2)将输出方波改为占空比可调的矩形波,占空比可调范围30%~70%四、设计思路1. 结构框图实验设计函数发生器实现方波、三角波和正弦波的输出,其可采用电路图有多种。

此次实验采用迟滞比较器生成方波,RC 积分器生成三角波,差分放大器生成正弦波。

除保证良好波形输出外,还须实现频率、幅度、占空比的调节,即须在基本电路基础上进行改良。

由比较器与积分器组成的方波三角波发生器,比较器输出的方波信号经积分器生成三角波,再经由差分放大器生成正弦波信号。

其中方波三角波生成电路为基本电路,添加电位器调节使其频率幅度改变;正弦波生成电路采用差分放大器,第一个电路是由比较器和积分器组成方波—三角波产生电路。

单限比较器输出的方波经积分器得到三角波;第二个电路是由差分放大器组成的三角波—正弦波变换电路。

北京邮电大学微机原理软件实验报告

北京邮电大学微机原理软件实验报告

北京邮电大学微机原理软件实验报告信息与通信工程学院微机原理软件实验报告班级:姓名:学号:班内序号:时间:微机原理软件实验·报告实验一DEBUG 的使用一、实验目的1.掌握汇编程序的编辑,编译,连接和执行的全过程;2.学习和掌握用DEBUG 调试程序的方法。

二、实验内容1. 用编辑软件,输入以下汇编语言源程序:DAT SEGMENTA DB 20 ;(自定)B DB 15 ;(自定)Y DB 3 DUP (0)Z DB 0, 0DAT ENDSSTA SEGMENT STACKDW 50 DUP (?)STA ENDSCOD SEGMENTASSUME CS: COD, DS: DATSTAR PROC FARPUSH DSXOR AX, AXPUSH AXMOV AX, DATMOV DS, AXMOV AX, STAMOV SS, AXMOV AL, AMOV Z, ALMOV Z+1, ALCALL SUB1MOV AL,B微机原理软件实验·报告MOV Z,ALMOV Z+1,ALCALL SUB1MOV AL,AMOV Z,ALMOV AL,BMOV Z+1,ALCALL SUB1ADD WORD PTR Y,AXADC BYTE PTR[Y+2],0RETSTAR ENDPSUB1 PROCMOV AL, ZMOV AH, Z+1MUL AHADD WORD PTR Y, AXADC BYTE PTR[Y+2], 0RETSUB1 ENDPCOD ENDSEND STAR2. 通过编译,连接形成可执行文件。

3. 用DEBUG 将可执行文件调入,并进行调试。

1) 用D 命令观察数据区在内存中的具体内容,记录单元A 和B 的具体地址。

2) 用U 命令对目标代码反汇编,观察反汇编后的结果。

注意发现源程序的起始位置,并记录这个起始地址。

3) 用T 命令作单步跟踪调试。

比较每条指令执行后的结果和原来的理解是否一致,得出程序运行的结果:它们是写在什么单元,具体内容是什么;并判断结果是否正确。

北京邮电大学电子电路基础实验报告

北京邮电大学电子电路基础实验报告

电子电路基础实验报告——晶体管β值检测电路的设计2012211117班2012210482号信通院17班01号张仁宇一、摘要:晶体管β值测量电路的功能是利用晶体管的电流分配特性,将放大倍数β值的测量转化为对晶体管电流的测量,同时实现用发光二极管显示出被测晶体管的放大倍数β值。

该电路主要由晶体管类型判别电路、β-V转换电路、晶体管放大倍数档位判断电路、显示电路、报警电路及电源电路六个基本部分组成。

首先通过LED发光二极管的亮灭实现判断三极管类型,并将β值的变化转化为电压的变化从而利用电压比较器及LED管实现β值档位(<150、150~200、200~250、>250)的判断与显示、并在β>250时通过LED管闪烁报警。

二、关键字:β值;晶体管;档位判断;闪烁报警三、实验目的1、加深对晶体管β值意义的理解2、了解掌握电压比较器的实际使用3、了解发光二极管的使用4、提高电子电路综合设计能力四、设计任务要求1、基本要求设计一个简易的晶体管放大倍数β值检测电路,该电路能够实现对放大倍数β值大小的初步测定1)电路能够测出NPN,PNP三极管的类型2)电路能将NPN晶体管的β值分别为大于250,大于200小于250,大于150小于200和小于150共四个档位进行判断3)用发光二极管指示被测三极管的放大倍数β值在哪一个档位4)在电路中可以用手动调节四个档位值得具体大小5)当β值大于250时可以光闪报警2、扩展要求1)电路能将PNP晶体管的β值分别为大于250,大于200小于250,大于150小于200和小于150共四个档位进行判断在电路中可以用手动调节四个档位值得具体大小。

2)NPN,PNP三极管β值的档位的判断可以通过手动或自动切换3)用PROTEL软件绘制该电路及其电源电路的印制电路版图。

五、设计思路与总体结构框图晶体管类型判别电路β-V转换电路放大倍数档位判断电路显示电路报警电路电源电路三极管类型判别电路的功能是利用NPN 型和PNP 型三极管的电流流向相反的特性判别晶体管的类型。

北邮实验报告

北邮实验报告

北邮实验报告北邮实验报告一、引言北邮实验报告是北邮学子们在学习和科研过程中的重要一环。

通过实验报告,学生们能够将理论知识与实际操作相结合,提高实践能力和科学素养。

本文将探讨北邮实验报告的重要性、写作技巧以及对学生综合能力的培养。

二、北邮实验报告的重要性1. 培养学生的实践能力北邮实验报告是学生进行实验的重要成果之一。

通过实验报告的撰写,学生们能够将实验过程中的观察、实验数据和实验结果进行整理和分析,培养学生的实践能力。

实验报告要求学生具备实验设计、数据处理和结果解读等能力,这些能力对于学生未来的科研和工作都具有重要意义。

2. 提高学生的科学素养实验报告要求学生在撰写过程中对实验原理和相关理论进行理解和运用。

通过对实验原理的学习和实际操作的实践,学生们能够提高科学素养,深化对学科知识的理解和掌握。

实验报告还要求学生进行数据统计和结果分析,这有助于学生培养科学思维和逻辑思维能力。

三、北邮实验报告的写作技巧1. 清晰明了的结构实验报告的写作需要有清晰明了的结构,包括引言、实验目的、实验原理、实验步骤、实验结果和结论等部分。

每个部分要有明确的标题,以便读者能够快速理解报告的内容。

同时,各部分之间要有合理的过渡,使整篇报告具有逻辑性。

2. 简洁准确的语言实验报告要求使用简洁准确的语言进行描述。

学生们应该避免使用过多的修饰词和冗长的句子,以免使读者产生困惑。

同时,学生们要注意使用科技词汇和专业术语,以确保报告的准确性和专业性。

3. 数据处理和结果分析实验报告的数据处理和结果分析是重要的部分。

学生们应该学会使用合适的统计方法对实验数据进行处理,并能够对结果进行合理解释。

在结果分析中,学生们可以对实验结果和理论知识进行对比和讨论,以展示对学科知识的理解和运用能力。

四、北邮实验报告对学生综合能力的培养1. 科研能力的培养北邮实验报告要求学生进行实验设计和实验操作,培养学生的科研能力。

通过实验报告的撰写,学生们能够学会科学地制定实验方案,独立完成实验操作,并对实验结果进行分析和总结。

北邮电子工艺实习实验报告

北邮电子工艺实习实验报告

北京邮电大学实习报告1.焊接工艺1.1 焊接工艺的基本知识焊接,也写作焊接或称熔接、镕接,是一种以加热方式接合金属或其他热塑性材料如塑料的制造工艺及技术。

焊接透过下列三种途径达成接合的目的:∙加热欲接合之工件使之局部熔化形成熔池,熔池冷却凝固后便接合,必要时可加入熔填物辅助∙单独加热熔点较低的焊料,无需熔化工件本身,借焊料的毛细作用连接工件(如软钎焊、硬焊)∙在相当于或低于工件熔点的温度下辅以高压、叠合挤塑或振动等使两工件间相互渗透接合(如锻焊、固态焊接)依具体的焊接工艺,焊接可细分为气焊、电阻焊、电弧焊、感应焊接及激光焊接等其他特殊焊接。

我们实验中主要是PCB板的焊接。

焊接的过程有浸润、扩散、冷却凝固三个阶段的变化。

焊接工艺是指焊接过程中的一整套技术规定。

包括焊接方法、焊前准备、焊接材料、焊接设备、焊接顺序、焊接操作、工艺参数以及焊后热处理等。

SMTSMT是表面组装技术(表面贴装技术)(Surface Mount Technology的缩写),是目前电子组装行业里最流行的一种技术和工艺。

特点组装密度高、电子产品体积小、重量轻,贴片元件的体积和重量只有传统插装元件的1/10左右,一般采用SMT之后,电子产品体积缩小40%~60%,重量减轻60%~80%。

可靠性高、抗震能力强。

焊点缺陷率低。

高频特性好。

减少了电磁和射频干扰。

易于实现自动化,提高生产效率。

降低成本达 30%~50%。

节省材料、能源、设备、人力、时间等。

焊接步骤有四步:施加焊锡膏----贴装元器件-----回流焊接-----清洗。

1.2 焊接工具、焊料、焊剂的类别与作用主要工具和材料是烙铁、镊子、螺丝刀、钳子等。

本实验采用的烙铁为外热式。

现对主要工具进行说明:1.2.1 电烙铁简介外热式电烙铁:一般由烙铁头、烙铁芯、外壳、手柄、插头等部分所组成。

烙铁头安装在烙铁芯内,用以热传导性好的铜为基体的铜合金材料制成。

烙铁头的长短可以调整(烙铁头越短,烙铁头的温度就越高),且有凿式、尖锥形、圆面形、圆、尖锥形和半圆沟形等不同的形状,以适应不同焊接面的需要。

北京邮电大学-微机原理硬件实验报告

北京邮电大学-微机原理硬件实验报告

微机原理与接口技术硬件实验报告学院:信息与通信工程学院班级:201******学生姓名:****** ******学号:201******* 201*******班内序号:** **实验一熟悉实验环境及IO的使用一、实验目的:1. 通过实验了解和熟悉实验台的结构,功能及使用方法。

2. 通过实验掌握直接使用Debug 的I、O 命令来读写IO 端口。

3. 学会Debug 的使用及编写汇编程序二、实验内容:1. 学习使用Debug 命令,并用I、O 命令直接对端口进行读写操作,2.用汇编语言编写跑马灯程序。

(使用EDIT 编辑工具)实现功能A.通过读入端口状态(ON 为低电平),选择工作模式(灯的闪烁方式、速度等)。

B.通过输出端口控制灯的工作状态(低电平灯亮)三、实验步骤:1.实验板的IO 端口地址为0E8E0H在Debug 下,I 是读命令。

(即读输入端口的状态---拨码开关的状态)O 是写命令。

(即向端口输出数据---通过发光管来查看)进入Debug 后,读端口拨动实验台上八位拨码开关输入I 端口地址回车屏幕显示 xx 表示从端口读出的内容,即八位开关的状态ON 是0,OFF 是 1 写端口输入 O 端口地址xx (xx 表示要向端口输出的内容)回车查看实验台上的发光二极管状态,0 是灯亮,1 是灯灭。

2. 在Debug 环境下,用a 命令录入程序,用g 命令运行C>Debug -amov dx, 端口地址mov al,输出内容out dx, almov ah, 0bhint 21hor al, aljz 0100int 20h-g运行查看结果,修改输出内容再运行查看结果分析mov ah, 0bhint 21hor al, aljz 0100int 20h该段程序的作用:检测键盘有没有按键,有则返回DOS。

没有继续执行3.利用EDIT 工具编写汇编写跑马灯程序程序实现功能A.通过读入端口状态(ON 为低电平),选择工作模式(灯的闪烁方式、速度等)。

北京邮电大学 通信原理实验报告 硬件部分

北京邮电大学实验报告题目:基于TIMS通信原理实验报告班级:2009211126班专业:信息工程姓名:成绩:实验1振幅调制(AM)与解调一、实验目的(1)掌握具有离散大载波(AM)调制的基本原理;(2)掌握包络检波器的基本构成和原理;(3)掌握调幅波调制系数的意义和求法。

二、实验原理幅度调制是由DSB-SC AM信号加上一离散的大载波分量(设载波的初始相位φc=0),其表示式为s t=A c1+m t cos2πf c t式中要求基带信号波形m t≤1,使AM信号的包络A c1+m t总是正的,式中的A c cos2πf c t是载波分量A c m t cos2πf c t是DSB-SC AM信号。

定义m n t=m(t)max⁡|m(t)|,|m(t)|≤1a=max m t,|m(t)|≤1称标量因子a为调制系数或调幅系数。

有两种调制方式,调制框图如下AM 信号调制原理框图1AM 信号调制原理框图2 解调原理框图如下AM 信号解调原理框图三、实验步骤1、按如下所示的连接图连接好AM信号调制连接图AM信号解调连接图2、调节加法器上两路输入信号的放大倍数,同时用示波器监测,在保证加法器输出波形不削顶的情况下,调节至交流信号峰值与直流成分之比(即调制系数)为小于1、等于1、大于1,观察调制信号和解调信号波形图;3、观察滤波器输入输出波形的变化,分析原因。

四、实验结果音频振荡器的输出频率调整为1kHZ,直流电压幅度调整为1V。

a<1时,基带与调制信号波形如下调制与解调输出调制与解调信号调制与解调信号五、实验讨论可以看出,AM信号在调制系数a<1,a=1,a>1的情况下,分别有不同的包络形状。

当a<1或a<1时可以恢复成原信号,而在a>1的情况下产生幅度翻转的现象,无法恢复成原信号。

若用同步检波的方法,则需在接收端先进行载波提取操作,然后经过乘法器和低通滤波器,最后通过隔直流电路即可。

微波技术实验报告北邮

微波技术实验报告北邮一、实验目的本实验旨在使学生熟悉微波技术的基本理论,掌握微波器件的测量方法,并通过实际操作加深对微波信号传输、调制和解调等过程的理解。

通过实验,学生能够培养分析问题和解决问题的能力,为将来在微波通信领域的工作打下坚实的基础。

二、实验原理微波技术是利用波长在1毫米至1米之间的电磁波进行信息传输的技术。

微波具有较高的频率和较短的波长,因此能够实现高速数据传输。

在实验中,我们主要研究微波信号的产生、传输、调制和解调等基本过程。

三、实验设备1. 微波信号发生器:用于产生稳定的微波信号。

2. 微波传输线:用于传输微波信号。

3. 微波调制器:用于对微波信号进行调制,实现信号的传输。

4. 微波解调器:用于将调制后的信号还原为原始信号。

5. 微波测量仪器:包括功率计、频率计等,用于测量微波信号的参数。

四、实验内容1. 微波信号的产生与测量:通过微波信号发生器产生微波信号,并使用频率计测量信号的频率。

2. 微波信号的传输:利用微波传输线将信号从一个点传输到另一个点,并观察信号的衰减情况。

3. 微波信号的调制与解调:使用调制器对微波信号进行调制,然后通过解调器将调制后的信号还原。

4. 微波信号的传输特性分析:分析不同条件下微波信号的传输特性,如衰减、反射、折射等。

五、实验步骤1. 打开微波信号发生器,设置合适的频率和功率。

2. 将微波信号发生器的输出端连接到微波传输线的输入端。

3. 测量传输线上的信号强度,并记录数据。

4. 将调制器连接到传输线的输出端,对信号进行调制。

5. 将调制后的信号通过解调器还原,并测量解调后的信号参数。

6. 分析信号在不同传输条件下的特性,如衰减系数、反射率等。

六、实验结果通过本次实验,我们成功地产生了稳定的微波信号,并测量了其频率和功率。

在传输过程中,我们观察到了信号的衰减现象,并记录了不同传输条件下的信号强度。

通过调制和解调过程,我们验证了微波信号的可调制性和可解调性。

北邮软院下一代网络实验报告

北京邮电大学软件学院__11-12__学年第_2_学期实验报告课程名称:IP协议无关性程序设计及测试实验名称:实验二实验完成人:姓名:卢昭宇学号:____09212018____成绩:________姓名:朱思维学号:____09212039___成绩:________姓名:王曲学号:____09212108___成绩:________指导教师:_________雷友珣 _____________日期: 2012 年 4 月 20 日1、实验名称及学时数IP协议无关性程序设计及测试 2学时2、实验目的通过本实验使学生理解IPv6网络地址、IPv6套接字编程接口、以及IPv4应用与IPv6应用的互操作,思考应用程序设计如何独立于IP协议版本。

3、实验内容1)实验内容一:在VMware环境下配置两台Linux操作系统机器,一台作为服务器,一台作为客户端。

开发服务器和客户机上的程序,使得:服务器使用IPv6类型的套接字侦听客户端的TCP连接请求,客户端使用IPv4类型的套接字向服务器发出连接请求,服务器配置并运行了IPv4、IPv6协议。

2)实验内容二:在VMware环境下配置两台Linux操作系统机器,一台作为服务器,一台作为客户端。

开发服务器和客户机上的程序,使得:服务器使用IPv4类型的套接字侦听客户端的TCP连接请求,客户端使用IPv6类型的套接字向服务器发出连接请求,客户端配置并运行了IPv4、IPv6协议。

在本项实验中使用DNS服务器配置服务器、客户机的域名信息。

4、实验环境1)Windows环境下的VMWare Workstation软件2)VMWare环境下的两个Ubuntu操作系统虚拟机;3)Ubuntu环境下的DNS服务器软件BIND95、实验要求1)完成实验内容一和实验内容二的实验内容;2)填写实验报告。

6、实验步骤1)在VMWare环境中准备好两个Ubuntu操作系统机器后,通过ifconfig –a命令查看这两个机器所配置的网卡、以及网卡上配置的IP地址。

北京邮电大学电磁场与电磁波实验报告

信息与通信工程学院电磁场与电磁波实验报告题目:校园无线信号场强特性的研究姓名班级学号序号指导老师:日期:2012年4月目录一、实验目的 (1)二、实验原理 (1)1、电磁波的传播方式 (1)2、尺度路径损耗 (1)3、阴影衰落 (2)4、建筑物的穿透损耗的定义 (3)三、实验内容 (3)四、实验步骤 (4)1、实验对象的选择 (4)2、数据采集 (5)3、数据录入 (5)4、数据处理 (6)五、实验结果与分析 (7)1、磁场强度地理分布 (7)2、磁场强度统计分布 (13)3、建筑物的穿透损耗 (18)六、问题分析与解决 (18)1、测量误差分析 (18)2、场强分布的研究 (19)七、分工安排 (19)八、心得体会 (19)九、附录:数据处理过程 (21)一、实验目的1. 掌握在移动环境下阴影衰落的概念以及正确的测试方法;2. 研究校园内各种不同环境下阴影衰落的分布规律;3. 掌握在室内环境下场强的正确测量方法,理解建筑物穿透损耗的概念;4. 通过实地测量,分析建筑物穿透损耗随频率的变化关系;5. 研究建筑物穿透损耗与建筑材料的关系。

二、实验原理1、电磁波的传播方式无线通信系统是由发射机、发射天线、无线信道、接收机、接收天线所组成。

对于接受者,只有处在发射信号的覆盖区内,才能保证接收机正常接受信号,此时,电波场强大于等于接收机的灵敏度。

因此基站的覆盖区的大小,是无线工程师所关心的。

决定覆盖区的大小的主要因素有:发射功率,馈线及接头损耗,天线增益,天线架设高度,路径损耗,衰落, 接收机高度,人体效应,接收机灵敏度,建筑物的穿透损耗,同播,同频干扰等。

电磁场在空间中的传输方式主要有反射﹑绕射﹑散射三种模式。

当电磁波传播遇到比波长大很多的物体时,发生反射。

当接收机和发射机之间无线路径被尖锐物体阻挡时发生绕射。

当电波传播空间中存在物理尺寸小于电波波长的物体﹑且这些物体的分布较密集时,产生散射。

散射波产生于粗糙表面,如小物体或其它不规则物体﹑树叶﹑街道﹑标志﹑灯柱。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

北京邮电大学 2013-2014学年第1学期实验报告 课程名称: 数据仓库与数据挖掘

实验名称: SVM文本分类 实验完成人: 姓名: 学号: 姓名: 学号: 姓名: 学号: 日 期: 2013 年 11 月 实验一:SVM文本分类 1. 实验目的 熟悉爬虫的使用,可以利用网络爬虫抓取所需的网络语料 熟悉中文分词软件,可以熟练使用接口完成分词任务 熟悉文本分类必要的预处理步骤,并运用到实验实践中 熟悉特征提取方法,包括CHI-square 和 LDA特征提取 了解SVM机器学习方法,可以运用开源工具完成文本分类过程 2. 实验分工 XXX: (1) 运用爬虫对语料库新闻的收集 (2) 对数据的预处理工作 (3) 后期的不同对比试验的测试 XXX: (1) 特征的提取 (2) 训练集和测试集的生成 (3) 后期的不同对比试验的测试 3. 实验环境 中文分词与LDA特征提取运行环境: (1) Java version 1.7 (2) 开发环境:eclipse Python代码运行环境: (1)python 3.2 4. 主要设计思想 4.1 实验工具介绍 Web Crawler: 由实验室集体开发的网络爬虫,不对外公开。可以方便的通过正则表达式的配置,轻松的完成对网络数据的提取,并且可以根据需求完成过滤老新闻、不合适的网址格式等功能。最终的爬取结果文件已经经过程序处理,可以直接得到最需要得到的内容。例如:在此实验中,最终的爬取结果即为已经从网站中提取出的新闻标题和正文。

ICTCLAS:全称为汉语词法分析系统。具有简易的图形演示界面,和不同语言的API接口,开发者可以根据自己的需求选择不同的接口。主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典;在今年的12月中下旬会发布ICTCLAS2014版本。

Lib svm: 是由台湾大学林智仁副教授等开发的一个简单、易于使用和快速有效的SVM模式识别与回归的软件包。除了主体训练,测试的程序,还提供了一些使用的工具,例如子集的选择,参数的选择与归一化的操作等实用的方法。

JGibbLDA: 使用JAVA实现了Latent Dirichlet Allocation(LDA),使用了Gibbs采样来进行参数估计。

4.2 特征提取与表达方法的设计 在此次实验中,我们采用了两种特征提取的方法。针对不同的方法提取的特征分别作了文本分类实验。所有的特征提取与特征表达的详细步骤会在5.3种进行描述。

CHI特征提取: 根据上面的公式,最终建立成了数据字典。 经过CHI特征提取建立成数据字典,数据字典如图所示(已经经过了按照字母排序处理):

在每个词的前面是数据字典中,每个词对应的id。 最终的特征向量表达方法为: Class_id word_id:tf-idf …… 第一列class_id为此文本所属的新闻类别, word_id为数据字典中每个词对应的word_id,tf-idf为每篇文档中,对应的tf-idf值。

LDA特征提取: LDA是主题模型的一种。假设一篇文章可以由不同的主题组成,把每篇文章中的主题分布概率来当作这篇文章的特征,从而形成了特征向量。主题的数量可以由人工根据情况指定或者通过其他方法科学的得到合理也就是概率最大的主题数量,再对其进行人工指定。

经过LDA主题模型分析之后,在通过简单的处理,变换成SVM可以接受的输入格式,会得到如下的特征向量:

图中的第一列为文本的所属类别。后面的为topic_id:probability。Topic_id为相应的主题id,probability为这篇文档此主题的分布情况。

两种特征提取的方法,都将会在5.3中进行详细描述。 4.3 分类算法的选择 我们使用的SVM(Support Vector Machine)分类算法,是最大margin分类算法中的一种。SVM是一种可训练的机器学习方法,在小样本中可以得到优秀的训练模型。

图1 如图中所示,SVM分类算法可以根据最边界的样本点,也就是支持向量,达到二分类的目的。当数据的样本线性不可分时,会通过核函数的映射,把样本转换到线性可分的向量空间。所以核函数的选择也会影响最终的效果。

如果遇到了多分类的问题,如下图所示,可以通过多个SVM训练模型完成多分类的任务。现在的SVM工具包都提供了自动的多分类接口。

图2 此外,SVM与logistic regression非常相似。Logistic regression 虽然其名字当中是regression也就是回归,但是实际上此算法是一个分类算法。为了达到性能和效率兼备,对不同情况运用不同算法的场景进行了描述:

n为特征的数量,m为训练样本的数量 (1) 如果n相对m大很多,可以使用logistic regression 或者 使用SVM ,核函数选择线性核函数

(2) 如果n很小,m的大小适中,使用SVM,核函数选择Gaussian函数 (3) 如果n很小,m很大,需要添加更多的特征,然后使用logistic regression 或者 使用SVM,不使用核函数。 神经网络的算法的效果会优于上面的算法,但是训练的时间非常长,这也是为什么很多人选择SVM的原因之一。

4.4 性能评估方法 最终性能的评价使用了准确率(P),回召率(R)和F1-Score来评价分类效果。为了解释每种评价标准的计算方法,先看如下表格:

实际情况 1代表真实情况此类,0代表不属于 预测结果 1 代表预测属于此类 0代表预测不属于此类 1 0 1 True positive False positive 0 False negative True negative

表1 P = True positive / (True positive + False positive) R = True positive /(True positive + False negative) F1-Score = (2 * P * R)/(P + R) 在此实验中,我们分析了每种特征提取方法最终在每类与总体的准确率、召回率和 F1-Score的结果。关于结果分析的详细描述见5.6。 5. 实验过程 基于CHI特征提取的实验流程图: 基于LDA特征提取的实验流程图: 5.1 文本分类语料库的采集 通过网络爬虫在爬取新闻语料。 爬取的类别有: Sport 运动 Finical 经济 Edu 教育 Ent 娱乐 Baby 婴儿 Tech 科技 Games 游戏 Comic 动漫 Auto 汽车 house 房产 在语料库的收集中遇到的主要问题为,有的分类的网页会得到404的爬取结果,原因在于访问的对方服务器的文件夹年份过于早,网页已经被删除,也就是过期网页。经过对这些网页爬取结果的分析,大部分此类网页的爬取结果都为1KB(在windows操作系统下,最小的文件只有1KB,没有更小的文件),为了提高最终分类的效果,对所有爬取的新闻文件小于1KB的都做了删除处理。

另外,也对比较大的文件做了处理。经过对爬取的文件的分析,部分新闻文件都是代码没有新闻内容,对于这样的文件大部分在10、50KB以上,一篇新闻的内容大于150KB的可能性非常小,所以,对于此种异常文件,也做了删除操作。

经过以上处理,对新闻文件的分配如下: (1) 训练集:一共10类,每类的训练集为5000篇新闻。总共50,000篇训练集。 (2) 测试集: 运动 10223 经济 6906 教育 9416 娱乐 34937 婴儿 14948 科技 12156 游戏 23945 动漫 12306 汽车 10305 房产 4373 总计 139,515篇 在后期的实验结果中,我们也对设计了不同的训练集和测试集的比例进行了实验,详细结果分析见5.6。

5.2 数据预处理 (1) 对所有新闻文件使用JAVA接口进行分词。效果如图: (2) 对每一类新闻的训练集进行提取名词、去停用词的处理,并且,为了以后方便计算每个词的tf,同时记录每个单词在文档中的tf。例如:汽车类(automatic)的其中一篇新闻,经过处理,转换成如下的文件内容,为了描述方便称此类文件为news_word_frequence文件:

(3) 经过对每一类新闻训练集进行如上处理,分别将每一类的所有news_word_frequence文件的单词进行汇总,同时记录每个词的词频,最终得到如下文件: 图中一共有10个文件,代表了10类新闻中的出现的所有单词(已经经过了取名词、去停用词的处理,并且已经根据词频进行了降序排序)

例如,auto.words文件如下: 第一列为单词,第二列为此单词出现的频次。在我们的实验中,去除了频次低于5次的单词。

处理过程如图所示: 5.3 特征提取和表达 在本实验中使用了CHI特征提取与LDA特征提取两种方法。下面分别对其提取过程进行描述。

CHI特征提取: 在此公式中,变量的含义如下所示: N:所有文档的数目 A:在该分类下,包含此单词的文档数量 B:不在该分类下,包含此单词的文档数量 C:在该分类下,不包含此单词的文档数量 D:不在该分类下,不包含此单词的文档数量

相关文档
最新文档