实验4 分类

合集下载

实验类型资料

实验类型在科学研究领域中，实验类型是非常关键的概念。

实验类型指的是在研究过程中所采用的实验方法或者实验设计。

不同的实验类型适用于不同的研究目的和研究对象。

在本文中，我们将介绍几种常见的实验类型，并探讨它们的特点和应用场景。

随机对照实验随机对照实验是一种常见的实验类型，它通过随机分配实验对象到不同的实验组和对照组，来减少实验结果被外部因素影响的可能性。

在随机对照实验中，实验组接受某种处理，对照组则不接受处理，通过比较实验组和对照组的结果，可以得出处理效果的结论。

随机对照实验通常适用于评估某种新药物、新疗法或新技术的疗效，因为它可以减少实验结果被个体差异或其他未知因素干扰的可能性。

单盲实验单盲实验是一种实验类型，其中实验对象不知道自己属于实验组还是对照组，但实验人员知道。

这种实验设计可以减少实验结果的主观性干扰，并提高实验的客观性。

单盲实验通常适用于心理学和医学领域的研究，因为心理学和医学研究中很多结果受到实验对象主观因素的影响，采用单盲设计可以减少这种影响。

双盲实验双盲实验是一种更为严谨的实验设计，实验对象和实验人员都不知道实验对象属于实验组还是对照组。

这种设计可以进一步减少实验结果的干扰，并提高实验的科学性和可靠性。

双盲实验通常用于药物临床试验和心理学研究中，因为这些研究需要排除实验对象和实验人员的主观影响，以确保实验结果的客观性和可靠性。

交叉设计实验交叉设计实验是一种实验类型，其中实验对象在不同时间或不同条件下接受不同的处理。

通过交叉设计，可以减少实验组和对照组之间的差异，从而更准确地评估处理效果。

交叉设计实验通常用于评估某种干预措施的长期效果，或者比较不同干预措施的效果。

通过在同一组实验对象上进行多次实验，可以减少个体差异和其他外部因素的影响，提高实验结果的可靠性。

性质探究实验性质探究实验是一种实验类型，旨在探索某种现象的性质和规律。

这种实验通常没有预设的假设，而是通过实验数据来发现模式和规律。

实验4放线菌、酵母菌、霉菌形态观察.

实验4放线菌、酵母菌、霉菌形态观察.实验四放线菌、酵母菌、霉菌形态观察（一）放线菌的形态观察1 目的观察放线菌的基本形态特征掌握培养放线菌的几种方法2 原理放线菌一般由分枝状菌丝组成，它的菌丝可分为基内菌丝(营养菌丝)、气生菌丝或有孢子丝三种。

放线菌生长到一定阶段，大部分气生菌丝分化成孢子丝，通过横割分列的方式产生成串的分生孢子。

孢子丝形态多样，有直、波曲、钩状、螺旋状、轮生等多种形态。

孢子也有球形、椭圆形、杆状和瓜子状等等。

它们的形态构造都是放线菌分类鉴定的重要依据。

放线菌的菌落早期绒状同细菌菌落月牙状相似，后期形成孢子菌落呈粉状、干燥，有各种颜色呈同心圆放射状。

3 材料3.1 菌种灰色链霉菌(Str. griseus),天蓝色链霉菌(Str. coelicolor),细黄链霉菌（Str.microflavus）。

3.2 培养基高氏1号培养基。

3.3 器皿培养皿，载玻片、盖玻片、无菌滴管、镊子、接种环、小刀(或刀片)、水浴锅，显微镜，超净工作台，恒温培养箱。

4 流程4.1插片法: 倒平板→插片→接种→培养→镜检→记录绘图4.2压印法: 倒平板→划线接种→挑取菌落→加盖玻片→镜检→记录绘图4.3埋片法: 倒琼脂→切槽→接种→培养→镜检→记录绘图5 步骤5.1插片法5.1.1倒平板将高氏1号培养基熔化后，倒10~12毫升左右于灭菌培养皿内，凝固后使用.5.1.2插片将灭菌的盖玻片以45度角插入培养皿内的培养基中，插入深约为1/2或1/3(图5-1)。

5.1.3接种与培养用接种环将菌种接种在盖玻片与琼脂相接的沿线，放置28℃培养3～7天。

5.1.4观察培养后菌丝体生长在培养基及盖玻片上，小心用镊子将盖玻片抽出，轻轻擦去生长较差的一面的菌丝体，将生长良好的菌丝体面向的载玻片，压放于载玻片上。

直接在显微镜下观察。

5.2压印法5.2.1制备放线菌平板同5.1.1。

在凝固的高氏1号培养基平板上用划线分离法得到单一的放线菌菌落。

实验四遥感图像的监督分类和非监督分类

实验四遥感图像的监督分类和⾮监督分类实验四遥感图像的⾮监督分类与监督分类⼀、实验⽬的1．⾮监督分类是对数据集中的像元依据统计数字，光谱类似度和光谱距离进⾏分类，在没有⽤户定义的条件下练习使⽤，在ENVI环境下的⾮监督分类技术有两种：迭代⾃组织数据分析技术（ISodata）和K均值算法（K-Means）；2．分类过程中应注意：1）怎样确定⼀个最优的波段组合，从⽽达到最佳的分类精度，基于OIF和相关系数，协⽅差矩阵以及经验的使⽤来完成对最适合的组合的选取，分类效果的关键即在于此；2）K-Means的基本原理；3）Isodata的基本原理；4）分类结束后，被分类后的图像是⼀个新的图像，被分类类码秘填充，从⽽可以获得数据提取信息，统计不同类码数量，转化为实际⾯积，在得到后的图像上，可对不同⽬标的形态指标进⾏分析。

3．对训练区中的像元进⾏分类；4．⽤训练数据集估计查看监督分类后的统计参数；5．⽤不同⽅法进⾏监督分类，如最⼩距离法、马⽒距离法和最⼤似然法。

⼆、实验设备与材料1、软件ENVI 4.7软件2、所需材料TM数据三、实验步骤1.选择最优的波段组合ENVI主⼯具栏中File →Open image file →选择hbtmref.img打开→在Basic Tools中选择Statistics →Compute statistics选定原图，在Spectral subset中可选项全部选定→OK →OK →全选→保存→OK，则各类统计数字均可查；OIF计算，选择分类波段：1，2；2，3；1，3波段标准差分别为2.665727；3.473308；4.574609，和为10.713644。

Correlation Matrix 中1和2波段的相关系数0.964308，加上2和3波段的相关系数0.980166，再加上1和3波段的相关系数0.945880，最终等于2.890354。

⽤标准差相加的结果10.713644⽐上相关系数之和2.890354等于3.70668922。

实验四还原糖蛋白质脂肪的鉴定

8、结论：苏丹Ⅲ染液与花生子叶细胞内圆形小颗发生了（反应，这说明花生种子内含有（
）色

鉴定脂肪的实验中，用刀片将花生子叶削下很薄的一片，放在载玻片上然后滴加1－2滴5 ％乙醇，乙醇是脂溶性溶剂。可将花生细胞中的脂肪颗粒溶解成油滴，浸5分钟后，用吸水纸将切片周围乙醇吸去，然后滴加0.2％苏丹III染液（比0.1％浓度的效果更佳）。由于油滴加大了折光率，与染液作用后就形成红色透亮的油滴，效果很好。但是不易久放。

蛋白质的鉴定原理鉴定生物组织中是否含有蛋白质时，常用双缩脲法，使用的是双缩脲试剂。双缩脲试剂的成分是质量浓度为0.1 g ／mL的氢氧化钠溶液和质量浓度为0.01 g／ mL的硫酸铜溶液。在碱性溶液(NaOH)中，双缩脲(H2NOC—NH—CONH2)能与Cu2+作用，形成紫色或紫红色的络合物，这个反应叫做双缩脲反应。由于蛋白质分子中含有很多与双缩脲结构相似的肽键，因此，蛋白质可与双缩脲试剂发生颜色反应。
检测生物组织中的糖类、脂肪和蛋白质的实验的改进

一、原实验的不足但原实验不但需要苹果、花生和鸡蛋三种比较难加工的实验材料，且实验内容多，时间长，容易导致学生做实验很匆忙或者实验效果不理想，从而打击学生的信心。并让学生没有时间去考虑实验是为了什么，从实际上剥夺了学生的质疑权力，违背了我们设定实验的初衷。具体不足如下： 1、需要水浴加热2分钟。如果教师不提前准备好热水加温过程更长。 2、没有对照实验，没有对照怎么能证明水浴加热后的砖红色沉淀就是还原糖还原而成，为什么不可能是Cu(OH)2自身分解产生的呢？ 3、脂肪鉴定实验中，显微镜的操作、子叶切片都需要很长时间。特别是对于才进高中的学生而言，要求所有的学生都能熟练运用徒手切片技术也不现实。 4、在学生对生物染色剂的染色特性了解不深的情况下，很难指出显微镜下哪些黄色或红色的东西就是脂肪。

实验4——列联表分析(R×C)

由此认为管状腺癌胃癌患者的无转移率较所有五种胃癌患者的无转移率偏高。
3）直方图
500
400
300
200
Count
100
0
1
2
转移情况
组织分类
1 2 3 4 5 3
第二站
3.9 -2.5 -1.6
组织学类型低分化腺癌粘液细胞癌
-1.7
-2.5
1.6
2.1
-0.2
0.3
粘液腺癌 -2.3 0.8 1.8
未分化癌 1.2
-1.5 0.6
2）残差分析将残差值与 u /2 1.96进行比较
固定列
△由于d11= 3.9 > 1.96 ,
说明 P( 1| 1) P( 1)
df 8
Asymp. Sig. (2-sided)
.001
Likelihood Ratio
26.240
8
1
Linear-by-Linear Association
7.187
1
.007
N of Valid Cases
2063
a. 0 cells (.0%) have expected count less than 5. The minimum expected count is 27.31.
将“转移情况”添加到行变量中，“组织分类” 添加到列变量中。
点击Statistics
此处提供了多种检验方法，我们选择 2检验
点击Cell（交叉格），选择格中的值为观测值、残差……
4. 主要结果：
Chi-Square Tests
Pearson Chi-Square
Value 26.090a

人工智能实验报告四

人工智能实验报告四课程实验报告课程名称：人工智能实验项目名称：实验四：分类算法实验专业班级：姓名：学号：实验时间：2021年6月18日实验四：分类算法实验一、实验目的1.了解有关支持向量机的基本原理2.能够使用支持向量机的代码解决分类与回归问题3. 了解图像分类的基本原理二、实验的硬件、软件平台硬件：计算机软件：操作系统：***** 10应用软件：C+ + ,Java或者Matlab三、实验内容支持向量机算法训练分类器：1.训练数据集：见文档“分类数据集.doc”，前150个数据作为训练数据，其他数据作为测试数据，数据中“ + 1”“-1”分别表示正负样本。

2.使用代码中的C-SVC算法和默认参数来训练“分类数据集doc”中所有的数据（包括训练数据和测试数据），统计分类查准率。

3.在2的基础上使用k-折交叉验证思想来训练分类器并统计分类查准率。

4.使用2中的设置在训练数据的基础上学习分类器，将得到的分类器在测试数据上进行分类预测，统计查准率。

5.在4上尝试不同的C值（"-c”参数）来调节分类器的性能并绘制查准率曲线。

6.尝试不同的kernel函数（"-t”参数）来调节分类器的性能并绘制查准率曲线，对每种kernel函数尝试调节其参数值并评估查准率。

四. 实验操作采用提供的windows版本的libsvm完成实验。

1.文档“分类数据集.doc”改名为trainall.doc，前150组数据保存为train.doc 后120 组保存为test.doc2.使用代码中的C-SVC算法和默认参数来训练“分类数据集.doc” 中所有的数据（包括训练数据和测试数据），统计分类查准率。

用法：svm-scale [-l lower] [-u upper] [-y y_lower y_upper] [-s save_filename] [-r restore_filename] filename （缺省值：lower =- 1, upper = 1，没有对y进行缩放）按实验要求这个函数直接使用缺省值就行了。

实验四-昆虫分类检索表及主要

8、膜翅目 Hymenoptera
1.咀嚼式或嚼吸式口器 2 .触角多数为肘状或丝状 2.复眼发达,单眼3枚或无 3.翅膜质,多数具闭室 4.后翅前缘有一排小钩,与前翅后缘的卷褶相连 5.后足常特化,一些种类为携粉足,跗节5节 6.腹部第一节与后胸密合,称为并胸腹节为的种类基部成腰束 7.无尾须,产卵器发达或特化成针剌
制作；王柏泉
8.全变态或复变态,幼虫多足或无足型,腹足无趾钩,肉食性或杂食性
实验四昆虫分类检索表的编制重要目昆虫形态特征识别
9、双翅目 Diptera
1.体小至中型
2.触角丝状、锥状和具芒状
3.复眼发达,有些种类两复眼相接
4.中胸发达
5.前翅膜质.后翅为平稀棍
6.幼虫为无足型
接眼
7.全变态或复变态
制作；王柏泉
实验四昆虫分类检索表的编制重要目昆虫形态特征识别
(1)单项式(连续式) 将同一内容的两项相对特征，分别在开头
数学行及括号内数字所示行中描述，二行之一必与待查昆虫特征相符，查表时，先查开头数字一行特征，如符，便按数字往下查，相至查出名称止；如不符，则查括号内数字所示行，直到查出名称止。例如直翅目分科检索表见下页
制作；王柏泉
实验四昆虫分类检索表的编制重要目昆虫形态特征识别
2 ．几个重要目昆虫的分目特征识别等翅目、直翅目、半翅目、同翅目、鞘翅
目、鳞翅目、膜翅目、双翅目
制作；王柏泉
实验四昆虫分类检索表的编制重要目昆虫形态特征识别
1、等翅目(Blattaria)
社会性昆虫，头小或大，极度骨化，咀嚼式口器；触角念珠状。有翅的个体前后翅的形状、大小略相等，分飞及交配后翅脱落并
内折…………圆春科 BB 无上述特征，小盾片发达程度不一，如小盾片将腹部完全盖住时，则前翅不长于

实验4-小球藻

实验四、环境生物小球藻、轮藻的镜检、生物学特性及其应用一、实验目的：通过显微镜玻片观察与绘图，结合课堂讲解和资料查询，对小球藻等藻类的形态结构特征、分类、生物学习性、在环境科学中的应用等进行深入的了解。

指导老师：王旭、邝春兰二、三、实验时间：20 周四、实验地点：环境生物学实验室五、实验人员：六、实验内容（）概述一绿藻门，卵孢藻科。

藻体单细胞，球形或椭圆形，直径仅数微米。

无鞭毛，浮游生活。

叶绿体杯形，或为弯的板片状。

造粉核有或无，因种而异。

繁殖时，原生质体分裂数次，生成2、4、8 或16 个不动孢子；因孢子的形态与母细胞相似，故称“似亲孢子” 。

种类较多。

多生长于淡水中，少数生于海洋中；另有一些生活在动物细胞内或水螅等低等动物的内腔内。

性喜温暖，繁殖迅速，可大量培养。

富含脂肪、蛋白质、碳水化合物、矿物盐类和各种维生素，可作高蛋白质食物，是宇航中的理想食粮。

又可利用小球藻光合作用时释放氧、吸收二氧化碳，解决宇航中氧的供应。

因它繁殖快，又易于控制，为良好的研究材料。

（二）分类地位小球藻在分类上属于绿藻门，绿藻纲，绿球藻目，卵孢藻科，小球藻属。

常见的有蛋白核小球藻，其他有眼点小球藻，卵形小球藻，盐生小球藻和海生小球藻等。

（三）形态结构小球藻细胞球形或广椭圆形。

细胞内具有杯状（蛋白核小球藻）或呈边缘生板状（卵形小球藻）的色素体。

蛋白核小球藻的杯状色素体中含有一个球形的蛋白核。

细胞中央有一个细胞核。

细胞的大小依种类而有所不同，蛋白核小球藻直径一般为3—5微米，在人工培养的情况下，条件优良，小球藻会变小一点。

（五）繁殖方式以似亲抱子的方式行无性生殖，首先在细胞内部进行原生质分裂，把原生质分裂为2、4、8,,个抱子，然后这些抱子破母细胞而出，每个抱子长成一个新个体。

（六）生态条件1.盐度：不同种类的小球藻可以生活在自然的海水和淡水中，淡水种类较多，海水种对盐度的适应性很强，在河口，港湾，半咸水中都可以生存，也能移植到淡水中。

小学科学实验分类

小学科学实验分类
小学科学实验分类
分类标准
实验环境实验目的实验数据实验方式实验作用
实验类别
1.实验室实验 2.自然态实验 1.探索性实验 2.验证性实验 1.定性实验 2.定量实验 1.演示实验 2.分组实验 1.析因实验 2.对照实验 3.模拟实验
注：以上分类参考甘雪梅《小学科学实验的分类与教学应对》一文
小学科学实验分类
根据实验目的分
1．探索性实验
实验者在不知晓实验结果的前提下，通过自己实验、探索、分析、研究得出结论，从而形成科学概念的一种认知活动。从学生的认知角度出发，大量的实验结果以及发现对于世界来说是已知的，但对学生来说是未知的。
2．验证性实验
对研究对象有了一定的了解，并形成了一定认识或提出了某种假说，为了验证这种认识或假说是否正确而进行的实验，就是验证性实验。验证性实验基本上都是在分析猜想之后，为了得到验证时进行的实验。
教学模式时间安排
问题假说→实验事实→推理和判断→验证假说→结论→应用
往往安排在概念、原理的学习之前，以此推动对化学概念和原理的讨论。
验证性实验对研究对象有了一定了解，并形成了一定认识或提出了某种假说，为验证这种认识或假说是否正确。
训练实验技能，验证基本理论原理。
注重探究的结果(事实、概念、理论)，而不是探究的过程。
3．模拟实验在研究工作中，由于研究对象不能或不允许进行实验，为了取得对研究对象的认识，可以通过在模型上进行实验，或者模仿实验的某些条件进行的实验。
对照实验与对比实验的区别和联系
大多数情况下，如果只有一组实验，不足以说明该变量是影响实验结果的唯一因素，这时，需要设置一个未施加这种因素而已知的实验结果作为对照，以明确这种因素所起的作用，这就是对照实验。通常，一个对照实验分为实验组和对照组，实验组是指接受实验变量处理的对象组。

微生物安全等级分类四级

微生物安全等级分类四级
微生物安全等级分类四级（Biosafety Level 4, BSL-4）是最高级别的生物安全实验室，用于处理最危险的病原体，包括那些对人类健康和环境造成重大威胁的病原体。

BSL-4实验室通常采用高度密闭的设计和高级别的防护措施，以防止病原体的泄露和传播。

实验室内的工作人员必须穿着特殊的防护服和手套，并在实验室内采取严格的卫生和安全措施，以确保实验室内的安全。

BSL-4实验室通常用于研究和处理以下病原体：
1. 高度传染性的病原体，如埃博拉病毒、马尔堡病毒、拉萨热病毒等。

2. 能够引起严重疾病的病原体，如结核分枝杆菌、鼠疫杆菌等。

3. 其他对人类和环境造成严重威胁的病原体，如霍乱弧菌、沙门氏菌等。

BSL-4实验室的建设和运行需要高度的技术和管理支持，以确保实验室内的安全和有效的生物安全措施。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

实验4 分类分类算法是解决分类问题的方法，是数据挖掘、机器学习和模式识别中一个重要的研究领域。

分类算法通过对已知类别训练集的分析，从中发现分类规则，以此预测新数据的类别。

分类算法的应用非常广泛，银行中风险评估、客户类别分类、文本检索和搜索引擎分类、安全领域中的入侵检测以及软件项目中的应用等等。

Bayes贝叶斯分类器的分类原理是通过某对象的先验概率，利用贝叶斯公式计算出其后验概率，即该对象属于某一类的概率，选择具有最大后验概率的类作为该对象所属的类。

目前研究较多的贝叶斯分类器主要有四种，分别是：Naive Bayes、TAN、BAN 和 GBN。

1、贝叶斯网络(BayesNet)贝叶斯网络是一个带有概率注释的有向无环图，图中的每一个结点均表示一个随机变量 , 图中两结点间若存在着一条弧，则表示这两结点相对应的随机变量是概率相依的，反之则说明这两个随机变量是条件独立的。

网络中任意一个结点X 均有一个相应的条件概率表Conditional Probability Table，CPT) ，用以表示结点 X 在其父结点取各可能值时的条件概率。

若结点 X 无父结点 , 则 X 的 CPT 为其先验概率分布。

贝叶斯网络的结构及各结点的 CPT 定义了网络中各变量的概率分布。

应用贝叶斯网络分类器进行分类主要分成两阶段。

第一阶段是贝叶斯网络分类器的学习，即从样本数据中构造分类器，包括结构学习和 CPT 学习；第二阶段是贝叶斯网络分类器的推理，即计算类结点的条件概率，对分类数据进行分类。

这两个阶段的时间复杂性均取决于特征值间的依赖程度，甚至可以是 NP 完全问题，因而在实际应用中，往往需要对贝叶斯网络分类器进行简化。

根据对特征值间不同关联程度的假设，可以得出各种贝叶斯分类器。

2、朴素贝叶斯(NaiveBayes)朴素贝叶斯模型(NBC)发源于古典数学理论，有着坚实的数学基础，以及稳定的分类效率。

同时，NBC 模型所需估计的参数很少，对缺失数据不太敏感，算法也比较简单。

NBC 模型假设属性之间相互独立，这个假设在实际应用中往往是不成立的，这给 NBC 模型的正确分类带来了一定影响。

在属性个数比较多或者属性之间相关性较大时，NBC 模型的分类效率比不上决策树模型。

而在属性相关性较小时，NBC 模型的性能最为良好。

Lazy Learning相对其它的 Inductive Learning 的算法来说，Lazy Learning 的方法在训练是仅仅是保存样本集的信息，直到测试样本到达时才进行分类决策。

也就是说这个决策模型是在测试样本到来以后才生成的。

相对与其它的分类算法来说，这类的分类算法可以根据每个测试样本的样本信息来学习模型，这样的学习模型可能更好的拟合局部的样本特性。

kNN 算法的思路非常简单直观：如果一个样本在特征空间中的 k 个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。

其基本原理是在测试样本到达的时候寻找到测试样本的 k 临近的样本，然后选择这些邻居样本的类别最集中的一种作为测试样本的类别。

在 Weka 中关于 kNN 的算法有两个，分别是 IB1，IBk。

IB1 即 1 近邻，IB1 是通过它的一个邻居来判断测试样本的类；IBk 即K 近邻，IBk 是通过它周围的 k 个邻居来判断测试样本的类别在样本中有比较多的噪音点是(Noisy points)时，通过一个邻居的效果很显然会差一些，因为出现误差的情况会比较多。

这种情况下，IBk 就成了一个较优的选项了。

这个时候有出现了一个问题，k 这个值如何确定，一般来说这个 k 是通过经验来判断的。

Trees即决策树算法，决策树是对数据进行分类，以此达到预测的目的。

该决策树方法先根据训练集数据形成决策树，如果该树不能对所有对象给出正确的分类，那么选择一些例外加入到训练集数据中，重复该过程一直到形成正确的决策集。

决策树代表着决策集的树形结构。

决策树由决策结点、分支和叶子组成。

决策树中最上面的结点为根结点，每个分支是一个新的决策结点，或者是树的叶子。

每个决策结点代表一个问题或决策，通常对应于待分类对象的属性。

每一个叶子结点代表一种可能的分类结果。

沿决策树从上到下遍历的过程中，在每个结点都会遇到一个测试，对每个结点上问题的不同的测试输出导致不同的分支，最后会到达一个叶子结点，这个过程就是利用决策树进行分类的过程，利用若干个变量来判断所属的类别。

1、Id3 即决策树 ID3 算法ID3 算法是由 Quinlan 首先提出的。

该算法是以信息论为基础，以信息熵和信息增益度为衡量标准，从而实现对数据的归纳分类。

2、J48 即决策树 C4.5 算法C4.5 算法一种分类决策树算法 , 其核心算法是 ID3 算法。

C4.5 算法继承了 ID3 算法的优点，并在以下几方面对 ID3 算法进行了改进：(1) 用信息增益率来选择属性，克服了用信息增益选择属性时偏向选择取值多的属性的不足；(2) 在树构造过程中进行剪枝；(3) 能够完成对连续属性的离散化处理；(4) 能够对不完整数据进行处理。

C4.5 算法有如下优点：产生的分类规则易于理解，准确率较高。

其缺点是：在构造树的过程中，需要对数据集进行多次的顺序扫描和排序，因而导致算法的低效。

Rule1、Decision Table 即决策表。

决策表 (Decision Table)，是一中使用表的结构，精确而简洁描述复杂逻辑的方式。

2、JRip 即 RIPPER 算法规则归纳学习从分类实例出发能够归纳出一般的概念描述。

其中重要的算法为 IREP 算法和 RIPPER 算法。

重复增量修枝(RIPPER)算法生成一条规则，随机地将没有覆盖的实例分成生长集合和修剪集合，规定规则集合中的每个规则是有两个规则来生成：替代规则和修订规则。

Meta1、AdaBoostM1 即 AdaBoosting 算法Adaboost 是一种迭代算法，其核心思想是针对同一个训练集训练不同的分类器(弱分类器)，然后把这些弱分类器集合起来，构成一个更强的最终分类器(强分类器)。

其算法本身是通过改变数据分布来实现的，它根据每次训练集之中每个样本的分类是否正确，以及上次的总体分类的准确率，来确定每个样本的权值。

将修改过权值的新数据集送给下层分类器进行训练，最后将每次训练得到的分类器最后融合起来，作为最后的决策分类器。

2、Bagging 即 Bagging 方法Bootstrps bagging boosting 都属于集成学习方法，将训练的学习器集成在一起。

原理来源于 PAC 学习模型(Probably Approximately CorrectK)。

其中的 Bagging 是 bootstrap aggregating 的缩写，是最早的 Ensemble 算法之一，它也是最直接容易实现，又具有不错的效果的算法之一。

Bagging 中的多样性是由有放回抽取训练样本来实现的，用这种方式随机产生多个训练数据的子集，在每一个训练集的子集上训练一个同种分类器，最终分类结果是由多个分类器的分类结果多数投票而产生的。

实验内容：1、使用不同的分类算法对数据集进行分类。

2、通过各种不同的可视化选项观察分类结果(Visualize...)。

WEKA可以支持文本分类。

只要输入一个文件目录，WEKA即可生成对应的ARFF文件，进而直接用WEKA自带的分类器进行预测。

但是WEKA只提供训练集的训练功能，而不提供预测测试集。

由于训练过程会打乱样本，所以也不能通过训练集跟测试集一起提取特征再抽取出测试集的方法进行测试。

另外特征提取方法只有TF/IDF方法。

初始化数据在GUI版本的WEKA当中，只能读入ARFF格式的文件。

以文件目录为输入，生成ARFF文件只能通过命令行或者自行编码。

把文本数据转化成ARFF文件需要两步：1、TextDirectoryLoaderjava weka.core.converters.TextDirectoryLoader -dir text_example > text_example.arff该方法只能通过命令行实现。

如果是在windows下，要首先在环境变量里加入weka.jar的位置，再在cmd里敲入命令行。

图1 文件目录格式该类的作用是把输入目录转化成ARFF文件，但是转化之后的ARFF文件里的属性是string型的，依然是大多数分类器不能处理的，需要做进一步处理。

该类的作用相当于把每个文本表示一行的string格式。

输入的文件目录的格式应为图1所示。

由TextDirectoryLoader转化得到的ARFF文件不能直接用来分类，需要StringToWordVector类的进一步处理。

这步在命令行和GUI上都能操作。

在打开的WEKA界面中选择打开已经上一步处理过的文件，然后选择weka.filters.unsupervised.attribute.StringToWordVector，配置相应的参数：-W 需要保留的单词个数，默认为1000。

这不是最终的特征维数，但是维数跟此参数是正相关的。

-stopwords <file> 输入停词文件，文件格式为每一个词一行。

在读文件到转化特征时会自动去掉这些常用词，系统自带有一套停用词。

-tokenizer <spec> 自定义所要去除的符号，一般为标点符号。

默认有常用的标点符号，但往往是不够的，所以需自己添加。

其他参数只需默认值即可。

在GUI当中，还有一些参数设置需要介绍:lowerCaseTokens 是否区分大小写，默认为false不区分，这里一般要设置为ture，因为同一个词就会有大小写的区别。

特征选择与训练提取完ARFF文件之后，可以按上方的按钮保存文件。

在Attribute一栏中也会显示所有的特征，此时也可以自己观察一下所提取的单词是否合理，然后再在去停词、符号等方面做改进，当然若至于少部分的有问题，也可以手动剔除。

此步进行完之后，可以使用降维方法(例如PCA)对特征进行降维，当然这不是必须的。

接下来就可以按照一般ARFF文件进行训练了。

实验内容：（weka 中文文本分类）1、利用example1文件夹中的文本数据构造文本数据集，要求用java实现。

2、对上一步得到的数据集进行分类，要求用java实现。

3、合并example2文件夹中的两个数据集，进行分类，通过预处理或修改现有分类算法的方式提高分类准确率。

代码：package shiyan4;import weka.core.*;import weka.core.converters.*;import weka.classifiers.trees.*;import weka.filters.*;import weka.filters.unsupervised.attribute.*;import java.io.*;public class TextCategorizationTest {public static void main(String[] args) throws Exception { // convert the directory into a dataset// 将文本类型转化为ARF格式TextDirectoryLoader loader = new TextDirectoryLoader();File file=new File("Z:/文本分类/example1");loader.setDirectory(file);Instances dataRaw = loader.getDataSet();//System.out.println("\n\nImported data:\n\n" + dataRaw);// apply the StringToWordVector// (see the source code of setOptions(String[]) method of the filter// if you want to know which command-line option corresponds to which// bean property)//词频向量StringToWordVector filter = new StringToWordVector();filter.setInputFormat(dataRaw);Instances dataFiltered = eFilter(dataRaw, filter);//System.out.println("\n\nFiltered data:\n\n" + dataFiltered);//训练分类器// train J48 and output modelJ48 classifier = new J48();classifier.buildClassifier(dataFiltered);System.out.println("\n\nClassifier model:\n\n" + classifier);//预测}}结果：Classifier model:J48 pruned tree------------------atheism <= 0: comp.graphics (100.0)atheism > 0: alt.atheism (100.0) Number of Leaves : 2Size of the tree : 3。