随机森林(精)
基于随机森林模型的中国气溶胶光学厚度反演及变化分析

基于随机森林模型的中国气溶胶光学厚度反演及变化分析目录1. 内容描述 (2)1.1 研究背景与意义 (2)1.2 研究内容与方法 (4)1.3 文献综述 (6)2. 数据收集与处理 (8)2.1 数据来源与格式 (9)2.2 数据预处理 (9)2.2.1 数据清洗 (11)2.2.2 数据归一化 (12)2.2.3 数据分割 (12)3. 随机森林模型构建 (12)3.1 模型原理简介 (14)3.2 模型参数设置 (15)3.3 模型训练与验证 (17)4. 气溶胶光学厚度反演 (18)4.1 反演算法介绍 (19)4.2 反演结果展示 (21)4.3 反演精度评估 (22)5. 气溶胶光学厚度变化分析 (23)6. 结果讨论与影响因素分析 (25)6.1 反演结果的可能原因 (26)6.2 影响气溶胶光学厚度的因素分析 (28)6.2.1 大气环流 (29)6.2.2 地表覆盖 (31)6.2.3 人为活动 (32)7. 结论与展望 (33)7.1 研究结论总结 (35)7.2 政策建议与未来研究方向 (36)1. 内容描述本文将聚焦于基于随机森林模型的中国气溶胶光学厚度反演及变化分析。
气溶胶光学厚度作为大气环境领域的重要参数,对于研究空气质量、气候变化以及环境影响具有重要意义。
随着工业化和城市化进程的加快,中国地区的气溶胶光学厚度呈现出复杂多变的特征,对其进行准确反演和变化分析尤为关键。
本文将首先介绍气溶胶光学厚度的基本概念及其重要性,阐述其在环境保护和气候研究中的应用价值。
将详细介绍随机森林模型的基本原理及其在气溶胶光学厚度反演中的应用优势。
通过结合中国地区的气象数据、遥感数据等多源数据,利用随机森林模型进行气溶胶光学厚度的反演,分析其时空分布特征。
在此基础上,进一步探讨气溶胶光学厚度的变化趋势及其影响因素,包括自然因素(如风场、气象条件等)和人为因素(如工业排放、交通排放等)。
将结合相关案例,分析气溶胶光学厚度变化对空气质量、气候变化等方面的影响。
基于多源遥感数据融合的矿区土地利用分类方法研究

芜大高速公路,西邻长江下游,南部与黄山相邻。区内地形
此 外,值 得 指 出 是,为 确 保 两 种 数 据 源 在 融 合 前 做
较为丰富,以山地、丘陵和城区为主,海拔大致位于 -10m 到完全配准,本次使用 ENVI 下的自动配准流程工具,以
至 220m 之间,属北亚热带湿润季风气候,四季分明,雨量 Sentinel-2A 数据为基准影像对 CB04 全色数据进行自动
作为矿产资源大国,同时也是开采国,矿业经济在我国 经济建设与发展的过程中具备十分重要的地位和作用 [1],大 量的农业与工业生产资料均来自矿产资源。矿产开发对于推 进城镇化、工业化以及区域经济发展具有重要的支撑作用。 但是由于矿业长期以来以投入大、消耗大和排放高的发展模 式为主,导致其对于矿区和周边区域的环境生态造成了较大 影响 [2]。矿山开采过程中的固体废料堆积、土地损毁等问题 严重威胁着我国的生态安全与粮食安全。
Index)、归 一 化 建 筑 指 数 NDBI(Normalized Difference Build-up Index)、 改 进 归 一 化 水 体 指 数 MNDWI
选择 Sentinel-2A 影像数据来获取研究区范围内的光 (Modified Normalized Difference Water Index)、加 强
共 3 个。考虑到植被生长周期,本次选择数据的获取时间为 1.5 分类样本的选取
2020 年 4 月 26 日,级别为 L1C 级。此外,由于 60m 数据分
本次以航测数据、谷歌地图影像和研究区已有地形图为
辨率较低,选择分辨率为 10m 和 20m 的波段为研究对象, 基础数据,并结合实地勘测来选取样本数据。各类地物所对
波段总数共 10 个,利用 Sen2cor、SNAP 和 ENVI 软件对原 应样本数据的统计情况如表 1 所示,训练样本与验证样本的
基于哨兵影像与多特征优选的溧阳市上兴镇水稻识别_

江苏农业学报(JiangsuJ.ofAgr.Sci.)ꎬ2023ꎬ39(8):1688 ̄1697http://jsnyxb.jaas.ac.cn钟怡琪ꎬ李家国ꎬ韩㊀杰ꎬ等.基于哨兵影像与多特征优选的溧阳市上兴镇水稻识别[J].江苏农业学报ꎬ2023ꎬ39(8):1688 ̄1697.doi:10.3969/j.issn.1000 ̄4440.2023.08.008基于哨兵影像与多特征优选的溧阳市上兴镇水稻识别钟怡琪1ꎬ㊀李家国2ꎬ㊀韩㊀杰3ꎬ㊀邵㊀雯1(1.南京信息工程大学地理科学学院ꎬ江苏南京210044ꎻ2.中国科学院空天信息创新研究院ꎬ北京100094ꎻ3.许昌学院城市与环境学院ꎬ河南许昌461000)收稿日期:2022 ̄11 ̄14基金项目:国家自然科学基金项目(41971391)ꎻ国家重点研发计划项目(2020YFE0200700)ꎻ安徽省重点研究与开发计划项目(2021003㊁2022107020028)ꎻ2022年度许昌学院国家级科研项目培育基金项目(2022GJPY007)作者简介:钟怡琪(1998-)ꎬ女ꎬ江西吉安人ꎬ硕士研究生ꎬ主要从事水稻遥感识别与估产研究ꎮ(E ̄mail)20201210035@nuist.edu.cn通讯作者:李家国ꎬ(E ̄mail)jacoli@126.com㊀㊀摘要:㊀水稻是中国三大粮食作物之一ꎬ提供准确㊁及时的水稻种植信息对水稻生产管理㊁水稻种植保险赔偿以及国家粮食安全指导㊁政策制定和实施等具有重要意义ꎮ针对中国南方水稻种植地块破碎㊁种植结构复杂等造成的水稻识别难点ꎬ为提高水稻识别精度ꎬ本研究以哨兵一号(Sentinel ̄1)㊁哨兵二号(Sentinel ̄2)遥感影像为数据源ꎬ构建光谱特征㊁植被/水体指数特征㊁纹理特征和雷达特征等特征集ꎬ设置包括优选特征在内的7种特征组合ꎬ采用随机森林算法对江苏省常州市溧阳市上兴镇的水稻进行识别ꎮ结果表明ꎬ在光谱特征中ꎬ红边波段对于水稻识别精度有着较高的提升作用ꎮ光谱特征结合植被/水体指数特征㊁雷达特征后ꎬ水稻识别精度有所提高ꎮ基于优选特征进行分类的精度最高ꎬ总体分类精度㊁Kappa系数分别为93 26%㊁0 9048ꎮ综上ꎬ结合遥感影像的光谱特征㊁植被/水体指数特征和雷达特征等并进行特征优选可以提高水稻识别精度ꎮ关键词:㊀水稻识别ꎻ特征优选ꎻ随机森林ꎻ遥感影像中图分类号:㊀S127ꎻS511㊀㊀㊀文献标识码:㊀A㊀㊀㊀文章编号:㊀1000 ̄4440(2023)08 ̄1688 ̄10IdentificationofriceinShangxingTownꎬLiyangCitybasedonSentinelimageandmulti ̄featureoptimizationZHONGYi ̄qi1ꎬ㊀LIJia ̄guo2ꎬ㊀HANJie3ꎬ㊀SHAOWen1(1.SchoolofGeographicalSciencesꎬNanjingUniversityofInformationScience&TechnologyꎬNanjing210044ꎬChinaꎻ2.AerospaceInformationResearchInstituteꎬChineseAcademyofSciencesꎬBeijing100094ꎬChinaꎻ3.CollegeofUrbanandEnvironmentalSciencesꎬXuchangUniversityꎬXuchang461000ꎬChina)㊀㊀Abstract:㊀RiceisoneofthethreemajorfoodcropsinChina.Providingaccurateandtimelyriceplantinginformationisofgreatsignificancetoriceproductionmanagementꎬriceplantinginsurancecompensationꎬnationalfoodsecurityguidanceꎬpolicyfor ̄mulationandimplementation.AimingatthedifficultiesinriceidentificationcausedbythefragmentationofricecultivationplotsandthecomplexityofcultivationstructureinsouthernChinaꎬandinordertoimprovetheaccuracyofriceidentificationꎬthisstudyusedSentinel ̄1andSentinel ̄2remotesensingimagesasdatasourcesꎬconstructedthefeaturesetsincludingspectralfeaturesꎬvegetation/waterindexfeaturesꎬtexturefeaturesꎬandradarfeaturesꎬsetupsevencombinationsoffeaturesincludingthepreferredfeaturesandadoptedtherandomforestalgorithmfortheidentificationofthericeinShangxingTownꎬLiyangCityꎬChangzhouCityꎬJiangsuprovinceꎬChina.Theresultsshowedthatamongthespectralfeaturesꎬthered ̄edgebandhadahighimprovementeffectontheidentificationaccuracyofrice.Aftercombiningspectralfea ̄tureswithvegetation/waterindexfeaturesandradarfeaturesꎬtheidentificationaccuracyofricewasimproved.Andtheclassi ̄ficationbasedonthepreferredfeatureshadthehighestaccura ̄cyꎬwiththeoverallaccuracyandKappacoefficientof93.26%8861and0.9048ꎬrespectively.Insummaryꎬthecombinationofthespectralfeaturesofremotesensingimagesꎬvegetation/waterindexfea ̄turesandradarfeaturesandfeatureoptimizationcanimprovetheaccuracyofricerecognition.Keywords:㊀identificationofriceꎻfeatureoptimizationꎻrandomforestꎻremotesensingimage㊀㊀水稻作为中国三大粮食作物之一ꎬ是中国60%以上人口的主要食物来源[1 ̄2]ꎮ提供准确㊁及时的水稻信息ꎬ对水稻生产管理㊁水稻种植保险赔偿以及国家粮食安全指导㊁政策制定和实施等具有重要意义[3 ̄4]ꎮ科学技术的快速发展使得遥感技术在农作物识别㊁信息提取方面得到广泛应用[5 ̄7]ꎬ与传统调查统计方法相比ꎬ利用遥感技术识别㊁提取水稻信息的时效性强㊁资源消耗低ꎬ故许多学者基于此项技术开展研究ꎮ早期的遥感影像分类是根据解译者的先验知识ꎬ通过人工目视解译的方法进行地类划分ꎬ但这种方法完全依赖于解译者ꎬ并且需要投入大量人力㊁物力㊁财力ꎬ具有效率低㊁主观性强㊁无法及时更新等缺点ꎬ无法满足人们的需求[8]ꎮ随着计算机图像处理能力的提高ꎬ基于遥感影像的自动分类方法逐渐成为重要的分类手段ꎮ目前常见的农作物自动分类方法主要有最小距离法㊁最大似然法等传统方法以及决策树㊁支持向量机㊁随机森林等机器学习方法[9 ̄10]ꎮ其中ꎬ随机森林法和支持向量机法的应用最为普遍ꎬ随机森林法的参数设置简单ꎬ在大数据量的影像和高维数据上ꎬ其处理效率优于支持向量机法ꎬ被公认为是可以降低高维数据维度的分类算法[11]ꎬ在农作物分类识别中被广泛应用ꎮ何昭欣等[12]分别采用朴素贝叶斯㊁支持向量机㊁分类回归树和随机森林4种分类器ꎬ对江苏省冬小麦与冬油菜的空间分布信息进行提取ꎬ通过比较各分类器的分类精度ꎬ发现采用随机森林分类器取得了较好结果ꎮ近年来兴起的深度学习算法也被应用到农作物分类中ꎬ如汪传建等[13]利用卷积神经网络提取高分辨率遥感影像中的农作物特征ꎬ实现了农作物的精细分类ꎬ但该方法要想达到较高精度ꎬ需要大量的样本数据㊁复杂的参数调整以及长时间的模型训练ꎬ而随机森林法仅需要较少的样本训练就能获得高精度的分类结果[14]ꎮ此外ꎬ分类特征也是影响农作物识别精度的重要因素ꎮ分类特征可以反映目标地物的多个角度ꎬ筛选出更能体现地物信息的若干特征应用于分类可以提高分类精度ꎮ在中国南方丘陵地区ꎬ地形破碎㊁常年多云多雨ꎬ单纯使用地物光谱特征进行农作物分类容易出现 异物同谱 和 同物异谱 的现象ꎬ而有研究结果表明将各类特征相结合[15 ̄17]ꎬ包括光谱特征㊁植被指数特征㊁几何特征㊁形状特征㊁纹理特征㊁时相特征㊁地形特征㊁雷达特征㊁空间特征和极化特征等[18 ̄19]ꎬ可以有效改善农作物分类的效果ꎬ进一步提高农作物分类的精度ꎮ哨兵二号拥有较高的空间分辨率与丰富的光谱信息ꎬ另外还包含红边波段ꎬ再加上具有较高时间分辨率和空间分辨率的哨兵一号的雷达特征ꎬ使遥感信息的利用更加充分ꎬ为农作物的高精度识别带来更大可能性ꎮ然而有研究结果表明ꎬ过多的特征加入一定程度上会造成维数灾难和数据冗余ꎬ分类精度反而会降低[20 ̄22]ꎮ因此ꎬ选择合适的特征及合适数量的特征(即特征优选)也是提高农作物识别精度的关键ꎮ综上ꎬ本研究拟将哨兵光学影像的光谱特征㊁植被/水体指数特征㊁纹理特征等与雷达影像的后向散射特征结合起来对水稻进行识别ꎬ观察各类特征对水稻识别精度的影响ꎬ并在此基础上进行特征优选ꎬ以期为进一步提高水稻识别精度㊁掌握水稻种植信息提供理论支撑ꎮ1㊀材料与方法1.1㊀研究区概况研究区位于江苏省常州市溧阳市上兴镇ꎬ地处31ʎ21ᶄN~31ʎ38ᶄN㊁119ʎ8ᶄE~119ʎ18ᶄEꎬ属于丘陵山区ꎬ地势东低西高ꎬ东部为高亢平原ꎬ西部曹山㊁芳山㊁回峰山等延绵起伏ꎬ海拔200m以上ꎮ图1为上兴镇的具体地理位置及其高程ꎮ上兴镇属于北亚热带季风气候ꎬ干湿冷暖ꎬ四季分明ꎬ温和湿润ꎬ年平均气温15 5ħꎬ月平均气温1月份2 7ħꎬ7月份28 1ħꎬ水资源较好ꎬ适宜农作物生长ꎮ上兴镇主要作物为水稻㊁小麦㊁茶树㊁玉米ꎬ其中水稻生育期为5月至10月ꎬ一般5月中上旬播种ꎬ10月中下旬成熟ꎬ全生育期150~160dꎮ1.2㊀研究数据及预处理1.2.1㊀哨兵一号(Sentinel ̄1)㊁哨兵二号(Sentinel ̄2)9861钟怡琪等:基于哨兵影像与多特征优选的溧阳市上兴镇水稻识别图1㊀上兴镇地理位置及其高程Fig.1㊀LocationofShangxingTownanditselevation数据及预处理㊀本研究中Sentinel ̄1㊁Sentinel ̄2数据从欧洲航天局官网(https://scihub.Copernicus.eu/)免费下载ꎬ具体信息见表1ꎬ根据水稻的生育期特征ꎬ选取2021年8月31日水稻抽穗扬花期Sentinel ̄2卫星影像及对应日期的Sentinel ̄1卫星影像并利用其官方软件SNAP对Sentinel ̄1㊁Sentinel ̄2卫星影像数据进行预处理ꎮSentinel ̄1数据为Level ̄1级别地距影像(GRD)干涉宽幅(IW)模式双极化数据ꎬ极化方式为垂直 ̄垂直+垂直 ̄水平双极化ꎬ分辨率为10mꎮ依次对其进行轨道校正㊁热噪声去除㊁辐射定标㊁多视处理㊁相干斑滤波处理㊁地形校正㊁分贝化以及重采样等处理ꎮSentinel ̄2数据为L1C级大气表观反射率产品ꎮ先利用官方插件(Sen2sor)进行大气校正ꎬ再将大气校正结果重采样为所需格式ꎮ为保证空间分辨率的一致性ꎬ采用双线性插值法将Band5㊁Band6㊁Band7㊁Band8A㊁Band11㊁Band12的分辨率由原来的20m重采样为10mꎬ最后将所需波段数据进行叠加㊁镶嵌与裁剪ꎮ1.2.2㊀样本数据㊀根据南京真实性检验站2021年9月的综合试验实地采样ꎬ并结合同时期谷歌地球影像对样本数据进行筛选ꎬ共获得360个样本数据ꎬ包括水稻㊁水体㊁建设用地㊁其他植被㊁裸土㊁大棚(图2)ꎮ每个类别样本数量不一ꎬ为保证类别均衡ꎬ按照分层抽样法将所有样本以7ʒ3的比例随机分为训练样本集和验证样本集ꎮ其中ꎬ训练样本个数为252ꎬ验证样本个数为108ꎮ表1㊀哨兵影像波段信息Table1㊀BandinformationofSentinelimage卫星特征中心波长(nm)波宽(nm)分辨率(m)哨兵二号Band1 ̄气溶胶波段4432060Band2 ̄蓝波段4906510Band3 ̄绿波段5603510Band4 ̄红波段6653010Band5 ̄红边波段7051520Band6 ̄红边波段7401520Band7 ̄红边波段7832020Band8 ̄近红外波段84211510Band8A ̄窄近红外波段8652020Band9 ̄水汽波段9452060Band10 ̄卷云波段13752060Band11 ̄短波红外波段16109020Band12 ̄短波红外波段219011020哨兵一号垂直 ̄垂直极化后向散射系数(VV)10垂直 ̄水平极化后向散射系数(VH)101.3㊀研究方法本研究结合Sentinel ̄1雷达影像和Sentinel ̄2光学影像ꎬ根据水稻的特性ꎬ提取光谱特征㊁植被/水体指数特征㊁纹理特征㊁雷达特征等ꎬ并采用特征重要性计算与反向特征消除提取优选特征ꎮ根据不同类型特征和优选特征设置7个方案ꎬ使用随机森林法进行分类ꎬ以获得最佳分类方案ꎮ技术路线见图3ꎮ1.3.1㊀特征提取1.3.1.1㊀光谱特征㊀光谱特征是指地物反射㊁发射或透射电磁波的特征ꎬ是地物在遥感影像上最直观的表现形式和区分不同地物的重要依据ꎮ本研究选取Sentinel ̄2遥感影像除Band1㊁Band9㊁Band10外的10个波段的反射率作为光谱特征ꎮ0961江苏农业学报㊀2023年第39卷第8期图2㊀训练样本(A)和验证样本(B)Fig.2㊀Trainingsamples(A)andvalidationsamples(B)图3㊀上兴镇水稻识别技术路线Fig.3㊀TechnicalrouteforriceidentificationinShangxingTown1.3.1.2㊀植被/水体指数特征㊀植被/水体指数特征通过不同波段组合计算ꎬ突出波段间的差异ꎬ可以有效区分不同地物ꎬ在本研究中可以有效区分植被与非植被㊁水体与非水体ꎬ并有效提高水稻与其他地物的区分度ꎮ因此ꎬ本研究综合分析水稻与其他地物特性ꎬ选择归一化植被指数(NDVI)㊁比值植被指数(RVI)㊁差值植被指数(DVI)㊁增强型植被指数(EVI)㊁修正的比值植被指数(MSR)㊁地表水分指数(LSWI)㊁归一化水体指数(NDWI)㊁改进的归一化水体指数(MNDWI)㊁红边归一化植被指数1(NDVIre1)㊁红边归一化植被指数2(NDVIre2)㊁红边归一化植被指数3(NDVIre3)㊁归一化差异红边1(NDre1)㊁归一化差异红边2(NDre2)㊁红边叶绿素指数(CIre)等指数特征ꎮ1.3.1.3㊀纹理特征㊀影像上的每一点都是波谱空间上某一点的映射ꎬ并由灰度矢量来表示ꎬ而地物目标1961钟怡琪等:基于哨兵影像与多特征优选的溧阳市上兴镇水稻识别的实际组合会形成相应灰度空间点的分布ꎬ将其分布模式通称为纹理[23]ꎮ纹理是遥感影像中的重要信息ꎬ提取影像的纹理特征ꎬ可以减少由同物异谱㊁异物同谱造成的分类误差ꎮ本研究基于Sentinel ̄2影像数据进行主成分分析ꎬ得到第一个主成分分析波段PC1ꎬ对这个波段计算得到均值㊁方差㊁同质性㊁对比度㊁相异性㊁信息熵㊁角二阶矩㊁相关性8个纹理特征ꎮ1.3.1.4㊀雷达特征㊀在微波遥感中ꎬ把入射方向上散射强度的参数或目标单位面积的平均雷达散射截面称为后向散射系数ꎮ不同类型地物由于结构㊁含水量㊁粗糙度等差异而呈现不同的散射特征ꎬ其微波发射率特征也随季节发生变化[24]ꎮ郑煜等[25]发现将光学影像特征与雷达影像特征相结合进行地物分类有利于提高地物的分类精度ꎮ因此ꎬ本研究选择Sentinel ̄1雷达影像中VV㊁VH㊁VV/VH㊁VV ̄VH这4个雷达特征ꎬ这些雷达极化特征有助于区别植被㊁非植被㊁水体边界ꎮ综上ꎬ本研究根据研究区㊁研究对象的特点ꎬ在充分利用Sentinel ̄1雷达影像和Sentinel ̄2光学影像的基础上ꎬ选取了包括Sentinel ̄2影像中植被㊁水体㊁纹理在内的22个特征ꎬ加上Sentinel ̄2影像的10个原始波段反射率以及Sentinel ̄1影像的4个雷达特征ꎬ共计36个特征(表2)ꎮ表2㊀本研究选择的36个特征Table2㊀The36featuresselectedinthisstudy特征集合㊀㊀特征名称㊀㊀㊀㊀㊀㊀特征说明㊀㊀㊀㊀㊀㊀光谱特征哨兵二号影像10个原始波段的反射率B2㊁B3㊁B4㊁B5㊁B6㊁B7㊁B8㊁B8A㊁B11㊁B12植被指数特征归一化植被指数(NDVI)(B8A-B4)/(B8A+B4)比值植被指数(RVI)B8A/B4差值植被指数(DVI)B8A-B4增强型植被指数(EVI)[2.5ˑ(B8A-B4)]/[B8A+(6.0ˑB4-7.5ˑB2)+1.0]修正的比值植被指数(MSR)(B8A/B4-1)/[sqrt(B8A/B4+1)]红边归一化植被指数1(NDVIre1)(B8A-B5)/(B8A+B5)红边归一化植被指数2(NDVIre2)(B8A-B6)/(B8A+B6)红边归一化植被指数3(NDVIre3)(B8A-B7)/(B8A+B7)归一化差异红边1(NDre1)(B6-B5)/(B6+B5)归一化差异红边2(NDre2)(B7-B5)/(B7+B5)红边叶绿素指数(CIre)B7/B5-1水体指数特征地表水分指数(LSWI)(B8A-B11)/(B8A+B11)归一化水体指数(NDWI)(B3-B8A)/(B3+B8A)改进的归一化水体指数(MNDWI)(B3-B11)/(B3+B11)纹理特征均值(Mean)方差(VAR)同质性(HOM)对比度(CON)相异性(DIS)信息熵(ENT)角二阶距(ASM)相关性(COR)雷达特征垂直 ̄垂直极化后向散射系数(VV)垂直 ̄水平极化后向散射系数(VH)VV/VHVV-VHB2㊁B3㊁B4㊁B5㊁B6㊁B7㊁B8㊁B8A㊁B11㊁B12分别表示哨兵二号影像原始波段2㊁3㊁4㊁5㊁6㊁7㊁8㊁8A㊁11㊁12的反射率ꎮ1.3.2㊀特征组合及分类㊀随机森林(RF)是一种以多棵决策树对样本进行训练并预测的一种分类器ꎬ与其他分类器相比ꎬ它具有较高的准确性ꎬ并且能够处理具有高维特征的输入样本ꎮ另外ꎬ它还具有通2961江苏农业学报㊀2023年第39卷第8期过评估各个特征在分类问题上的重要性进行特征选择的能力ꎬ可利用不参与训练的袋外(OOB)数据计算每个特征变量的重要性ꎬ以确定RF模型的最佳输入特征ꎬ减少特征冗余ꎮ本研究采用RF模型来进行分类及特征重要性计算和选择ꎬ在RF模型中采用平均精确度减少算法(MDA)对所有特征进行重要性评估ꎬ以此确定最优特征组合ꎮ表3显示ꎬ本研究设置了7个特征组合方案ꎬ综合评估选择的几大类特征对水稻识别的作用ꎮ有研究发现红边波段对植被具有很好的敏感性ꎬ并将其用于农作物识别㊁信息提取中[26 ̄32]ꎬ因此ꎬ新近发射的卫星(如高分六号㊁哨兵二号)都设置了红边波段ꎬ哨兵二号更是首次配置了3个红边波段ꎮ我们在表3中设计了2种特征组合方案ꎬ对比不含红边波段的光谱特征与含红边波段的光谱特征的识别精度ꎬ以探究红边波段对水稻识别的提升效果ꎮ方案1为不含红边波段的光谱特征ꎬ表征为S ̄REꎮ方案2为含红边波段的光谱特征ꎬ表征为Sꎮ将这些特征组合分别输入RF分类器中ꎬ并采用Kappa系数㊁总体分类精度(OA)㊁生产者精度(PA)㊁用户精度(UA)4个评价指标对7个特征组合方案的分类精度进行评价ꎬ观察不同类型特征对分类精度的提升作用ꎮ2㊀结果与分析2.1㊀不同特征在水稻识别中的重要性采用MDA对选择的36个特征(即Sentinel ̄2影像的10个原始波段反射率㊁14个植被/水体指数特征㊁8个纹理特征以及Sentinel ̄1影像的4个雷达特征)进行特征重要性计算ꎮ图4显示ꎬ在36个特征中ꎬ哨兵二号影像原始波段12的反射率(B12)㊁哨兵二号影像原始波段11的反射率(B11)的特征重要程度较高ꎬ分别为0 099和0 082ꎬ这2个波段为短波红外波段ꎬ对植被叶片含水量敏感ꎬ故可以较好地区分水稻与其他地物[33]ꎻ其次是地表水分指数(LSWI)㊁均值(Mean)㊁红边归一化植被指数2(ND ̄VIre2)㊁垂直 ̄垂直极化后向散射系数(VV)ꎬ特征重要程度分别为0 075㊁0 063㊁0 067㊁0 046ꎬ说明水体指数特征㊁纹理特征㊁红边特征㊁雷达特征在水稻分类研究中都具有较高价值ꎮ表3㊀特征组合方案Table3㊀Schemeoffeaturecombination分类方案特征1不含红边波段的光谱特征(S ̄RE)2含红边波段的光谱特征(S)3含红边波段的光谱特征(S)+植被/水体指数特征(V&W)4含红边波段的光谱特征(S)+纹理特征(T)5含红边波段的光谱特征(S)+雷达特征(R)6含红边波段的光谱特征(S)+植被/水体指数特征(V&W)+纹理特征(T)+雷达特征(R)7优选特征(P)a1:B2ꎻa2:B3ꎻa3:B4ꎻa4:B5ꎻa5:B6ꎻa6:B7ꎻa7:B8ꎻa8:B8Aꎻa9:B11ꎻa10:B12ꎻa11:NDVIꎻa12:RVIꎻa13:DVIꎻa14:EVIꎻa15:MSRꎻa16:LSWIꎻa17:NDWIꎻa18:MNDWIꎻa19:Meanꎻa20:VARꎻa21:HOMꎻa22:CONꎻa23:DISꎻa24:ENTꎻa25:ASMꎻa26:CORꎻa27:NDVIre1ꎻa28:NDVIre2ꎻa29:NDVIre3ꎻa30:NDre1ꎻa31:NDre2ꎻa32:CIreꎻa33:VVꎻa34:VHꎻa35:VV/VHꎻa36:VV ̄VHꎮB2㊁B3㊁B4㊁B5㊁B6㊁B7㊁B8㊁B8A㊁B11㊁B12㊁NDVI㊁RVI㊁DVI㊁EVI㊁MSR㊁ND ̄VIre1㊁NDVIre2㊁NDVIre3㊁NDre1㊁NDre2㊁CIre㊁LSWI㊁NDWI㊁MNDWI㊁Mean㊁VAR㊁HOM㊁CON㊁DIS㊁ENT㊁ASM㊁COR㊁VV㊁VH㊁VV/VH㊁VV ̄VH见表2ꎮ图4㊀特征重要性程度Fig.4㊀Importanceoffeatures㊀㊀根据重要性排序ꎬ依次剔除重要性最低的那个特征ꎬ并分别计算总体分类精度ꎬ获取特征变量个数3961钟怡琪等:基于哨兵影像与多特征优选的溧阳市上兴镇水稻识别与总体分类精度的关系(图5)ꎮ特征变量个数从1增至27ꎬ总体分类精度随特征变量个数的增加而波动上升ꎬ且在前期呈迅速上升趋势ꎬ此时加入的特征重要性较高㊁特征间相关性较小㊁冗余少ꎬ分类精度有较大提高ꎬ当特征数为27时总体分类精度达到最高值(93 26%)ꎬ随后略微下降ꎬ此时特征冗余及相关特征增加ꎬ影响分类精度ꎮ故本研究将重要性排名前27的特征作为优选特征ꎮ统计优选特征中各类型的特征数ꎬ图6显示ꎬ在前27个优选特征中ꎬ包含光谱特征9个ꎬ植被/水体指数特征14个ꎬ纹理特征1个ꎬ雷达特征3个ꎬ说明本研究选择的几类特征在水稻识别中皆起到一定作用ꎮ图5㊀特征变量个数与总体分类精度的关系Fig.5㊀Relationshipbetweenthenumberoffeaturesandoverallaccuracya1:B12ꎻa2:B11ꎻa3:LSWIꎻa4:NDVIre2ꎻa5:Meanꎻa6:VVꎻa7:NDWIꎻa8:DVIꎻa9:RVIꎻa10:B4ꎻa11:MSRꎻa12:NDVIꎻa13:NDre2ꎻa14:CIreꎻa15:B8Aꎻa16:NDre1ꎻa17:NDVIre1ꎻa18:B7ꎻa19:MNDWIꎻa20:VHꎻa21:B6ꎻa22:B8ꎻa23:B5ꎻa24:VV/VHꎻa25:B2ꎻa26:EVIꎻa27:NDVIre3ꎮB12㊁B11㊁LSWI㊁NDVIre2㊁Mean㊁VV㊁NDWI㊁DVI㊁RVI㊁B4㊁MSR㊁NDVI㊁NDre2㊁CIre㊁B8A㊁NDre1㊁NDVIre1㊁B7㊁MNDWI㊁VH㊁B6㊁B8㊁B5㊁VV/VH㊁B2㊁EVI㊁NDVIre3见表2ꎮ图6㊀优选特征的重要性程度(A)及其在各类型特征中的个数(B)Fig.6㊀Importanceofpreferredfeatures(A)anditsnumberineachtypeoffeatures(B)2.2㊀不同特征组合分类结果比较在本研究中ꎬ7种特征组合的分类结果(图7)表明ꎬ从目视效果来看ꎬ各地物分类结果与原始影像大致吻合ꎬ仅利用Sentinel ̄2非红边光谱特征(方案1ꎬ图7A)分类ꎬ 椒盐现象 明显ꎻ利用含红边波段的光谱特征(方案2ꎬ图7B)进行分类ꎬ 椒盐现象 得到明显改善ꎬ在此基础上加入植被/水体指数特征(方案3ꎬ图7C)㊁纹理特征(方案4ꎬ图7D)㊁雷达特4961江苏农业学报㊀2023年第39卷第8期征(方案5ꎬ图7E)㊁植被/水体指数特征+纹理特征+雷达特征(方案6ꎬ图7F)以及优选特征(方案7ꎬ图7G)ꎬ各地物分类图斑的破碎度均有所降低ꎬ 椒盐现象 进一步改善ꎮA:基于不含红边波段的光谱特征的分类结果ꎻB:基于含红边波段的光谱特征的分类结果ꎻC:基于含红边波段的光谱特征+植被/水体指数特征的分类结果ꎻD:基于含红边波段的光谱特征+纹理特征的分类结果ꎻE:基于含红边波段的光谱特征+雷达特征的分类结果ꎻF:基于含红边波段的光谱特征+植被/水体指数特征+纹理特征+雷达特征的分类结果:G:基于优选特征的分类结果ꎻH:原始影像ꎮ图7㊀不同特征组合分类结果Fig.7㊀Classificationresultsofdifferentfeaturecombinations㊀㊀对7种分类方案的总体分类精度㊁Kappa系数㊁生产者精度与用户精度进行对比分析ꎬ结果(表4)表明:仅使用不含红边波段的光谱特征(方案1)进行分类ꎬ总体分类精度为89 89%㊁Kappa系数为0 8573ꎬ说明通过哨兵影像丰富的光谱信息就已经可以较好地区分不同地类ꎮ使用含红边波段的光谱特征(方案2)进行分类ꎬ分类精度有较大提升ꎬ总体分类精度由89 89%提升到92 06%ꎬKappa系数由0 8573提升到0 8880ꎮ另外ꎬ在含红边波段光谱特征的基础上加入不同的特征也会对水稻的识别产生不同程度的影响ꎬ加入纹理特征(方案4)ꎬ总体分类精度㊁Kappa系数均略有下降ꎬ这可能是因为该地区水稻纹理特征与部分其他植被纹理特征相似而波谱差别较大导致误分所致ꎻ分别加入植被/水体指数特征(方案3)㊁雷达特征(方案5)及植被/水体指数特征+雷达特征+纹理特征(方案6)ꎬ分类精度都有所上升ꎬ总体分类精度分别达到92 73%㊁92 43%㊁92 76%ꎬKappa系数分别达到0 8974㊁0 8930㊁0 8978ꎬ这说明植被/水体指数特征㊁雷达特征可以提高水稻识别的精度ꎮ最后ꎬ通过特征优选去除因特征数量增加带来的冗余影响后的优选特征(方案7)的分类精度达到最高ꎬ总体分类精度㊁Kappa系数分别达到93 26%㊁0 9048ꎮ5961钟怡琪等:基于哨兵影像与多特征优选的溧阳市上兴镇水稻识别表4㊀7种分类方案的分类精度Table4㊀Classificationaccuracyofsevenclassificationschemes方案精度㊀㊀水稻其他植被水体建设用地裸土大棚方案总体分类精度(%)Kappa系数1生产者精度(%)88.5884.7993.4497.728.5511.96189.890.8573用户精度(%)90.3080.7393.4494.0940.0020.752生产者精度(%)92.0092.4693.3397.4014.807.61292.060.8880用户精度(%)97.4783.9894.3794.1652.9415.913生产者精度(%)94.9193.4993.7996.8313.4919.57392.730.8974用户精度(%)98.6887.1693.9593.3953.9537.504生产者精度(%)87.9492.4294.4996.175.266.52490.620.8678用户精度(%)96.8479.1494.4393.9029.6316.225生产者精度(%)90.0194.5294.8397.969.2114.13592.430.8930用户精度(%)98.4883.0296.9794.2836.8441.946生产者精度(%)93.0095.4695.5396.668.2217.39692.760.8978用户精度(%)98.9883.9797.6993.8842.3744.447生产者精度(%)93.9995.0995.5997.2411.1822.83793.260.9048用户精度(%)98.8386.5397.8093.7245.9246.67方案1~方案7见表3ꎮ2.3㊀水稻空间分布针对设置的7种分类方案ꎬ采用分类精度最高的方案7单独提取出水稻信息ꎬ绘制2021年上兴镇水稻空间分布图(图8)ꎮ从水稻的空间分布情况来看ꎬ其种植区域占比较大且比较连续ꎬ主要分布在上兴镇中东部及南部地势平坦地区ꎬ与实际情况相符ꎮ3㊀结论本研究基于2021年上兴镇水稻抽穗扬花期的Sentinel ̄1㊁Sentinel ̄2影像ꎬ观察光谱特征㊁植被/水体指数特征㊁纹理特征和雷达特征等对水稻识别的影响程度ꎬ并通过特征优选来提高识别精度ꎬ主要结论如下:(1)在光谱特征中ꎬ红边波段对于水稻识别精度有着较高的提升作用ꎮ与采用不含红边波段的光谱特征进行分类的结果相比ꎬ采用含红边波段的光谱特征进行分类的总体分类精度和Kappa系数分别提高了2 17个百分点和0.0307ꎮ(2)光谱特征结合植被/水体指数特征和雷达特征后ꎬ水稻识别精度可以进一步提高ꎬ但不同特征对水稻识别精度的提高程度不同ꎮ含红边波段的光谱特征结合植被/水体指数特征㊁雷达特征以及植被/水体指数特征+纹理特征+雷达特征ꎬ总体分类精度分别达到92 73%㊁92 43%㊁92 76%ꎬ提升了0 67个百分点㊁0 37个百分点㊁0 70个百分点ꎬ图8㊀上兴镇水稻空间分布图Fig.8㊀SpatialdistributionmapofriceinShangxingTownKappa系数分别达到0.8974㊁0.8930㊁0.8978ꎬ提升了0.0094㊁0.0050㊁0.0098ꎮ(3)合适特征的加入能提高水稻识别精度ꎬ但加入过多特征会造成数据冗余反而降低精度ꎬ通过特征优选可以解决此问题ꎮ在进行特征优选时ꎬ当6961江苏农业学报㊀2023年第39卷第8期特征变量个数从1增至27时ꎬ总体分类精度随特征变量个数的增加而波动上升ꎬ当特征变量个数为27时总体分类精度到达最高值(93 26%)ꎬ然后随特征变量个数的继续增加而稍微下降ꎮ特征优选的方法可以有效提高水稻识别精度ꎮ中国南方地块相对破碎ꎬ水稻易与其他作物混合ꎬ通过加入不同特征可一定程度提高分类精度ꎬ但本研究只使用了水稻抽穗扬花期的一期影像ꎬ没有利用水稻各个生育期与其他地类的差异ꎬ后续考虑加入不同生育期影像进行时序分析ꎬ进一步提高水稻的识别精度ꎮ参考文献:[1]㊀庞乾林ꎬ林㊀海ꎬ阮刘青ꎬ等.中国稻米文化和现代成就[J].中国稻米ꎬ2004(3):3 ̄5.[2]㊀赵㊀凌ꎬ赵春芳ꎬ周丽慧ꎬ等.中国水稻生产现状与发展趋势[J].江苏农业科学ꎬ2015ꎬ43(10):105 ̄107.[3]㊀章秀福ꎬ王丹英ꎬ方福平ꎬ等.中国粮食安全和水稻生产[J].农业现代化研究ꎬ2005(2):85 ̄88.[4]㊀梁成权ꎬ庄恒扬ꎬ高㊀辉ꎬ等.GIS技术在水稻优质高产栽培中的应用研究进展[J].中国稻米ꎬ2013ꎬ19(2):14 ̄17. [5]㊀JINCꎬXIAOXꎬDONGJꎬetal.Mappingpaddyricedistributionusingmulti ̄temporalLandsatimageryintheSanjiangPlainꎬnorth ̄eastChina[J].FrontiersofEarthScienceꎬ2016ꎬ10(1):49 ̄62. [6]㊀孙华生ꎬ黄敬峰ꎬ彭代亮.利用MODIS数据识别水稻关键生长发育期[J].遥感学报ꎬ2009ꎬ13(6):1122 ̄1137. [7]㊀郑长春ꎬ王秀珍ꎬ黄敬峰.多时相MODIS影像的浙江省水稻种植面积信息提取方法研究[J].浙江大学学报(农业与生命科学版)ꎬ2009ꎬ35(1):98 ̄104.[8]㊀刘仁钊ꎬ廖文峰.遥感图像分类应用研究综述[J].地理空间信息ꎬ2005ꎬ3(5):11 ̄13.[9]㊀杨沈斌ꎬ景元书ꎬ王㊀琳ꎬ等.基于MODIS时序数据提取河南省水稻种植分布[J].大气科学学报ꎬ2012ꎬ35(1):113 ̄120. [10]吕婷婷ꎬ刘㊀闯.基于MODIS数据的泰国耕地信息提取[J].农业工程学报ꎬ2010ꎬ26(2):244 ̄250.[11]牛明香ꎬ赵庚星ꎬ李尊英ꎬ等.南四湖湿地遥感信息分区分层提取研究[J].地理与地理信息学ꎬ2004ꎬ20(2):45 ̄48ꎬ52. [12]何昭欣ꎬ张㊀淼ꎬ吴炳方ꎬ等.GoogleEarthEngine支持下的江苏省夏收作物遥感提取[J].地球信息科学学报ꎬ2019ꎬ21(5):752 ̄766.[13]汪传建ꎬ赵庆展ꎬ马永建ꎬ等.基于卷积神经网络的无人机遥感农作物分类[J].农业机械学报ꎬ2019ꎬ50(11):161 ̄168. [14]温小乐ꎬ钟㊀奥ꎬ胡秀娟.基于随机森林特征选择的城市绿化乔木树种分类[J].地球信息科学学报ꎬ2018ꎬ20(12):1777 ̄1786.[15]刘元亮ꎬ李㊀艳ꎬ吴剑亮.基于LSWI和NDVI时间序列的水田信息提取研究[J].地理与地理信息科学ꎬ2015ꎬ31(3):32 ̄37.[16]苗翠翠ꎬ江㊀南ꎬ彭世揆ꎬ等.基于NDVI时序数据的水稻种植面积遥感监测分析 以江苏省为例[J].地球信息科学学报ꎬ2011ꎬ13(2):273 ̄280.[17]王文静ꎬ张㊀霞ꎬ赵银娣ꎬ等.综合多特征的Landsat8时序遥感图像棉花分类方法[J].遥感学报ꎬ2017ꎬ21(1):115 ̄124. [18]贾㊀坤ꎬ李强子.农作物遥感分类特征变量选择研究现状与展望[J].资源科学ꎬ2013ꎬ35(12):2507 ̄2516.[19]王㊀娜ꎬ李强子ꎬ杜㊀鑫ꎬ等.单变量特征选择的苏北地区主要农作物遥感识别[J].遥感学报ꎬ2017ꎬ21(4):519 ̄530. [20]PENGHꎬLONGFꎬDINGC.Featureselectionbasedonmutualinformation:criteriaofmax ̄dependencyꎬmax ̄relevanceꎬandmin ̄redundancy[J].IEEETransactionsonPatternAnalysisandMa ̄chineIntelligenceꎬ2005ꎬ27(8):1226 ̄1238.[21]程希萌ꎬ沈占锋ꎬ邢廷炎ꎬ等.基于mRMR特征优选算法的多光谱遥感影像分类效率精度分析[J].地球信息科学学报ꎬ2016ꎬ18(6):815 ̄823.[22]王李娟ꎬ孔钰如ꎬ杨小冬ꎬ等.基于特征优选随机森林算法的农耕区土地利用分类[J].农业工程学报ꎬ2020ꎬ36(4):244 ̄250. [23]周廷刚ꎬ郭达志ꎬ盛业华.灰度矢量多波段遥感影像纹理特征及其描述[J].西安科技学院学报ꎬ2000ꎬ20(4):336 ̄338. [24]张勇攀ꎬ蒋玲梅ꎬ邱玉宝ꎬ等.不同地物类型微波发射率特征分析[J].光谱学与光谱分析ꎬ2010ꎬ30(6):1446 ̄1451. [25]郑㊀煜ꎬ陈圣波ꎬ陈彦冰ꎬ等.基于Sentinel ̄1A雷达数据和Sen ̄tinel ̄2A多光谱数据特征融合的地物分类[J].世界地质ꎬ2021ꎬ40(2):438 ̄444.[26]王利民ꎬ刘㊀佳ꎬ杨福刚ꎬ等.GF ̄1卫星多时相组合近红外数据水稻识别能力[J].农业工程学报ꎬ2017ꎬ33(23):196 ̄202. [27]梁㊀继ꎬ郑镇炜ꎬ夏诗婷ꎬ等.高分六号红边特征的农作物识别与评估[J].遥感学报ꎬ2020ꎬ24(10):1168 ̄1179.[28]张㊀影ꎬ王㊀珍ꎬ孙㊀政ꎬ等.Sentinel ̄2红边波段在水稻识别中作用研究 以浙江省德清县为例[J].中国农业资源与区划ꎬ2021ꎬ42(12):144 ̄153.[29]刘道芳ꎬ王景山ꎬ李胜阳.高分六号卫星红边波段及红边植被指数对水稻分类精度的影响[J].河南科学ꎬ2021ꎬ39(9):1417 ̄1423.[30]KANFGYPꎬMENGQYꎬLIUMꎬetal.CropclassificationbasedonrededgefeaturesanalysisofGF ̄6WFVdata[J].Sensorsꎬ2021ꎬ21(13):4328.[31]JIANGXQꎬFANGSHꎬHUANGXꎬetal.RicemappingandgrowthmonitoringbasedontimeseriesGF ̄6imagesandred ̄edgebands[J].RemoteSensingꎬ2021ꎬ13(4):579.[32]张悦琦ꎬ李荣平ꎬ穆西晗ꎬ等.基于多时相GF ̄6遥感影像的水稻种植面积提取[J].农业工程学报ꎬ2021ꎬ37(17):189 ̄196. [33]CHENDꎬHUANGJꎬJACKSONTJ.Vegetationwatercontentes ̄timationforcornandsoybeansusingspectralindicesderivedfromMODISnear ̄andshort ̄waveinfraredbands[J].RemoteSensingofEnvironmentꎬ2005ꎬ98(2/3):225 ̄236.(责任编辑:王㊀妮)7961钟怡琪等:基于哨兵影像与多特征优选的溧阳市上兴镇水稻识别。
森林植被遥感图像分类及目标识别

森林植被遥感图像分类及目标识别植被遥感图像分类及目标识别是利用遥感技术进行森林植被研究和保护的重要手段。
它通过获取植被信息,实现对植被类型分类和目标识别的精准分析,为森林生态系统的管理、保护和可持续发展提供科学依据。
一、植被遥感图像分类森林植被遥感图像分类是指将遥感图像中的植被区域按照物种、功能和结构等特征进行分类。
这一过程需要借助计算机视觉和机器学习等技术手段,从遥感图像中提取有关植被的特征信息,并根据这些特征进行分类和识别。
在植被遥感图像分类中,常用的方法包括基于像元和基于对象两种方式。
基于像元的分类方法是指将每个像素点视为分类单元,通过像素点的光谱信息、纹理信息和形状信息等进行分类。
而基于对象的分类方法是将一组相连的像素点或区域视为一个分类单元,利用连接关系和形状特征进行分类。
常用的遥感图像分类算法包括支持向量机(Support Vector Machine,SVM)、随机森林(Random Forest)、卷积神经网络(Convolutional Neural Network,CNN)等。
这些算法在特征提取、模型训练和分类决策等方面都有不同的优势,可以根据实际情况选择合适的算法进行植被遥感图像分类。
二、目标识别森林植被遥感图像目标识别是指在植被图像中准确识别出目标,如森林火灾、病虫害、盗伐等,以及其他与植被有关的人为活动。
目标识别的目的是及时监测和预警植被异常情况,为森林生态环境的保护提供依据。
目标识别的关键技术包括特征提取、目标检测和目标分类。
特征提取是从植被图像中提取与目标相关的特征信息,可以包括颜色、纹理、形状、结构等特征。
目标检测是在植被图像中寻找目标的位置和边界,常用的方法包括边缘检测、区域生长和模板匹配等。
目标分类是将检测到的目标进行分类和识别,可以利用机器学习和深度学习等技术进行分类模型的训练和应用。
在实际应用中,为了提高目标识别的准确性和效率,可以将植被遥感图像与其他数据源相结合,如地理信息系统(Geographic Information System,GIS)、气象数据和传感器数据等,进行多源数据融合分析。
211017069_面向对象的多层次规则分类地物遥感信息提取方法试验分析研究

第40卷第2期贵州大学学报(自然科学版)Vol.40No.22023年 3月JournalofGuizhouUniversity(NaturalSciences)Mar.2023文章编号 1000 5269(2023)02 0067 07DOI:10.15958/j.cnki.gdxbzrb.2023.02.11面向对象的多层次规则分类地物遥感信息提取方法试验分析研究丘鸣语1,甘 淑 1,2(1.昆明理工大学国土资源工程学院,云南昆明650093;2.云南省高校高原山区空间信息测绘技术应用工程研究中心,云南昆明650093)摘 要:监测土地覆盖变化是目前高分辨率遥感的重要应用领域,城市覆盖地物变更速度快、地物类型复杂,使用传统方法提取监测难度较大。
针对此问题,选择云南省大理白族自治州上官镇为研究区,以GF 2PMS遥感影像为数据源;采用面向对象的方法对研究区进行最优分割尺度分割,选取最优特征组合用于构建模糊分类规则,分层次进行地物提取,最终获得研究区地物类型分布图。
运用混淆矩阵方法进行精度评价,面向对象的多层次规则分类法提取分类效果良好,分类总体精度达79 95%,Kappa系数为0 74。
与基于像元的分类方法和单一尺度下面向对象的提取分类法相比,面向对象的多层次规则分类法精度明显提高,说明本方法运用于复杂地物提取分类具有较好可行性。
关键词:面向对象;GF 2;多层次分类;最优分割尺度;多尺度分割中图分类号:P237 文献标志码:A 随着遥感技术的发展,越来越多的遥感卫星进入太空,其能实时、多尺度提供影像的特点,为快速准确获取地面信息、监测地表变化提供了更多可能。
真实的土地覆盖、利用数据对国土资源空间优化、提升土地利用规划和管理水平至关重要[1 3]。
目前,常用的中低分辨率影像,如MODIS、Landsant等可用于大尺度监测,但其分辨率也限制了它无法运用于复杂地形、精细地物的分类提取;高分辨率影像的出现弥补了这一缺陷,高分辨率影像具有高精度、高空间分辨率等特点,更适用于小型地物提取与精细的地物分类,但其在带来更多空间信息的同时也带来了噪声与信息冗余[4]。
基于PaDEL_分子描述符的气味机器学习识别研究

第30卷第2期江苏理工学院学报JOURNAL OF JIANGSU UNIVERSITY OF TECHNOLOGYVo l.30,No.2Apr.,20242024年4月空气中的挥发性气味分子与人类鼻腔中嗅觉受体的相互作用,赋予了我们感知周围环境中各种气味的能力。
原因在于:当这些气味分子与鼻腔壁上的嗅觉受体结合时,激活了这些受体,使其产生相应的电生理信号,并通过神经元传递至鼻腔中的嗅觉神经;嗅觉神经将这些信号传送至大脑中的嗅球,嗅球对接收到的信号进行分析、比较和识别,从而为我们提供了有关气味类型的解释和认知。
人类拥有超过400种嗅觉受体,理论上可以区分近1×1012种嗅觉刺激[1-2]。
实验表明,嗅觉系统采用了一种组合受体编码的策略来处理气味信息,其中一个嗅觉受体可以感知多种气味,而一种气味也可以被不同的嗅觉受体组合所感知。
目前,关于嗅觉受体的表达模式、信号通路和相关神经元投射谱等方面的研究已比较深入,但对于嗅觉受体与气味分子间匹配关系的研究却较少。
对气味识别的研究有助于更好地理解嗅觉处理机制及生物进化中的交流方式,而且气味识别也是食品、饮料、香水等产业发展的关键技术。
除了传统的研究方法,通过理论计算和模拟探索分子结构和气味之间的关系,以提升气味识别能力的研究也已展开[3-4]。
近年来,借助机器学习算法的强大特征学习能力,基于机器学习的气味分子识别已成为该领域的主要研究方向之一。
机器学习算法通过从分子中提取的物理、化学性质或结构特征来建立预测模型[5-12],因而分子结构的数值化方式直接影响着提取的效果。
不同的数值化方式可以捕捉到不同层次的信息,进而影响着机器学习算法的性能和预测的准确度[13-15]。
本文采用PaDEL-descriptor 分子描述方式对气味分子进行数值化编码,运用多种机器学习算法来研究气味分子的特征提取和分类识别基于PaDEL 分子描述符的气味机器学习识别研究苏洋洋1,夏仁杰1,王云松1,许振军2(1.江苏理工学院电气信息工程学院,江苏常州213001;2.浙江古越龙山电子科技发展有限公司,浙江绍兴312000)收稿日期:2023-12-16基金项目:常州市基础研究计划(应用基础研究)项目“人工智能辅助筛选新冠病毒S 蛋白与宿主ACE2蛋白结合抑制剂”(CJ20200045);江苏省青年自然科学基金项目“SIRT1激活的分子机理研究及新型别构激动剂筛选”(BK20191032)作者简介:苏洋洋,硕士,助理实验师,主要研究方向为生物医学工程与人工智能。
人工智能在药物研发中的虚拟筛选方法
人工智能在药物研发中的虚拟筛选方法随着科技的不断发展,人工智能(Artificial Intelligence,AI)已经成为药物研发领域中的重要工具。
AI的应用可以提高药物研发的效率和准确性,帮助科研人员在海量的信息中找到最有潜力的候选药物。
在这篇文章中,将探讨人工智能在药物研发中的虚拟筛选方法和其应用前景。
一、机器学习与药物研发机器学习是人工智能的一个分支,它通过建立数学模型和算法,让计算机能够通过经验自我学习和不断改善性能。
在药物研发中,机器学习可以应用于虚拟筛选(virtual screening),即基于计算模型对大量药物候选化合物进行筛选和评估。
1. 药物库构建虚拟筛选首先需要建立一个药物数据库。
这个数据库包含了大量的化合物信息,例如化学结构、性质和活性数据等。
研究人员可以通过收集现有的药物数据,或者利用化学数据库进行整合,构建一个包含多个分子的药物库。
2. 特征提取在虚拟筛选中,机器学习模型需要根据药物分子的特征进行建模和预测。
药物分子的特征可以包括化学性质、结构信息、分子间作用等多个方面。
研究人员可以利用化学信息学的方法,提取药物分子的特征,并将其转化为机器学习算法可处理的数值数据。
3. 建立模型建立机器学习模型是虚拟筛选的关键步骤。
常用的机器学习算法包括支持向量机(Support Vector Machine,SVM)、随机森林(Random Forest)、神经网络等。
研究人员需要根据实际需求选择合适的机器学习算法,并利用训练数据集对模型进行训练和调优。
4. 虚拟筛选与评估在建立机器学习模型之后,可以利用该模型对药物库中的分子进行虚拟筛选和评估。
虚拟筛选通过模型预测药物分子的活性和性质,筛选出具有潜力的候选化合物。
对筛选出的分子进行评估,可以使用物理化学计算方法、分子对接(molecular docking)等技术,以确定其与靶点的相互作用情况和亲和性。
二、人工智能在药物研发中的应用前景人工智能在药物研发中的应用前景非常广阔,尤其是在虚拟筛选方面。
基于随机森林算法的地表温度降尺度研究
基于随机森林算法的地表温度降尺度研究华俊玮;祝善友;张桂欣【摘要】Land surface temperature(LST)is an important parameter in the model of energy balance of the earth surface. The enhanced spatial resolution of high temporal resolution of remote sensing surface temperature can be realized by downscaling algorithm,which is of great significance for monitoring the spatial and temporal distribution of the LST. In this paper,Beijing City was taken as the study area,and the LST with 100 m spatial resolution was retrieved by using Landsat8 OLI/TIRS data through improved mono-window(IMW)algorithm,which was used as validation data. Besides,the normalized difference vegetationindex(NDVI),normalized difference built-up index (NDBI)and other remote sensing index were calculated and simulated to the spatial resolution of 1 000 m, which was united with the MODIS/LST with the spatial resolution of 1 000 m to be input into the random forest(RF)model to acquire downscaled LST(100 m). Meanwhile,the downscaled results retrieved by RF algorithm were compared with the two commonly used methods of downscaling,multi factor regression method and LST sharpening algorithm based on vegetation index(TsHARP). The results show that,with the simulated Landsat/LST as the data source, the RMSE of downscaling LST retrieved by RF was 2.01 K,and the RMSE was improved by 0.16 K and 0.44 K compared with the multi factor regression method and TsHARP algorithm respectively. For the MODIS/LST, the RMSE of downscaling LSTretrieved by RF was 2.29 K, and the RMSE was improved by 0.42 K and 0.50 K compared with multi factor regression method and TsHARP algorithm respectively. For different land surface types, the effects of RF downscaling algorithm are different. The effect of high vegetation coverage area is the best, and the RMSE is 1.81 K. Due to the spatial heterogeneity of the urban surface, the RMSEhas reached a maximum of 2.75 K.%地表温度(land surface temperature,LST)是地面能量平衡等模型中的重要参数之一.高时间分辨率的遥感LST可通过降尺度处理实现空间分辨率的提高,这对详细的LST时空分布监测具有重要意义.以北京市为研究区,选择Landsat8 OLI/TIRS数据,通过改进的单窗(improved mono-window,IMW)算法反演LST作为验证数据,在计算归一化差值植被指数(normalized difference vegetation index,NDVI)和归一化差值建筑指数(normalized differ-ence built-up index,NDBI)等多种遥感指数并模拟至1000 m空间分辨率的基础上,联合空间分辨率为1000 m的MODIS/LST产品,利用随机森林(random forest,RF)模型实现LST(100 m空间分辨率)降尺度,并与多因子回归方法和基于植被指数的LST锐化算法(TsHARP)2种常用降尺度方法进行对比.实验结果表明:以模拟Landsat/LST作为降尺度数据源,RF方法降尺度LST的均方根误差(root-mean-square,RMSE)为2.01 K,与多因子回归方法和TsHARP算法相比,精度分别提高了0.16 K和0.44 K;针对MODIS/LST降尺度时,RF方法的RMSE为2.29 K,与多因子回归方法和TsHARP算法相比,精度分别提高了0.42 K和0.50 K;针对不同地表类型,RF算法降尺度效果不同,其中高植被覆盖区表现最优,RMSE为1.81 K;城镇表面因其空间异质性,RMSE则达到了2.75 K.【期刊名称】《国土资源遥感》【年(卷),期】2018(030)001【总页数】9页(P78-86)【关键词】遥感;地表温度(LST);降尺度;随机森林(RF)【作者】华俊玮;祝善友;张桂欣【作者单位】南京信息工程大学地理与遥感学院,南京210044;南京信息工程大学地理与遥感学院,南京210044;南京信息工程大学地理与遥感学院,南京210044【正文语种】中文【中图分类】TP751.10 引言地表温度(land surface temperature,LST)是在区域乃至全球尺度上反映地、气间相互作用的重要参数[1],已被广泛应用于地表能量通量估算[2]、土壤湿度及区域干旱研究[3]、城市热环境评价[4]和植物动力学研究等领域。
基于高光谱遥感数据的森林树种分类
基于高光谱遥感数据的森林树种分类基于高光谱遥感数据的森林树种分类是一种利用高光谱遥感技术识别和区分不同森林树种的方法。
高光谱遥感技术可以提供丰富的高频地物光谱信息,为树种分类提供了更多的特征信息,从而提高了树种分类的精度。
以下是一种基于高光谱遥感数据的森林树种分类的步骤:1.数据采集:使用高光谱遥感技术,如Hyperion高光谱影像,获取森林区域的高频地物光谱信息。
同时,收集森林树种的分布信息,以了解不同树种的分布情况。
2.数据预处理:对采集的高光谱数据进行预处理,如辐射定标、大气校正、图像融合等,以提高数据的质量和精度。
3.特征提取:从预处理后的高光谱数据中提取与森林树种相关的特征信息,如光谱曲线、谱角映射等。
这些特征可以反映不同树种的光谱差异,为后续的树种分类提供依据。
4.分类模型构建:利用提取的特征信息,构建适合森林树种分类的模型。
常用的分类模型包括支持向量机(SVM)、随机森林(RF)、神经网络等。
5.树种分类:将构建好的分类模型应用于高光谱遥感数据,对森林中的各个像元进行树种分类。
根据分类结果,可以得出不同树种在森林中的分布情况。
6.结果验证:对分类结果进行精度验证,常用的方法包括混淆矩阵、Kappa系数、总体精度等。
如果精度不满足要求,需要对模型进行调整和优化,以提高分类精度。
7.应用分析:根据分类结果,可以进行一系列的应用分析,如森林资源调查、生态效益评估、林火监测等。
这些分析可以为林业管理和环境保护提供重要的参考依据。
总之,基于高光谱遥感数据的森林树种分类是一种利用遥感技术实现森林资源调查和生态环境监测的重要手段。
通过提取和分析高光谱数据中的特征信息,可以实现对森林树种的精细分类,为林业管理和环境保护提供更加准确和全面的信息支持。
基于Sentinel-2影像的甘蔗种植区遥感提取方法——以广西崇左市为例
櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄[13]CaoZP,YuanRB.Real-timedetectionofmangobasedonimprovedYOLOv4[J].Electronics,2022,11(23):3853.[14]王立舒,秦铭霞,雷洁雅,等.基于改进YOLOv4-Tiny的蓝莓成熟度识别方法[J].农业工程学报,2021,37(18):170-178.[15]黄彤镔,黄河清,李 震,等.基于YOLOv5改进模型的柑橘果实识别方法[J].华中农业大学学报,2022,41(4):170-177.[16]SunHX,ZhangSJ,RenR,etal.Surfacedefectdetectionof“yuluxiang”pearusingconvolutionalneuralnetworkwithclass-balanceloss[J].Agronomy,2022,12(9):2076.[17]张志远,罗铭毅,郭树欣,等.基于改进YOLOv5的自然环境下樱桃果实识别方法[J].农业机械学报,2022,53(增刊1):232-240.[18]BochkovskiyA,WangCY,LiaoHYM.YOLOv4:optimalspeedandaccuracyofobjectdetection[J].arXivPreprintarXiv,2004:10934.[19]WangCY,MarkLiaoHY,WuYH,etal.CSPNet:anewbackbonethatcanenhancelearningcapabilityofCNN[C]//2020IEEE/CVFConferenceonComputerVisionandPatternRecognitionWorkshops(CVPRW).IEEE,2020:1571-1580.[20]WooS,ParkJ,LeeJY,etal.CBAM:convolutionalblockattentionmodule[C]//EuropeanConferenceonComputerVision.Cham:Springer,2018:3-19.[21]ZhangYF,RenWQ,ZhangZ,etal.FocalandefficientIOUlossforaccurateboundingboxregression[J].Neurocomputing,2022,506:146-157.杨 妮,邓树林,樊艳红,等.基于Sentinel-2影像的甘蔗种植区遥感提取方法———以广西崇左市为例[J].江苏农业科学,2024,52(1):172-182.doi:10.15889/j.issn.1002-1302.2024.01.025基于Sentinel-2影像的甘蔗种植区遥感提取方法———以广西崇左市为例杨 妮1,2,邓树林3,樊艳红2,谢国雪4[1.中国地质大学(武汉)地理与信息工程学院,湖北武汉430074;2.广西财经学院管理科学与工程学院,广西南宁530003;3.南宁师范大学地理科学与规划学院,广西南宁530001;4.广西农业科学院农业科技信息研究所,广西南宁530003] 摘要:为了解决在多云雨天气与复杂地形条件下难以快速精准大面积绘制喀斯特山区甘蔗种植区的问题,亟须探究适用于喀斯特山区甘蔗种植区提取的方法。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
随机森林 定义:随机森林是一个分类器,它有一系列的单株树决策器{h(X,,k);k=1,......}来组成,其中{k}是独立同分布的随机变量。再输入X时,每一棵树只投一票给它认为最合适的类。在机器学习中,随机森林是一个包含多个决策树的分类器, 并且其输出的类别是由个别树输出的类别的众数而定,构成随机森林的基础分类器称为决策树。 Leo Breiman和Adele Cutler发展出推论出随机森林的算法。 这个术语是1995年由贝尔实验室的Tin Kam Ho所提出的随机决策森林(random decision forests)而来的。这个方法则是结合 Breimans 的 "Bootstrap aggregating" 想法和 Ho 的"random subspace method"" 以建造决策树的集合。 随机森林是一个组合分类器,构成随机森林的基础分类器是决策树。 决策树算法 决策树可以视为一个树状预测模型,它是由结点和有向边组成的层次结构。树中包含3个节点:根节点。内部节点,终节点(叶子节点)。决策树只有一个根节点,是全体训练集的结合。树中的每个内部节点都是一个分裂问题,它将到达该节点的样本按某个特定的属性进行分割,可以将数据集合分割成2块或若干块。每个终结点(叶子节点)是带有分裂标签的数据集合,从决策树的根节点到叶子节点的每一条路径都形成一个类;决策树的算法很多,例如ID3算法,CART算法等。这些算法均采用自上而下的贪婪的算法,每个内部节点选择分类效果最好的属性进行分裂节点,可以分为两个或若干个子节点,继续此过程到这可决策树能够将全部训练数据准确的分类,或所有属性都被用到为止。具体步骤如下: 1)假设T为训练样本集。 2)选择一个最能区分T中样本的一个属性。 3)创建一个数的节点,它的值是所选择的属性,创建此节点的子节点,每个子链代表所选属性的唯一值,适用子链的值进一步将样本细分为子类。 对于3)创建的三个子类 (1)如果子类的样本满足预定义的标准,或者树的这条路的剩余可选属性集为空,为沿此路径的新的样本指定类别。 (2)如果子类不满足于定义的标准,或者至少有一个属性能细分树的路径,设T为当前子类样本的集合,返回步骤2),以下简单的给出二分树的结构图示:
根节点
中间节点 叶节点
规则1
叶节点 规则2 中间节点 建树算法在属性的选择标准非常重要。属性的选择的方法有很多种,例如信息增益(information gain)、信息增益比(information gain ratio)Gini指标(Gini Index)等方法。 ID3算法依据信息增益来选择属性。信息增益是在熵作为尺度的,是衡量属性对训练数据的分类的能力的标准。CART算法是利用Gini指标作为尺度来分裂属性的。Gini指标适用于二进制连续数值等类型的字段。为了防止决策树和训练样本集的过度拟合,需要对决策树进行剪枝。剪枝通常有事先剪枝法和事后剪枝法两种方法。事先剪枝法事建树过程中判断当前节点是否需要继续划分的简直方
法。通常是通过重要性检测(2或信息增益等)判断是否停止分裂节点。事后剪枝方法是让树“充分成长”之后在判断是否进行停止分裂节点。常用到的方法是根据错误分类率(或决策树编码长度)进行决策树的事后剪枝。决策树具有以下四个优点: 决策树方法不需要假设先验概率的分布,这种非参数化的特点使其具有更好的灵活性和鲁棒性。 决策树方法不仅可以利用连续实数或离散的数值样本,而且可以利用“语义数据”比如离散的语义数据:东、南、西、北等。 决策树方法产生的决策树或产生式规则具有结构简单直观,容易理解以及计算效率高的特点。 决策树方法能够有效地抑制训练样本噪音和解决属性缺失问题。因此可以防止由于训练样本存在噪声和数据确实引起的精度降低。 但决策树也有与生俱来的缺点: 1)分类规则杂 2)收敛到非全局的局部最优解 3)过度拟合 由于分类复杂则它可能过于适合噪声从而导致过度拟合问题。 为了克服以上的缺点,引入了另一种预测模式——随机森林。 随机森林的特征 随机森林具有以下的特征: 在现有的算法中随机森林算法的精度是无可比拟的。 随机森林能够有效地处理大的数据集。 随机森里面可以处理没有删减的成千上万的变量。 随机森林能够在分类的过程中可以生成一个泛化误差的内部无偏估计。 随机森林是一种有效地估计缺失数据的一种方法,当数据集中有大比例的数据缺失时仍然可以保持精度不变。 在不平衡的数据集的类别总图中可以平衡误差。 保存生成的随机森林以备解决其他的数据。 技术原型的计算可以给出变量之间的相关性和分类的信息。 可以计算实例组之间的相似度,可以用来做聚类分析,确定异常点(通过缩放比例)给出数据集的有趣诠释。 上述的能力可以为没有标签的数据导出无监督的聚类方法和异常点检测。 随机森林提供了一种检测变量交互作用的实验方式。特别值得注意的是随机森林的运行速度非常的块并且不会产生过度拟合,可以根据需要来生成任意多的树。基于随机树上的诸多优点,随机森林在当前的机器学习领域是一个新的研究热点。 随机森林的理论基础 随机森林之所有那么多的优点,是因为有强大的数学知识做后盾。一个随机森林是否能够进行正确的分类,分类的效果如何,以及如何评价随机森林的分类效果都有数学知识的基础。 R.F不会过度拟合的保证——大数定律 随机森林的一个与众不同的特征就是它不会产生过度拟合。那么它为什么不会产生过度拟合呢?不会产生过度拟合的理论依据是什么呢?下面解释这一个问题。 给定一系列分类器h(x,θ1),h(x,θ2),,,,,,h(x,θk)随机取出服从随机向量Y,X分布的训练集。定义边际函数为:
))((max))((),(jxIayxIaYXhvhvmkkyjkkg
其中I(.)是示性函数,(.)vka表示取平均。于是,边际函数刻画了在正确分类Y下X的得票超过其他分类的最大平均得票数的程度。该值越大,表明分类器的
置信度越高。泛化误差由下式得出:)0),((,YXPmPEgYX 其中,下标X,Y表明了概率的定义空间。
在随机森林中,)(xhk=h(x,θk)。当树的数目很大时,它会遵循大数定律,因此树的结构为:随着分类树数目的增加,由于所有的序列θi,pE几乎处处收敛到 )0),((max)),(((,jxhyyXhpppYjYX
其中θ是对应单棵树决策树的随机变量,h(x,θ)是基于x和θ的输出。 这以结果解释了为什么随机森林不会随着分布树的增加而产生过拟合,但是却有一个有限的繁华误差值。它的依据是大数定律。 在有关随机森林的实验中,装袋方法和随机特征选择并行应用。袋装方法的每一个新的训练集都是在原始训练集中通过一种叫做步步为营法随机重复采样得到的。应用这种方法的训练集一般只能包含原训练集中大约百分之六十七的样本,其余的样本作为袋外数据,基于新的训练集生成树可以充分的成长,不进行剪枝。 应用袋装方法的两个原因。其一,当使用随机特征时,结合袋装方法可以提高精
度。其二,袋装方法可以对一个树集的总体泛化误差pE不断变化的上界进行估计,与效能和相关性的估计一样的好。这一估计是由袋装的分类器给出的,解释如下。 假定在任何训练集中用一种方法构造分类器。给定一个特殊的训练集T,构造步步
为营训练集Tk,构建分类器h(X,Tk),由投票构成松弛的预测器。对于训练集T中的每一个数y,x
将不包含y,x的分类器Tk上得到的票数累加起来,称之为袋外数据分类器。繁华误差的袋外数据估计就是训练集上的袋外数据分类器的误差率。 在步步为营法的训练集中,大约三分之一的样本被取出。这样给出的内部股就有利于理解分类器的精度,有利于找到提高精度的方法。另外一个重要的应用在于刻画变量的重要性。 随机森林的重要性是计算单个特征的重要性。对于重要性的度量基于以下的启发式思维:当一个相关特征(即对预测的准确率可能起重要作用的特征)加入噪声后,随机森林的预测准确率将显著降低。具体做法如下: 1)对已生成的随机森林用袋外数据测试其性能,得到一个袋外准确率; 2)随机的改变袋外数据集中的某个特征值(即人为的加入噪声)再用加入噪声的袋外数据测试随机森林的性能,又得到一个新的袋外数据准确率。 3)原始的袋外数据的准确率与加入噪声后的袋外准确率之差,可以作为所选特征的重要性的度量值。这一值越大说明所选的特征的重要性越高。 随机森林的这一性能可以用来寻找某一个烟具过程中最重要的一些变量。找到这些变量之后可以通过这些重要的变量来控制整个研究的进程。从而可已将一个复杂的研究过程简单化。 随机森林的常见的构建方法 构建随机森林的方法可谓是多种多样,我们可以结合自己的需要找到适合自己的构建随机森林的方法。 (1)袋装法是一个统计冲采样的组合技术,它以步步为营和数据融合技术为基础。袋装法最基本的思想是利用步步为营的法重采样来生成多个版本的预测器,然后把这些分类器融合。实际上是将所有的分类器进行组合。通常情况下的组合的分类器会给出比单一分类器的效果要好,原因是最终解决问题时结合了所有单独分类器的特点。步步为营法是以可重复的随机采样为基础的。在训练集上可重复的随机采样,就可以得到没有或者含有很少的误导率的训练样本集。如前所述,当在训练集上采样步步为营的方法采样时,平均百分之三十七的根部不会出现在步步为营采集的样本集合中,这就意味着训练集中的 这些可能的“异常点”往往不会出现在步步为营法采集的样本集合中。因此,与在原始的数据上构建分类器相比,在步步为营法采集的样本结合中更容易得到好的分类器。所以,比其他步步为营的版本在最终的判断更稳健。 Bagging RF算法课描述如下: Step1:对于给定的一个训练样本,通过n次随机的可重复的采样,从数据(x1,
y1).....(xn,yn)出发构建一个步步为营的样本(x1,y1),.......(xn , yn
)。
Step2:基于每一个步步为营样本,构建一颗决策树。 Step3:重复Step1-2,可以得到多棵树。
Step4:让每一棵树都对输入的向量xi进行投票。 Step5:计算所有的投票数,找出其中票数最高的一个就是向量xi的分类标签。 Step6:于正确的分类标签不一样的比例,就是随机森林的错误分类率。 (2)更新权重的随机森林方法有三只:Adaboost,加弧法,Arc—x4算法。Adaboost算法是所有更新权重算法中最重要的一个。很多的随机森林的分类效