工程地质勘察文本的分类研究
地质地矿类文本翻译方法研究

地质地矿类文本翻译方法研究【摘要】这篇文章主要探讨了地质地矿类文本翻译方法的研究现状、应用领域和发展趋势。
通过对地质地矿类文本翻译方法的基本原理和关键技术进行探讨,揭示了这一领域的重要性。
在结论部分指出了地质地矿类文本翻译方法研究的重要性,并提出了未来研究方向。
研究背景和意义部分介绍了地质地矿类文本翻译方法研究的背景和意义。
通过本文的研究,读者可以了解到地质地矿类文本翻译方法在实际应用中的重要性,以及未来的发展方向。
【关键词】地质地矿类文本翻译方法、研究背景、研究意义、基本原理、应用领域、研究现状、发展趋势、关键技术、重要性、未来研究方向。
1. 引言1.1 研究背景地质地矿类文本翻译方法研究背景:地质地矿领域是一个重要的学科领域,其中涉及到大量的研究文献和资料。
这些文献和资料往往使用专业术语和特定的表达方式,对于非专业人士很难理解。
需要开展地质地矿类文本翻译方法的研究,以便将这些专业文献翻译成易于理解的语言,方便其他领域的学者和研究人员参考和利用。
传统的文本翻译方法往往不能很好地处理地质地矿类文本,因为这些文本包含许多专业术语、词汇和知识体系,需要结合地质特点和矿产资源知识进行专业化处理。
地质地矿类文本翻译方法的研究具有非常重要的意义。
随着地质勘探和矿产资源开发的不断深入,研究人员需要及时了解最新的地质地矿文献和资料。
地质地矿类文本翻译方法的研究将有助于提高地质地矿信息的传播效率和准确性,推动地质勘探和矿产资源开发领域的发展。
地质地矿类文本翻译方法的研究具有重要的现实意义和应用前景。
1.2 研究意义地质地矿类文本翻译方法的研究对于促进地质地矿领域的国际交流与合作具有重要意义。
随着全球化的进程不断加快,地质工作者需要与来自不同国家和地区的同行进行交流和合作,而语言障碍是阻碍这种交流的重要因素之一。
研究地质地矿类文本翻译方法,可以有效地提高地质工作者之间的沟通效率,促进地质领域的科研成果的传播和交流。
建设工程勘察合同示范文本(GF-2016-0203)

GF—2016—0203合同编号:____________建设工程勘察合同(示范文本)住房和城乡建设部制定国家工商行政管理总局说明为了指导建设工程勘察合同当事人的签约行为,维护合同当事人的合法权益,依据《中华人民共和国合同法》、《中华人民共和国建筑法》、《中华人民共和国招标投标法》等相关法律法规的规定,住房和城乡建设部、国家工商行政管理总局对《建设工程勘察合同(一)[岩土工程勘察、水文地质勘察(含凿井)、工程测量、工程物探]》(GF-2000-0203)及《建设工程勘察合同(二)[岩土工程设计、治理、监测]》(GF-2000-0204)进行修订,制定了《建设工程勘察合同(示范文本)》(以下简称《示范文本》)。
为了便于合同当事人使用《示范文本》,现就有关问题说明如下:一、《示范文本》的组成《示范文本》由合同协议书、通用合同条款和专用合同条款三部分组成。
(一)合同协议书《示范文本》合同协议书共计12条,主要包括工程概况、勘察范围和阶段、技术要求及工作量、合同工期、质量标准、合同价款、合同文件构成、承诺、词语定义、签订时间、签订地点、合同生效和合同份数等内容,集中约定了合同当事人基本的合同权利义务。
(二)通用合同条款通用合同条款是合同当事人根据《中华人民共和国合同法》、《中华人民共和国建筑法》、《中华人民共和国招标投标法》等相关法律法规的规定,就工程勘察的实施及相关事项对合同当事人的权利义务作出的原则性约定。
通用合同条款具体包括一般约定、发包人、勘察人、工期、成果资料、后期服务、合同价款与支付、变更与调整、知识产权、不可抗力、合同生效与终止、合同解除、责任与保险、违约、索赔、争议解决及补充条款等共计17条。
上述条款安排既考虑了现行法律法规对工程建设的有关要求,也考虑了工程勘察管理的特殊需要。
(三)专用合同条款专用合同条款是对通用合同条款原则性约定的细化、完善、补充、修改或另行约定的条款。
合同当事人可以根据不同建设工程的特点及具体情况,通过双方的谈判、协商对相应的专用合同条款进行修改补充。
工程地质勘察数据信息表达方式研究

直剪 试验 和直 剪试 验项 目、 轴 试验 和 三 轴试 验 项 目 三 表等 数据 。各 数据 的表 达如 下 。
( ) 孔数 据 1钻 钻孔 编号 , 探 点 类 型 ; 勘 X坐 标 , y坐 标 , 移 量 ; 偏
试验 方法 , 式样 的高度 , 自重 压力 , 缩系 数 , 缩 压 压 模量 , 压缩 后 的孔 隙 比 , 变形 模量 , 弹性模 量 , 松 比 。 ? 白 () 6 固结试 验项 目数 据 序号 , 直压力 , 缩变 形值 。 垂 压
固结 试验 和 固结试 验项 目、 颗分试 验 和颗 分试 验项 目、
度; 水上休止 角, 水下休止 角 , 透系数 , 平渗透系 渗 水
数, 垂直 渗透 系数 ; 轴抗 压强 度 , 单 自然抗 压 强度 , 和 饱 抗压 强度 , 拉 强 度 , 剪 强 度 ; 化 系 数 , 侧 摩 阻 抗 抗 软 桩 力, 桩端 摩 阻 力 ; 字 板 剪 切 强 度 , 侧 限抗 压 强 度 十 无
Re e r h o s r p i n M e h d o t n o m a i n s a c n De c i to t o s f r Da a I f r t o
o fEngn e i g G e lg c lS r e i e rn o o ia u v y
() 8 颗分试验项 目 数据 序号 , 粒径 , 筛余质量。 ( ) 剪试 验数 据 9直
维普资讯
5 0
铁
道
勘
察
20 0 7年第 3期
试验方法 , 环刀面积 ; 快剪摩擦角 , 快剪黏聚力 , 固 结快剪摩擦角 , 固结快剪黏聚力 , 慢剪摩擦角 , 慢剪黏
工程地质勘察信息资源研究与应用

工程地质勘察信息资源研究与应用【摘要】伴随着城市化的不断发展,越来越多的工程项目投入了建设使用,由此也引发了人们对于工程地质勘察方面的重视。
工程地质勘查作为工程建设的重要基础,如果在该环节无法做出精准保障,那么对于工程建设而言,极有可能造成工程后期建设中产生较为严重的事故问题,因此在当前有效做好工程地质的勘察工作,就各类工程纸质勘查信息资源做出加工、整合、处理、保管和应用,对于工程建设整体质量而言,存在着必然的现实意义。
本案从工程地质勘查的信息资源获取着手,系统分析了信息的科学规范化分类问题,并着重探究了工程地质勘察信息资源的信息化管理应用。
【关键词】工程地质;勘查信息资源;应用;研究一、工程地质勘察信息资源的重要性研究新时期工程地质勘查工作,是建立在对学科理论基础之上,依据多类形式而展开的一项技术工作。
其主要职责涉及到了为工程选址规划和区域开发与可行性研究、施工设计、环境监测等等多个方面,旨在良性提供施工现场区域水文地质、工程地质、岩土性质等诸方面的资料数据。
其勘察工作开展主要是以勘探及物探与检测和实验等技术手段进行,通过文字及报表和专题图像等方式进行表达出来,整个过程相对综合复杂。
近年以来我国的工程建设总量持续提升,随着工程地质勘查工作而得到的相关数据资料,对于新时期工程地质勘察的工作而言即为重要的信息资源,其不单单对前期在建工程发展发挥着重要的指导参考作用,且对于后续工程项目的建设,也存在着即为必要的利用价值。
故此在当前强化工程地质勘察信息资源的整合获取及信息规范化管理应用,极具价值成效。
二、对工程地质勘查的信息资源获取研究在当前对于工程地质查勘信息资源的数据资料获取,主要是随着对地质调查与勘察工作的展开而取得,这些资料数据大多是以图表及文字形式,于各工程项目勘察报告书内进行存储。
主要含有地质信息及岩土的空间位置信息与室内试验数据及原位测试信息、水文信息等,数据量尤为庞大且类别十分复杂。
勘探在工程地质勘察信息的获取中占据着重要的位置,当下最为常用的项目勘探,多以钻探及静力触探及相关原位测试进行。
勘察规范与标准解读

04 勘察规范与标准的实施与监督
实施流程与注意事项
勘察规范与标准的制定
根据行业需求和技术发展,制定勘察规 范与标准,确保其科学性、合理性和可
操作性。
实施过程中的监督
定期对勘察单位和人员进行监督检查 ,确保勘察规范与标准得到正确实施
。
培训与宣传
组织培训和宣传活动,提高勘察单位 和人员的规范意识,确保标准得到有 效执行。
遵循勘察规范能够保障勘察人员的安全和健康, 防止因不规范操作导致的安全事故。
勘察规范的历史与发展
历史回顾
勘察规范的发展历程可以追溯到早期的工程实践,随着技术 的进步和工程规模的扩大,勘察规范逐步完善和标准化。
发展趋势
随着科技的不断进步和工程实践的丰富,勘察规范将不断更 新和完善,更加注重环境保护、资源节约和可持续发展等多 元化需求。同时,随着信息化技术的应用,勘察规范将更加 注重数据共享、信息交互和智能化发展。
要点一
总结词
要点二
详细描述
系统性、可靠性
某水库大坝勘察项目涉及水库大坝的安全性评价和加固设 计。在勘察过程中,遵循了水库大坝勘察规范和相关标准 ,采用了系统性的勘察手段和技术,如深孔钻探、原位试 验等,确保了勘察成果的可靠性和系统性,为大坝的安全 性评价和加固设计提供了科学依据。
THANKS 感谢观看
05 勘察规范与标准的实际应用案例
案例一:某大型工程勘察项目
总结词
全面性、综合性
VS
详细描述
某大型工程勘察项目涉及多个专业领域, 包括岩土工程、水文地质、工程地质等。 在勘察过程中,遵循了国家勘察规范和相 关标准,采用了多种勘察手段和技术,确 保了勘察成果的全面性和综合性,为工程 设计和施工提供了可靠的地质资料。
建筑工程合同示范文本对比

建筑工程合同示范文本对比随着我国建筑市场的不断发展,建筑工程合同示范文本在实践中发挥着越来越重要的作用。
为了更好地规范建筑工程合同的签订和履行,建设部和工商行政管理部门分别于2015年、2016年和2017年制定了《建设工程设计合同示范文本(房屋建筑工程)》、《建设工程勘察合同示范文本》和《建设工程施工合同示范文本》。
本文将对这三份示范文本进行对比分析,以期为建筑工程合同的签订提供有益的参考。
一、《建设工程设计合同示范文本(房屋建筑工程)》(GF-2015-0209)《建设工程设计合同示范文本(房屋建筑工程)》(GF-2015-0209)由合同协议书、通用合同条款和专用合同条款三部分组成。
该文本明确了合同当事人的基本权利和义务,包括工程概况、设计范围和阶段、技术要求及工作量、合同工期、质量标准、合同价款、合同文件构成、承诺、词语定义、签订时间、签订地点、合同生效和合同份数等内容。
相较于之前的版本,2015版的设计合同示范文本更加注重维护合同当事人的合法权益,依据《中华人民共和国合同法》、《中华人民共和国建筑法》、《中华人民共和国招标投标法》等相关法律法规制定。
二、《建设工程勘察合同示范文本》(GF-2016-0203)《建设工程勘察合同示范文本》(GF-2016-0203)同样由合同协议书、通用合同条款和专用合同条款三部分组成。
该文本主要针对岩土工程勘察、水文地质勘察(含凿井)、工程测量、工程物探以及岩土工程设计、治理、监测等领域。
相较于2000版的勘察合同示范文本,2016版文本在内容上进行了修订和完善,更加符合现行法律法规的要求,有助于指导建设工程勘察合同当事人的签约行为,维护合同当事人的合法权益。
三、《建设工程施工合同示范文本》(GF-2017-0201)《建设工程施工合同示范文本》(GF-2017-0201)是在2013版的基础上进行修订的。
修订后的文本仍然由合同协议书、通用合同条款和专用合同条款三部分组成。
各类岩土工程勘察方案的区别
各类岩土工程勘察方案的区别1. 现场勘测方案现场勘测方案是指在工程建设前,通过对工地的实地调查和采集样品,对施工地点的地形地貌、地质条件地貌、地下水、气象水文和生态环境等特征进行综合分析的勘察方案。
其基本工作内容包括地质地貌调查、地下水勘查、地震灾害风险评估、生态环境调查等。
地质地貌调查主要是调查工地的地质构造、地层规律、土质岩性、地下水条件等因素,为工程设计提供地质资料和地质条件的评价。
地下水勘查是为了掌握工程施工过程中地下水的产生、运移和排泄情况,为地下结构和基础设计提供参考。
地震灾害风险评估是为了预测施工地点地震活动对工程建筑的影响程度,并提出相应的抗震建筑要求。
生态环境调查主要是了解工程建设对周围生态环境的影响,并提出相应的保护措施。
2. 室内试验方案室内试验方案是指对于采集回来的地质样品,进行各种室内实验和分析测试。
主要包括岩土样品分析、水质化验、地基承载力测试、地基沉降观测等。
岩土样品分析主要是测试地质样品的物理力学性质和工程特性,包括密度、孔隙度、含水量、力学强度、变形特性、渗透性等,为工程设计提供地质资料。
水质化验主要是对地下水和地表水进行化验,包括水质的成分、污染程度和水文特性等,为地下水防治和保护提供参考。
地基承载力测试是为了确定地基的承载力和变形特性,为地基设计和选材提供参考。
地基沉降观测是为了监测地基在施工前后的沉降情况,为工程施工和变形控制提供参考。
3. 地基处理方案地基处理方案是指在地基勘察的基础上,为改善地基条件、加固和稳定地基、减少地基变形、避免工程灾害而提出的相应技术措施。
其基本工作内容包括地基改良、地基加固、地基防治等。
地基改良主要包括土石方工程、地基加固、软土地基改良和岩石地基改良等。
其目的是通过挖土方、填筑料加固和处理、排水泵站等方式,进行土地基和岩石地基的改良。
地基加固主要是通过加固地基的承载能力和变形特性,采取嵌岩法、桩基础、加固护坡、加固地基和降水排泵等方式,加固地基。
分析目前工程地质勘察信息资源
分析目前工程地质勘察信息资源摘要:工程地质勘察信息是工程建筑设计和城市规划的基础。
工程地盾勘察信息种类繁多,数量庞大,加工、处理、管理工作十分复杂,因此,研究工程地质勘察信息的获取以及高效管理应用具有十分重要的意义。
关键词:工程地质勘察信息化地质勘察数据具有多源、多类、多量、多维、多时态和多主题特征,给地质勘察数据信息化带来巨大困难。
在充分考虑了工程地质勘察及勘察信息应用所涉及到的后续设计全过程的基础上,从勘察数据的有效采集、管理、信息化、信息表达、信息资源应用出发,进行研究,总体结构如图1所示1 工程地质勘察数据信息采集研究工程地质勘察的数据包括地质信息、岩土空间位置信息、原位测试信息、室内试验数据和水文信息,数据量十分庞大。
若采用人工录入勘察数据到数据库中,将耗费巨大的人力物力,且受人为因素影响准确性难以保证。
能够从工程地质勘察处理软件中直接读取基础数据是上好的选择。
1.1工程地质勘探数据信息采集静探数据包括单桥静探和双桥静探2种。
其中单桥静探需要给出钻孔编号、静探类型、试验点深度、比贯入阻力的值;双桥静探钻孔编号、静探类型、试验点深度、锥头阻力和侧壁摩阻力的值。
各数据之间用制表符(tab键)隔开,各数据行之间用回车键隔开。
1.2 工程试验数据采集由于试验种类繁多,试验方法多样,所以试验数据也是既多又复杂。
为了完成试验数据的采集,我们以土工试验全过程(包括试验仪器的运用、试验数据的获取、试验成果的分析和操作过程及各阶段的数据管理等环节)为研究对象,做了以下工作:1.2.1以结构相对复杂的直剪仪、三轴仪和固结仪为重点,研究有关仪器与采集系统的最佳匹配方案和技术参数。
1.2.2通过吸收引进相关领域的新技术、新设备、新器件(如传感器与电测技术、仪器制造和控制技术、计算机与网络技术、气动液压技术及其相关部件)开发出一套适合于本系统的数据采集系统,实现了土工试验数据采集处理微机化。
1.2.3 不仅研究数据采集处理、仪器运行自动控制和数据管理与网络传输等,还开发了与硬件设备配套使用的采集处理软件。
勘察阶段划分
勘探阶段的区分《建设工程质量管理条例》第五条从事建设工程活动,一定严格履行基本建设程序,坚持先勘探、后设计、再施工的原则。
县级以上人民政府及其相关部门不得超越权限审批建设项目或许私自简化基本建设程序。
第九条建设单位一定向相关的勘探、设计、施工、工程监理单位供给与建设工程相关的原始资料。
原始资料一定真切、正确、齐备。
【释义】本条是对建设单位一定向勘探、设计、施工、工程监理单位供给与建设工程相关原始资料,并保证这些资料真切、正确、齐备的规定。
所谓原始资料是勘探单位、设计单位、施工单位、工程监理单位赖以进行勘探作业、设计作业、施工作业、监理作业的基础性资料。
建设单位作为建设活动的总负责方,向相关的勘探单位、单位、施工单位、工程监理单位供给原始资料,并保证这些资料的真切、正确、齐备、是其基本的责任和义务。
一般状况下,建设单位依据拜托任务一定向勘探单位供给如勘探任务书、项目规划总平面图、地下管线、地下修建物、地形地貌等在内的基础资料;向设计单位供给政府相关部门同意的项目建议书;可行性研究报告等立项文件,设计任务书,相关城市规划、专业规划设计条件,勘探成就及其余基础资料;向施工单位供给概算同意文件,建设项目正式列入国家、部门或地方年度固定财产投资计划,建设用地的征用资料,有可以知足施工需要的施工图纸及技术资料,建设资本和主要建筑资料、设施的根源落实资料,建设项目所在地规划部门同意文件,施工现场达成“三通一平”的平面图等资料。
向工程监理单位供给的原始资料除包含给施工单位的资料外,还要有建设单位与施工单位签订的承包合同文本。
所谓真切是就原始资料的合法性而言的,指建设单位供给的资料的根源、内容一定切合国家相关法律、法例、规章、标准、规范和规程的要求,即一定是合法的,不得假造、窜改;所谓正确是就原始资料的科学性而言的,指建设单位供给的资料一定可以真切反应建设工程原貌,数据精度可以知足勘探、设计、施工、监理作业的需要。
城建档案的范围和主要种类
城建档案的范围和主要种类城建档案的范围和主要种类城建档案的范围是由城建档案定义的外延所决定的。
根据城建档案的定义,在城市规划、建设和管理工作中形成的各种业务和专业技术档案都属于城建档案。
因此,城建档案的内容范围比较广泛,可从以下不同角度进行划分。
(1)从城建档案的来源,即城建档案形成单位的性质分:①党政机关建筑档案。
②学校建筑档案。
③医院建筑档案。
④商业建筑档案。
⑤住宅建筑档案。
⑥工矿企业建筑档案等。
(2)从城建档案的内容分:①建筑工程档案。
②市政基础设施工程档案。
③公用基础设施工程档案。
④交通基础设施工程档案。
⑤园林建设档案。
⑥风景名胜建设工程档案。
⑦市容环境卫生设施档案。
⑧城市防洪、抗震、人防工程档案。
⑨城乡规划档案。
⑩城市勘测档案。
⑪房屋拆迁管理档案。
⑫勘察设计管理档案。
⑬施工管理档案。
⑭竣工验收管理档案。
⑮房地产管理档案。
⑯园林绿化管理档案。
⑰环境保护管理档案等。
(3)从城建档案的形成时间分:①古代城建档案。
②近代城建档案。
③现代城建档案。
(4)从城建档案的所有权分:①国家所有。
②集体所有。
③个人所有。
(5)从城建档案的载体形式分:①纸质档案。
②胶片档案。
③磁带档案。
④光盘档案。
⑤缩微档案。
⑥电子档案。
⑦实物档案等。
(一)城乡规划档案城乡规划是一定时期内城乡建设发展的总计划,是城乡建设工程设计和城乡建设管理的依据。
城乡规划,包括城镇体系规划、城市规划、镇规划、乡规划和村庄规划。
城市规划、镇规划分为总体规划和详细规划。
详细规划分为控制性详细规划和修建性详细规划。
大、中城市根据需要可以在总体规划的基础上编制分区规划。
城乡规划档案一般包括城市(镇)总体规划档案、城市分区规划档案、城市(镇)详细规划档案、乡和村庄规划档案、城乡规划基础资料等几类。
1.城市(镇)总体规划档案总体规划是城乡建设发展的总蓝图,是城市、镇宏观管理的主要依据。
城市总体规划的主要内容包括:城市的发展布局,功能分区,用地布局,综合交通体系,禁止、限制和适宜建设的地域范围,各类专项规划等。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Abstract
With the development of information technology, electronic text information is increasing. Automatic text categorization is a key technology that can facilitate users to obtain the required information accurately in the mass text information resources. It enjoys a wide application in various fields. From the perspective of improving the classification accuracy, this paper used the “Teleological Survey Specification for Railway Engineering Geology” (TB1002-2007) as the training standard. Firstly, based on the word segmentation principle of natural language processing (NLP), the text document is segmented by computer and human. Then the feature reduction technique is applied to the word segmentation results of text documents. The words with high word frequency are selected as the final geological survey corpus. The corpus contained geological terminology. Finally, machine-learning methods are used to automatically classify the text after word segmentation. After comparing the classification results of various classification algorithms, this paper finds that selecting K-nearest neighbor classifier is more ideal than the others due to unevenness of geological exploration data classification.
Study on the Text Categபைடு நூலகம்rization of Engineering Geological Investigation
Chaoguo Tang1, Yongbiao Zhu2, Bo Xie3, Yu Wu3, Jie Meng3*
1Information Technology Center, China Railway Eryuan Engineering Group Co., Chengdu Sichuan 2Geotechnical Engineering Design and Research Institute of Geological Prospecting, China Railway Eryuan Engineering Group Ltd., Chengdu Sichuan 3School of Mathematics and Statistics, Yunnan University, Kunming Yunnan
Keywords
Automatic Text Categorization, Natural Language Processing, Feature Dimension Reduction
工程地质勘察文本的分类研究
唐朝国1,朱泳标2,解 波3,吴 宇3,孟 捷3*
1中铁二院信息技术中心,四川 成都 2中铁二院地勘岩土工程设计研究院,四川 成都 3云南大学数学与统计学院,云南 昆明
DOI: 10.12677/sa.2019.84067
591
统计学与应用
唐朝国 等
“工程地质说明书”、“地质说明书”、“地质第四篇”、“第四篇(送审稿)”、“第四篇地质”、“第 四篇(正式稿)”字符串的文本文档归属于地质勘察报告,该类别文件中对文件的命名相对规范,需要处理 的文本文档较少。
2) 调查表 调查表一类文本文档的命名最复杂,本文把文件名中含有以下字符串的文本文档归为调查表一类, 分别是:“调查表”、“人行天桥”、“公路公交”、“调查表(2)”、“公路立交(2)”、“人行天桥(2)”、 “调查表(3)”共七类不同的文件命名方式。 3) 综合测井报告 该类把文本文档名称中含“综合测井报告”字符串的文档归为综合测井报告一类。 4) 电子文件移交登记表 本文把文本文档名称中含“电子文件移交登记表”、“电子文件移交登记表(2)”、“电子文件移交 登记表(3)”、“电子文件移交登记表(4)”四类字符串的归为电子文件移交登记表一类。 5) 地质素材 地质素材一类主要包含三类字符串的文本文档,分别是:“地质素材”、“地质素材(已处审)”、“地 质素材(正式)审后”。 6) 其他 该类主要是文本文档数量最少、或者内容最少的文档,包含:“断面排版”、“地质概况”、“情 况说明”、“审查表格”、“文字报告”、“资料说明”共六类文本文档。其中“断面排版”文本文档 记录里程数,内容里面的文字甚少;“情况说明”和“资料说明”仅记录一句话,上述六类文本文档被 归为其他类别。 剩余九类文本文档的命名较为规范,尚未做任何处理,截取部分字符串作为类别标签即可。
Table 1. Name and quantity of all geological prospecting documents 表 1. 所有地勘文档名称及数量(单位:篇)
名称 地质说明书 勘察报告
调查表 互提资料单 测井报告 地质第四篇 移交登记表
数量 298 96 47 41 15
8 8
名称 地质素材 断面排版 解译说明 通知单 测试报告 地质概况 情况说明
关键词
文本自动分类,自然语言处理,特征降维
Copyright © 2019 by author(s) and Hans Publishers Inc. This work is licensed under the Creative Commons Attribution International License (CC BY). /licenses/by/4.0/
国外在文本分类方面的研究起步较早,实际应用成果较多,从 1995 年开始进入快速增长期,应用机 器学习做文本分类的算法逐渐增多。国内对文本自动分类的研究起步较晚,从 2000 年才开始进入快速增 长期,并且由于中英文之间的差距,国外一系列文本自动分类成果在国内实用性较弱,只能参考其研究 思想。因此国内更注重对中文文本自动分类系统的研究。郑州大学张金瑞[1]提出了基于 LDA 的弱监督 文本分类算法 VB-LDA (Latent Dirichlet Allocation with Vector and Bigram)并将该算法应用到文本分类中, 首先获取主题的高频词和类别的代表词,然后利用词向量化工具将它们都转化成相应的词向量,最后用 距离度量来计算出每篇文档中概率最大的主题所对应的类别。广东工业大学黄瑜青[2]提出将支持向量机 与文本自动分类器相结合,以解决文本自动分类中维数庞大、线性不可分和分类性能不高的问题。石佳 [3]等人提出一种基于 N 元语法的汉语自动分词系统,将分词与标注结合起来,用词性标注来参与评价分 词结果。中科院陈建英[4]提出一种改进的面向地名知识库的双向最大匹配算法并设计了一个面向中文地 名的知识库。通过对大量中国地名信息的分析和研究,并参考中国的行政地域特点,采用地名词分级思 想,将所有的地名词进行层级划分,并结合目前互联网的词库资源和主流的数据存储技术,得出了一个 全新的地名知识库。北京交通大学邬启为[5]选用了基于密度方法的聚类算法 OPTICS (Ordering Points To Identify the Clustering Structure)对网页文本聚类,该方法比起其它聚类方法,可以发现不同形状的文本簇,
2. 数据处理
2.1. 数据来源
本文数据主要来源于重庆到怀化增建二线铁路工程地质勘察资料。主要抽取每段里程中说明地质情 况的文本文档进行研究分析。其中主要包括工程地质勘察报告、工程地质说明书、地质第四篇、调查表 等 21 类文本文档,总的文本数量共有 547 篇文本文档,分为 21 类。为了提高后续分类的准确度,本文 部分文件的名称根据文件内容来划分其所属类别,各类地勘文本文档的名称及相对应的数量如下表(表 1) 所示:
摘要
伴随着信息技术的不断发展,电子文本信息日益增多,文本自动分类作为处理海量文本信息,方便用户 准确搜索所需信息的关键技术,其应用十分广泛。本文从提高分类准确率的角度出发,以《铁路工程地 质勘察规范》(TB1002-2007)的电子文本文档为训练标准,运用自然语言处理的分词原理对文本文档进 行计算机与人工结合分词,然后针对文本文档的分词结果进行特征降维技术处理,对词条计算词频后, 根据词频大小筛选出词频较高的词语作为最终的地质勘察语料库,该语料库包含了地质专业相关术语。 最后利用机器学习对分词后的文本文档进行自动分类,在对比多种分类算法的分类结果后,本文发现针 对地质勘探数据类别不平衡性,选择K近邻分类器对文本文档分类的效果较为理想。