基于机器学习算法的恶意代码检测

合集下载

基于机器学习的恶意代码检测与分类

基于机器学习的恶意代码检测与分类恶意代码（Malware）对计算机系统和网络安全带来了巨大的威胁。

为了防范和应对恶意代码的攻击，研究人员和安全专家们一直在努力开发有效的方法来检测和分类恶意代码。

近年来，机器学习技术在恶意代码检测中展现出了很大的潜力。

本文将介绍基于机器学习的恶意代码检测与分类方法，并深入探讨其应用和挑战。

恶意代码指的是一类具有恶意目的的计算机程序，它们可以对用户享有的信息、计算机系统的安全和隐私造成损害。

恶意代码的种类非常多样化，包括病毒、蠕虫、木马、后门等。

传统的防病毒软件通常采用特征匹配的方法，比对恶意代码的特征库，但由于恶意代码的变种层出不穷，特征匹配方法存在着实时性、准确性和可扩展性的问题。

机器学习技术通过对恶意代码进行特征提取和训练模型，可以学习到恶意代码的潜在模式，并通过模型分类对未知的恶意代码进行检测。

常用的恶意代码特征包括文件头部信息、API调用序列、函数调用图等。

机器学习算法可以根据这些特征学习到恶意代码的模式，从而在未知样本中准确地识别恶意代码。

常见的机器学习算法包括决策树、朴素贝叶斯、支持向量机（SVM）和深度学习等。

这些算法在恶意代码的检测与分类中都有不同的优势和适用场景。

例如，决策树算法可以通过构建树结构快速检测恶意代码，而深度学习算法可以通过神经网络模型从大规模数据中学习到复杂的特征表示。

研究人员还可以根据实际应用场景选择合适的算法，并通过特征选择、参数调优等方法提升模型的性能。

尽管基于机器学习的恶意代码检测方法在实践中取得了很大的成功，但也面临着一些挑战和限制。

首先，恶意代码的变种和演化使得特征提取和模型训练变得更加困难。

恶意代码作者通过对代码的修改和加密等手段来绕过检测，这就要求研究人员不断更新特征库和训练模型。

其次，恶意代码的样本数量庞大，训练模型需要消耗大量的计算资源和时间。

此外，机器学习算法面临着数据不平衡和样本缺失的问题，这会影响模型的准确性和鲁棒性。

基于机器学习的恶意代码检测系统设计与实现

基于机器学习的恶意代码检测系统设计与实现随着互联网的不断发展和普及，计算机安全问题日益引起人们的重视。

恶意代码是目前网络安全领域中最为常见和严重的问题之一。

恶意代码具有隐蔽性强、危害性大、传播速度快等特点，给计算机系统和网络带来极大的威胁。

针对恶意代码的检测和防范已经成为计算机安全领域的重点研究方向之一。

本文将介绍一种基于机器学习的恶意代码检测系统的设计和实现。

1、恶意代码的分类与特征提取恶意代码是指一种能够破坏计算机系统或者网络安全的计算机程序。

从其实现的方式来看，恶意代码可以分为病毒、木马、蠕虫等不同类型。

其中，病毒是一种能够感染其他程序并且随着感染程序的传播而自我复制的恶意代码；木马是一种能够在用户不知情的情况下控制计算机的恶意代码；蠕虫是一种能够在网络中自我传播的恶意代码。

针对不同类型的恶意代码，我们需要对其进行不同特征的提取。

病毒的特征通常包括文件大小、文件头信息、代码结构等；木马的特征则包括端口、网络连接等；蠕虫的特征通常包括网络协议、数据包大小等。

通过对数据集中不同类型的恶意代码进行特征提取和分析，我们可以得到不同类型恶意代码的特征向量。

2、数据集的选择和处理在开发恶意代码检测系统时，我们需要选取一个规模较大且具有代表性的数据集来进行模型训练和测试。

目前，比较流行的恶意代码数据集包括VirusShare、MalwareShare等。

一般来说，选取数据集后需要对其进行基本的预处理，包括数据清洗、去重、标注等。

对于每个样本，我们需要给出其正确的分类标签。

对于恶意代码数据集，分类标签通常可以分为正常文件和恶意文件两类。

3、机器学习模型的选择和训练在进行恶意代码检测时，我们可以利用机器学习技术来训练模型。

目前常用的机器学习算法包括决策树、支持向量机、朴素贝叶斯、随机森林等。

模型训练的过程通常分为特征提取、特征选择、模型选择和参数调整等步骤。

在进行特征选择时，我们需要考虑到恶意代码的隐蔽性和变异性，采用合适的特征选择算法来优化模型的性能。

基于机器学习的恶意代码检测及防范系统设计

基于机器学习的恶意代码检测及防范系统设计恶意代码是指黑客利用漏洞或者社会工程学手段，植入到受害者计算机内的程序，其目的往往是窃取敏感信息、利用计算机进行攻击或传播病毒等破坏性行为。

恶意代码的数量和种类不断增加，给计算机及其用户带来了巨大的安全隐患。

为了对恶意代码进行有效地检测和防范，越来越多的安全行业公司开始采用机器学习技术。

基于机器学习的恶意代码检测和防范系统，是一种由前期采集特征样本，建立模型分类，以及后期检测和响应方式构成的全流程系统。

其核心思想是通过机器学习的算法，对恶意代码的特征进行建模和分类，从而有效地识别和防范恶意代码的传播与攻击。

在建立基于机器学习的恶意代码检测和防范系统时，首先需要完成的是恶意代码的特征抽取。

特征抽取对于分析数据，建立恶意代码的分类模型，具有极其重要的作用。

恶意代码的特征通常包括二进制特征、静态特征和动态特征。

二进制特征是指针对程序二进制码的全局特征进行提取，如指令等。

静态特征是指针对程序的代码和数据进行提取，如API调用、字符串等。

动态特征则是指针对程序在运行时的行为进行提取，如内存、网络流量、文件操作等。

三种不同的特征形式，通过结合分析，可以全面准确地刻画出恶意代码的行为特征，进而对恶意代码进行分类。

为了能够建立有效的机器学习模型，需要在建模过程中选择合适的特征，并对其进行合理的预处理，以便构建出可靠、高性能的分类器。

在进行数据预处理的过程中，需要考虑数据的前后关联性、数据离散化等问题，以便更好地利用分类器进行学习和决策。

一旦恶意代码的特征被提取出来，就可以展开分类器的学习过程。

分类器的学习过程可以采用不同的算法，其中最常用的包括支持向量机(SVM)、朴素贝叶斯分类器、决策树、集成学习和神经网络等。

这些分类器中，有些较为简单，但是在某些领域表现出色，比如朴素贝叶斯分类器适合处理文本分类问题。

有些则强大复杂，但是在某些方面相对缺乏优势，如SVM在处理多类问题时的表现可能不如神经网络。

基于机器学习的恶意代码检测技术研究毕业设计

基于机器学习的恶意代码检测技术研究毕业设计基于机器学习的恶意代码检测技术研究恶意代码（Malware）是指一种有害于计算机系统的软件，可用于获取个人信息、盗窃机密数据、损坏系统功能等不良用途。

随着恶意代码的快速增长和不断进化，传统的恶意代码检测方法已经无法满足实际需求。

因此，基于机器学习的恶意代码检测技术成为了研究热点。

本文将探讨机器学习在恶意代码检测中的应用，并提出一种基于深度学习的恶意代码检测模型。

1. 引言随着互联网的普及和信息化的进步，网络空间中出现了越来越多的恶意代码，给用户的个人隐私和企业的信息安全带来了巨大威胁。

传统的基于特征库的恶意代码检测方法已经不能满足对新型恶意代码的检测要求。

机器学习作为一种智能化的检测方法，具有较强的潜力来应对恶意代码的挑战。

2. 机器学习在恶意代码检测中的应用机器学习是一种通过分析和理解数据，自动获取规律并进行预测和决策的算法。

在恶意代码检测中，机器学习可以通过对大量恶意代码样本的学习，建立一个恶意代码的分类器，从而实现自动化的检测。

2.1 特征提取对于恶意代码的检测，首先需要对代码进行特征提取。

常用的特征包括静态特征和动态特征。

静态特征指的是恶意代码的静态属性，如代码的长度、代码段的密度等；动态特征指的是恶意代码在运行时的行为特征，如文件的读写操作、网络通信等。

2.2 特征选择和降维在进行机器学习时，特征选择和降维是非常重要的步骤。

特征选择可以通过相关性分析、信息增益等方法，选取与恶意代码相关性较高的特征；降维则可以通过主成分分析、线性判别分析等方法将高维特征映射到低维空间，提高模型的效率和准确率。

3. 基于深度学习的恶意代码检测模型深度学习是机器学习领域的一个重要分支，通过构建深层神经网络模型，可以对非线性的恶意代码进行有效的分类和识别。

本文提出了基于深度学习的恶意代码检测模型，主要包括以下几个步骤：3.1 数据预处理在进行深度学习之前，需要对原始数据进行预处理。

基于机器学习的恶意代码检测方法探究

基于机器学习的恶意代码检测方法探究恶意代码是计算机系统中常见的安全威胁之一。

它指的是被黑客用来破坏、盗窃或操纵信息系统的恶意软件或代码。

为了保护计算机系统和用户的信息安全，研究者们提出了各种恶意代码检测方法。

其中，基于机器学习的恶意代码检测方法因其高效性和准确性而备受关注。

人工智能和机器学习技术的迅猛发展为恶意代码检测带来了新的机遇和挑战。

基于机器学习的恶意代码检测方法可以将恶意代码样本与正常代码样本进行区分，提高恶意代码检测的准确率和效率。

它通过学习大量标注好的样本数据集，识别并提取出恶意代码的特征，然后应用这些特征进行分类。

根据是否需要专家手动参与训练，基于机器学习的恶意代码检测方法可以分为有监督学习和无监督学习两种。

有监督学习是目前应用最广泛的恶意代码检测方法之一。

它通过预先标注好的恶意代码和正常代码样本，训练一个分类器来区分未知代码样本的恶意与否。

该方法通常采用支持向量机（SVM）、逻辑回归（LR）和随机森林（Random Forest）等分类算法。

在训练过程中，分类器会学习到不同恶意代码样本的特征和模式，以便在未知样本中进行准确的分类。

然而，有监督学习的一个挑战在于样本标注的工作量较大，需要专家进行恶意代码样本的手动标注。

为了解决样本标注的问题，无监督学习方法应运而生。

无监督学习的恶意代码检测方法不需要预先标注好的样本数据，它通过分析代码的结构、行为和特征等无监督信息，自动发现恶意代码样本的特征和模式。

常用的无监督学习算法包括聚类和异常检测。

聚类算法将相似的恶意代码样本归为一类，将不同类别的代码样本区分开来。

异常检测算法则通过检测与正常代码样本相差较大的恶意代码样本，来实现对恶意代码的检测。

无监督学习方法的优点是不依赖于标注好的样本数据，但是在恶意代码样本数据集较大、变化频繁的情况下，可能会遇到一些挑战。

除了有监督学习和无监督学习，还有一种常见的恶意代码检测方法是深度学习。

深度学习模型利用神经网络的多层结构进行特征学习和分类。

基于机器学习的恶意代码检测与防御技术研究

基于机器学习的恶意代码检测与防御技术研究恶意代码（Malware）在现代网络环境中日益猖獗，给个人和组织带来了严重的安全威胁。

为了保护用户的计算机和隐私安全，研究人员和安全专家一直在努力寻找有效的恶意代码检测与防御技术。

近年来，基于机器学习的恶意代码检测已经成为一个备受关注的研究热点。

本文将深入探讨基于机器学习的恶意代码检测与防御技术的最新研究进展。

一、恶意代码概述与分类恶意代码是指一类具有恶意意图或破坏性的计算机程序，包括计算机病毒、蠕虫、木马等多种形式。

恶意代码通常以隐藏的方式进入系统，然后执行恶意活动，如窃取用户隐私、数据破坏、网络攻击等。

为了更好地对抗恶意代码，研究人员对恶意代码进行了分类，常见的分类方法包括基于行为的分类、基于特征的分类和基于家族的分类。

二、基于机器学习的恶意代码检测技术基于机器学习的恶意代码检测技术是通过分析恶意代码的行为和特征，利用机器学习算法来识别和检测潜在的恶意代码。

相比传统的基于规则的检测方法，基于机器学习的方法具有更强的自学习和适应能力。

目前，常用的基于机器学习的恶意代码检测技术包括特征提取与选择、分类器的训练与优化等。

1. 特征提取与选择特征提取和选择是基于机器学习的恶意代码检测的重要步骤。

在恶意代码检测中，有效的特征能够准确地区分恶意代码和正常代码。

一些常用的特征包括API调用序列、二进制指令序列、系统调用序列等。

同时，为了提高检测效果，研究人员还对特征进行了选择和优化。

2. 分类器的训练与优化在特征提取与选择之后，需要使用机器学习算法训练分类器，将恶意代码与正常代码进行区分。

常见的机器学习算法包括支持向量机（SVM）、决策树、随机森林等。

此外，为了优化分类器的性能，一些研究还引入了集成学习、深度学习等技术。

三、恶意代码防御技术除了恶意代码检测，恶意代码防御技术也是保护计算机和网络安全的重要环节。

基于机器学习的恶意代码防御技术主要包括行为监测、异常检测和沙箱等。

基于机器学习的恶意代码检测技术

基于机器学习的恶意代码检测技术一、引言随着互联网的快速发展，恶意代码越来越普遍。

恶意代码能够侵害用户的隐私、盗取个人信息、破坏计算机系统甚至引起经济损失。

因此，开发恶意代码检测技术变得至关重要。

在过去的几十年里，恶意代码检测技术不断发展，从基于特征的检测技术到基于机器学习的检测技术。

本文将从机器学习角度探讨恶意代码检测技术。

二、基于特征的恶意代码检测技术基于特征的恶意代码检测技术是早期被开发的技术。

该技术从代码的特征入手，分析代码的功能、结构、行为等信息来判断代码是否是恶意代码。

常用的特征包括文件大小、使用的API函数、代码段和数据段的长度等。

但是，随着技术不断发展，恶意代码变得越来越复杂，很难从特征中准确地识别恶意代码。

另外，攻击者会不断地对恶意代码进行变异，使得基于特征的检测技术无法及时地适应变异后的恶意代码。

因此，基于特征的检测方法已经被机器学习的方法所替代。

三、基于机器学习的恶意代码检测技术基于机器学习的恶意代码检测技术是目前最为流行的检测技术之一。

该技术利用机器学习算法从大量的数据中学习，可以自动地提取恶意代码的特征，并可以适应恶意代码的变异。

1. 数据收集和准备在基于机器学习的恶意代码检测技术中，数据的收集和准备是非常重要的一个环节。

恶意代码数据的来源可以是公共数据库、恶意代码样本库、黑客论坛以及其他来源。

在准备数据时，需要对数据进行清洗、去重和标注。

数据清洗是为了剔除无效数据，去重是为了避免训练数据重复，标注是为了对恶意代码和正常代码进行区分。

2. 特征提取特征提取是机器学习检测技术的关键步骤之一。

提取恶意代码的特征需要考虑到特征的全面性和重要性。

通常，特征可以包括二进制特征、API调用特征、图像特征和文本特征等。

在恶意代码检测中，二进制特征是最基础的特征，用于描述代码的结构和实现。

API调用特征是用于描述代码调用的API函数，可以反映代码的行为和功能。

图像特征和文本特征则用于描述代码的可视化和语言特性。

基于机器学习的恶意代码检测与防范

基于机器学习的恶意代码检测与防范在当今数字时代，计算机的应用已经深深地渗透到了我们的日常生活中，越来越多的人选择利用计算机来完成个人和企业的业务，但是随着互联网的发展，恶意代码泛滥成灾，已经成为了威胁我们计算机系统安全的主要问题之一。

因此，我们需要寻求一种更有效、更精确、更快捷的检测和防范恶意代码的方法。

而机器学习技术正是一种值得探索的方法。

1. 什么是机器学习？机器学习（Machine Learning）是一种人工智能技术，在不需要人手工编写专门针对某一问题的算法的情况下，让机器在指定的数据集上训练和学习，自动产生预测模型和模式，从而达到对新数据进行准确分类、识别和预测的目标。

相比人工编写的算法，机器学习技术在处理复杂的数据上具有更高的精度和可拓展性。

2. 机器学习在恶意代码检测中的应用作为一个新兴技术，机器学习已经开始在恶意代码的检测和防范中应用。

恶意软件通常具有隐蔽性和变异性，对于传统的恶意软件检测方法来说，这些恶意软件往往可以通过改变文件名、文件结构等方式逃避检测，从而导致误报、漏报等情况的发生。

而机器学习技术则可以让计算机对样本数据进行学习和训练，自动产生新的预测模型和模式，从而对未知的恶意代码进行准确分类和预测。

3. 机器学习在恶意代码检测中的操作流程在机器学习技术中，监督学习、无监督学习和深度学习是比较常见的方法。

通常的恶意代码检测过程中，首先要构建一个数据集，这个数据集包含了有恶意代码和无恶意代码的样本数据。

然后，将这些数据传给机器学习算法，进行学习和训练。

在训练完成后，机器学习算法会自动生成一个预测模型，这个预测模型可以对新的恶意文件进行分类和预测。

值得注意的是，在机器学习中，数据的质量和数据的量是非常重要的。

如果样本数据不足或者样本数据存在偏差，就会导致机器学习模型的误差。

因此，构建一个高质量的数据集是非常关键的。

4. 机器学习在恶意代码检测中的应用局限尽管机器学习技术在恶意代码检测中具有很多的优势，但是我们也不能忽视它的局限性。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

机器学习算法
监督学习
统计分类回归分析
无监督学习
聚类关联规则
机器学习常见算法分类汇总 LOGO
决策树
朴素贝叶斯
逻辑回归
KNN
监督学习算法
机器学习常见算法分类汇总 LOGO
SVM
神经网络
随机森林
监督学习算法
机器学习常见算法分类汇总 LOGO
AdaBoost
遗传算法
算法优化
机器学习常见算法分类汇总 LOGO
2、基于代码语义的分析方法
• 要求考虑构成恶意代码的指令的含义，通过理解指令语义建立恶意代码的流程图和功能框图，进一步分析恶意代码的功能结构。
恶意代码
基于代码特征的分析方法
常用于对执行程序类型的恶意代码进行分析 c语言编写的程序中存在一条语句 CreateMuetex(NULL,NULL,“MYTEST”);那么在生成的PE文件中会存在一个静态数据 “MYTEST”，通过分析PE结构可以从静态数据节中提取静态数据。用C语言编写的恶意代码中使用下面的语句 URLDownloadToFile(0,"http://www.microsoft.c om/a.exe","c:\\a.exe",0,0)从网站下载可执行程序到C盘根目录，这个动作很有可能是进行恶意代码升级
机器学习常见算法分类汇总
1、背景
LOGO
机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。即从数据中自动分析获得规律，并利用规律对未知数据进行预测的算法。
2、机器学习算法的定义：
实现方法 LOGO
（1）定义和训练一个算法： a) 计算一直感染恶意软件系统的处理器和内存的平均使用情况。 b 计算已知正常的系统的处理器和内存平均使用情况。（2）使用处理器和内存使用情况来预测未知系统是否感染恶意软件： a）如果处理器和内存使用情况更接近感染主机的平均情况，将该系统标记为已感染。 b）如果处理器和内存使用情况更接近正常主机的平均使用情况，将该系统标记为正常。
注意：归一化化定义：归一化化就是要把你需要处理的数据经过处理后（通过某种算法）限制在你需要的一定范围内。首先归一化是为了后面数据处理的方便，其次是保正程序运行时收敛加快。线性函数转换： y=(xMinValue)/(MaxValue-MinValue)
实现方法 LOGO
实现方法 LOGO
第二步，对数据进行预测。从需要检测的数据中，选取其中的 “proc”和“mem”值，然后计算这些值与刚才在算法训练过程中得到的均值距离有多远。在这里，我们采用了几何中的勾股定理：a² +b² =c² ，公式中a和吧是三角的两条边，c是斜边。此处，a是训练和你测试得到的两个proc值的差，b是训练和测试得到的mem值的差。得到这两个距离后，仅作比较即可。
机器学习检测恶意代码基本框架 LOGO
主要分为以下五个步骤：第一步：特征提取，可分为两类：1、静态特征，如字节序列，PE字符串序列等；2、动态特征，如API系统调用序列、文件与进程操作等。第二步：特征处理，便于后续学习。方法主要两类：1、不进行任何处理，直接选择提取的特征信息；2、利用N-gram滑动窗口，提取特征序列。第三步：特征降维，如信息增益、Relife、Fisher、SHI等。第四步：分类学习，对降维处理后的数据集利用不同学习算法，如决策树、支持向量机、贝叶斯估计等，进行学习，利用学习的分类器对测试集进行测试。第五步：对测试集进行分析与评估。
基于机器学习算法的恶意代码检测
机器学习算法检测恶意代码 LOGO 情景假设
天津理工大学计算机机房总共750台电脑，由于某种原因，机房内的电脑突然出现卡顿，上网异常等奇怪现象，花费一番精力后，已经检查了250台计算机，发现有些系统已经感染了恶意代码，有些则是正常的。但是还有500台机子没有检查，于是王老师交代给小王一个任务，现在想要使用一种省时可行的方案来判断这500台计算机是否感染了恶意代码。
关于恶意代码检测的想法 LOGO
根据恶意代码API调用序列特征生成动作曲线，多个动作曲线重合概率较多的点筛选出，这些点称为可以动作点，将可疑动作点拟合为可疑动作曲线，根据可疑动作曲线的重合率判断恶意代码，利用贝叶斯算法测试。 1.典型恶意代码API调用序列
2.可疑动作曲线的优点在于相比于典型恶意代码API，减少API序列的随机性，进而减少漏判误判。
机器学习是一种让计算机在没有事先明确地编程的情况下做出正确反应的科学。
3、算法
机器学习的算法很多。让人们困惑的是，很多算法是一类算法，而有些算法又是从其他算法中延伸出来的。这里，我们从两个方面来给大家介绍：
学习方式
机器学习常见算法分类汇总 LOGO
机器学习算法的主要任务是分类和回归。分类主要应用于离散型数据，回归主要用于预测数值型连续的数据，例如拟合曲线等。使用机器学习算法首先考虑目的，如果想要预测目标变量，则可以选择监督学习算法，否则可以选择无监督学习算法。其次考虑数据问题，主要了解特征值是离散还是连续，是否存在缺失及异常。一般来说发现好算法的关键是反复试错的迭代过程。——《机器学习实战》
关于恶意代码检测的想法 LOGO
Polymorphic（多态化）模糊流程
关于恶意代码检测的想法 LOGO
提取恶意代码动态行为特征分析检测基本架构如左图所示。第一步：搭建运行恶意代码的虚拟环境，便于加壳等一些处理过的恶意代码分析。第二步：虚拟环境中执行恶意代码，并提取恶意代码动态行为语义特征。本课题选取恶意代码执行期间调用的API序列作为语义特征。第三步:使用提取的语义特征进行模型建立，即组织语义信息建立语义模型。本课题对运行API调用序列加工，抽象为代表语义特征的动作曲线。第四步：建立模型库，采用朴素贝叶斯进行检测。注释：后期会考虑贝叶斯计算使用 MapReduce进行并行计算优化，提升计算效率。
机器学习算法检测恶意代码 LOGO
机器算法恶检测意代码的思路： cpu、内存使用情况检测恶意代码
尝试编写一串指令来了解正常主机处理器和内存使用情况，然后同被感染主机上的处理器和内存使用情况进行比较。一旦发现这两组数据集中有一些不同的信息，就可以向计算机发送指令将这些信息应用到收集到从未知 /未分类的系统收集的数据上。这样，让计算机来判断系统是否感染上恶意代码。
恶意代码
恶意代码的分析方法
静态分析方法
• 是在不运行恶意代码的情况下，利用分析工具对恶意代码的静态特征和功能模块进行分析的方法
动态分析方法
• 是通过监视恶意代码运行过程从而了解恶意代码功能。
恶意代码
静态分析方法
1、基于代码特征的分析方法
• 分析过程中，不考虑恶意代码的指令意义，而是分析指令的统计特性、代码的结构特性等。
实现方法 LOGO
将记录的所有系统的内存和处理器的使用情况保存在一个execel文件中， host记录了主机名，proc和mem分别记录了cpu和内存的使用情况，而 state记录了是否感染恶意代码，部分数据述算法的第一步，即分别计算被感染和正常系统中处理器和内存的平均使用情况。 R代码: inf <- colMeans(train[train$state=="Infected", c("proc", "mem")]) nrm <- colMeans(train[train$state=="Normal", c("proc", "mem")]) print(inf) ## proc mem ## 1.152025 1.201779 print(nrm) ## proc mem ## -0.8701412 -0.9386983 从注释中输出的均值容易发现，感染和未感染恶意代码的均值间差异较大，所以这个方法可以较好的实现算法。
恶意代码分析方法比较
分析内容隐藏功能加密功能触发功能自启动功能自主攻击和繁殖功能破坏功能对分析人员的依赖程度对分析环境的破坏低否能代码特征分析法代码语义分析法能能能能能能较高否能部分部分低大外部观察法
LOGO
跟踪调试法能能能能能能高可控
1、通过网络进行传播、繁殖和拒绝服务攻击等破坏活动 2、通过网络进行诈骗等犯罪活动 3、通过网络将搜集到的机密信息传递给恶意代码的控制者 4、在本地开启一些端口、服务等后门等待恶意代码控制者对受害主机的控制访问
恶意代码
跟踪调试法
在实际分析过程中，跟踪调试可以有两种方法。
1.单步跟踪恶意代码执行过程，监视恶意代码的每一个执行步骤，在分析过程中也可以在适当的时候执行恶意代码的一个片断，这种分析方法可以全面监视恶意代码的执行过程，但是分析过程相当耗时。 2.利用系统hook技术监视恶意代码执行过程中的系统调用和API使用状态来分析恶意代码的功能，这种方法经常用于恶意代码检测。
R代码：
predict.malware <- function(data) { proc <- as.numeric(data[['proc']]) mem <- as.numeric(data[['mem']]) inf.a <- inf['proc'] - proc inf.b <- inf['mem'] – mem inf.dist <- sqrt(inf.a^2 + inf.b^2) nrm.a <- nrm['proc'] - proc nrm.b <- nrm['mem'] - mem nrm.dist <- sqrt(nrm.a^2 + nrm.b^2) ifelse(inf.dist<nrm.dist,"Infected", "Normal") sum(test$state==prediction)/nrow(test)