邮件应用行为模式分析

合集下载

邮政企业营销模式问题及对策分析

邮政企业营销模式问题及对策分析

邮政企业营销模式问题及对策分析摘要近年来,随着我国经济发展水平的提高,电子商务产业快速发展,邮政速递服务工作而临新的机遇和挑战。

现如今,快递服务业已经深入人们的日常生活,为人们生活带去便利,成为解决人们递送事务不可或缺的一部分,但同时,服务过程中出现一系列问题,制约了快递行业发展。

满足客户需求,提髙服务质量,提髙客户满意度,是当前有待探讨解决的问题。

本文以中国邮政速递物流股份有限公司为例, 分析速递服务存在的问题和原因,对中国邮政速递物流股份有限公司提髙服务质量的对策与措施进行研究和探讨。

关键词:邮政速递物流服务质量提升对策一、引言进入21世纪,随着加入WTO.我国经济发展空间更大,经济持续繁荣和对外贸易的快速增长,快递业把握机遇、迎接挑战。

目前我国有8000多家快递企业,从业人员达到90多万,每天的寄件量在两千万件以上,已经跃升为全球第二大的快递国度。

随着快递业的快速增长,服务中的各种质量问题也逐渐邸露出来。

快递业是在传统运输业的基础上,伴随着信息产业和国际贸易的发展而兴起的新型现代服务业。

快递业务是竞争性业务,快递市场是一个发展迅速、潜力巨大、竞争激烈的市场。

随着中国对外开放步伐的加大和流通领域的变革,快递企业原有的低劳动力成本和价格优势已经不能成为有效的竞争手段,不规范的市场经营秩序只会造成混乱,增加企业经营成本,最终损害消费者和企业的利益。

提髙快递行业服务质量已经势在必行。

快递业的出现,更好地满足了社会对物品快捷、安全的运送需求,对经济社会的发展和人们生活需求的满足起了积极的作用。

随着快递服务需求的不断增加,快递服务质量也日益成为广大客户关注的焦点。

然而,由于各方而因素的影响,我国快递企业的服务质量从整体上说并不理想,存在一些突出的问题,引发了客户许多的不满和抱怨,较大程度地阻碍了其更好地发展。

当今经济社会中,服务占有重要的地位。

无论在传统的服务性行业还是制造业领域,人们都把创造增值性的服务当作竞争优势的重要手段。

赢在卓越

赢在卓越

赢在卓越在实习期间实习时遇到了一些事情是之前可先用四步行为模式进行分析的。

在实习期间是需要进行快件投递和收寄的,先分析一下快件投递,当时是没有与收件人提前联系,而是直接到收件地址处,再和收件人联系。

完全是每次投递都是凭运气的,这样会造成对邮件妥投数量下降。

导致妥投率降低,从个人方面说就是会影响个人的利益,会使个人的收益降低。

从企业方面说就是会影响企业信誉会导致以后客户不再使用企业业务。

在上课的时候老师说过如果这种认知一旦造成,会很难改变的。

除非再提供6次优质的服务,并且这6次的服务间不出现任何差错,才会让客户对企业再次充满信心并开始使用企业的业务。

下面再分析邮件的收寄,实习期间我和EMS的收寄人员一起进行实习工作的时候,会进行快件的收寄,因为快件的收寄是一天随时随地进行的。

尤其是在给写字楼送快件时会遇到有的客户需要寄件。

也是如果我们在他们就可以寄件,有的写字楼里的部分公司是EMS的大客户。

我们有时候在中午的时候就会忽略大客户上午有没有需要寄出去的快件。

如果没有最好,如果要是有而我们没有联系客户就会对双方造成不必要的影响。

首先,会影响客户的工作效率和收件人的工作进度不能及时完成,因为如果中午将快件收寄成功,下午就能将快件寄出去。

对我们收寄人员也是有影响的。

如果骑电动三轮车还好,对开车的收寄人员就会很麻烦了。

因为如果刚从寄件人的单位离开,而寄件人这时候打电话,我们就要掉头回去再次进行收件。

影响工作效率。

下面我用四步行为模式分析一下,我刚才所描述的两种工作。

在进行邮件投递工作时,可以在邮件投递前,提前5到10分钟和收件人联系,确定好收件地点和收件时间,尤其是公司的文件和大客户的快件会很重要!要提前联系,有的公司会在早上开早会,收件人可能会收不到,就需要我们提前联系好收件人,如果有影响收取快递的事情我们也可以提前送或稍稍延后时间再送,这样既能将快件在第一时间送到收件人手中,也能使妥投率提高。

也使客户的使用体验提升。

反垃圾邮件技术的原理和技术

反垃圾邮件技术的原理和技术

反垃圾邮件技术的原理和技术随着互联网的普及,每天都有大量的电子邮件发送和接收,但同时也随之而来的是数量庞大的垃圾邮件。

垃圾邮件给用户带来了很多不便和烦恼,因此,反垃圾邮件技术应运而生。

本文将介绍反垃圾邮件技术的原理和技术。

一、什么是垃圾邮件?垃圾邮件,也称为广告邮件,是指在未经用户同意的情况下,向用户大量发送的未经请求的电子邮件。

垃圾邮件不仅会增加网络流量和服务器负载,而且也会像病毒一样传播,给用户带来安全问题和骚扰。

二、反垃圾邮件技术的原理反垃圾邮件技术是指通过各种技术手段来自动识别和过滤垃圾邮件,并将其拦截、删除或标记。

其原理主要包括以下几个方面:1. 黑白名单过滤黑白名单过滤是最基本的反垃圾邮件技术之一。

黑名单是指收件人能够加入到一个列表中的 IP 地址,域名或电子邮件地址,所有这些列表中的内容都视为垃圾邮件,并自动过滤或标记。

而白名单则是可信来源的域名或邮件服务器的列表,只有白名单中的内容才能通过过滤器。

当然,这种方法的缺陷是无法识别新的垃圾邮件。

2. 模式识别和文本分析垃圾邮件的内容往往带有某些特征和词句。

采用模式识别和文本分析技术可以根据垃圾邮件的内容、结构、格式等信息,自动检测不良邮件。

根据这些特征,可以建立模式库,利用机器学习算法对垃圾邮件进行分类。

3. 邮件头信息检测邮件头包括发件人、收件人、主题、日期、邮件大小等信息。

反垃圾邮件技术可以通过检查邮件头来判断垃圾邮件。

例如,发件人和邮件服务器 IP 地址不匹配、邮件中的主题行与邮件正文不符等。

4. 邮箱维度的判定反垃圾邮件技术可以根据用户邮箱的行为特征来识别垃圾邮件。

例如,一个非常活跃的用户,很少接受来自新用户的邮件,如果突然接受了很多新用户的邮件,那么就有可能是垃圾邮件。

三、反垃圾邮件技术的实现如何实现反垃圾邮件技术?实现反垃圾邮件技术需要通过以下几个方法:1. 垃圾邮件服务器过滤这种方式是基于规则的过滤。

邮件服务器可以设置过滤规则,对收到的邮件进行分类和处理。

基于行为模式识别的反垃圾邮件技术

基于行为模式识别的反垃圾邮件技术
Ke r s d sr n t g a t n p t m ; a s l i t n frp o o o y wo d : i i c m ai c o at s m; mp emal r s r t c l i n i e p i a e
1引 言
垃圾 邮件 , 即那 些 不 请 自来 、 匿名 或嫁 祸他 人 、 有 主动 性 和 精 确性 的优 点 。 关 键 词 : 为模 式识 别 ; 行 垃圾 邮件 ; 单 邮件 传 输 协 议 简
中图分类号 : P 9 T 33
文献标识码 A
文章编号 :0 9 3 4 (0 70 - 0 5 _ 2 1 0 — 0 42 0 )4 1 9 7 0
维普资讯
本栏 贲 辑: 蕾 目 任编 冯
・ ・ ・ ・ ・ ・网 络 通 讯 与 安 全 ・
基于行 为模 式识别 的反垃圾 邮件技术
何 建 昭 ’梁 晓诚 。 红 宾 ’ 。 郭 ( . 林 工 学 院 电 计 系, 西 桂 林 5 1 0 ; . 林 工 学 院现 教 中心 , 西 桂 林 5 1 0 ) 1 桂 广 4042 桂 广 40 4 摘 要 : 析 邮件 传 送 机 制 及 传 统 反 垃 圾 邮件 技 术 , 基 于 行 为 模 式 识 别 的 垃 圾 邮 件 处 理 技 术 技 术 进 行 了建 模 与 处 理 流 程描 述 , 发 分 对 对 送垃 圾 行 为进 行 了分 类 . 对 不 同行 为做 到 了从 源 头上 , 理 上 控 制 垃 圾 邮 件 的 传播 。 究分 析认 为 , 行 为模 式识 别 技 术 应 用 于 垃圾 邮 针 原 研 将
Anis a Te h oo y b s d o s r ia ig Acin P t r t— p m c n lg a e n Dici n t t at n — m n o e

顺丰快递经营模式完全解析

顺丰快递经营模式完全解析

顺丰快递经营模式完整分析顺丰是当下最热点的公司之一。

固然它是一家快递公司,但谁也没把它不过看做快递公司。

这是一家什么样的公司——快递公司?物流公司?金融支付公司?大数据公司?记者历经数周采访检查,甚至访遍了深圳市福田区新洲十一街万基商务大厦顺丰总部的每一个楼层。

我们从两个角度来看顺丰公司。

第一个角度,我们没法否定顺丰是一家好公司,是一家有规模的公司,是一家有收益的公司。

第二个角度,我们从思疑主义角度出发,顺丰能不可以成为一家拥有国际管理水平、国际视线和国际竞争力的巨头公司?它能够和联邦快递匹敌吗?在以互联网为核心的家产重构期间,这个以前拒绝过马云和马化腾合作的公司,此刻特别值得亲密关注。

顺丰 20 年融资破冰今年 10 月,记者曾以快递员的身份,到达了坐落于深圳市福田区新洲十一街的万基商务大厦。

这栋 26 层高的大楼门前只有两条车道,而且不像众多媒体公司那样将 LOGO 放在惹眼处。

这就是顺丰速运 (公司 )有限公司的总部。

“它(顺丰 )太低调,低调到不想被人发现。

当年我入职时,下公交后在这邻近找了半天”,一名顺丰内部人士回想。

顺丰据有万基商务大厦大多数楼层,物业管理交给了福田当地地产商金地公司。

每层顺丰办宣布局基本上一致。

落地玻璃门上刻有 SF 字样。

走廊上两个挂壁电视循环播放寄快递规范指南。

记者到达大厦门口时,恰逢 CEO 王卫与客户洽商完成,从顺丰前台方向走出。

约 1 米 75 的身高,身材稍微发胖,皮肤白净。

王卫身穿浅蓝色的工作衬衫,休闲款的白色裤子,脖子上挂着工作牌,笑着送走一身西装革履的客户。

正是这个人,正在改变和塑造着整个快递行业、甚至是更多行业的生态。

王卫的顺丰疆域不只于快递业务。

依据第三方机构尽责检查报告,王卫经过五大控股实体,控制旗下快递、电商、航空、信息系统、呼喊中心、第三方支付等业务。

早在几年前,顺丰速运就低调注册了“顺丰银行”、“顺丰支付”等金融类域名。

截止今年,顺丰旗下已有 31 架全货机 (12 架自有 19 架租用 )、 5000 多个营业网点、 150 余个一、二级中转场和一万多台运营车辆。

邮箱分析报告

邮箱分析报告

邮箱分析报告1. 引言本文档旨在通过分析邮箱的使用情况和特征,揭示用户邮箱使用习惯和行为模式,以及对相关数据进行统计和分析,为用户提供更好的邮箱管理和使用建议。

2. 数据收集与处理在这个分析报告中,我们采用了以下数据收集和处理的步骤:1.邮箱数据的收集:我们通过合作伙伴的授权获得了一部分用户的邮箱数据,包括发送和接收邮件的时间、主题、内容等信息。

2.数据清洗与处理:对于收集到的数据,我们进行了清洗和处理,包括去除重复数据、过滤无效邮件和垃圾邮件等。

3. 用户邮箱使用情况分析通过对收集到的数据进行统计和分析,我们得出了以下用户邮箱使用情况的结论:•邮箱使用时段:大多数用户在工作日上午9点至下午5点之间使用邮箱,而在晚上10点后,用户的邮件活动减少。

•邮件发送频率:用户在一周内最频繁发送邮件的时间是周一至周三,而周四和周五发送邮件的频率相对较低。

•邮件接收频率:用户在工作日接收邮件的频率高于周末,其中周一和周二是接收邮件最多的两天。

4. 用户行为模式分析除了用户邮箱使用的情况,我们还对用户的行为模式进行了分析,得出以下结论:•关键词分析:用户在邮件主题和正文中经常使用的关键词包括“重要”、“紧急”、“会议”和“报告”等,这些关键词可以反映用户的工作重点。

•邮件交互分析:通过对邮件的收发情况进行分析,我们发现某些用户之间的邮件交互频率较高,可能是同事或合作伙伴。

5. 邮箱管理与使用建议基于以上分析结果,我们提供以下邮箱管理和使用建议:1.合理安排邮箱使用时间:根据用户邮箱使用情况的统计结果,建议用户在工作日上午9点至下午5点之间集中处理邮件,避免晚上工作。

2.提高邮件效率:为了提高邮件处理效率,用户可以使用邮件过滤器功能,将重要邮件和垃圾邮件分类,避免在处理垃圾邮件上浪费时间。

3.管理邮件关键词:为了更好地识别重要邮件,用户可以设置关键词过滤器,将包含关键词的邮件自动标记或提醒,以便及时处理。

4.改善邮件交互质量:对于频繁交互的邮件联系人,建议建立良好的沟通渠道,并及时回复和处理对方的邮件,以提升工作效率。

组织行为学作业-邮件门案例分析

组织行为学作业-邮件门案例分析

案例“邮件门”风波周五晚上,某跨国公司中国区总裁伍先生回办公室取东西。

到门口才发现自己没带钥匙,而此时他的秘书已经下班。

气呼呼的他在第二天凌晨通过内部电子邮件系统给秘书发了一封措辞严厉的“谴责信”.还同时抄送给公司的一位同事。

信的全文如下:瑞贝卡(秘书的英文名),这个礼拜二我刚告诉你,想东西、做事情不要想当然,今天晚上你就把我锁在门外,我要的东西都还在办公室里。

问题就在于你以为我随身带了钥匙。

从现在起,无论是午餐时段还是晚上下班后,你要向相关的每一位经理都确认无事后才能离开办公室,明白了吗? 两天后,秘书用中文给总裁回信,语气强硬,措辞严厉,丝毫不输来信。

她声明了六点意见,大意为:锁门是为了安全;总裁有钥匙忘带是自己不对,不要把自己的错误转移到别人的身上;中午和晚上下班后是私人时间,总裁无权干涉;虽是上下级关系,但请总裁说话注意语气。

秘书把这封信连同总裁的原信抄送给了中国区的所有员工,包括北京、成都、上海、广州等地。

之后,全国所有知名外企都在疯狂转发这封来自该公司的电子邮件。

这起本该在企业内部消化的事件,在数天之内成为各大外企员工和网络舆论谈论的热点。

秘书PK 老板的事件以秘书辞职而告终,但是却引发了众多反思。

讨论题1.你认为该公司总裁和秘书之间出现分歧时双方采取的做法是否值得商榷?他们是否都要为引起冲突而负责?2.双方在沟通的过程中存在哪些障碍?该事件会对该公司总裁和秘书产生怎样的影响?3.电子邮件是一种合适的沟通手段吗?4.怎样实现跨文化的有效沟通?请你结合案例谈自己的看法。

答案参考1.值得商榷。

关于钥匙的问题,总裁确实不占理,因此信的要求本身不合理。

但是秘书不顾公司形象不考虑可能的后果,将两封信抄送给中国区全部员工更加致命。

总裁的忘记带钥匙是事件导火索,而事件的根本原因是双方都没有做好有效沟通。

双方都需要为此次冲突负责。

2. A. 发送者本身写信的目的就不对,关于钥匙问题是他本身问题,严格意义上讲不能怪罪秘书失职。

移动网络钓鱼邮件检测技术

移动网络钓鱼邮件检测技术

移动网络钓鱼邮件检测技术随着移动互联网的快速发展,人们越来越频繁地使用手机和其他移动设备上网,然而网络钓鱼邮件的威胁也日益增多。

为了保护用户免受网络钓鱼攻击,移动网络钓鱼邮件检测技术应运而生。

本文将介绍移动网络钓鱼邮件检测技术的原理和应用。

一、移动网络钓鱼邮件的概念及危害网络钓鱼邮件是一种骗取用户个人信息的网络诈骗手段。

钓鱼邮件通常伪装成合法机构或个人发送的邮件,诱骗用户点击链接、下载恶意软件或输入个人敏感信息。

一旦用户中招,个人隐私和财产安全就会受到威胁。

二、移动网络钓鱼邮件检测技术的原理移动网络钓鱼邮件检测技术主要通过以下几个方面来辨别钓鱼邮件:1. 内容分析:该技术利用自然语言处理和机器学习算法分析邮件的内容,判断是否存在钓鱼特征。

例如,检测是否有恶意网址、虚假的邮件头部等。

2. 链接扫描:移动网络钓鱼邮件检测技术会提取邮件中的链接,并对链接进行扫描。

扫描的方式包括加密哈希等技术,以判断链接是否为恶意网址。

3. 发件人身份验证:该技术通过验证发件人的身份信息,比对其域名、IP地址等信息是否与已知的合法发件人相符。

同时,也可以通过反垃圾邮件技术对发件人进行评估。

4. 用户行为分析:移动网络钓鱼邮件检测技术还会分析用户的行为模式,检测是否存在异常。

例如,用户在收到邮件后频繁点击链接等。

三、移动网络钓鱼邮件检测技术的应用移动网络钓鱼邮件检测技术已经广泛应用于移动设备的安全防护中。

以下是一些主要的应用场景:1. 电子邮件客户端的安全筛选:移动设备上的电子邮件客户端可以通过移动网络钓鱼邮件检测技术,在用户收到邮件时进行自动检测和筛选,将可疑邮件置于垃圾箱或提示用户进行相关操作。

2. 浏览器插件的安全防护:一些浏览器插件和应用程序可以集成移动网络钓鱼邮件检测技术,帮助用户实时阻止访问钓鱼网站,避免受到网络钓鱼攻击。

3. 移动应用程序的防护:一些安全应用程序可以通过移动网络钓鱼邮件检测技术,监控用户手机上的邮件应用程序,并对邮件进行实时检测,提供警告和保护措施。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

邮件应用行为模式监测工具相关技术讨论分析
1、邮件应用行为模式监测工具技术介绍
1.1黑白名单技术
黑名单(Black List)和白名单(White List)分别是己知的垃圾邮件发送者和可信任发送者的IP地址或邮件地址。

黑名单技术是最早出现的一种垃圾邮件过滤技术,一般的邮件服务器都有该功能。

黑名单技术的原理是确定已知垃圾邮件制造者及其ISP 的域名或IP地址、电子邮件地址,将其整理成黑名单,将黑名单部署在处理网关处,拒绝任何来自黑名单上的垃圾邮件制造者的邮件。

白名单的原理是拒绝接收任何邮件,除非用户的邮件地址在白名单上。

白名单提供两种使用方式:一种方法是用户阻止不在名单上的信件;另一种方式是系统邮件发送者发送信件,要求其回复,以证实确有邮件发送者其人,经过确认后将其列入白名单中。

该技术的优点是不占用计算机资源,易于实施;缺点是需要手动维护黑白名单。

由于垃圾邮件发送者经常修改和伪造他们的IP地址和邮件地址以逃避反垃圾邮件手段的检测,因此该方案在总体的垃圾邮件解决方案中仅起补充作用。

1.2反向域名验证(基于邮箱地址可信度的管控工具涉及)
该技术对邮件发送者的IP地址进行逆向名字解析,通过DNS查询来判断发送者的IP与其声称的名字是否一致,来判断是否是垃圾邮件。

如果反向DNS查找提供的域与邮件上的来源IP地址相符合,该邮件被接受。

如果不符合,该邮件被拒绝。

由于很多反向DNS目录未被有效建立,或无法正常建立,比如,任何”vanity”域名绝大多数情况下没有一个正确的反向DNS查找。

在这种情况下,由这些域发送的邮件将被阻断,造成不可接受的高误报率。

1.3关键词过滤
关键词过滤是一种基于内容检查的过滤技术,通常创建一些简单或复杂的与垃圾邮件关联的单词表来识别和处理垃圾邮件,比如”免费”、”色情”等在垃圾邮件中经常出现的词语。

该方法通过对邮件的信头、信体、附件的内容进行检查,判定是否符合过滤规则,从而判定是否为垃圾邮件。

这是一种简单的内容过滤方式来处理垃圾邮件,它的基础是必须创建一个庞大的过滤关键词列表。

这种技术缺陷很明显,过滤的能力同关键词有明显的联系,关键词列表造成漏报、错报的可能性比较大。

垃圾邮件发送者经常会采用一些躲避关键词的技术,比如拆词、组词、将一些单词拼错,以图饶过词语过滤器,所以过滤关键词需要经常升级,以适应新的需要。

现在的邮件群发软件做的也越来越智能了,由其自动生成和发送的垃圾邮件是随机生成的,不但能随机生成邮件的发件人、收件人和邮件主题,还能随机生成邮件的内容,使得该种技术目前应用范围日趋狭窄。

1.4基于规则评分的过滤技术(规则管理模块涉及)
这是一种集合了人工智能技术的应用技术。

该技术对邮件进行规则判断。

在规则中,每条规则对应一个分数,当邮件符合某一条规则时,就给邮件增加相应的分数,分数越高,该邮件是垃圾邮件的可能性就越高,得分超过一定值时,该邮件将被分类为垃圾邮件。

该技术过滤准确率可以达到90%,但不能检测新的垃圾邮件,即漏检率高。

为了能使评分有效,规则需要经常更新。


1.5贝叶斯过滤法
贝叶斯算法是以著名数学家托马斯.贝叶斯(Thomas 贝叶斯)(1702-1761)命名的一种基于概率分析的可能性推理理论,通过分析过去事件的知识,来预测未来的事件。

贝叶斯过滤法对大量用户已经判定的垃圾邮件和合法邮件进行学习,根据垃圾
邮件和合法邮件中相同词语及短语出现的概率对比来确定垃圾邮件的可能性。

贝叶斯过滤法可以通过不断地学习来适应垃圾邮件的新规则。

贝叶斯过滤法是阻断垃圾邮件最为精确的技术之一,过滤准确率可以达到99%,但过滤准确性依赖大量的历史数据。

1.6 基于行为模式识别的过滤
垃圾邮件行为模式识别是在对大量垃圾邮件样本进行统计、分析和计算的基础上,建立垃圾邮件行为模式数学模型。

其中发信行为特征包括时间、频度、发送IP、协议声明特征、发送指纹等。

这种模型采用概率统计数学模型对垃圾邮件进行分析和统计,在理论计算上有着90%以上的垃圾邮件区分度。

这种技术在实际应用中不仅可以提高垃圾邮件的识别率,而且不需要对信件的全部内容进行扫描,从而极大地提高了计算处理能力;同时,由于行为模式识别技术对邮件的判定准则与邮件内容无关,可最大限度地确保其正常通信不受影响。

基于上述表1的比较,这里我们根据邮件系统实际应用需求暂时确定以朴素贝叶斯(或者SVM,具体使用哪种会根据线下实验结果模拟得出)加上垃圾邮件行为特征作为邮件检测、过滤的核心,辅助方法是黑白名单技术,当然我们会在该分类方法上做一些必要的调整,考虑到邮件是重要的沟通方式之一,我们必须保证使用
者能够及时并且完整的收到他们的邮件,我们这里采用改进的贝叶斯算法:基于主动学习的最小风险的贝叶斯过滤算法:
分类学习对训练样本的处理方式有两种:被动分类和主动分类模型。

被动分类模型也称“从样本中学习”,它随机的选择训练样本,被动地接受这些样本的信息。

然而绝大部分分类学习中都认为训练样本是独立同分布的,这种被动的学习显示出明显的不足:1)顺序的处理训练样本往往会使学习的过滤器具有顺序相关性,对数据过分敏感;2)遇到噪音样本时,会使这种噪音一直传播下去,影响分类精度3)缺乏综合未带标注样本信息的能力。

在学习分类模型中,未带标注的样本往往包含有助于分类的信息。

在这种情况下,选择好的未带标注的样本,把它加入到当前的过滤器中是相当重要的。

主动分类模型对训练样本的选择是主动的,它选择最有利于过滤器性能的样本来训练过滤器,属于更高层次的,具有潜意识的学习。

一般来讲,我们把邮件只分为两类,即合法邮件和非法邮件。

最小风险贝叶斯算法是用来增强前面描述的朴素贝叶斯过滤器的性能,降低邮件过滤的风险,以得到一个风险最小的邮件过滤器,是对朴素贝叶斯进行的修正,对合法邮件判断为非法邮件以及非法邮件判断为合法邮件定义不同的风险,选择风险最小的决策类别,可以有效降低错误决策造成的损失,也就是我们常说的误报率。

2、邮件应用行为模式监测工具模型建立
2.1建立发送模型:
基于行为和时间特征的垃圾邮件检测首先根据现有邮件的收发记录,提取邮件实体(邮件地址)和关系(邮件收发关系)构建邮件社会网络。

利用邮件收发过程中垃圾邮件制造者和正常用户表现的特性,基于邮件社会网络和邮件发送时间分析每个电子邮件地址的行为特征。

其次,利用步进式判别分析方法,选择具有较强判别能力的行为特征,形成特征子空间,将训练样本投影到该特征子空间。

再次,利用带标签的训练样本,结合机器学习方法(支持向量机SVM,朴素贝叶斯方法,人工神经网络等)形成邮件决策信息并保存在数据库中。

下面展示是对垃圾邮件回复比例、邮件对所在IP地址的占有率,以及邮件发送时间间隔的统计。

2.2建立主题模型:
垃圾邮件过滤有一个非常明显的特点,电子邮件有着自己特殊的结构。

电子邮件都是由邮件头和邮件正文组成。

而邮件头很多字段能够突显邮件的类别特征,如它的主题字段一般概括了邮件正文的内容。

邮件头中的寄件人字段也能暴露邮件的类别特征所以邮件头部分的特征相对于邮件正文来说,具有更能表示邮件类别的能
力。

从邮件内容上我们可以抽取若干特征:
2.2.1词语特征项
在中文文本中,特征项可以是字、词、短语或者某种概念,在中文文本中主要指经过分词处理后得到的词汇。

但是对多封垃圾邮件进行相似度比较的时候,我们发现在同类垃圾邮件出现较高的是一些文本块短语。

并且现在的垃圾邮件制造者为了避免被过滤,经常采用垃圾词汇变种的方法来防止被过滤,譬如:在垃圾邮件中经常出现以下变种词语:法¥¥轮%%%%功,功999产**党的暴———政等等,所以,在日新月异的垃圾邮件变种中,单纯的采用词语特征已经不能满足要求。

2.2.2指纹散列特征项
指纹应用在相似邮件的比较上。

在比较两封邮件是否相似的时候,可以先把两封邮件划分为很多个文本块(实际上也是子字符串),如果两封邮件是相似的,那么它们之间一定包含很多公有的文本块。

而且这些文本块之间的比较操作,是精确比较,因此就可以用散列方法来进行优化。

在应用场合中,可以用一组散列值来代表一个文件(而不是一个散列值)。

这样的一组散列值在以下的论述中就称为邮件的“指纹”。

通过指纹匹配算法(如反垃圾邮件研究中常用的Karp-Rabin算法)对不同邮件进行一个快速的简单归类,这也方便了邮件类别的标签标注,配合贝叶斯分类的主动学习的过程。

2.3建立账户活跃度分析模型:
这里我们从正常用户的角度出发建立模型。

概括地讲,邮件账户活跃度就是用户收发邮件的频繁程度。

我们可以在某一段时间内观察统计系统内用户收发邮件的行为。

以一周为时间单位,假如用户A在一个月内(四周)的发送邮件数目为:
20,16,19,23,平均19.5封;接收邮件个数为:8,12,15,9,平均11封,我们把平均接收邮件个数定义为入度,平均发送邮件定义为出度,对于出度大于500(假设)的异常活跃账户给予密切关注,判断是否被病毒感染,对于某个较长时期内某账户的出度入度均小于2(假设)的休眠账户也应该给予关注防止收发邮件数量突然激增。

同时这里我们还有记录下每个账户的登陆信息(时间,IP),用户停留时间等,通过机器学习方法将活跃账户、边缘账户、休眠账户进行一个初步分类,方便对异常账户的监测,遇到问题及时告警。

相关文档
最新文档