社交网络是如何泄露你的隐私的
网络时代下的个人隐私泄露案例分析

网络时代下的个人隐私泄露案例分析在当今信息技术高度发达的网络时代,个人隐私泄露案例时有发生,引起了广泛的关注和讨论。
本文将分析几个个人隐私泄露案例,并探讨其背后的原因和解决方案。
一、案例一:社交媒体平台用户个人信息泄露事件社交媒体平台在网络时代扮演了重要的角色,人们乐于分享生活中的点滴,但在其中也存在着个人隐私泄露的风险。
以Facebook的Cambridge Analytica事件为例,该公司利用用户个人信息进行政治目的的操控,引发了巨大争议。
其中,用户在使用Facebook应用时授权了第三方获取其个人信息,而这些信息被滥用,给用户的个人隐私带来了极大威胁。
二、案例二:电子商务网站数据泄露事件在网络时代,电子商务得到了广泛的应用,但也给个人隐私带来了新的问题。
2014年,美国零售巨头Target遭遇了一起数据泄露事件,客户的信用卡和个人信息被黑客入侵并窃取。
数百万客户的隐私受到了侵犯,引起了公众的广泛关注和恐慌。
三、案例三:智能家居设备个人信息泄露事件智能家居设备的普及也给个人隐私带来了新的挑战。
2019年,Google助理和Amazon Alexa等智能助手被指控以及录音、存储和共享用户的私人对话。
这些智能设备在获得用户授权的情况下进行监听,用户的个人隐私受到了侵犯。
四、案例四:手机应用获取个人信息过度授权事件手机应用的普及给个人隐私保护带来了新的挑战。
很多应用在获取用户的个人信息时过度索取,如通讯录、位置信息等。
2018年,中国某银行App因未经明示和合理授权获取用户信息而引发争议。
用户的个人隐私被滥用,引起了公众对手机应用隐私保护的关注。
以上案例展示了网络时代下个人隐私泄露的多样性和复杂性。
那么,个人隐私泄露的原因是什么?如何保护个人隐私呢?一方面,企业和服务提供商要加强对个人隐私保护意识的培养,强化信息安全管理制度,确保用户信息的安全。
另一方面,用户也要增强个人信息保护的意识,合理使用隐私设置,避免不必要的信息泄露。
网络隐私泄露的常见原因有哪些

网络隐私泄露的常见原因有哪些在当今数字化的时代,网络已经成为我们生活中不可或缺的一部分。
我们通过网络购物、社交、工作、娱乐,享受着前所未有的便利。
然而,与此同时,网络隐私泄露的风险也日益严峻。
个人的姓名、身份证号、银行卡号、家庭住址等重要信息,在不知不觉中可能就被不法分子获取,给我们带来了诸多麻烦甚至严重的损失。
那么,网络隐私泄露的常见原因究竟有哪些呢?首先,用户自身的疏忽大意是导致网络隐私泄露的一个重要原因。
很多人在使用网络时,缺乏足够的安全意识。
比如,随意在不可信的网站上输入个人敏感信息。
有些用户为了图方便,在多个网站或应用上使用相同的用户名和密码。
一旦其中一个网站的数据被泄露,黑客就可以利用这些信息尝试登录其他相关网站,从而获取更多的个人隐私。
还有一些人在社交媒体上过度分享个人生活细节,包括出行计划、家庭状况等,这无疑给了不法分子可乘之机。
其次,网络服务提供商的不当操作也可能造成隐私泄露。
一些互联网企业为了追求商业利益,可能会过度收集用户的个人信息。
他们在用户注册或使用服务时,要求用户提供大量不必要的个人信息,并且没有明确告知这些信息的用途和处理方式。
此外,部分网络服务提供商的数据库安全措施不够完善,容易遭到黑客攻击,导致用户数据被窃取。
再者,恶意软件和网络钓鱼是常见的网络隐私泄露途径。
恶意软件,如病毒、木马等,可以在用户不知情的情况下潜入电脑或移动设备,窃取用户的个人信息。
网络钓鱼则是通过伪装成合法的网站或电子邮件,诱骗用户输入个人敏感信息。
比如,用户可能会收到一封看似来自银行的邮件,要求用户点击链接并输入账号密码进行账户验证,而实际上这个链接指向的是一个虚假的钓鱼网站。
另外,公共无线网络的使用也存在一定的风险。
在公共场所,如咖啡馆、机场等,很多人会连接免费的无线网络。
然而,这些无线网络往往缺乏足够的安全保障,黑客可以通过中间人攻击等手段,拦截用户在网络上传输的数据,从而获取用户的隐私信息。
社交媒体隐私泄露案例分析

社交媒体隐私泄露案例分析社交媒体的兴起给人们带来了更广阔的交流平台,但与此同时也带来了隐私泄露的风险。
在这篇文章中,我们将分析一些社交媒体隐私泄露的案例,探讨其背后的原因和对个人隐私的影响。
案例一:Facebook–剖析大规模数据泄露事件2018年3月,Facebook被曝光利用用户数据进行个性化广告,而这些数据却未经用户同意就被分享给第三方应用开发者。
这个事件引发了全球范围内的关注,并进一步揭示了社交媒体数据泄露的严重性。
此案例中,Facebook的数据隐私政策存在漏洞,没有有效地保护用户隐私。
用户对于自己的个人信息掌控权的损失引发了一系列的争议,同时也对社交媒体平台的整体信任造成了冲击。
案例二:Twitter–研究个人帐户信息泄露事件在过去几年中,Twitter经历了一系列个人帐户信息泄露事件。
这些事件涉及黑客攻击、员工错误操作和第三方应用授权漏洞等。
在这些案例中,用户的个人信息、密码和其他敏感数据被泄露。
而Twitter的安全措施不完善以及用户的安全意识不足也是这些泄露事件发生的原因之一。
这些隐私泄露事件严重损害了用户的信任,从而对Twitter的形象和品牌价值造成了负面影响。
案例三:WeChat–解析政府监控和隐私侵犯作为中国最受欢迎的社交媒体平台之一,WeChat也面临着隐私泄露和政府监控的问题。
因为其贴近生活、方便快捷的特性,用户在使用WeChat时常常需要提供个人信息,包括手机号码、身份证号和银行卡信息。
尽管WeChat声称会保护用户的隐私,但近年来有报道称中国政府通过监控网络数据来追踪和审查用户。
政府监控的存在引发了对隐私保护的担忧,同时也对WeChat用户的个人隐私造成了威胁。
结论:社交媒体隐私保护的挑战上述案例揭示了社交媒体隐私泄露的严重性以及对用户的潜在影响。
不可否认的是,社交媒体平台在个人隐私保护方面面临着一系列挑战。
首先,隐私政策和用户协议往往过于冗长和晦涩,用户很难理解其中的条款和条件。
新媒体时代的个人隐私安全问题

新媒体时代的个人隐私安全问题在新媒体时代,随着互联网和社交媒体的普及,个人隐私安全问题日益凸显。
个人信息泄露、网络诈骗、网络暴力等问题频频发生,给人们的生活和社会秩序带来了严重的影响。
本文将从个人隐私泄露的原因、影响以及保护个人隐私的方法等方面进行探讨。
一、个人隐私泄露的原因1.1 技术原因随着科技的发展,个人信息的获取和传播变得更加容易。
黑客技术的不断进步,使得个人信息的安全性受到了严重威胁。
此外,一些应用程序和网站的安全性存在漏洞,使得个人信息容易被攻击者获取。
1.2 个人行为原因一些人在使用互联网和社交媒体时,对个人隐私的保护意识不强。
他们可能会在社交媒体上公开自己的个人信息,或者在不安全的网络环境下进行在线交易,从而导致个人隐私泄露。
1.3 第三方机构原因一些第三方机构可能会非法获取和使用个人信息,以谋取不正当的利益。
例如,一些公司可能会将用户的个人信息出售给广告商,从而给用户带来骚扰。
二、个人隐私泄露的影响2.1 经济损失个人隐私泄露可能导致经济损失。
例如,个人银行账户信息被泄露后,黑客可能会盗取用户的资金。
此外,一些不法分子可能会利用个人信息进行网络诈骗,导致用户财产损失。
2.2 社会影响个人隐私泄露还可能对社会秩序产生不良影响。
例如,一些人可能会利用他人的个人信息进行网络暴力行为,给受害者带来心理和身体上的伤害。
此外,个人隐私泄露还可能导致社会信任的破裂,使人们对互联网和社交媒体失去信心。
三、保护个人隐私的方法3.1 加强个人信息保护意识个人应该加强对个人信息保护的意识,不随意在互联网和社交媒体上公开个人信息。
在进行在线交易时,应选择安全可靠的网站,并注意保护个人账户和密码的安全。
3.2 使用安全的网络环境个人在使用互联网时,应选择安全可靠的网络环境。
避免使用公共无线网络进行敏感信息的传输,以防止个人信息被黑客窃取。
3.3 注意个人隐私政策在使用应用程序和网站时,个人应仔细阅读隐私政策,并选择那些对个人信息保护较为重视的平台。
社交网络对个人隐私的侵犯

社交网络对个人隐私的侵犯随着社交网络的快速发展和日益普及,个人隐私问题已经成为一个备受关注的话题。
社交网络给人们带来了许多便利和乐趣,然而,与此同时,社交网络也使个人隐私面临着前所未有的侵犯。
本文将探讨社交网络对个人隐私的侵犯,并思考如何应对这一问题。
一、社交网络的定义和背景社交网络是指一种通过互联网建立的虚拟社区,使个人能够与其他人进行信息共享和交流的平台。
社交网络的兴起源于 Web 2.0 技术的发展,它极大地改变了人们获取信息和沟通交流的方式。
如今的社交网络平台包括 Facebook、Twitter、Instagram等。
二、社交网络对个人隐私的侵犯表现1. 个人信息泄露:在社交网络上注册并使用账号时,我们通常需要填写个人信息,如姓名、生日、家庭地址等。
这些个人信息很容易被不法分子获取并滥用,导致个人隐私泄露。
2. 数据收集与商业广告:社交网络平台通过跟踪用户的浏览行为和用户信息,收集大量的个人数据。
这些数据被用于制定精准的广告定向,甚至被出售给第三方企业或机构,从而侵犯了用户的隐私权。
3. 偷窥与监视:社交网络上的用户经常分享自己的生活照片、地理位置等信息,而这些信息可能被他人用来偷窥和监视。
例如,一些不法行为者可以通过社交网络了解到某人的外出时间和住址,从而进行入室盗窃等犯罪活动。
4. 虚拟欺凌:社交网络上的虚拟欺凌已成为一种严重的社会问题。
不法分子可以匿名发布侮辱性言论、恶意传播不实信息,使受害者遭受到精神和心理上的伤害,甚至引发极端的后果。
三、应对社交网络对个人隐私的侵犯的措施尽管社交网络对个人隐私构成了威胁,但我们仍然可以采取一些措施来保护自己的隐私。
1. 加强隐私设置:社交网络平台通常提供隐私设置功能,用户应该充分利用这些功能,对自己的个人信息进行保护。
例如,可以设置只允许特定的好友或圈子查看自己的相册。
2. 谨慎添加好友:不要随意接受陌生人的好友请求,只添加自己认识的人或可信任的来源。
社交媒体对个人隐私的侵犯问题

社交媒体对个人隐私的侵犯问题社交媒体的兴起使人们能够在网络上与朋友交流、分享信息和发表观点。
然而,随之而来的是个人隐私的侵犯问题。
在这篇文章中,我将探讨社交媒体对个人隐私的侵犯问题,以及如何保护自己的隐私。
首先,在社交媒体上发布个人信息容易导致隐私泄露的问题。
很多人在注册社交媒体账号时,会填写自己的真实姓名、出生日期、地理位置等个人信息。
这些信息一旦泄露,可能被用于实施诈骗、身份盗窃等违法活动。
此外,通过社交媒体发布的照片和视频也可能包含个人信息,例如街景照片可以揭示一个人居住的位置。
因此,在发布个人信息时应谨慎,尽量保持匿名或使用化名。
其次,社交媒体的隐私设置可能不安全,容易导致个人信息被泄露。
社交媒体平台通常允许用户自定义隐私设置,以控制个人信息的可见范围。
然而,很多人并不了解这些设置或懒得设置,从而导致个人信息对外公开。
此外,一些社交媒体平台可能会收集和利用用户的个人信息,用于广告定向投放和用户行为分析。
因此,用户应了解自己使用的社交媒体平台的隐私政策,并设置合适的隐私设置。
第三,社交媒体上的互动可能会导致个人隐私的侵犯。
用户在社交媒体上与朋友分享的信息,可能会因为被其他用户分享或截屏而进一步扩散。
一些用户可能会故意传播别人的隐私信息,以实现某种目的。
为了保护个人隐私,用户应该谨慎选择朋友圈子,避免将隐私信息透露给不信任的人。
最后,社交媒体上的骚扰和网络欺凌也是对个人隐私的一种侵犯。
在社交媒体上,有些人可能会收到陌生人的骚扰或恶意评论,这对个人的心理健康和隐私安全构成威胁。
为了应对这种情况,社交媒体平台应该加强审核和封禁机制,保护用户的隐私和心理健康。
为了保护个人隐私,我们可以采取一些措施。
首先,我们应该谨慎选择社交媒体平台,选择那些有良好声誉和强大隐私保护机制的平台。
其次,我们应该尽量减少在社交媒体上发布的个人信息,避免透露敏感信息。
同时,我们应该仔细阅读和了解社交媒体平台的隐私政策和使用条款,确保自己的个人信息得到妥善保护。
社交网络中的隐私与安全问题

社交网络中的隐私与安全问题社交网络的出现给人们提供了实时交流、信息分享和社交互动的便利,然而,随着社交网络的普及和使用,隐私和安全问题也日益突出。
本文将探讨社交网络中的隐私与安全问题,并提出相关建议。
一、隐私问题社交网络在连接人们的同时,也暴露了用户的个人信息,给隐私带来了潜在风险。
1.个人信息泄露许多社交网络要求用户提供个人信息,如姓名、生日、地址等。
这些信息一旦被泄露,可能被不法分子利用进行诈骗、冒名顶替等活动。
2.隐私设置不当部分用户在社交网络上对隐私设置过于随意,给自己的个人信息暴露了入侵的机会。
例如,公开发布住址或联系方式,使得陌生人轻易获取这些敏感信息。
3.信息分享隐私社交网络的信息分享功能使得用户能够轻松向朋友和关注者发布消息、照片和视频等。
但在分享信息时,用户应该意识到个人信息的敏感性,避免不恰当的内容或隐私信息被泄露。
二、安全问题社交网络上的安全问题主要集中在网络安全和人身安全两个方面。
1.网络安全社交网络往往成为网络犯罪分子攻击的目标。
例如,恶意软件通过社交网络传播,用户在访问链接或点击附件时可能遭受网络攻击,导致账号被盗、个人信息泄露等后果。
2.人身安全社交网络也面临人身安全威胁。
一些不法分子可能利用社交网络获取用户的个人信息,进行恶意跟踪、敲诈勒索等活动。
此外,虚假账号的存在也会导致网络欺诈、网络暴力等问题。
三、解决方案为了保障社交网络用户的隐私和安全,我们提出以下建议:1.加强隐私设置用户应仔细了解社交网络平台的隐私设置,并根据自己的需求进行设置。
通过限制谁可以看到个人信息和发布内容,可以最大程度地降低隐私泄露的风险。
2.谨慎分享个人信息用户在使用社交网络时应谨慎分享个人信息。
不应随意公开敏感信息,特别是家庭住址、电话号码等。
避免在公开的帖子或留言中留下过多个人信息,以防被不法分子利用。
3.定期更新密码用户应定期更换社交网络账号的密码,并确保密码的复杂性。
不要使用过于简单的密码,使用不同的密码组合,增加账号安全性。
个人信息泄露的途径被及防范措施

个人信息泄露的途径被及防范措施一、个人信息通过哪些途径被泄露?总结起来容易泄露个人信息的途径包括以下方面:泄露途径一:快递单、火车票、银行对账单。
这些单证上有姓名、银行卡号、消费记录等信息,随意丢弃容易造成私人信息泄露。
泄露途径二:各类网购、虚拟社区、社交网络账户。
不管是网络购物还是注册一些论坛、社区、网站,或者在微博、QQ 空间发布信息,或多或少都会留下个人信息。
泄露途径三:商家各种促销活动,办理睬员卡等。
如商家“调查问卷表”,购物抽奖活动或者申请免费邮寄资料、会员卡活动要求填写详细联络方式和家庭住址等。
泄露途径四:招聘网站泄露个人信息。
简历中的个人信息一应俱全,这些内容可能会被非法分子以极低价格转手。
泄露途径五:报名、复印资料后信息被利用。
各类考试报名、参加网校学习班等,经常要登记个人信息。
一些打字店、复印店利用便利,将客户信息资料存档留底。
泄露途径六:身份证复印件滥用。
银行开户、手机入网、甚至办理睬员卡、超市兑换积分都要身份证。
二、如何防止信息泄露呢?个人信息泄漏的原因可能是多方面的,很多时候是发生在我们不知情的情况下。
我们在呼吁、推动政府、全社会严格保护个人信息的同时,也应增强个人信息的自我保护意识,日常生活中每个人都要多留个心眼。
首先是增强个人信息保护意识,不随意填写个人信息。
看好自己的个人信息,不要随意告诉别人。
比方,上网评论时不要随意留个人信息。
有很多小调查,小接力的活动,会诱导用户填写个人信息,这其实是很危险的。
其次是不要随意丢弃个人信息相关的物品。
比方在处理快递单时先抹掉个人信息再丢弃。
再次要保管好个人身份信息。
身份证等个人信息保管好。
如提供复印件时,一定要写明“仅供某某单位做某某用,他用无效。
”此外要关注复印过程,多余复印件要销毁。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
作为中文系应用语言学专业的学生以及一名数学Geek ,我非常热衷于用计算的方法去分析汉语资料。
汉语是一种独特而神奇的语言。
对汉语资料进行自然语言处理时,我们会遇到很多其他语言不会有的困难,比如分词——汉语的词与词之间没有空格,那计算机怎么才知道,“已结婚的和尚未结婚的青年都要实行计划生育”究竟说的是“已/结婚/的/和/尚未/结婚/的/青年”,还是“已/结婚/的/和尚/未/结婚/的/青年”呢?这就是所谓的分词歧义难题。
不过,现在很多语言模型已经能比较漂亮地解决这一问题了。
但在中文分词领域里,还有一个比分词歧义更令人头疼的东西——未登录词。
中文没有首字母大写,专名号也被取消了,这叫计算机如何辨认人名地名之类的东西?更惨的则是机构名、品牌名、专业名词、缩略语、网络新词等等,它们的产生机制似乎完全无规律可寻。
最近十年来,中文分词领域都在集中攻克这一难关。
自动发现新词成为了关键的环节。
挖掘新词的传统方法是,先对文本进行分词,然后猜测未能成功匹配的剩余片段就是新词。
这似乎陷入了一个怪圈:分词的准确性本身就依赖于词库的完整性,如果词库中根本没有新词,我们又怎么能信任分词结果呢?此时,一种大胆的想法是,首先不依赖于任何已有的词库,仅仅根据词的共同特征,将一段大规模语料中可能成词的文本片段全部提取出来,不管它是新词还是旧词。
然后,再把所有抽出来的词和已有词库进行比较,不就能找出新词了吗?有了抽词算法后,我们还能以词为单位做更多有趣的数据挖掘工作。
这里,我所选用的语料是人人网2011 年 12 月前半个月部分用户的状态。
非常感谢人人网提供这份极具价值的网络语料。
要想从一段文本中抽出词来,我们的第一个问题就是,怎样的文本片段才算一个词?大家想到的第一个标准或许是,看这个文本片段出现的次数是否足够多。
我们可以把所有出现频数超过某个阈值的片段提取出来,作为该语料中的词汇输出。
不过,光是出现频数高还不够,一个经常出现的文本片段有可能不是一个词,而是多个词构成的词组。
在人人网用户状态中,“的电影”出现了389 次,“电影院”只出现了 175 次,然而我们却更倾向于把“电影院”当作一个词,因为直觉上看,“电影”和“院”凝固得更紧一些。
为了证明“电影院”一词的内部凝固程度确实很高,我们可以计算一下,如果“电影”和“院”真的是各自独立地在文本中随机出现,它俩正好拼到一起的概率会有多小。
在整个2400 万字的数据中,“电影”一共出现了2774 次,出现的概率约为0.000113 。
“院”字则出现了4797 次,出现的概率约为0.0001969 。
如果两者之间真的毫无关系,它们恰好拼在了一起的概率就应该是0.000113 ×0.0001969 ,约为2.223 ×10-8次方。
但事实上,“电影院”在语料中一共出现了175 次,出现概率约为 7.183 × 10-6次方,是预测值的300 多倍。
类似地,统计可得“的”字的出现概率约为0.0166 ,因而“的”和“电影”随机组合到了一起的理论概率值为0.0166 × 0.000113 ,约为 1.875 ×10-6,这与“的电影”出现的真实概率很接近——真实概率约为1.6 ×10-5次方,是预测值的8.5 倍。
计算结果表明,“电影院”更可能是一个有意义的搭配,而“的电影”则更像是“的”和“电影”这两个成分偶然拼到一起的。
当然,作为一个无知识库的抽词程序,我们并不知道“电影院”是“电影”加“院”得来的,也并不知道“的电影”是“的”加上“电影”得来的。
错误的切分方法会过高地估计该片段的凝合程度。
如果我们把“电影院”看作是“电”加“影院”所得,由此得到的凝合程度会更高一些。
因此,为了算出一个文本片段的凝合程度,我们需要枚举它的凝合方式——这个文本片段是由哪两部分组合而来的。
令p(x) 为文本片段x 在整个语料中出现的概率,那么我们定义“电影院”的凝合程度就是p(电影院) 与p(电) ·p(影院) 比值和p(电影院) 与p(电影) ·p(院)的比值中的较小值,“的电影”的凝合程度则是p(的电影) 分别除以p(的) ·p(电影) 和p (的电) ·p(影) 所得的商的较小值。
可以想到,凝合程度最高的文本片段就是诸如“蝙蝠”、“蜘蛛”、“彷徨”、“忐忑”、“玫瑰”之类的词了,这些词里的每一个字几乎总是会和另一个字同时出现,从不在其他场合中使用。
光看文本片段内部的凝合程度还不够,我们还需要从整体来看它在外部的表现。
考虑“被子”和“辈子”这两个片段。
我们可以说“买被子”、“盖被子”、“进被子”、“好被子”、“这被子”等等,在“被子”前面加各种字;但“辈子”的用法却非常固定,除了“一辈子”、“这辈子”、“上辈子”、“下辈子”,基本上“辈子”前面不能加别的字了。
“辈子”这个文本片段左边可以出现的字太有限,以至于直觉上我们可能会认为,“辈子”并不单独成词,真正成词的其实是“一辈子”、“这辈子”之类的整体。
可见,文本片段的自由运用程度也是判断它是否成词的重要标准。
如果一个文本片段能够算作一个词的话,它应该能够灵活地出现在各种不同的环境中,具有非常丰富的左邻字集合和右邻字集合。
“信息熵”是一个非常神奇的概念,它能够反映知道一个事件的结果后平均会给你带来多大的信息量。
如果某个结果的发生概率为p ,当你知道它确实发生了,你得到的信息量就被定义为- log(p) 。
p 越小,你得到的信息量就越大。
如果一颗骰子的六个面分别是1 、1 、1 、2 、2 、 3 ,那么你知道了投掷的结果是1 时可能并不会那么吃惊,它给你带来的信息量是- log(1/2) ,约为0.693 。
知道投掷结果是2 ,给你带来的信息量则是- log(1/3) ≈ 1.0986 。
知道投掷结果是3 ,给你带来的信息量则有- log(1/6) ≈ 1.79 。
但是,你只有1/2 的机会得到0.693 的信息量,只有1/3 的机会得到 1.0986 的信息量,只有1/6 的机会得到1.79 的信息量,因而平均情况下你会得到0.693/2 + 1.0 986/3 + 1.79/6 ≈ 1.0114 的信息量。
这个1.0114 就是那颗骰子的信息熵。
现在,假如某颗骰子有100 个面,其中 99 个面都是 1 ,只有一个面上写的2 。
知道骰子的抛掷结果是 2 会给你带来一个巨大无比的信息量,它等于- log(1/100) ,约为 4.605 ;但你只有百分之一的概率获取到这么大的信息量,其他情况下你只能得到- log(99/100) ≈ 0.010 05 的信息量。
平均情况下,你只能获得0.056 的信息量,这就是这颗骰子的信息熵。
再考虑一个最极端的情况:如果一颗骰子的六个面都是1 ,投掷它不会给你带来任何信息,它的信息熵为- log(1) = 0 。
什么时候信息熵会更大呢?换句话说,发生了怎样的事件之后,你最想问一下它的结果如何?直觉上看,当然就是那些结果最不确定的事件。
没错,信息熵直观地反映了一个事件的结果有多么的随机。
我们用信息熵来衡量一个文本片段的左邻字集合和右邻字集合有多随机。
考虑这么一句话“吃葡萄不吐葡萄皮不吃葡萄倒吐葡萄皮”,“葡萄”一词出现了四次,其中左邻字分别为{吃, 吐, 吃, 吐} ,右邻字分别为{不, 皮, 倒, 皮} 。
根据公式,“葡萄”一词的左邻字的信息熵为- (1/2) ·log(1/2) - (1/2) · log(1/2) ≈ 0.693 ,它的右邻字的信息熵则为- (1/ 2) ·log(1/2) - (1/4) ·log(1/4) - (1/4) · log(1/4) ≈ 1.04 。
可见,在这个句子中,“葡萄”一词的右邻字更加丰富一些。
在人人网用户状态中,“被子”一词一共出现了956 次,“辈子”一词一共出现了2330 次,两者的右邻字集合的信息熵分别为3.87404 和 4.11644 ,数值上非常接近。
但“被子”的左邻字用例非常丰富:用得最多的是“晒被子”,它一共出现了162 次;其次是“的被子”,出现了85 次;接下来分别是“条被子”、“在被子”、“床被子”,分别出现了 69 次、 64 次和52 次;当然,还有“叠被子”、“盖被子”、“加被子”、“新被子”、“掀被子”、“收被子”、“薄被子”、“踢被子”、“抢被子”等100 多种不同的用法构成的长尾⋯⋯所有左邻字的信息熵为3.67453 。
但“辈子”的左邻字就很可怜了,2330 个“辈子”中有1276 个是“一辈子”,有596 个“这辈子”,有235 个“下辈子”,有149 个“上辈子”,有 32 个“半辈子”,有10个“八辈子”,有7 个“几辈子”,有 6 个“哪辈子”,以及“n 辈子”、“两辈子”等 13 种更罕见的用法。
所有左邻字的信息熵仅为1.25963 。
因而,“辈子”能否成词,明显就有争议了。
“下子”则是更典型的例子,310 个“下子”的用例中有294 个出自“一下子”,5 个出自“两下子”, 5 个出自“这下子”,其余的都是只出现过一次的罕见用法。
事实上,“下子”的左邻字信息熵仅为0.294421 ,我们不应该把它看作一个能灵活运用的词。
当然,一些文本片段的左邻字没啥问题,右邻字用例却非常贫乏,例如“交响”、“后遗”、“鹅卵”等,把它们看作单独的词似乎也不太合适。
我们不妨就把一个文本片段的自由运用程度定义为它的左邻字信息熵和右邻字信息熵中的较小值。
在实际运用中你会发现,文本片段的凝固程度和自由程度,两种判断标准缺一不可。
只看凝固程度的话,程序会找出“巧克”、“俄罗”、“颜六色”、“柴可夫”等实际上是“半个词”的片段;只看自由程度的话,程序则会把“吃了一顿”、“看了一遍”、“睡了一晚”、“去了一趟”中的“了一”提取出来,因为它的左右邻字都太丰富了。
我们把文本中出现过的所有长度不超过d 的子串都当作潜在的词(即候选词,其中d 为自己设定的候选词长度上限,我设定的值为5 ),再为出现频数、凝固程度和自由程度各设定一个阈值,然后只需要提取出所有满足阈值要求的候选词即可。
为了提高效率,我们可以把语料全文视作一整个字符串,并对该字符串的所有后缀按字典序排序。
下表就是对“四是四十是十十四是十四四十是四十”的所有后缀进行排序后的结果。
实际上我们只需要在内存中存储这些后缀的前d + 1 个字,或者更好地,只储存它们在语料中的起始位置。
十十十四是十四四十是四十十是十十四是十四四十是四十十是四十十四是十四四十是四十十四四十是四十是十十四是十四四十是四十是十四四十是四十是四十是四十是十十四是十四四十是四十四十四十是十十四是十四四十是四十四十是四十四是十四四十是四十四是四十是十十四是十四四十是四十四四十是四十这样的话,相同的候选词便都集中在了一起,从头到尾扫描一遍便能算出各个候选词的频数和右邻字信息熵。