当新媒体遇到“大数据”
大数据对新媒体的影响

大数据对新媒体的影响在当今数字化时代,大数据正以前所未有的力量重塑着各个领域,新媒体行业也不例外。
大数据为新媒体带来了深刻的变革,从内容创作到传播方式,从用户体验到商业模式,无一不受其影响。
首先,大数据改变了新媒体的内容创作模式。
过去,内容创作者往往凭借自身的经验和直觉来判断受众的兴趣和需求。
然而,在大数据的加持下,这种方式发生了根本性的转变。
通过对海量用户数据的分析,包括用户的浏览记录、搜索行为、评论互动等,新媒体平台能够精准地了解用户的喜好和关注点。
例如,某新闻资讯平台通过分析用户的阅读习惯,发现特定地区的用户对当地的民生新闻关注度极高,于是针对性地推送更多相关内容,大大提高了用户的点击率和阅读时长。
这使得内容创作更加有的放矢,能够更好地满足用户的个性化需求。
其次,大数据提升了新媒体内容的精准推送能力。
基于用户的兴趣偏好、地理位置、年龄性别等多维度数据,新媒体平台能够实现精准的内容推送。
这意味着用户接收到的信息更符合其自身的需求和兴趣,减少了信息的冗余和无关干扰。
比如,在视频平台上,用户如果经常观看体育类视频,那么平台会优先为其推荐最新的体育赛事直播、精彩瞬间集锦等相关内容。
这种精准推送不仅提高了用户对平台的满意度和忠诚度,还增加了用户与平台之间的互动和参与度。
再者,大数据为新媒体的广告营销带来了创新和突破。
在传统媒体时代,广告投放往往是广泛撒网,难以精准定位目标受众。
而大数据使得新媒体广告能够实现精准投放,提高广告的效果和回报率。
广告主可以根据大数据分析的结果,选择特定的用户群体进行广告投放,从而提高广告的转化率。
例如,一家化妆品公司可以通过大数据筛选出年龄在 20-35 岁、经常关注美容护肤的女性用户,并向她们推送相关的产品广告。
此外,大数据还能够实时监测广告的投放效果,及时调整投放策略,优化广告资源的配置。
大数据还促进了新媒体的社交互动和用户参与。
社交媒体平台通过对用户关系网络和互动行为的分析,能够更好地推荐可能感兴趣的好友和话题,增强用户之间的连接和交流。
新媒体与大数据的结合与应用

新媒体与大数据的结合与应用随着信息技术的快速发展,新媒体和大数据已经成为当今社会的热门话题。
新媒体指的是通过互联网和数字技术传播信息的媒体形式,包括社交媒体、移动应用、在线视频等。
而大数据则是指海量的、多样化的、高速增长的数据集合,通过分析这些数据可以获得有价值的信息和洞察。
本文将探讨新媒体与大数据的结合与应用,并分析其对社会、经济和个人的影响。
一、新媒体与大数据的结合新媒体和大数据的结合是一种相互促进的关系。
新媒体提供了数据的来源,而大数据则为新媒体的发展提供了技术支持和分析工具。
新媒体平台上的用户行为、社交互动、消费习惯等都会产生大量的数据,这些数据可以通过大数据技术进行收集、存储、处理和分析,从而为新媒体平台提供更好的用户体验和个性化服务。
首先,新媒体平台通过大数据分析可以了解用户的兴趣和需求,从而提供更加精准的内容推荐。
通过分析用户的浏览记录、点赞、评论等行为数据,新媒体平台可以了解用户的兴趣爱好,进而向用户推荐相关的内容,提高用户的阅读体验和参与度。
其次,新媒体平台可以通过大数据分析了解用户的消费习惯和购买意向,从而提供个性化的广告和推广服务。
通过分析用户的购买记录、搜索行为等数据,新媒体平台可以向广告主提供精准的广告投放渠道,提高广告的点击率和转化率。
再次,新媒体平台可以通过大数据分析了解用户的社交关系和影响力,从而提供更加精准的社交推荐和社交营销服务。
通过分析用户的社交网络、好友关系等数据,新媒体平台可以向用户推荐更加符合其社交圈子的内容和活动,提高用户的社交参与度和满意度。
最后,新媒体平台可以通过大数据分析了解用户的情感和态度,从而提供更加个性化的互动和服务。
通过分析用户的评论、表情符号等数据,新媒体平台可以了解用户的情感倾向,进而向用户提供更加贴近其情感需求的互动和服务。
二、新媒体与大数据的应用新媒体与大数据的结合已经在各个领域得到了广泛的应用。
在社交媒体领域,新媒体平台通过大数据分析可以了解用户的社交关系和兴趣爱好,从而提供更加个性化的社交推荐和社交营销服务。
大数据技术在新媒体传播中的应用

传播力研究 RESEARCH ON TRANSMISSION COMPETENCE当前,随着网络信息发展,大数据技术运用情况更加广泛,能够依据相关技术完成数据整合及分类。
为促使新媒体信息传播发展和进步,需在新媒体传输工作过程中充分融合利用大数据技术,协助完成数据信息资料方面有效运用,提升新媒体信息传递活动效率,改善新媒体信息传送工作质量。
一、在新媒体传播过程中运用大数据技术的优越性当前,大数据运用价值体现更加明显,在新媒体信息传输过程中需充分利用大数据形式[1]。
现今,世界上数据信息量逐渐增多,以后数据信息量将以现阶段大概增加50%,增加后的数据信息量相当于高清电视持续播放65 000 000年形成的视频数据之和。
一些发达国家在新媒体信息传输工作中结合运用大数据方式,有助于提升新媒体信息传输效果,促进新媒体健康稳定发展。
通过依据大数据形式搜集及整合有价值的数据信息资料,并对于此类数据信息资料完成转化,得到有价值新媒体产品,为新媒体机构提供一定经济收益,明显扩大新媒体机构社会方面收益。
近年来,多数发达国家常是采取大数据形式在新媒体信息策划方面、新媒体信息营销方面等充分运用,促进新媒体信息传输范围逐渐加大,明显提升新媒体信息策划能力,应结合大数据方式直观展示出营销价值,比如依据广告增加营销推广,在不同新媒体平台设置广告推广。
经过在新媒体传输中运用针对性较强的广告,吸引人们注意力及兴趣,增加产品对应热度。
而且,新媒体依据可视化方式,完成人机交互界面体现,使信息传输和计算机网络密切联合,增加复杂数据信息方面处置效率。
此外,新媒体采取可视化形式对数据信息资料完成传输,增加数据信息资料传送范围,完成和用户之间在数据信息资料方面良好交互,提升新媒体信息传输效率。
二、在新媒体传播过程中使用大数据技术的现况现今,新媒体发展支持不足,科学技术发展速率难以符合新媒体发展要求,严重影响新媒体发展进程,难以促使新媒体充分运用大数据方式完成信息传输[2]。
新媒体的发展趋势

新媒体的发展趋势随着科技的不断进步和互联网的普及,新媒体已经成为人们获取信息和进行交流的重要渠道。
新媒体的发展趋势涉及到技术、内容和用户体验等方面的变化。
本文将从这几个方面详细介绍新媒体的发展趋势。
一、技术趋势1. 移动化:随着智能手机和移动设备的普及,移动互联网已经成为新媒体发展的重要方向。
移动应用和移动网站的开发将成为新媒体领域的重要技术趋势。
2. 大数据:随着互联网的发展,数据已经成为新媒体的重要资产。
通过大数据分析,新媒体可以更好地了解用户需求,提供个性化的服务和内容。
3. 人工智能:人工智能技术的快速发展将为新媒体带来更多的可能性。
例如,语音识别技术可以提高用户的交互体验,推荐算法可以根据用户的兴趣推送相关内容。
二、内容趋势1. 视频内容:视频已经成为新媒体中最受欢迎的内容形式之一。
随着5G技术的普及,视频内容的传输速度将大幅提升,视频内容的生产和传播将更加方便。
2. 用户生成内容:用户生成内容已经成为新媒体的重要组成部分。
通过社交媒体和UGC平台,用户可以自主创作和分享内容,增加了用户参与度和互动性。
3. 跨平台传播:随着新媒体平台的不断涌现,跨平台传播已经成为新媒体发展的趋势。
通过将内容在不同平台上发布和传播,可以更好地覆盖不同的用户群体。
三、用户体验趋势1. 个性化推荐:通过大数据和人工智能技术,新媒体可以根据用户的兴趣和偏好推送个性化的内容,提高用户体验。
2. 多元化互动:新媒体平台提供了丰富的互动方式,如评论、点赞、分享等。
用户可以通过互动参与其中,增加用户粘性和忠诚度。
3. 跨界合作:新媒体平台可以与其他行业进行跨界合作,例如与电商平台合作推出限量版产品,与影视公司合作制作短视频等,增加用户参与度和体验感。
综上所述,新媒体的发展趋势涉及到技术、内容和用户体验等方面的变化。
通过抓住这些趋势,新媒体可以更好地满足用户需求,提供更好的服务和内容。
随着科技的不断进步,新媒体的未来发展将充满无限的可能性。
大数据对新媒体的影响

大数据对新媒体的影响在当今数字化的时代,大数据已经成为了一股无法阻挡的力量,深刻地改变着我们生活的方方面面,其中新媒体领域所受到的影响尤为显著。
大数据为新媒体带来了前所未有的精准内容推送。
以往,新媒体的内容传播往往是较为广泛和笼统的,难以精准地满足每个用户的个性化需求。
但有了大数据的支持,情况发生了根本性的改变。
通过对用户的浏览历史、搜索记录、点赞评论等行为数据的分析,新媒体平台能够精准地描绘出每个用户的兴趣图谱。
例如,一个用户经常浏览科技类的文章和视频,那么平台就会更多地为他推送相关的科技内容。
这种精准推送不仅提高了用户获取感兴趣内容的效率,也增加了用户对平台的依赖度和满意度。
大数据使得新媒体的营销模式发生了巨大的变革。
新媒体营销不再是盲目地投放广告,而是基于大数据的精准营销。
企业可以通过大数据分析,准确地找到目标客户群体,了解他们的消费习惯、偏好和需求,从而制定更有针对性的营销策略。
比如,一家化妆品公司想要推广一款新的口红,通过大数据分析发现,关注时尚美妆、年龄在 18 35 岁之间、经常在网上购买化妆品的女性是最有可能购买这款口红的潜在客户。
于是,公司就可以在新媒体平台上向这些精准定位的用户投放广告,大大提高了营销的效果和投资回报率。
在内容创作方面,大数据也为新媒体提供了有力的支持。
创作者可以通过大数据了解当前热门的话题、用户关注的焦点以及内容的流行趋势。
这有助于创作者创作出更符合市场需求和用户兴趣的作品。
比如,一位自媒体作者想要写一篇关于健康养生的文章,通过大数据分析发现,最近关于“睡眠质量提升”的话题关注度很高,那么他就可以围绕这个话题进行创作,从而吸引更多的读者。
大数据还助力新媒体实现了更有效的用户互动和社群管理。
新媒体平台可以通过大数据分析用户的互动行为,了解用户的活跃度、参与度和忠诚度。
对于活跃度高的用户,可以给予更多的关注和奖励,激发他们的积极性;对于忠诚度低的用户,可以通过分析其行为数据,找出问题所在,采取相应的措施来提高他们的忠诚度。
AI和大数据技术对新媒体传播的影响及应用分析

《中国有线电视》2021(02)金於CHINA DIGITAL CABLE TV•媒体与传播-中图分类号:TN93/TN94文献标识码:B文章编号:1007-7022(2021)02-0192-02DOI:10.12071/ccatv.2021-02-025Al和大数据技术对新媒体传播的影响及应用分析□田新梅(玛纳斯县融媒体中心(玛纳斯县广播电视台),新疆昌吉832200)摘要:AI和大数据技术对新媒体传播产生了深远的影响,借助AI和大数据技术的优势,新媒体传播的效果将会更接近于理想程度。
对AI和大数据技术在新媒体传播方面的适用方向进行简要论述,并就AI和大数据技术对新媒体传播带来的影响展开分析。
关键词:AI技术;大数据技术;新媒体传播Analysit on the Influencc and Application of AI and Big Data Technologyon New Meeia Communication□TIAN Xinmei(Manas InWgmWd Media CenWr(Manas Radio and Television Station), Changji832200,China) Abstract:AI and big data technology have a—w far-reaching impact on new media communication.With the advvnWges of AI and big data technology,the elect of new media communication wil l be closer to the i/eal degaee.Thospapeamaoneydosau s esiheappeoaaioon doaeaioon otAIand bogdaiaieahnoeogyon new medoa aommun oaa ioon,and aonduaison-depih anaeysoson iheompaaiotAIand bogdaiaieahnoeogyon ihenewmedoa aommun oaa ioon.Key wo U s:AI technology;big data technology;new media communication新媒体传播是当前人们获取信息的一个主要渠道。
大数据时代的新媒体分析与用户画像

大数据时代的新媒体分析与用户画像随着大数据时代的到来,新媒体分析和用户画像成为了数字营销和市场研究中的重要工具。
通过对大数据的收集、分析和挖掘,企业可以更好地了解用户需求和行为,从而制定更精准的营销策略和产品定位。
本文将探讨大数据时代的新媒体分析与用户画像的意义和应用。
一、新媒体分析的意义新媒体分析是指通过对社交媒体、微博、微信等新媒体平台上的数据进行收集、整理和分析,以获取用户行为、情感倾向、兴趣爱好等信息的过程。
新媒体分析的意义在于:1.了解用户需求:通过分析用户在新媒体平台上的行为和互动,可以了解用户的需求和偏好,从而更好地满足用户的需求。
2.精准营销:通过对用户行为和兴趣的分析,可以制定更精准的营销策略,提高广告投放的效果和转化率。
3.危机公关:通过对社交媒体上的舆情进行监测和分析,可以及时发现和应对危机事件,保护企业的声誉和品牌形象。
二、用户画像的意义用户画像是指通过对用户数据进行分析和挖掘,将用户划分为不同的群体,并对每个群体进行描述和分析的过程。
用户画像的意义在于:1.精准定位:通过用户画像,可以将用户划分为不同的群体,了解每个群体的特点和需求,从而更好地进行产品定位和市场推广。
2.个性化推荐:通过用户画像,可以了解用户的兴趣和偏好,从而向用户推荐更符合其需求的产品和服务,提高用户体验和满意度。
3.精准营销:通过用户画像,可以对用户进行精准的营销和广告投放,提高广告的点击率和转化率。
三、新媒体分析与用户画像的应用1.市场研究:通过对新媒体数据的分析,可以了解用户的需求和偏好,从而为企业的市场研究提供数据支持和参考。
2.产品定位:通过用户画像,可以了解用户的特点和需求,从而更好地进行产品定位和市场推广。
3.广告投放:通过对用户画像和新媒体数据的分析,可以制定更精准的广告投放策略,提高广告的点击率和转化率。
4.危机公关:通过对社交媒体上的舆情进行监测和分析,可以及时发现和应对危机事件,保护企业的声誉和品牌形象。
大数据时代下传统纸媒与新媒体的融合

大数据时代下传统纸媒与新媒体的融合大数据时代下,传统纸媒与新媒体的融合已成为媒体发展的趋势。
大数据技术的发展使得传统纸媒和新媒体能够更好地结合,拓展媒体传播的广度和深度,提升用户体验和个性化服务。
本文将从大数据技术与媒体融合的背景、融合的形式和影响、未来发展趋势等方面进行阐述。
一、大数据技术与媒体融合的背景随着互联网的发展和智能手机的普及,新媒体已成为人们获取信息和娱乐的主要途径。
传统纸媒虽然受到了一定程度的冲击,但其在新媒体时代依然具有不可替代的价值。
传统纸媒和新媒体的融合成为了媒体发展的必然选择。
大数据技术的出现为传统纸媒和新媒体的融合提供了重要支撑。
大数据技术能够帮助媒体机构实现对用户行为、兴趣和需求的精准分析,从而为媒体运营提供重要决策支持。
在这样的背景下,传统纸媒和新媒体的融合不仅是为了拓展业务范围,更是为了提升媒体传播的质量和效益。
二、传统纸媒与新媒体的融合形式与影响1. 内容融合传统纸媒与新媒体的内容融合是媒体融合的重要表现形式。
传统纸媒具有深度、权威和独立的新闻报道优势,而新媒体则具有即时、互动和个性化的特点。
传统纸媒可以借助大数据技术实现对新闻报道的个性化定制,提供更加符合用户需求的内容。
新媒体可以借助传统纸媒的深度报道资源,丰富自身的内容库,提高用户粘性和参与度。
2. 平台融合随着移动互联网的普及,传统纸媒也在积极开展数字化转型,建设自己的新媒体平台。
这些平台不仅可以是网站和客户端,还可以是社交媒体平台和内容分发平台。
通过大数据技术,传统纸媒可以更好地了解用户的使用习惯和喜好,优化平台功能和服务体验,提升用户留存和粘性。
新媒体也可以利用传统纸媒的品牌、资源和内容优势,拓展自己的用户群体和商业模式。
3. 营销融合传统纸媒和新媒体的融合也表现在广告营销方面。
大数据技术能够帮助媒体机构更好地了解广告主的推广目标和用户需求,为其提供个性化的广告定制服务。
传统纸媒和新媒体可以通过合作联动,实现广告资源的整合和交叉推广,提升广告效果和商业价值。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
摘要:随着新媒体业务在广电系统的发展,我们不可避免的要面对“大数据”对整个产业发展的影响。
在其他行业中,大数据已经得到了充分、足够的重视,而广电对其重视程度还不够。
本文通过对大数据的基本情况的介绍,对广电新媒体的挑战,以及可能会带来的误区几个方面进行了简单的介绍。
关键词:大数据 海量数据 云计算 Hadoop1 “大数据”背景我们现在生活在一个数字信息爆炸的时代,身边每时每刻都在产生数据信息。
随着计算机运算速度的增加,存储空间的扩大,以及云计算技术的出现,如何利用好这些数据,让整个计算机界的热情达到了空前的高度。
在电信、金融等行业甚至已经达到“数据就是业务”的地步,这种趋势让很多相信数据会产生价值的企业做出了改变。
“Big Data”可以理解为大数据,也可以理解为海量数据,但是这两者还是存在区别的。
大数据包含了海量数据,除此之外还包含多种类型的数据。
大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。
该定义可以从两个角度来分析:一方面是数据容量的不断扩大,数据集合的范围已经从兆字节(MB)到吉字节(GB)再到太字节(TB),甚至还有拍字节(PB)、艾字节(EB)和泽字节(ZB)的计数单位出现。
著名咨询公司IDC的研究报告称,未来十年全球大数据将增加50倍。
仅在2011年,就有1.8ZB(也就是1.8万亿GB)的大数据创建产生。
这相当于每位美国人每分钟写3条微博,而且还是不停地写2.6976万年。
在未来十年,管理数据仓库的服务器的数量将增加10倍以便迎合50倍的大数据增长。
另一方面,日益增长的集成式大数据已不再适宜于用当前管理数据库的工具来进行分析处理。
其难点包括:数据的抓取、存储、检索、共享、分析以及可视化等。
2“大数据”带来的挑战“大数据”在物理学、生物学、环境生态学、自动控制等科学领域和军事、通讯、金融等行业已经存在很久了,在互联网领域却是最近几年才出现的,而对于电视台的新媒体领域现在才刚刚暂露端倪,在未来马上就要成为我们不可回避的问题之一。
这主要有如下几个方面:首先,随着电视台新媒体业务的发展,电视台新媒体业务从最初的图文网站为主,逐步走向以视音频节目为主,图文共存的形式,这样数据量大大的增加。
其次,用户的终端变得更加丰富,从原先的台式机变为现在的手机、平板电脑、电视机等多终端,这就要求我们的系统提供更全面的系统服务,提高用户的粘度,增强用户体验,而这所有的一切都大大的增加了数据量。
再次,现在的用户对互联网的依赖程度越来越高,越来越多的用户会把更多的时间花费在网络上,他们可以在上面进行购物、聊天、看视频、工作等更多的活动,这些也大幅的增加了系统的数据。
现在越来越多的企业开始重视“大数据”,根据艾瑞调查统计的数据在2011年日本大数据产业1900亿日元,预计在2020年这个产业将会达到1万亿日元。
大数据的出现为广电带来了新的课题,同时也带来了更多的机遇。
从市场运营的角度来看,数据量的大规模的增加是让我们精确把握用户的网络行为模式的基础,如果能够充分利用,我们就可以通过大数据的分析及处理得到用户行为分析,可以个性化、精确化、智能化的进行广告推送以及服务推广服务。
新的广告模式和产品推广形式的会比现有的广告模式性价比高出几倍甚至几十倍。
同时,新媒体公司也可以通过对大数据的把握,大大地增加用户粘性,开发新产品和新服务,降低运营成本。
从现实的问题看,主要有以下三个方面的问题。
首先,大数据挑战了传统广电公司领导的战略决策能力。
新媒体业务和技术与传统广电业务区别非常大,数据量的急剧增长不仅要求在带宽和存储设备等基础设施方面要增加大量投入,而且会使广电公司处于进退两难的境地。
如果任数据增长,不予理会,那就很可能失去未来发展的机会,失去业内竞争的本钱,早晚会被产业淘汰或者居于下游;如果与时俱进,转型适应大数据时代的到来,那就需要对新媒体现有产品和运营体系进行全面的改造,例如网站架构的重新设计;产品的标准化、通用化、模块化;商业模式的创新等等。
这对新媒体公司而言,既要维持现有业务,保持业绩的稳定和增长,又要加大投入,迅速转型,是个进退两难的处境。
其次,大数据的出现挑战了新媒体公司的技术开发和数据处理能力。
大数据的出现以及潜在的商业价值不仅要求新媒体公司使用专门的数据库技术和专用的数据存储设备,而且更要求专门的数据分析方法和使用体系。
目前业内流行的一般数据挖掘方法和通用商业数据库无法满足大数据时代的挑战。
而且,新媒体公司需要大数据处理方面的大量高端专业人才,这不仅指一般的程序员和数据库工程师,而且指数学和统计学家、社会网络学家、社会行为心理学家等等。
对海量数据的分析不能仅仅局限在一般数据规律和模型的把握水平上,而且要有理论思维和全面把握的综合深入能力。
第三,大数据挑战了新媒体公司的组织和运营能力。
一般中小网络公司都没有专门的数据管理和分析专家,即使是大型网络公司中,数据管理和分析部门也处于分散、被动、辅助的地位,是公司的龙尾而不是龙头。
大数据时代的数据分析基本单位是个人用户,寻找的是个人的全面、完整、动态、实时的网络行为模式以及在此基础上归纳出来的群体行为模式,而不是过去那种基于单个产品、服务、频道的碎片式静态统计分析。
所以,对大数据的整体把握是新媒体公司产品开发、运营设置、商业模式的基础和出发点,是龙头而不是龙尾。
这就需要对现有公司架构、组织体系、资源配置和权力结构进行重组,让数据管理与分析部门处于公司整体的上游位置。
Facebook最近在总部的一次会议中披露的一组数据可以给大家一个初步的印象,来一起看看每天Facebook上都得处理多少数据吧:1. 25亿Facebook上分享的内容条数;2. 27亿“赞”的数量;3. 3亿上传照片数;4. 500+TB新产生的数据;5. 105TB每半小时通过Hive扫描的数据;6. 100+PB(1PB=1024TB) 单个HDFS(分布式文件系统)集群中的磁盘容量。
Facebook的工程总监Parikh解释了这些数据对于Facebook的意义:“大数据的意义在于真正对你的生意有内在的洞见。
如果你不能好好利用自己收集到的数据,那你只是空有一堆数据而已,不叫大数据。
”目前Facebook有着世界最大的分布式文件系统,单个集群中的数据存储量就超过100PB。
在Facebook内部,从一开始就没有在不同的部门之间(比如广告部和用户支持部)设立障碍或者分割数据。
这样一来产品开发者就可以跨部门获得数据,实时知晓最近的改动是否增加了用户浏览时间或者促成了更多的广告点击。
作为普通用户,大家也许会对如此海量的数据心存不安,担心自己的数据被随意浏览。
对此Facebook表示有各种防范措施来防止此类事情的发生,比如所有的数据读取记录都会被存档,哪些人看过哪些数据都是记录在案的;如果有员工越线,会被直接开除。
Parikh着重强调:“在这件事上我们的政策是零容忍。
”3“大数据”的数据分析目前,一提到大数据大家就会想到Hadoop数据分析平台,Hadoop在可伸缩性、健壮性、计算性能和成本上具有无可替代的优势,事实上已成为当前互联网企业主流的大数据分析平台。
Hadoop平台对业务的针对性较强,按照数据分析的实时性,分为实时数据分析和离线数据分析两种。
实时数据分析一般用于金融、移动和互联网B2C等产品,往往要求在数秒内返回上亿行数据的分析,从而达到不影响用户体验的目的。
要满足这样的需求,可以采用精心设计的传统关系型数据库组成并行处理集群,或者采用一些内存计算平台,或者采用HDD的架构,这些无疑都需要比较高的软硬件成本。
目前比较新的海量数据实时分析工具有EMC的Greenplum、SAP的HANA等。
对于大多数反馈时间要求不是那么严苛的应用,比如离线统计分析、机器学习、搜索引擎的反向索引计算、推荐引擎的计算等,应采用离线分析的方式,通过数据采集工具将日志数据导入专用的分析平台。
但面对海量数据,传统的ETL工具往往彻底失效,主要原因是数据格式转换的开销太大,在性能上无法满足海量数据的采集需求。
互联网企业的海量数据采集工具,有Facebook 开源的Scribe、LinkedIn开源的Kafka、淘宝开源的Timetunnel、Hadoop的Chukwa等,均可以满足每秒数百MB的日志数据采集和传输需求,并将这些数据上载到Hadoop中央系统上。
按照大数据的数据量,分为内存级别、BI级别、海量级别三种。
这里的内存级别指的是数据量不超过集群的内存最大值。
不要小看今天内存的容量,Facebook缓存在内存的Memcached中的数据高达 320TB,而目前的PC服务器,内存也可以超过百GB。
因此可以采用一些内存数据库,将热点数据常驻内存之中,从而取得非常快速的分析能力,非常适合实时分析业务。
MongoDB大集群目前存在一些稳定性问题,会发生周期性的写堵塞和主从同步失效,但仍不失为一种潜力十足的可以用于高速数据分析的NoSQL。
此外,目前大多数服务厂商都已经推出了带4GB以上SSD的解决方案,利用内存+SSD,也可以轻易达到内存分析的性能。
随着SSD 的发展,内存数据分析必然能得到更加广泛的应用。
BI级别指的是那些对于内存来说太大的数据量,但一般可将其放入传统的BI产品和专门设计的BI数据库中进行分析。
海量级别指的是对于数据库和BI产品已经完全失效或者成本过高的数据量。
除了Hadoop以外,海量数据级别的优秀企业级产品也有很多,但基于软硬件的成本原因,目前大多数互联网企业采用Hadoop的HDFS分布式文件系统来存储数据,并使用MapReduce进行分析。
法务研究机构巨头LexusNexus最近就无私地开源了其分析平台HPCC系统。
MarkLogic也公开了其非结构化数据库MarkLogic Server,可用于大数据分析。
此外,Splunk的搜索引擎也在获得关注,可以用于搜索和分析机器数据,例如服务器日志。
4 大数据的误区目前,我们的新媒体普遍拥有海量的客户信息,包括在线交易记录及社交媒体数据等。
但是,成功的关键是要能够从不同渠道和来源的数据中洞察价值,而具备收集并分析这些数据能力的企业将在竞争中拥有显著优势。
但是,数据的非结构化已经成为新媒体公司的重大挑战。
新媒体公司已经熟悉收集和分析结构化数据,如传统的销售年报信息。
目前,许多新媒体公司都困惑于如何收集和分析更多类型的多结构化数据,如网络日志、传感器网络、社交网络、互联网文本和文件、互联网搜索索引、视频档案以及电子商务交易数据等。
由于这些数据的结构问题及大数据类型的复杂关联,导致无法应用现有的传统技巧进行大数据分析。
这为新媒体公司带来了新的任务,需要开发一套全新方法,不仅能够处理传统数据,而且可以便捷地分析和应用这些新兴数据,而不是仅仅进行储存。