大数据中的百年社会学——基于百万书籍的文化影响力研究
大数据时代的社会文化分析研究

大数据时代的社会文化分析研究随着数码技术和互联网的发展,大数据已成为当前社会的热点话题。
大数据是以海量数据为基础,结合处理和分析技术,提供智能化决策和判断的一种技术体系。
大数据时代的到来,提供了新的机遇与挑战,同时也对人类的社会文化产生了深远影响。
1. 大数据对社会文化的影响在大数据时代,数据已经成为了社会的新型生产要素,例如,数据的采集、处理和分析已经成为了企业的重要部分。
大数据呈现了许多新特征,例如速度快、规模大、类型多、价值高。
但是大数据时代也带来了许多改变社会文化的不利因素。
现在,人们在日常生活中产生的数据量如此之大,以至于个人信息安全和隐私成为了一个严重的问题。
此外,随着数据科技技术的快速发展,人类社会的工作方式、生活方式和文化方法也发生了翻天覆地的变化。
例如,今天大数据时代的崛起使全球楼市高速地快速膨涨,各类融资与交易中心逐渐增多,整体购房体系已经形成。
2. 大数据时代的社会文化分析随着大数据时代的到来,我们需要对社会文化进行全面分析,为人类社会的变革提供支持。
大数据时代的社会文化分析包括两个方面。
一方面,基于大数据的技术手段,我们可以从海量数据中提取有价值的文化信息,为人们的文化生活、艺术欣赏和娱乐消费提供更加优质的服务。
例如,通过大数据的分析,可以发掘人们的文化需求与兴趣,以此为基础来设计与推出符合群体需求的文化产品或服务。
另一方面,基于大数据时代的社会变革趋势,我们需要对社会文化产生的根本影响进行深入分析,为人们的生活、工作和文化娱乐提供更多的知识和思考。
例如,对于新的文化行业需求的人才需要我们做出深入的分析和研究。
只有认真以及深入研究各种文化产业的发展前景,清楚表明其所处的社会和文化环境,我们才能够预见文化行业未来的发展趋势。
3. 大数据时代中的文化创意产业文化创意产业是大数据时代中的一个重要方面。
在大数据的帮助下,我们可以更全面地了解人们的文化需求和喜好,为更广泛的人群提供好的文化服务。
大数据技术在文学研究中的应用探究

大数据技术在文学研究中的应用探究随着信息技术的发展,大数据技术在各个领域的应用日益普及,文学研究领域也不例外。
大数据技术的引入为文学研究带来了诸多可能性和机遇,通过对海量文学作品的数据分析和挖掘,我们可以深入了解文学作品的发展趋势、作家的写作风格以及文学作品与社会的关联等方面。
本文将探讨大数据技术在文学研究中的应用,并分析其对文学研究的影响和意义。
首先,大数据技术为文学研究提供了丰富的数据资源。
通过数字化过程,许多经典文学作品得以以电子形式保存,构成了庞大的文学数据库。
利用大数据技术,研究人员可以轻松访问和分析这些数据,不再受限于繁琐的手工整理和筛选。
研究者可以根据特定的研究目标,获取各个时期、国家、流派的文学作品,并进行数据筛选和分析,从而推动文学研究的深入发展。
其次,大数据技术的应用使得文学作品的分类和分析更加精准和全面。
在传统的文学研究中,往往依赖于个别学者的主观判断和观点,导致结果的不可靠性和片面性。
而通过大数据技术,研究者可以基于更多的文学作品进行分类和分析,降低主观因素的干扰。
例如,可以利用文本挖掘技术对不同流派、时期和风格的文学作品进行分类,并发现其中的共性和特征。
这样一来,不仅可以帮助研究者更全面地理解文学作品,还能为读者提供更好的阅读推荐和体验。
此外,大数据技术的应用可以揭示文学作品的社会背景和时代特点。
文学作品往往反映着社会的发展和变化,通过对大数据的分析,可以深入挖掘文学作品与社会之间的关联。
例如,可以通过对作品中人物、事件、环境等元素的提取和分析,了解作品中的社会背景、时代风貌和文化内涵。
此外,可以通过大数据技术对文学作品在不同时期的流传和影响进行追踪和分析,揭示文学作品与社会之间的相互作用关系。
大数据技术的应用还可以帮助解读文学作品的语言风格和意义。
通过对大量文学作品的语言数据进行挖掘和分析,可以发现作家的写作风格和习惯,进而揭示作品中隐藏的意义和象征。
例如,可以基于大数据对作家的用词频率、句式结构等进行统计和比较,进一步探索其写作特点和表达手法。
大数据在社会科学领域中的应用

大数据在社会科学领域中的应用一、引言随着信息技术的不断发展,我们进入了一个大数据时代。
大数据已经成为我们社会的重要组成部分,而且在各个领域中都得到了广泛的应用。
其中,社会科学领域的应用是比较重要的,这一领域的研究需要收集和分析大量的数据。
本文将就大数据在社会科学领域中的应用做一些探讨,具体内容如下。
二、大数据在社会科学中的重要性社会科学是一个涉及人类社会问题的学科,它需要从事有关社会、人类行为等的研究,其研究对象的特殊性就要求社会科学家必须能够获取大量的真实数据进行研究。
但是,在社会科学研究过程中,数据收集的过程就显得非常关键了。
通常情况下,研究数据收集的过程是通过问卷调查、统计数据分析等来完成,但是收集这些数据花费了大量的时间,并且通常都需要花费大量的人力和物力。
相比于传统的数据收集方式,大数据技术的应用可以快速、可靠的收集和分析大量的数据。
例如,研究一个城市的人口分布,尤其是居民迁移情况,在传统方法下,需要发放问卷,设计问卷,收集、归档、整理数据等很多繁琐的工作,这些过程需要消耗大量的时间和人力,完全无法满足紧急的研究任务。
然而,大数据技术的应用可以通过社交媒体、舆情监测等方式,收集到许多真实的数据,只需要经过简单的处理,就可以得到有价值的信息。
三、大数据在社会科学研究方法中的应用1. 减少样本误差在传统的研究方法下,需要大量的工作来设计或者收集样本那么我们需要使用样本来代表总体,通过样本判断总体的情况。
然而,样本误差是无法完全避免的。
大数据技术的应用可以大大缓解这种误差,同时也可以大大缩减参与数据处理和分析的工作人员,同时,也可以降低数据收集的成本。
2. 研究主题拓展在传统的研究方法下,很难挖掘潜在的关联或者主题和研究性质,还需要人工进行挖掘,难度非常大。
而大数据技术的应用,可以非常快速地将数据中的潜在关联和主题挖掘出来,这样就可以进一步探索研究路径或者策略。
3. 数据可视化大数据的应用会产生海量的数据,要直接查看数据会比较困难。
大数据中的中国非物质文化遗产:300年国际知名度分析

大数据中的中国非物质文化遗产:300年国际知名度分析孙艳;黄荣贵;洪岩璧
【期刊名称】《学术论坛》
【年(卷),期】2016(039)006
【摘要】文章利用谷歌图书的百万书籍大数据,以中国世界非物质文化遗产近300年来英语书籍中出现的词频来展示和分析其国际知名度的变迁及其特征.研究发现,妈祖、京剧、书法、针灸、端午节、皮影戏、粤剧、雕版印刷、格萨尔和昆曲依次为近300年来中国世界文化遗产国际知名度前10名.从300年知名度变迁形态上看,非物质文化遗产和物质文化遗产的国际知名度紧密相连,并受到跨国交流、现代化进程以及民族文化自觉意识的影响.
【总页数】7页(P106-112)
【作者】孙艳;黄荣贵;洪岩璧
【作者单位】无锡科技职业学院,江苏无锡214000;复旦大学,上海200433;东南大学社会学系,江苏南京210096
【正文语种】中文
【中图分类】G05
【相关文献】
1.近三百年中国城市的国际知名度基于大数据的描述与回归 [J], 陈云松;吴青熹;张翼
2.中国城市国内知名度的变迁和机制——基于海量书籍和互联网搜索引擎的大数据
分析 [J], 柳建坤;吴愈晓;刘伟峰
3.大数据中的中国文化名人名著:500年国际知名度分析 [J], 张亮亮;张洪;李双龙;吴楷文
4.大数据中的中国世界文化遗产:500年国际知名度分析 [J], 陈云松;孙艳;严飞
5.非物质文化遗产保护的国际视野和中国经验——2010中国艺术人类学学术会议综述 [J], 汪欣
因版权原因,仅展示原文概要,查看原文内容请购买。
人文社科研究在大数据时代的转型

人文社科研究在大数据时代的转型知识点:人文社科研究在大数据时代的转型一、引言人文社会科学是研究人类社会、文化、历史、经济、政治等方面的一门学科。
在传统的研究方法中,学者们主要依靠文献资料、调查问卷、访谈等手段来收集和分析数据。
然而,随着大数据时代的到来,人文社科研究面临着前所未有的挑战和机遇。
大数据为人文社科研究提供了更为丰富、全面、实时的数据资源,使得研究更具深度和广度。
同时,大数据技术的应用也推动了人文社科研究方法的转型和创新。
二、大数据时代人文社科研究的新特点1. 数据资源的丰富性和全面性:大数据时代,各种类型的数据无处不在,如社交媒体、网络日志、电子商务、公共记录等。
这些数据为人文社科研究提供了更为丰富和全面的研究素材,有助于揭示人类社会发展的规律。
2. 数据收集和分析的实时性:大数据技术使得数据收集和分析不再受时间和空间的限制,研究者可以实时跟踪和监测社会现象,从而提高研究的时效性。
3. 研究方法的转型和创新:大数据技术的发展促使人文社科研究方法发生变革。
研究者需要掌握新的数据处理和分析技能,如数据挖掘、文本分析、网络分析等,以适应大数据时代的需求。
4. 跨学科研究的加强:大数据时代,人文社科研究需要与其他学科,如计算机科学、统计学、信息科学等开展合作,实现跨学科的研究突破。
三、大数据时代人文社科研究的挑战1. 数据质量的把控:大数据环境下,数据来源复杂,质量参差不齐。
如何筛选和清洗数据,确保研究结果的可靠性,成为人文社科研究面临的一大挑战。
2. 隐私保护和伦理问题:大数据时代,个人隐私泄露的风险增加。
如何在保护个人隐私的前提下,合理利用数据资源开展研究,是人文社科研究必须关注的问题。
3. 研究方法和分析技能的更新:大数据技术不断发展,研究者需要不断学习和掌握新的研究方法和分析技能,以适应大数据时代的要求。
4. 数据解读的难度:大数据环境下,数据量庞大,信息繁杂。
如何准确解读数据,挖掘其中有价值的信息,是人文社科研究的一大难题。
大数据在人文社科研究中的应用

# 大数据在人文社科研究中的应用## 引言人文社科研究是对人类文化、社会行为和思想观念等方面进行探索和理解的学科领域。
而随着大数据技术的迅速发展,大数据在人文社科研究中的应用也日益受到关注。
通过收集、整合和分析大规模的文本、图像、音频和视频等数据,大数据可以帮助研究者发现潜在的模式、趋势和关联,从而深入理解人类的行为、文化和社会问题。
本文将探讨大数据在人文社科研究中的应用,并阐述其在文化研究、社会网络分析和舆情研究等方面的影响。
## 1. 文化研究大数据在人文社科研究中的一个重要应用是文化研究。
通过收集和分析大量的文本数据、图像和音频等,大数据可以帮助研究者深入探索和理解不同文化的特征、演变和传播方式。
例如,通过分析社交媒体上的文本内容和语言使用,可以了解不同文化背景下的价值观和态度。
通过分析音乐、电影和艺术作品等数据,可以揭示文化创意的生成和传播规律。
大数据的应用能够帮助研究者发现文化的多样性和共通性,推动文化研究的深入和全球对话。
## 2. 社会网络分析大数据在人文社科研究中的另一个重要应用是社会网络分析。
通过收集和分析个体之间的关系数据,如社交媒体上的好友关系、合作关系和信息传播路径等,大数据可以帮助研究者了解社会网络的结构、演化和功能。
例如,通过分析社交媒体上的关注关系和互动行为,可以揭示人际关系的形成和变化规律。
通过分析学术合作网络和企业供应链网络等数据,可以探索组织间的合作与竞争关系。
大数据的应用能够帮助研究者揭示社会网络的特征和机制,促进社会网络分析的发展和应用。
## 3. 舆情研究大数据在人文社科研究中的另一个创新应用是舆情研究。
通过收集和分析大量的在线媒体、社交媒体和论坛等数据,大数据可以帮助研究者了解公众对特定事件、话题和产品的态度和情感。
例如,通过分析新闻报道和社交媒体上的评论,可以了解公众对政治、环境和健康等问题的关注程度和舆论倾向。
通过分析消费者在电商平台上的评价和推荐行为,可以揭示产品的口碑和市场反馈。
大数据对社会科学研究的影响

大数据对社会科学研究的影响一、简介随着各种信息技术的发展与应用,大数据成为信息技术领域的关键词之一,也深刻影响到社会各个领域的发展,尤其是对社会科学研究的影响。
本文将从数据源、数据处理与方法、研究成果三个方面探讨大数据对社会科学研究的影响。
二、数据源大数据的特点是数据量大、数据类型多样、数据来源广泛。
对于社会科学研究而言,传统的研究数据主要来自各种问卷调查、统计局发布的各种数据、文本资料等,这些数据是以样本方式收集的,局限于时间、空间的限制,数据量及其有限,不能满足复杂的社会科学研究需求。
而大数据技术的应用,可以收集人们在网络、社交媒体上的各种行为信息,这些数据不受时间、空间的限制,数据量大、种类繁多,具有极高的研究价值。
三、数据处理与方法传统的社会科学研究主要依靠问卷调查、统计分析等手段进行研究,这种方式在一定程度上受制于样本数量、质量等方面的限制,同时也存在许多的主观因素干扰,从而影响研究结果的可行性及有效性。
而大数据技术的应用,不同于传统社会科学研究,其从采集到数据处理和研究成果形成的每一个环节都具有较高的客观性和准确性。
例如,在社交媒体上收集的大量数据可以通过文本分析、网络分析等方法,揭示人们在网络空间中的行为、互动模式等,从而发现存在的问题、趋势及规律,并得出科学的结论。
同时,又可以将社交媒体、网络、移动设备等多种数据进行结合分析,形成更全面、更有效的研究成果。
四、研究成果大数据技术的应用,与传统社会科学研究的成果相比,在社会科学研究方面具有更高的可靠性、准确性和前瞻性。
例如,基于移动设备信令数据的城市空间分析,能够大力推动城市规划、交通管理、环境保护等业务发展。
在社交网络研究方面,基于用户特征、社会网络、文本分析等多种手段,可以充分解析人们在社交媒体上表现的各种行为、态度、观点等信息,发现人类社会的新现象、新问题,推动社会科学的发展。
五、总结大数据技术的快速发展为社会科学研究带来了巨大的机遇和挑战。
大数据时代的社会科学研究参考word

大数据时代的社会科学研究摘要:大数据时代已经来临,如何从海量数据中发现知识,寻找隐藏在数据中的模式、趋势和相关性,揭示社会现象与预知社会发展规律,需要我们拥有更好的数据洞察力。
社交网络、移动互联网和物联网的兴起为社会科学研究提供了新的科学发展观和方法论。
大数据对社会生活、媒介生态和商业带来机遇与挑战是颠覆性的,大数据同时带来了社会科学研究的春天,我们必须拥抱大数据,拓展射虎科学研究新疆界,勇于创新,迎接挑战。
关键词:大数据、社会科学研究、影响社会科学是在近代以来逐渐形成的,它以社会现象为研究对象,力求揭示社会生活的本质和发展规律,对社会生活做出科学的说明与合理的评价。
人类文明的进步为社会科学的发展提供了前提条件,而社会科学的发展又为人类文明的进步提供了思想指导。
社会科学研究通过对社会历史的回溯与反思,对现实社会的批判与构建,力求提升社会的自我认识能力,使人类文明发展行进在正确的方向和轨道上。
马克思主义社会科学方法论是在实践基础上的辩证的、唯物的方法论,是批判地继承了以往优秀学说的新产物,有其重要的理论和实践作用,开创了科学认识人类社会的新路径。
马克思主义社会科学方法论是从马克思主义学说中提炼出来的,以辩证唯物主义和历史唯物主义为根本方法。
近年来,信息技术的快速发展,特别是信息获取技术、物理信息系统、互联网、物联网、社交网络等技术的突飞猛进,引发了数据规模的爆炸式增长,大数据已经普遍存在,能源、制造业、交通运输业、服务业、科教文化、医疗卫生等领域都积累了TB级、PB级乃至EB级的大数据,这些数据已经开始造福于人类,成为信息社会的重要财富。
大数据蕴含着巨大的价值,对社会、经济、科学研究等各个方面都具有重要的战略意义,为人们更深入地感知、认识和控制物理世界提供了前所未有的丰富信息,为社会研究提供了更广阔的发展空间。
一、大数据的定义与特点1、大数据的定义当今社会,数据量正在以爆炸方式迅猛增长,数据表示形式千变万化,标志着我们已经进入了大数据时代。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一、导言社会学自19世纪末诞生以来,理论和方法日益丰富,学派和名家不断涌现,其理论和成果对人类经济、政治和社会文化生活的影响也在不断扩大和深入。
在学术界内衡量一个学科或者某项研究成果的影响,我们往往依靠学术文献和引用指标(如学术书籍、学术期刊、论文引用影响因子)。
不过,要在更为宏观的时间、空间维度上观察甚至评估理论的发展、学者的成长乃至整个学科对于人类知识谱系的影响力,也即“文化影响力”,则要复杂和困难得多。
现在,基于大数据的词频统计技术为这一领域的探索提供了可能。
本文将利用谷歌语料库千亿量级的海量数据,通过对社会学关键词的词频分析来初步展示百年社会学发展历程中的现象和规律。
本研究也是我国社会学领域的首次大数据分析尝试。
二、数据、概念和策略自2004年底,谷歌公司陆续对哈佛、牛津等40多所顶级大学图书馆藏书及出版社赠书进行了浩大的数字化工程。
到2013 年,谷歌己对超过三千万种书籍进行了扫描识别,占人类自古登堡印刷术发明以来出版图书的约四分之一,其中数字化质量较好可供全文检索的达八百多万种(8116746种),词汇量8613亿,分别展示了谷歌图书语料库的主要语言构成。
书籍是承载人类知识、观念和思维的最主要的载体。
只要语料库具有足够的代表性,我们就可以认为一个词汇在书籍中出现的频率,能够近似地反映这个词汇及其相关意蕴的“文化影响力”(涵盖知名度、关注度、影响力等多个维度),甚至折射出某种社会趋势、风尚或思潮。
以“社会流动”一词为例:首先,语言和词汇反映了作者的观点,而书籍作者比一般人拥有更大的文化影响力。
作者群体越多地提及“社会流动”,就说明该词的文化影响力越高;其次,书籍出版会考虑读者的需求,因此书籍词汇的总体特征往往能反映大众观念和思维偏好。
书籍中“社会流动”出现得越多,就意味着大众对相关的社会现象越为关注。
谷歌语料库为文化研究、语言学研究、观念史研究等提供了难得的文化大数据。
本文将借鉴“文化组学”的研究方法,使用谷歌图书语料库的最新2012版进行社会学词频分析。
有关数据特征、概念操作化和分析策略归纳如下。
(一)数据的代表性谷歌图书语料库2012版拥有1500年以来的811万种印刷图书、8163亿单词。
考虑到社会学的诞生是在19世纪末,且英语是百年来全球使用最为广泛的语言之一,我们将检索范围设定为19世纪中晚期到2008年的英语语料库。
由于19世纪以来的图书印刷质量较之早期图书更高、数字化识别率也更好,因此其进入全文检索语料库的比例要较早期图书高出很多。
这使得本文检索对象的代表性比谷歌图书语料库跨度五百年的总体代表性要高得多。
实际上,本文的检索分析对象几乎囊括英语世界19世纪中晚期以来的绝大部分书籍。
最后,尽管书籍内容包罗万象,出于谨慎我们在辅助分析中进一步对非书籍语料库进行了分析:具体而言,我们将利用19世纪中晚期以来的平面媒体(报纸)全文数据库对相关关键词进行检索。
(二)数据的针对性人文社科知识体系的建立、扩张和影响力,以及成果的弥散,比物理、化学等自然科学更借助于文字的形式,也就更多地依托书籍、报纸和杂志等文化载体。
不过,读者难免有疑问:为何不直接使用学术期刊来作为社会学关键词的分析对象?实际上,除了谷歌图书语料库更符合大数据的基本特征之外,还有三个方面的原因。
第一,书籍内容的覆盖面要比学术期刊广泛得多,而本研究的目的恰恰在于分析百年来社会学的文化影响力变迁而非单纯的学术发展史;第二,作为书面语言的载体,学术期刊的发展、成熟本身要比书籍晚得多,如果用期刊数据库进行分析,早期的社会学相关信息可能会有较大偏误;第三,学术期刊数据库提供的检索功能往往只达到作者、关键词、学科领域级别,有的虽能实现全文检索但又无法提供词频信息。
因此,谷歌图书语料库无论在数据规模还是完整性、科学性等方面,都比学术期刊数据库更适合本研究。
(三)概念的操作化我们正式定义:在某个时间跨度内的具有较好代表性的语料库中,一个社会学关键词的”词频比例”,即其在样本书籍中出现的次数与样本书籍中全体单词总量的比值(考虑到每年书籍总量不一),可以代表该社会学关键词在该时段内的文化影响力。
这样,利用谷歌图书语料库对一系列学科关键词进行检索统计,我们就可以获得这些关键词自社会学诞生以来一个多世纪中的历年“词频比例”。
在任何一个年份,关键词词频比例越高,就表明其在全社会的使用和提及程度越高,文化影响力越大。
考虑到书籍出版年份越靠后,进入书记中数字符号等非词汇性内容越多,因此我们用关键词出现频数除以英语单词“the”的出现频数来计算年度词频比例。
(四)检索词的设计我们的检索分析主要基于英语库。
检索方向分为六类:学科轨迹、名家大师、理论发展、领域热点、分析方法以及中国社会学。
关键检索词的设计我们主要参考了斯科特和马歇尔主编的《牛津社会学词典》(2005)、吉登斯和萨顿的《社会学》(2013)、贾春增的《外国社会学史(第三版)2008》、谢立中的《西方社会学名著提要》(2007)等辞书和教科书。
选取辞书与教科书而非社会学理论专著作为关键词选择依据的原因在于:第一,辞书和教科书本身对学科的总体发展有比较清晰的梳理,其章节、条目为关键词检索提供了良好的备选;第二,社会学辞书、教科书的数量较之社会学著述要少得多,这使得我们可以在前人的总结梳理基础上较为快速和准确地确定关键词。
(五)检索精度的设置如果关键词在当年书籍中出现少于40次,就被作为0值处理。
换句话说,检索得到的词频本身就是“规模性”出现的“热词”词频。
40次的门槛设置,除了让数据分析和绘制图形更为简洁之外,对检索精度具有重要的价值:例如,在搜索社会学名家的英文全名之时,通过“热词”筛选就可以排除一些和社会学大师同名同姓的普通人一一除非他本身是其他领域的知名人物。
此外,我们还根据不同的情况设置了单词字母大小写的严格区分或模糊区分(如人名中区分大小写),对关键词非核心部分进行了有针对性的取舍(如检索“固定效应”而非“固定效应模型”),以确保检索结果的科学性。
最后,考虑到图形的视觉效果,我们对词频比例曲线进行了2年平滑处理:以1950年为例,经过平滑后该年份的数值为它与前后两年原始数据一共五年的平均值(即1948、1949、1950、1951和1952年的均值)。
三、大数据中的学科轨迹我们首先分析“社会学”(sociology)这一最重要的学科关键词自1850年以来在英语书籍中的出现频次。
为进行对比,我们同时对哲学(philosophy)、经济学(economics)、人类学(anthropology)和心理学(psychology)等四个兄弟学科进行同步检索分析。
图1的横坐标是1850-2008年的时间轴,纵坐标是社会学关键词的词频比例。
从图1可见,在150年来的英语书籍中,“哲学”二字的词频比例总体上保持在0.008%上下,也即十万分之八。
与其他社会科学门类相比,哲学词频出现更早、占比更高。
不过,在19、20世纪交替的自由资本主义发展晚期,哲学词频曲线进人了下降通道,直到20年代才开始恢复。
实际上,哲学史上与此对应的正是19世纪中叶德国古典哲学尤其是黑格尔学派的解体。
而在哲学词频曲线缓降的世纪之交,其他学科词频则各自崛起。
社会学、经济学、心理学和人类学的词频自19世纪中晚期开始一直到20世纪30年代初均保持了强劲的上升,而心理学和经济学的势头尤其明显并逐渐拉开与社会学和人类学的距离。
不过,在1870-1880年间以及1905年前后,社会学词频曾经有过高于经济学的辉煌。
此外,第一次世界大战期间(1914-1918),社会学、经济学和心理学的词频并未衰减,而二战期间(1939-1945)这三个学科颓势明显,且在1945年二战一结束后就迅速上升。
这似乎意味着二战对于社会学、经济学和心理学的冲击比一战明显得多。
同样有趣的是,二战对人类学的词频曲线非但没有负面影响,甚至还微微提升了增幅。
这可能是因为:与一战相比,二战的交战区域和深度卷入的交战国扩大到了亚洲和大洋洲。
空间跨度更大的战争,一方面使得应用人类学得到参战国有目的的资助,另一方面人类学者本身的研究视野也得以从非洲、印第安部落等传统对象里解脱出来,辐射到东欧、东南亚等地区。
20世纪70年代未80年代初,社会学、经济学、心理学和人类学的词频曲线几乎都达到了整个20世纪的高峰。
但进入90年代之后尤其是世纪交会之际,这四门学科的词频曲线似乎又都开始缓慢下降。
不过,考虑到人类书籍的词汇量在快速增加,在不断扩大的语料库中,词频比例下降可能仅仅代表了一种知识的稀释过程:在不断膨胀的知识海洋中,每个学科或领域的“份额”都可能缩小。
另外一个可能就是,因为谷歌语料库仍在对2000年之后的书籍进行数字化,所以该时段的样本代表性可能有一定不足。
为此我们在检索中专门加入了“谷歌”(Google)字样以进行对比。
我们发现,即使在样本代表性可能不足的2000-2008语料库中,谷歌的词频统计仍然显示出有力的增长。
这间接证明了知识稀释过程作为诠释的有效性。
利用书籍语料库,我们还进行了更具实质性的社会学发展史研究。
例如,在19世纪80年代到20世纪30年代的美国社会学草创之初,“社会福音”(Social Gospel)宗教运动的主要倡导者多在大学任社会学教职,并将社会学作为宗教运动的延伸工具。
因此,半个世纪以来,社会学史研究学者不断讨论美国社会学的发韧与社会福音运动之间是否存在紧密关联。
不过,这些研究全是通过案例分析和内容分析等质性方法进行,缺乏数据的经验支撑。
书籍大数据为我们提供了破解这一困局的机会。
在本文中,我们以“社会学”、“社会福音”和“霍尔馆”(Hull House,社会福音运动中最为著名的睦邻中心,其创立者简·亚当斯后获得诺贝尔和平奖)为关键词进行检索,同时用“人类学”来作为比照,并分别在美式英语和英式英语数据库中进行对照分析。
除了从图2中可以看到美国社会福音和社会学较之英国其曲线起伏更为相互呼应之外,我们还计算了这一时段内美国社会学与社会福音、社会学与霍尔馆词频比例的相关性。
我们发现,皮尔逊(Pearson)积矩相关系数分别达O.78和0.57,均在0.001水平上高度显著。
而在英式语料库中的结果则是:社会学与社会福音相关系数为0.43,仅在0.02统计水平上显著,与霍尔馆干脆就无显著相关。
在美语库中我们进一步用滞后10年的社会福音词频来计算,发现其和社会学词频的皮尔逊积矩相关系数高达O.85和O.75。
考虑到计算皮尔逊积矩相关系数的条件是连续数据、正态分布和线性关系,我们进一步放松假设,发现社会学与社会福音及霍尔馆的斯皮尔曼(Spearman)等级相关系数分别为0.89和O.77。
这些发现,为验证社会福音运动促进美国社会学发展提供了初步的明确证据。