新榜词云词频分析工具使用教程

合集下载

词频分析的步骤和解读

词频分析的步骤和解读

词频分析的步骤和解读词频分析是文本分析的一种常用方法,通过统计文本中各个词汇的出现频率,可以揭示文本的主题、情感倾向以及作者的写作风格等信息。

本文将介绍词频分析的步骤和解读方法。

一、数据收集进行词频分析首先需要收集文本数据。

可以选择一篇文章、一本书籍、一段对话或者一组推文等作为分析对象。

确保收集到的数据具有代表性,能够准确反映出你想要研究的问题。

二、数据清洗在进行词频分析之前,需要对数据进行清洗,去除一些无关的信息,例如标点符号、停用词(如“的”、“是”、“和”等)以及数字等。

这样可以使分析结果更加准确和有意义。

三、词频统计在数据清洗之后,可以开始进行词频统计。

将文本分割成单词或词组,并统计每个词汇在文本中出现的次数。

可以使用计算机编程语言(如Python)中的相关函数或者专门的文本分析工具来完成这一步骤。

四、词频排序词频排序是将词汇按照出现频率的高低进行排序,以便于后续的分析和解读。

可以选择按照频率从高到低或者从低到高进行排序,根据具体需求来决定。

五、词频解读在词频分析的结果中,可以通过对高频词和低频词的解读来获取更多的信息。

高频词往往是文本的关键词,可以反映出文本的主题和核心内容。

低频词可能是一些特定的词汇或者作者的个性化表达,可以揭示出作者的写作风格和思维方式。

此外,还可以通过比较不同文本的词频分析结果,来进行文本间的比较和对比。

例如,对比两篇文章的高频词和低频词,可以发现它们在主题、情感倾向以及表达方式上的差异。

六、进一步分析除了词频分析,还可以结合其他文本分析方法来进行深入研究。

例如,可以进行情感分析,通过统计文本中正面情感和负面情感词汇的出现频率,来判断文本的情感倾向。

还可以进行主题模型分析,通过识别文本中的主题词,来揭示文本的隐含主题。

总结:词频分析是一种简单而有效的文本分析方法,可以通过统计词汇的出现频率来揭示文本的特点和信息。

在进行词频分析时,需要经过数据收集、数据清洗、词频统计、词频排序以及词频解读等步骤。

python汉语词频统计步骤说明

python汉语词频统计步骤说明

一、概述Python作为一种流行的编程语言,广泛应用于数据处理和文本分析领域。

词频统计是文本分析中常见的任务,通过Python可以方便地实现对汉语文本的词频统计。

本文将介绍如何使用Python进行汉语词频统计,包括准备工作、代码实现和结果展示等内容。

二、准备工作1. 安装Python在进行汉语词频统计之前,需要安装Python编程环境。

可以前往Python全球信息站下载对应操作系统的安装包,并按照冠方指引进行安装。

2. 安装第三方库为了实现汉语文本处理和词频统计,需要安装一些Python第三方库,包括jieba和matplotlib。

可以通过pip命令进行安装:```pythonpip install jiebapip install matplotlib```三、代码实现1. 导入所需模块```pythonimport jiebaimport matplotlib.pyplot as pltfrom collections import Counter```2. 读取文本文件使用Python的内置函数open()读取要进行词频统计的汉语文本文件,并将其内容存储到一个变量中。

```pythonwith open('chinese_text.txt', 'r', encoding='utf-8') as file:text = file.read()```3. 文本分词利用jieba库对文本进行分词处理,得到词语列表。

```pythonwords = jieba.lcut(text)```4. 统计词频使用Counter类统计词语出现的频率,并取出出现频率最高的前N个词。

```pythonword_count = Counter(words)top_n = word_count.mostmon(10)```5. 绘制词频统计图利用matplotlib库绘制词语的词频统计图,直观展示词语的使用频率。

词频分析

词频分析

共词聚类分析法
借助数据挖掘中的聚类分析法,对共词关 系网络中的词与词之间的距离进行数学运算 分析,将距离较近的主题词聚集起来,形成一个 个概念相对独立的类团,使得类团内属性相似 性最大,类团间属性相似性最小。
共词关联分析法
关联规则是描述一个事物中物品之间同时 出现的规律的知识模式,更确切地说,就是通过量 化的数据描述物品A的出现对物品B的出现有多 大的影响。共词关联分析以此为原理,通过关联 统计方法,揭示主题词间的依存关系,在这基础上 可现实对文献知识的提取以及组织文献数据库 的作用。在共词关联分析的过程,涉及到4个重要 的概念:a.支持度(Support) b.可信度(Confidence) c.期望可信度(Expected Confidence)d.作用度 (Lift)。
突发词监测法
它关注焦点词-相对增长率突然增长的词。突发 词监测与高频词词频不同,前者主要是从关注词自身 的发展变化出发,关注单个词发展的阶段性,而后者主 要是对领域中各个词的增长势头进行比较。由于科 技领域中的局部热点变化不一定会引起全领域的注 意或者研究,但又是领域发展中不可缺少的部分,比如 关于某学科的教育研究,不一定会引起全领域范围的 讨论,但是它的研究本身也会不断发展。因此基于单 个词的词频增长率变化更有可能涉及到领域局部热 点的变化。突发词监测法更注重的是研究领域内,那 些研究活跃、有潜在影响研究热点的因素,因此,突发 词监测有助于发现推动学科(或主题)研究发展中的微 观因素。
三、高频词的选定
为简化统计的过程及减少低频词对统计过 程带来的干扰,通常共词分析选择高频主题词 为分析的对象。共词分法对高频词数量的选 择没有统一的见解,如果主题的范围过小,则不 能如实反映学科知识点的构成;如果主题的范 围选择过大,则给共词分析过程带来不必要的 干拢。用域值表示高频词划分的频次值,高频 词域值越高,高频词的数量越多。高频词阈值 是被认定高频词的词频总和,占所有词频总和 的比率。

Python数据挖掘:WordCloud词云配置过程及词频分析

Python数据挖掘:WordCloud词云配置过程及词频分析
解决方法也很简单,下载VCForPython27安装(MicrosoftVisualC++
CompilerforPython2.7)。但是在微软下载总是没响应。这是最大的问
题,下面我自己提供一个CSDN的地址供大家下载。下载完成,可以进行安
装响应的库函数。资源地址:download.csdn/detail/eastmount/9788218
体文件供程序调用,如下图所示,这是原来的字体DroidSansMono.ttf。
此时的运行结果如下所示,这是分析CSDN多篇博客的主题,”阅读”和”
评论”比较多。
也可以采用下面的代码:
wordcloud=WordCloud(font_path=
'MSYH.TTF').fit_words(word)
在使用WordCloud词云之前,需要使用pip安装相应的包。
pip install WordCloud
pip install jieba
其中WordCloud是词云,jieba是结巴分词工具。问题:在安装
WordCloud过程中,你可能遇到的第一个错误如下。
error: Microsoft Visual C++ 9.0 is required. Get it from asa.ms/vcpython27
Python数据挖掘:WordCloud词云配置过程及词频
分析
这篇文章是学习了老曹的微信直播,感觉WordCloud对我的《Python数
据挖掘课程》非常有帮助,希望这篇基础文章对你有所帮助,同时自己也是
词云的初学者,强烈推荐老曹的博客供大家学习。如果文章中存在不足或错
误的地方,还请海涵~

新榜词云词频分析工具使用教程

新榜词云词频分析工具使用教程

新榜词云词频分析⼯具使⽤教程词云——对指定⽂本分析提取出⾼频关键词,在线⽣成可视化的词云图,并⽀持导出关键词数据及保存词云图⽚。

使⽤新榜数据产品“词云”,您可以输⼊⽂本,新榜将对⽂本内容进⾏识别,提取出⾼频关键词,在线⽣成可视化的词云;或者直接输⼊关键词及对应的词频,⽣成词云图。

您可根据需求对关键词及⽣成的词云图进⾏编辑,可导出Excel关键词数据,并可保存词云图⽚。

1、输⼊⽂本点击“输⼊⽂本”按钮,⽀持4种数据源导⼊⽅式,分别为粘贴⽂本、TXT导⼊、微信⽂章链接、微信公众号。

图1:点击“输⼊⽂本”1)粘贴⽂本可以将您想分析的⽂本直接复制粘贴到⽂本框中,最多⽀持5000字,超出部分将⾃动截取。

图2:粘贴⽂本2)TXT导⼊可直接上传TXT⽂件,⽂件⼤⼩不能超过3M,⽀持ANSI、Unicode、Unicode big endian、UTF-8等4种编码格式。

图3:TXT导⼊⽂本3)微信⽂章链接可输⼊微信⽂章链接,最多⽀持10条链接,将对⽂章内容进⾏⽂本分词。

图4:输⼊微信⽂章链接4)微信公众号可输⼊微信号或名称进⾏搜索,选择您想要分析的公众号,将对该公众号30天内发布的⽂章进⾏⽂本分词。

图5:输⼊微信号或名称2. 关键词列表关键词列表是对指定⽂本分词后的⾼频关键词(最多显⽰TOP100),⽀持添加关键词、编辑关键词、删除关键词、Excel导出及还原。

添加关键词:点击“添加关键词”按钮,可在列表中添加新的关键词及对应的词频;编辑和删除关键词:选中⼀个关键词或词频,可直接进⾏编辑操作,点击右边出现的“删除”按钮,可删除该关键词;Excel导出:点击“导出”按钮,可导出Excel关键词列表,导出结果为选中的关键词及对应的词频;还原:点击“还原”按钮,将清除对关键词及词频的编辑操作,还原⾄初始状态。

图6:关键词列表点击“词频(筛选)”按钮,可在下拉列表中选择词频TOP20、TOP30、TOP50、TOP100的关键词。

词频统计法

词频统计法

词频统计法1. 介绍在自然语言处理(NLP)领域中,词频统计法是一种常用的方法,用于分析文本中各个词语的出现频率。

通过统计文本中词语出现的次数,可以获得词语的使用频率信息,从而对文本进行进一步的分析和理解。

2. 数据预处理在进行词频统计之前,需要对文本数据进行预处理。

数据预处理的步骤可以包括以下几个方面:2.1 去除特殊字符和标点符号在进行词频统计时,通常会去除文本中的特殊字符和标点符号。

这些字符和标点符号不具备明确的语义信息,在词频统计时可以被忽略。

2.2 去除停用词停用词是指在文本中频繁出现但含义相对较弱的词语。

常见的停用词包括“的”、“是”、“在”等。

在进行词频统计时,可以去除这些停用词,从而获得更有价值的统计结果。

2.3 分词分词是将文本按照一定规则切分成词语的过程。

在中文文本处理中,可以使用中文分词工具,如jieba分词,对文本进行分词操作。

分词后的文本可以更方便地进行词频统计。

3. 词频统计方法3.1 单词级别的词频统计在进行词频统计时,可以统计文本中每个单词出现的次数。

可以使用字典(Dictionary)或哈希表(Hashtable)等数据结构来存储单词及其对应的频率。

通过遍历文本中的每个单词,将其添加到字典或哈希表中,并更新对应的频率,最终可以得到每个单词的出现次数。

3.2 词组级别的词频统计除了对单词进行词频统计外,还可以对词组进行词频统计。

词组是由多个单词组成的固定短语或连续文本片段。

常见的词组可以是“人工智能”、“机器学习”等。

在进行词组级别的词频统计时,需要将文本按照一定规则进行分组,然后统计每个词组的出现次数。

4. 词频统计应用4.1 文本挖掘词频统计可以作为文本挖掘的基础工具。

通过统计文本中各个词语的频率,可以发现词汇的重要性和相关性。

词频统计也可以用于构建词云,通过词云可以直观地展示文本中重要的词语。

4.2 文本分类在文本分类任务中,词频统计可以用来提取文本的特征。

词云图Python利用jieba库做词频统计

词云图Python利用jieba库做词频统计

词云图Python利⽤jieba库做词频统计⼀.环境以及注意事项1.windows10家庭版 python 3.7.12.需要使⽤到的库 wordcloud(词云),jieba(中⽂分词库),安装过程不展⽰3.注意事项:由于wordcloud默认是英⽂不⽀持中⽂,所以需要⼀个特殊字体 simsum.tff.下载地址:请安装到C:\Windows\Fonts ⾥⾯4.测试所⽤的三国演义txt⽂本下载地址(不保证永久有效):5.调试过程可能会出现许多⼩问题,请检查单词是否拼写正确,如words->word等等6.特别提醒:背景图⽚和⽂本需放在和py⽂件同⼀个地⽅⼆.词频统计以及输出 (1) 代码如下(封装为txt函数) 函数作⽤:jieba库三种模式中的精确模式(输出的分词完整且不多余) jieba.lcut(str):返回列表类型def txt(): #输出词频前N的词语txt = open("三国演义.txt","r").read() #打开txt⽂件,要和python在同⼀⽂件夹words = jieba.lcut(txt) #精确模式,返回⼀个列表counts = {} #创建字典excludes = ("将军","⼆⼈","却说","荆州","不可","不能","如此","如何",\"军⼠","左右","军马","商议","⼤喜") #规定要去除的没意义的词语for word in words:if len(word) == 1: #把意义相同的词语归⼀continueelif word == "诸葛亮" or word == "孔明⽈":rword = "孔明"elif word == '关公' or word == '云长':rword = '关⽻'elif word == '⽞德' or word == '⽞德⽈':rword = '刘备'elif word == '孟德' or word == "丞相" or word == '曹躁':rword = '曹操'else:rword = wordcounts[rword] = counts.get(rword,0) + 1 #字典的运⽤,统计词频P167for word in excludes: #删除之前所规定的词语del(counts[word])items = list(counts.items()) #返回所有键值对P168items.sort(key=lambda x:x[1], reverse =True) #降序排序N =eval(input("请输⼊N:代表输出的数字个数"))wordlist=list()for i in range(N):word,count = items[i]print("{0:<10}{1:<5}".format(word,count)) #输出前N个词频的词语 (2)效果图三.词频+词云 (1) 词云代码如下(由于是词频与词云结合,此函数不能直接当普通词云函数使⽤,⾃⾏做恰当修改即可)def create_word_cloud(filename):wl = txt() #调⽤函数获取strcloud_mask = np.array(Image.open("love.jpg"))#词云的背景图,需要颜⾊区分度⾼需要把背景图⽚名字改成love.jpgwc = WordCloud(background_color = "black", #背景颜⾊mask = cloud_mask, #背景图cloud_maskmax_words=100, #最⼤词语数⽬font_path = 'simsun.ttf', #调⽤font⾥的simsun.tff字体,需要提前安装height=1200, #设置⾼度width=1600, #设置宽度max_font_size=1000, #最⼤字体号random_state=1000, #设置随机⽣成状态,即有多少种配⾊⽅案)myword = wc.generate(wl) # ⽤ wl的词语⽣成词云# 展⽰词云图plt.imshow(myword)plt.axis("off")plt.show()wc.to_file('1.jpg') # 把词云保存下当前⽬录(与此py⽂件⽬录相同) (2) 词频加词云结合的完整代码如下from wordcloud import WordCloudimport matplotlib.pyplot as pltimport jiebaimport numpy as npfrom PIL import Imagedef txt(): #输出词频前N的词语并且以str的形式返回txt = open("三国演义.txt","r").read() #打开txt⽂件,要和python在同⼀⽂件夹words = jieba.lcut(txt) #精确模式,返回⼀个列表counts = {} #创建字典excludes = ("将军","⼆⼈","却说","荆州","不可","不能","如此","如何",\"军⼠","左右","军马","商议","⼤喜") #规定要去除的没意义的词语for word in words:if len(word) == 1: #把意义相同的词语归⼀continueelif word == "诸葛亮" or word == "孔明⽈":rword = "孔明"elif word == '关公' or word == '云长':rword = '关⽻'elif word == '⽞德' or word == '⽞德⽈':rword = '刘备'elif word == '孟德' or word == "丞相" or word == '曹躁':rword = '曹操'else:rword = wordcounts[rword] = counts.get(rword,0) + 1 #字典的运⽤,统计词频P167for word in excludes: #删除之前所规定的词语del(counts[word])items = list(counts.items()) #返回所有键值对P168items.sort(key=lambda x:x[1], reverse =True) #降序排序N =eval(input("请输⼊N:代表输出的数字个数"))wordlist=list()for i in range(N):word,count = items[i]print("{0:<10}{1:<5}".format(word,count)) #输出前N个词频的词语wordlist.append(word) #把词语word放进⼀个列表a=' '.join(wordlist) #把列表转换成str wl为str类型,所以需要转换return adef create_word_cloud(filename):wl = txt() #调⽤函数获取str!!#图⽚名字需⼀致cloud_mask = np.array(Image.open("love.jpg"))#词云的背景图,需要颜⾊区分度⾼wc = WordCloud(background_color = "black", #背景颜⾊mask = cloud_mask, #背景图cloud_maskmax_words=100, #最⼤词语数⽬font_path = 'simsun.ttf', #调⽤font⾥的simsun.tff字体,需要提前安装height=1200, #设置⾼度width=1600, #设置宽度max_font_size=1000, #最⼤字体号random_state=1000, #设置随机⽣成状态,即有多少种配⾊⽅案)myword = wc.generate(wl) # ⽤ wl的词语⽣成词云# 展⽰词云图plt.imshow(myword)plt.axis("off")plt.show()wc.to_file('1.jpg') # 把词云保存下当前⽬录(与此py⽂件⽬录相同)if __name__ == '__main__':create_word_cloud('三国演义') (3) 效果图如下(输出词频以及词云)(4) 改进代码——⾃定义类,可⾃定义排除词语和同义词注意:如果有OS报错,则尝试把字体⽂件放到.py当前⽬录的other⽬录下# ⾃定义类版class MyWordCloud:filePath = ""number = 1counts = {}excludes = [] # 需要排除的词语,例如不是,天⽓等常见词synonym = () # 同义词,元组,以该元组最后⼀个词语作为前⾯词语的意思def __init__(self, path, number, counts={}, excludes=[], synonym=()):self.filePath = pathself.number = numberself.counts = countsself.excludes = excludesself.synonym = synonym# 使⽤jieba库进⾏词频统计def count(self):txtFile = open(self.filePath, "r").read()words = jieba.lcut(txtFile)for word in words:if len(word) == 1 or len(word) > 4: # 去除长度为1和⼤于4的字符continuefor i in range(len(self.synonym)):for j in range(len(synonym[i])):if word == synonym[i][j]:word = synonym[i][len(synonym[i]) - 1]rword = wordself.counts[rword] = self.counts.get(rword, 0) + 1 # <class 'int'> 统计词频,0为初值# 删除排除词语for x in self.excludes:del (self.counts[x])return self.counts# 输出前number词频最⾼的词语def printPreNumberWord(self):self.counts = self.count()for i in range(15):items = list(self.counts.items())items.sort(key=lambda x: x[1], reverse=True) # 降序排序word, count = items[i]print("{0:<10}{1:<5}".format(word, count))# 获取词频最⾼的前number个词语def getPreNumberWord(self, counts=None):if (self.counts == None and counts == None):counts = self.count()else:counts = self.countsitems = list(counts.items())items.sort(key=lambda x: x[1], reverse=True) # 降序排序wordlist = []for i in range(self.number):word, count = items[i]# print("{0:<10}{1:<5}".format(word, count)) # 输出前N个词频的词语wordlist.append(word) # 把词语word放进⼀个列表return wordlist# ⽣成词云图def create_word_cloud(self):cloud_mask = np.array(Image.open("./picture/worlCloud.jpg"))wc = WordCloud(background_color="black", # 背景颜⾊mask=cloud_mask, # 背景图cloud_maskmax_words=100, # 最⼤词语数⽬font_path='./other/simsun.ttf', # 调⽤font⾥的simsun.tff字体,需要提前安装/下载height=1200, # 设置⾼度width=1600, # 设置宽度max_font_size=1000, # 最⼤字体号random_state=1000, # 设置随机⽣成状态,即有多少种配⾊⽅案)wl = ' '.join(self.getPreNumberWord()) # 把列表转换成str wl为str类型,所以需要转换img = wc.generate(wl) # ⽤ wl的词语⽣成词云# 展⽰词云图plt.imshow(img)plt.axis("off")plt.show()wc.to_file('./picture/1.jpg') # 把词云保存if __name__ == '__main__':filePath = "./txt/三国演义.txt"number = 20excludes = ["将军", "⼆⼈", "却说", "荆州", "不可", "不能", "引兵","次⽇", "如此", "如何", "军⼠", "左右", "军马", "商议", "⼤喜"]synonym = (("诸葛亮", "孔明⽈", "孔明"), ("关公", "云长", "关⽻"), ("⽞德", "⽞德⽈", "刘备"), ("孟德", "丞相", "曹躁", "曹操"))wl = MyWordCloud(filePath, number=number, excludes=excludes, synonym=synonym)wl.printPreNumberWord()wl.create_word_cloud()。

词频统计的主要流程

词频统计的主要流程

词频统计的主要流程引言词频统计是一种非常常见且实用的文本分析方法,它可以揭示文本中词语的使用情况和重要性。

在文本挖掘、自然语言处理、信息检索等领域中,词频统计被广泛应用于文本预处理、特征提取和文本分类等任务中。

本文将介绍词频统计的主要流程,包括数据预处理、构建词汇表、计算词频和排序等关键步骤。

我们将逐步深入探讨这些步骤,并给出详细的示例代码,以帮助读者更好地理解词频统计的过程和方法。

数据预处理在进行词频统计之前,需要对原始文本进行预处理,以便去除无用的标点符号、停用词等干扰因素,并将文本转换为合适的形式进行处理。

数据预处理的具体步骤如下: 1. 将文本转换为小写字母,以避免大小写的差异对统计结果造成影响。

2. 去除标点符号,包括句号、逗号、双引号等。

3. 去除停用词,停用词是指在文本分析中无实际含义的高频词汇,如“的”、“了”、“是”等。

常用的停用词列表可以从开源项目或自然语言处理工具包中获取。

4. 进行词干提取,将词语的不同形式转换为其原始形式。

例如,将单词的复数形式、时态变化等转换为词干形式。

5. 分词,将文本按照词语为单位进行切分。

常用的中文分词工具包有jieba、snownlp等。

下面给出一个示例代码,展示如何对原始文本进行数据预处理:import reimport stringfrom nltk.corpus import stopwordsfrom nltk.stem import SnowballStemmerimport jiebadef preprocess_text(text):# 将文本转换为小写text = text.lower()# 去除标点符号text = text.translate(str.maketrans('', '', string.punctuation)) # 去除停用词stop_words = set(stopwords.words('english')) # 英文停用词text = ' '.join([word for word in text.split() if word not in stop_words]) # 进行词干提取stemmer = SnowballStemmer('english')text = ' '.join([stemmer.stem(word) for word in text.split()]) # 中文分词text = ' '.join(jieba.cut(text))return text# 示例文本text = "Hello, world! This is a sample text."preprocessed_text = preprocess_text(text)print(preprocessed_text)以上代码演示了如何对英文文本进行预处理。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

词云——对指定文本分析提取出高频关键词,在线生成可视化的词云图,并支持导出关键词数据及保存词云图片。

使用新榜数据产品“词云”,您可以输入文本,新榜将对文本内容进行识别,提取出高频关键词,在线生成可视化的词云;或者直接输入关键词及对应的词频,生成词云图。

您可根据需求对关键词及生成的词云图进行编辑,可导出Excel关键词数据,并可保存词云图片。

1、输入文本
点击“输入文本”按钮,支持4种数据源导入方式,分别为粘贴文本、TXT导入、微信文章链接、微信公众号。

图1:点击“输入文本”
1)粘贴文本
可以将您想分析的文本直接复制粘贴到文本框中,最多支持5000字,超出部分将自动截取。

图2:粘贴文本
2)TXT导入
可直接上传TXT文件,文件大小不能超过3M,支持ANSI、Unicode、Unicode big endian、UTF-8等4种编码格式。

图3:TXT导入文本
3)微信文章链接
可输入微信文章链接,最多支持10条链接,将对文章内容进行文本分词。

图4:输入微信文章链接
4)微信公众号
可输入微信号或名称进行搜索,选择您想要分析的公众号,将对该公众号30天内发布的文章进行文本分词。

图5:输入微信号或名称
2. 关键词列表
关键词列表是对指定文本分词后的高频关键词(最多显示TOP100),支持添加关键词、编辑关键词、删除关键词、Excel导出及还原。

添加关键词:点击“添加关键词”按钮,可在列表中添加新的关键词及对应的词频;
编辑和删除关键词:选中一个关键词或词频,可直接进行编辑操作,点击右边出现的“删除”按钮,可删除该关键词;
Excel导出:点击“导出”按钮,可导出Excel关键词列表,导出结果为选中的关键词及对应的词频;
还原:点击“还原”按钮,将清除对关键词及词频的编辑操作,还原至初始状态。

图6:关键词列表
点击“词频(筛选)”按钮,可在下拉列表中选择词频TOP20、TOP30、TOP50、TOP100的关键词。

图7:词频筛选
3. 生成、编辑并保存词云
点击“生成词云”按钮,即可快速生成可视化的词云图。

可对词云图的形状、字体、布局、颜色、背景色、大小进行自定义编辑。

形状:支持长方形、圆形、五角星、三角形四种形状;
字体:支持雅黑、宋体、楷体、黑体、隶书、arial六种字体;
布局:支持字体正常和倾斜两种状态;
颜色:支持六种配色,并可自定义配色;
背景色:支持自定义词云图的背景颜色;
缩放:支持对词云图的大小进行1%-150%范围内的缩放。

点击“清除自定义”按钮,可对上述自定义操作进行重置,回到词云图初始状态。

点击“PNG下载”按钮,可将生成的词云图保存在本地。

图8:词云图
4. 自定义词典
自定义词典是对希望不要被拆分及希望不出现在关键词列表中的词进行定义。

添加:在对应的文本框中添加需要词和排除词,点击“添加”按钮,即可成功添加。

需要注意的是,添加的需要词和排除词不能超过40个字符,且两者不能重复。

删除:鼠标定位到想删除的关键词上,点击右上方删除按钮,即可删除该词。

图9:自定义需要词
图10:自定义排除词。

相关文档
最新文档