知网情感分析(知网情感词典怎么下载)

45baike 2024-05-22 9次阅读

知网情感分析(知网情感词典怎么下载)

 

随着信息大爆炸时代的到来,我们可以参与发表评论、日志,观影弹幕,微博等等,这些庞大的信息会使人迷惑从而失去判断力。但是随时计算机软件技术等的发展,文本分析方法的问世,使得我们所面对的海量信息得以提炼,分析,从而获取我们想要的内容。

用Python进行文本分析,分析方法有很多:频词统计、共线图、词云图、社会网络语义分析、情感分析、LDA主题模型、文本聚类、文本相似度分析......

今天我们来重点学习一下文本情感分析

我们获取到文本数据后,可以对数据进行标注,情感分析分有无监督的,可以词典匹配,也可以机器学习,算法的选择也有很多,今天我们主要学习四种算法的情感分析和比较:

支持向量机SVM

朴素贝叶斯

KNN

神经网络

情感分析的步骤:

第一步:读取评论数据,对评论进行分句。

第二步:查找对分句的情感词,记录积极还是消极,以及位置。

第三步:往情感词前查找程度词,找到就停止搜寻。为程度词设权值,乘以情感值。

第四步:往情感词前查找否定词,找完全部否定词,若数量为奇数,乘以-1,若为偶数,乘以1。

第五步:计算完一条评论所有分句的情感值,将积极得分减去消极得分作为评论的情感得分。

案例一

Python文本分析情感分析京东商城爬虫iphone xs max手机评论,进行文本分析情感分析。

数据获取

本文选择使用python作为爬虫工具,python具有完整且强大的第三方工具,含有发起请求的request模块,网页解析的BeautifulSoup,xpath等库。对初步处理的数据做数据分析和数据可视化需要用到python的matplotlib和numpy包。对于python网络爬虫原理,其实并不复杂。基本思路是:使用http库目标站点发起请求(即request),如果服务器能正常响应则会得到一个含有网页资源的response,然后解析网页内容,一般使用正则表达式或BeautifulSoup等第三方模块。最后将规整的数据存到本地。利用python爬取商品评论数据用于之后的情感分析,京东的商品评论数据巨大。京东的反爬虫措施包括异步加载、时段限制、数量限制、爬虫限制等。面对京东的异步加载、时段限制和数量限制,本系统采取的解决方法为向服务器发送请求的方式对数据进行爬取,同时在使用爬虫时,选择夜间网络空闲时段。

数据样本如下:

计算评论词向量

本文通过采用Word2vec训练收集到的评论文本,用于获取评论字词的多维实数向量。主要通过神经网络将词映射到一个K维空间,K维空间表示了词的特征。在当前研究中人们经常使用的方法有CBOW模型与Skip-gram模型。其中,Skip-gram模型的方式是使用选取的目标词预测文本中其他词语的向量表示,而CBOW则相反,它是根据词语所在文本的上下文环境推测目标中心词,输出中心词的向量表示。相比较而言,Skip-pram模型的效果更好,因此,本文采用Skip-gram模型,将每一条评论文本作为序列化的表示。

建立情感分类模型

主体思路是从数据集中抽取样本,并将训练数据按7:3比例分为训练集和测试集,对训练集数据构建Word2Vec模型,其中分类器的输入值是一条条评论所有词向量。

IE真正的空白页:在IE的快捷方式中右击---属性--选择“目标”,这里的信息为:“ crogram FilesInterner ExplorerEXPLORER.exe,在它之后添加“ -nohome字样即可。注意-nohome之前要有空格 快速设置主页:将IE地址栏里的“e”网页图标直接拖到工具栏上的“主页” 按钮图标上 不用重启也刷新注册表:同时按Ctrl+Alt+Del,在弹出的Windows任务列表中加 亮Explore,单击“结束任务”,显示关机屏幕,单击:“否“,稍候,弹出 错误信息,单击“结束任务”,windows游览器即会和新和注册表一起重新装载!

(1)将正负两组数据利用python的numpy进行整合,同时按照它们的顺序生成相应的标签,正(积极情绪)用1表示,负(消极情绪)用0表示。同时对正负每条评论分别利用jieba分词工具分词,进行下简单的词性筛选,利用sklearn包下的train_test_split函数,构建比例为7:3的训练集和测试集。

(2)利用gensim库一些关于word2vec函数来实现计算词向量,例如用gensim.Word2Vec来训练词向量模型,也需要定义一些参数,size就是一个很重要的参数,指的是输出词向量的维数。定义好的模型通过build_vocab以及train与之前的训练集关联,来实现对训练集数据构建Word2Vec模型。之后我们对每个句子的所有词向量取均值来作为分类器的输入值。

(3)实现训练朴素贝叶斯算法、K最近邻分类、神经网络算法、SVM算法模型。具体用的是sklearn包下的函数,其中支持向量机的kernel参数是rbf,朴素贝叶斯算法采用伯努利贝叶斯算法,alpha设置为1,K最近邻的邻居数量设置为5,神经网络即多层感知机模型,隐藏层大小为100,激活函数选择为relu,优化器选择为adam。

训练结果

在一般分类任务中,为了评判分类效果,通常选择准确率(Precision)、召回率(Recall)和F值(F-measure)三个指标进行评价分类效果的好坏。表1是计算的准确率(Precision)、召回率(Recall)和F值,从准确率可以看出,支持向量机的准确率最高,达到88.9%,这表明模型训练取得了较好的效果,其中准确率最高的是支持向量机模型,支持向量机较适合进行商品评论的情感分析。

表2从准确率、召回率、f1值三个维度进行对比。

词频统计分析:

词云图:

汽车obd长期插上有影响吗?汽车obd接口占用的坏处汽车OBD接口占用可能会因为外接电子产品的故障而影响到汽车。如果外接电子产品质量不合格、电功率过大、质量差导致短路等。

案例二、

三大电商基于手机评论的情感倾向分析

第一节 情感词库

在基于词典的情感分析中,情感词库扮演着重要的角色,高质量的情感词库往往可以得到更好的情感分析效果。本文的情感词库主要由三部分组成:基础情感词词典,否定词词典,以及程度副词词典。

一、 基础情感词词典

本文的基础情感词词典有两列组成:情感词和情感值。其中,情感词来自知网Hownet情感词典、台湾大学NTUSD简体中文情感词典以及清华大学李军中文褒贬义词典的整合。将知网Hownet情感词典中的正面评价词语和正面情感词语、台湾大学NTUSD中文情感词典中的ntusd-positive词语,以及清华大学李军中文褒贬义词典中的tsinghua.positive.gb词语进行去重操作,整合成本文所需要的积极情感词典;同样,将知网Hownet情感词典中的负面评价词语和负面情感词语、台湾大学NTUSD中文情感词典中的ntusd-negative词语,以及清华大学李军中文褒贬义词典中的tsinghua.negative.gb词语进行去重操作,获得消极情感词典。同时,对情感词典中的情感词进行赋值,积极情感词赋值1,消极情感词赋值-1。

然而,情感词典中一些词汇本身就带有程度副词,如很棒、很多等,如果这些词汇的情感值也赋为1或-1,那将会对后面的情感倾向分析的结果造成一定的影响。针对这种情况,本文对相应词汇的情感赋值进行调整,根据程度副词词典对情感词词典中过的词汇进行筛选,找出带有程度副词的词汇,在基础值(1或-1)的基础上乘以程度副词的权重作为这些词汇的最终情感倾向值。

最终完成基础情感词典的构建,其中包括积极情感词汇10218条,消极情感词汇13750条。

二、否定词词典

文中否定词的出现,往往会使得句子的情感发生反转。虽然在进行分词时,某些否定词会直接和情感词组合在一起组成新的情感词,但不排除某些否定词会单独切分成词的情况出现,所以出于对句子情感的更有效判断,本文将否定词纳入了考虑之中。本文的否定词既包括诸如不、非、没有等日常惯用的否定词,也包括了像木有这样的网络用语,同时还根据文本分词情况进行了相应补充,最终得到31条否定词汇。

三、程度副词词典

文本中的情感既区分正负,同时也存在强弱。比如,手机信号好和手机信号非常好,虽然都表示一种积极情感,但情感的强弱却存在差异,前者的语气较为一般,而手机信号非常好则带有强烈的情感倾向。如果不考虑程度副词的影响,这两句的情感评分将会一致,从而使得对用户评论的情感倾向分析出现偏差。所以,为了更精确地反映用户评论的情感倾向性,本文将程度副词纳入评判标准。本文的程度副词来自知网Hownet情感词典中的程度级别(中文)词语,同时,为了反映程度副词的语气强弱程度,对程度副词赋予不同的权重。

第二节 情感分析算法

本文的情感分析算法是针对情感词语组进行的,所谓情感词语组,是由两个情感词之间的所有否定词和程度副词,以及这两个情感词的后一个情感词构成的,即情感词语组=否定词+程度副词+情感词。

计算情感词语组的情感得分的公式如式5.1所示。

FinalSentiScore = (-1)^sum(NotWord)*DegreeWordWeight*SentiScore (5.1)

第三节 情感倾向分析

一、 基于总体评论语句的情感倾向分析

针对总体评论语句,根据上节所述的基本算法,使用Python编程来实现情感分析算法,具体实现程序见附录部分。最终得出表5-2和图5-1所示结果。

对情感倾向值进行相关统计,得到结果如表5-3所示。

从上表可以看出,在用户评论总体中,积极情感倾向的用户评论数量最多,占到了八成以上,所有积极情感倾向的评论的平均情感倾向值为3.67,评分最高的达到26.3,其中情感倾向评分在5分及以上的评论占到了总体的20%。而消极情感倾向只有323条,不到总体评论的10%,平均情感倾向评分为-1.74,最低达到-16.6。中立情感倾向的评论最少,只是占总体的5%左右。

二、基于三大电商平台评论语句的情感倾向分析

针对三大平台各自的评论语句,使用情感分析算法进行情感倾向分析,最终结果按照三大电商平台的情感倾向评分由高到低排序。

从情感倾向图可以看出,三大电商平台针对华为手机的评论的情感倾向的分布基本一致,极大多数用户对华为手机持正面评价,且大部分集中在0-5这个评分区间以内。但还是能看出天猫商城用户正面评价的比例更高,而华为商城的负面评价所占比例更高。

情感倾向统计描述表的数据则更清晰地表现出了三大电商平台之间的差异。根据数据显示可知,天猫商城中的正面评论的比例高达93%,且只有2%不到的负面评价,最高的评价更是达到了26.3。显然,天猫用户对于所购商品更愿意给出偏向正面的评价。而华为商城的用户则恰恰相反,其负面评价达到了10%以上,最低评价也有-16.6,且只有152条评论的评价在5以上。可以看出,华为商城用户对于华为手机有着更高的要求,也更愿意指出手机的不足之处。相比较于天猫和华为商城,京东商城的评价则显得较为中庸,但其特点在于评价大于5的高分区间的评论在三个电商平台中是最多,有近400条的评论的评价超过了5,占到了京东商城评论的近3成。

三、基于特征词表的情感倾向分析

针对特征表中的词对,采用上述的分析算法进行情感倾向分析。

根据手机特征情感倾向的图表展示情况来看,用户对于手机的外观设计、客服服务、分辨率和手感的情感倾向度比较高,其均值均超过了1,尤其是手机的手感和分辨率方面,表现尤为突出。其中,手感的平均情感倾向值最高,超过了1.1,好评率也是超过了95%,而手机分辨率在评分方面虽然略逊于手感,但却得到了用户的一致好评,积极情感倾向占比达到了100%。手机的外观设计、产品包装和客服服务紧随其后,也有着不俗的表现,积极情感倾向的比例均超过了95%。手机屏幕和价格的表现相对较差,虽然总体评价偏向积极,但仍有相当一部分用户认为手机屏幕过大,价格偏高。

还有更多文本分析的精美图表,可以将信息很直观地展现:

童眼看佛:从前有座寺庙,老方丈为了香火更旺盛,特地从京城请来一位姓王的艺人,在正 殿上塑起一座八米高的佛祖金像。 完工那天,举寺同庆,大家纷纷称赞王艺人手艺高超,寺庙里香火不断,香客络 绎不绝。王艺人一看这情势,拿了工钱之外还额外向老方丈提出...


标签: 知网  情感  分析 


发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。