百度情感分析api(百度情感分析怎么用)

45baike 2024-09-07 2次阅读

情感分析是什么?

用户生成内容的爆炸式增长和档案材料的数字化创造了大量的数据集，其中包含了许多人对几乎每一个主题发表的观点。

在某些情况下，该数据的生成是通过用户界面构造的。例如，在电子商务网站上处理客户评论相对容易，因为用户需要在产品评论的文本旁边发布一个简单的评级。

然而，大多数数据都以非结构化形式提供。它没有一个标准的总结说这个内容表达了一个积极的，消极的，混合的或中立的观点。

例如，WordPress.com报道说，仅在2018年5月，博客作者们使用他们的平台发表了超过8700万篇文章。据YouTube首席执行官Susan Wojcicki介绍，每分钟都有超过400个小时的内容被上传到这个视频分享网站。同时，谷歌图书项目已经用400种语言数字化了至少2500万册

每当用户输入一个自由的文本框或对着麦克风讲话时，都需要一个推理来对情绪进行分类。

情感分析正是关注这一任务的领域。它是自然语言处理的一个分支，研究将文本文档映射到情感表达的功能。

随着准确的语音和文本识别的出现，情感分析的范围超出了容易理解的数字文本数据，并覆盖了越来越多的媒体。

我能用情感分析做些什么呢?

情感分析帮助我们了解过去，预测未来，并在现在采取适当的措施。

假设您有机会分析您的客户、竞争对手、学生或其他感兴趣的主题所表达的意见。你会用这些知识做什么?

这里有十个想法:

票房收入：Asur＆Huberman（2010）在一个模型中包含了正面对消极情绪的比率，这个模型经过训练可以预测电影在票房发行前的票房收入。
品牌监测：Ghiassi等（2013）描述了一个系统，旨在监测表达关于品牌和名人的情绪的推文。
计算历史：Acerbi（2013）使用20世纪出版的书籍档案生成了一系列时间序列的积极和消极情绪。
顾客反馈：Gamon（2005）在顾客调查和知识库中提供的反馈的背景下探讨情感分析。
退出率：Wen et al. （2014年）使用在大型开放式在线课程（MOOC）论坛中表达的观点来预测消耗，并可能相应地进行干预。
监测政治情感：Abbasi et al。（2008）分析极端主义团体论坛的政治情感。
产品评论：在他的经典论文中，Turney（2002）将情绪分析应用于不同类型产品和服务的在线评论。
股市预测：Bollen等。（2011年）包括对预测道琼斯工业平均指数变化的模型中公众情绪的估计。
故事情节：里根等人。（2016）使用情感挖掘来确定古腾堡工程小说集合中情感轨迹的基本形状。
情绪分析作为一项子任务：庞和李（Pang＆Lee，2008）提到情绪分析是高阶系统的一个组成部分。例如，总结可能会从包含对某一特定主题表达不同意见的来源中受益。

我必须提供什么？我得到什么回报？

我们说过，情绪分析以文本作为输入，以情绪的表示作为输出。

关于输入几乎没什么可说的。这是你想要分析的书/评论/客户调查/电子邮件/新闻文章/产品评论/tweet或其他类型的文档的文本内容。

现在，让我们讨论输出。

二元情感分析

二元情感分析，最简单的情况，要求以下问题:文本文件中所表达的观点是积极的还是消极的?

在这里,输出是一个概率或得分。让我们首先考虑概率。

高概率表示给定的文本可能表达积极的意见。例如,0.9的输出表明90%概率表达意见是积极的。

相反，低概率表明给定的文本很可能是一个否定视图的表达式。例如，输出0.1表示该观点是正面的概率为10%，换句话说，表示负面意见的文档的概率为90%。

或者，情感的预测也可以用分数来表示。积极的分数表示积极的情绪。消极的分数代表消极的情绪。更高的绝对值意味着更强的情绪。

多元情绪分析

在多元情感分析中，输出是n个可能类的概率分布。换句话说，输出是n个非负数加起来为1的列表。

二元情感分析是多元情感的特殊情况，有n = 2。

二元情感分析的简单扩展是引入中立意见的类别，作为积极和否定意见的替代。在这种情况下，输出是三个概率的列表，加起来是1 (n = 3)。例如，3个概率可以排序为:负概率、中立概率和正概率。

假设客户发布了一个混合的评论，列出了产品的积极和消极方面。情感分析器的输出可以是这样:[0.4,0.1,0.5]。换句话说，预计文本表达的正面观点比负面的观点多一些，而中立的观点则少一些。

另一个可能的扩展是包含一个混合类别。假设我们将这四种分类归为:负的、中性的、混合的、正的。混合产品评审示例中的输出可能如下所示:[0.15、0.05、0.7、0.1]

什么是好的情感分析服务？

为了完成这个概述，我们将看看四个提供情感分析功能的服务：

为了对这些服务的性能提供第一印象，我使用Kotzias等人(2015)策划的数据创建的一个基准。

本汇编包含来自知名数据集的三个子集，每个子集包含1000个实例:Amazon产品评论、来自IMDB数据集的电影评论和Yelp餐厅评论。

Amazon Comprehend

亚马逊的自然语言处理解决方案是去年推出的。

定价是基于现收现付模式。请求的单位是100个字符，每个请求至少收费3个单元。就像这里列出的其他服务一样，Amazon通有基于每个月请求数的级别。高达1000万单位，每1000单位的价格是0.1美元。对于超过5000万的请求，价格设为0.025美元。

给定一个凭证提供者、一个文本和一个语言代码，可以请求对情绪的预测如下:

该API支持多达25个文档（最多5000个字符）的批量请求，并生成四个类别的概率分布：负数，混合，中性和正数。

毫不意外，Comprehend在1,000项亚马逊产品评论中实现了最佳性能。再加上其他两个数据集的准确率接近90％，这使得亚马逊的API成为基准测试的第二名。

Google Cloud Natural Language API

Google的Cloud Natural Language API支持9种语言，可生成两个非概率性情感分析值：score and magnitude.

文档情绪的score表明文档的整体情绪。

magnitude表示文档中有多少情感内容，通常与文档的长度成正比。

kiv是什么牌子的车？韩国汽车老一哥kiv有多厉害kiv是起亚汽车，成立于1944年，2000年起亚并入现代汽车，形成现代起亚汽车集团，也是韩国最大汽车集团，堪称韩国汽车一哥。

表达很少的情绪或混合情绪的文档在0.0左右有一个中性的分数。magnitude值通常可以用来消除这两种情况的歧义。低情感的文档会有一个低的值，而混合的情绪则与更高的量值相关联。

定价模型基于每个文档1000个字符的单位。每月需求量在5000单位和100万单位之间，每1000单位的价格是1美元。在5000到100万单位之间，每1000单位的价格是1美元。价格在500万到2000万之间的范围内降低到0.25美元。

假设GOOGLE_APPLICATION_CREDENTIALS环境变量被设置为包含项目凭证的JSON文件的路径，下面的代码对给定文本执行情绪分析:

Google的服务弥补了批量处理的不足，精度达到了92.1％，在三个数据集中的两个中实现了最佳性能。在性能方面，云自然语言API在我们的竞争中是明显的赢家。

Microsoft Text Analytics API

微软的情绪分析器执行二进制分类，并因此为每个文档分配一个概率。当文本无法分析或没有情绪时，服务总是返回0.5。

每月有5000个事务的免费层允许您在没有财务承诺的情况下探索API。入门级标准S0层的价格是每月74.71美元，有25000个请求。最昂贵的公开的第二层标准S4，每一个月给您回退4,999.99美元，包括1000万次请求。

每1000笔交易的价格在等级限制之上，从0.5美元到3美元不等。

API支持15种欧洲语言和最多1000个文档的批处理请求。

不幸的是，这些特性在我们的测试中并没有与其性能相匹配。文本分析API的平均准确率为81.8%，落后谷歌服务超过10个百分点。

Java SDK的beta版本是可用的，与Unirest和GSON一起工作更容易

Watson Natural Language Understanding

IBM Watson的情绪分析器支持10种语言，并返回从-1到+1的分数。

价格基于最多10,000个字符的单位。根据免费的Lite计划，每月有3万个单位可用。标准计划的初级阶段包括每月25万个单位，价格为每1000个单位3美元。在500万之后，价格降到了0.20美元。

在我们的测试中，Watson API的表现比微软的文本分析API要好得多，但比Amazon的理解差得多。

Java SDK似乎不支持批处理请求

禅心如莲：有一位朋友独自出门旅行，第一站去游历名山。当他踩着苍苔湿露，披荆斩棘、历尽辛苦到达山顶的时候，被眼前美丽的风光陶醉了。霞光穿透云层，层林尽染，美得令人心旷神怡。都说无限风光在险峰。真的不假，假若不爬到山顶，怎么会看到这么美丽的景致？他感叹...