情感语录文案素材网站情感心理疾病感情分类

45baike 2023-11-12 40次阅读

　　跨范畴感情分类(Cross-Domain Sentiment Classification)感情语录案牍素材网站，研讨发明感情词是与范畴高度相干的。在一个范畴的锻炼数据中锻炼好的分类器放到别的一个范畴机能就会变得很差。关于跨范畴的感情分类的研讨次要分红两种。一种是需求在新的范畴中标注一小部门锻炼数据；别的一种是完整不消标注新范畴的数据，他会从已有标注数据的范畴Transfer到新范畴中。

　　感情辞书发掘的办法大致能够分红两步，起首是用一些划定规矩将这些富有感情的词找到，然后是给这些词所带有的感情极性水平停止赋权。

　　评价点抽取(Aspect Extraction)，所谓评价点(Aspect)，就是一个批评句评价的工具(Target)。详细到商品批评傍边豪情份类，这个批评点就是商品的客观属性。如“小米2的电池续航工夫太短”，这句批评的批评点是“电池”，感情词是“续航工夫太短”情感分析是什么。而Aspect Extraction其实不单单是抽取评价点，凡是也包罗关于感情词的抽取。评价点抽取的办法能够次要分红四种：a. 按照呈现频次高的名词或名词短语抽取； b. 按照概念和评价工具之间的干系抽取; c. 利用有监视的机械进修办法停止抽取; d. 利用Topic model停止抽取。

　　Rules of opinions: 除感情词另有一些言语上的牢固表达大概言语身分能够表达感情，这些都成为Rule of opinion。举个例子，好比否认句式就是一个rule of opinion，他使得正面的感情词表达负面的感情，这个凡是被称为Sentiment shifters[12][13].

　　实在主客观分类(Subjectivity Classification)严厉意义上讲不应当算感情阐发的一部门，可是感情阐发的研讨中常常会顺带搞一下主客观的分类感情心思疾病情感分析是什么。缘故原由是客观句子也会有一些带有感情偏向的Feature，这常常会招致感情分类的毛病分类。以是就开端有研讨先将客观句子删掉，只做客观句子的感情阐发，尝试考证这一思绪会在精确率上获得了必然的提拔[32]。以后的感情阐发的研讨城市顺带着用感情阐发的特性锻炼一个主客观的分类器，先把客观句子抽出来再停止感情阐发[2][3][33]。

　　别的一类是无监视的办法。无监视的办法凡是被使用于寻觅Spammer，即写Spam批评的人。这类办法凡是是基于Reviewer的非常举动来判定的。如文章[57]中所述，非常举动包罗，如一个产物一公布就立即揭晓批评感情语录案牍素材网站，常常性地吹嘘一个产物或贬低别的一个产物等。也有一些研讨[58]利用数据发掘的办法主动来发掘划定规矩鉴别Spammer的非常举动情感分析是什么。也有研讨经由过程Review，Reviewer，商品三者之间的干系来判定Spammer和Spam review的[59]。这个办法有点儿相似PageRank。它的根本思惟是假如一个reviewer写出更多耿直的批评，那末这个reviewer就更可托；假如一个商品的批评大部门都是由可托的reviewer写的，那末这个商品就更可托。

　　固然，也有一些关于Topic Model的改良能够找到批评词。好比Google的研讨职员针对商品批评如许的漫笔本的研讨[10]。他们发明传统的Topic Model没有法子间接发明商品批评中的Aspect。由于Topic Model要依靠Topic散布的差别和词在全部文档中的共现来发明topic和词在每一个Topic中的散布。可是关于商品的批评，一种特定范例的商品，每一个批评说的都是不异的一些批评点(Aspect)。这就是的一个全局的Topic model只能发理想体，如商品名和品牌。因而他们就提出了一个多粒度的Topic model(MG-LDA)。全局的Topic Model用于发明批评的工具，而部分的Topic Model经由过程将一些持续的句子(Sliding window)当做一个文档来发明Aspect。差别的词表达一个批评点的不异大概相干的方面城市被主动地聚在一同。可是这个模子的范围性是它并没有辨别批评点和感情词，找到的Aspect固然很准可是并没法子判定用户在这个Aspect上的感情极性。也有一些其他办法制止Topic Model只找到实体，好比Brody and Elhadad[50]，他们将批评中每个Sentence看成一个Topic。办法固然简朴，可是从最初获得的尝试成果来看结果还能够。

　　固然也有一些研讨[53][54]针对这个目的停止了一些改良。好比不只要抽掏出批评点和感情词的pair，还要找到撑持这个pair的句子，大概天生一个或几个完好的句子来撑持这个pair。如许让用户看起来会愈加地有压服力。

　　Syntactic dependency：句法阐发的成果也被笼统为特性到场到了感情分类中，并被证明对感情分类是有协助的。句法特性次要有两种利用办法，一种是会将特定的句法构造能否存在作为一个0/1特性[3][7][24]，这类用法比力简朴使用也很广；另有一种是将句法阐发树作为图模子[14]。

　　Part of speech：词性标签是根本上一切的基于机械进修的感情分类办法城市利用到的feature。大部门的研讨都是利用一切的词性标签[1][2][3][4][5]。不外也有的研讨[1][9]只是用描述词作为特别的Feature，由于有研讨表白描述词是感情偏向的主要标识。

　　Topic Model是近来呈现的一个从大范围语猜中发明Topic的无监视办法。它基于一个假定，即每一个文档中的词都是由多个Topic的混淆模子天生出来的。直观上，假如将Topic算作Aspect，那末能够利用Topic Model来抽取Aspect了。可是状况并没有那末悲观。由于传统的Topic Model找到的Topic并没有对批评点和感情词停止辨别。而关于感情阐发来讲，这两种词是要分隔的。以是要对Topic model停止一些改良。假定批评中的词是有批评点的散布和感情词的散布配合天生的。上面总结一下今朝感情阐发研讨中关于Topic Model的各类改良。

　　所谓 Opinion Spam 在学术界普通有三种[55]，一种是虚伪的批评，这类批评并非基于用户的体验做出的而是出于其他的目标写的。凡是表示为歹意诽谤敌手品牌豪情份类，夸大表彰某品牌。浅显一点来讲就是如今互联网上常见的“枪文”。别的一种长短批评，好比告白，大概一些不相干的文本其实不包罗任何概念。这类非批评在论坛和晓得成绩的答复傍边都长短经常见的，而且严峻影响了感情阐发的成果。另有一种是只是针对品牌的批评。好比“我十分厌恶惠普，我不会买他任何一个产物。”这类批评并没有针对任何详细的产物，以是被列为Spam。

　　今朝常见的概念归纳综合(Opinion Summarization)的目的都是将用户的批评归纳综合成一系列的批评点和感情词的 pair，并统计这些pair的比例，以利用户了如指掌。以是概念归纳综合这部门的研讨目上次要集合在 Aspect 抽取这部门。

　　第一类办法次要是利用传统的半监视进修的办法。此中比力典范的一篇paper是[28]，它利用EM算法在部门标注的新范畴中锻炼一个Naïve Bayes分类器，并证明结果好过利用其他种别的标注数据。厥后跟着Transfer Learning的鼓起，这类办法的研讨就不是许多了。

　　感情阐发，也叫概念发掘，是天然言语处置范畴研讨的次要成绩之一。它次要研讨人们针对实体（包罗产物、效劳、构造、机构、变乱、话题等）表达出来的客观概念、感情、评价、立场和感情 [61]。

　　感情辞书的发掘办法次要有两种，一种是基于辞书的办法(Dictionary-based Approach)，这类办法次要是经由过程一些构建好的辞书(如Wordnet, Hownet)等，找到一些种子感情词的同义词或反义词，然后再递归地找这些同义词和反义词的同反义词，如许最初就会获得一个带有感情词的汇合[15][16][17][18]。也有一些研讨用Random Walk的办法来遍历这个用Wordnet的同义词反义词成立起来的图来找感情词的汇合[19]。基于辞书发掘出的感情词的赋权办法次要是经由过程在利用辞书成立起来的图中种子词与发掘出来的词的间隔或与间隔相干的目标来停止权衡的[17][18][19]。

　　开始把Topic Model引入感情阐发的是Mei et al.[46]。他提出了一个Aspect-Sentiment的混淆模子(TSM)。这个模子假定，一个用户在写文章中的某个词的时分，先决议这个词能否是普通词(即is, a, the等) 。假如不是，他要挑选一个Topic来形貌，一旦用户决议这个词是要属于哪一个topic的，他还要持续决议这个词是要正向，负向，仍是中性地形貌这个topic。终极用户利用Topic模子和正负中向的模子来sample这个word。这篇文章利用的尝试数据是Web blog，属于长文本。这个模子实在也有必然的范围性豪情份类，它其实不克不及抽掏出批评的Aspect，他抽出的是某个Topic下的感情词，然后经由过程这些感情词来找到表达正负感情的句子，这是这篇文章的目标。另有一些其他的一些关于Topic Model的改良，他们也只抽出了相干Topic下的感情词。好比Lin and He[47]，他们的JST模子假定，关于每一个词，作者都是先从感情标签的散布中Sample一个感情标签，然后再按照这个感情标签上的Topic的散布Sample一个Topic，最初再按照这个感情标签和topic上的词的散布来Sample这个词。可是这个JST模子仍旧没有分隔批评点和感情词。Li et al.[48]在JST的根底之上又提出了别的一个Dependecy-sentiment-LDA，这个模子丢弃了每一个词的感情偏向的几率互相自力的假定，他把一个文档中的词的感情偏向算作一个马尔科夫链，如许当前词的感情极性就依靠于它上一个词。一样这个办法也没有法子辨别批评点和感情词。

　　固然也有零丁做主客观分类的。这部门最早的研讨是[35]，这个事情利用Naïve Bayes来停止主客观的分类利用的特性是一系列0/1特性豪情份类。如句子中能否呈现名词，描述词，数字，神态动词(除will)，副词(除not)等。后续又有研讨发明除这些特性外描述词的比力级也是判定客观句的好feature[35]。不外总得来讲，主客观的分类用到的Feature根本上与感情分类用的Feature是分歧的，只是在构建句法特性的时分略有差别，具体能够看文章[34]。假如要片面理解主客观分类的研讨的话，能够follow Janyce Wiebe这小我私家的研讨。他次要就是在做主客观分类的研讨。

　　感情分类(Sentiment Classification)是感情阐发范畴研讨最广的成绩 [62]。它的目的是判定客观文本所表达的正负面的偏向性大概详细的感情。上面详细引见一些感情分类范畴次要研讨的一些 Topic。

　　CRF：次要是利用句法树作为图模子，模子只要一个察看变量就是一个句子的感情分类，即正负感情心思疾病。利用的特性次要是词性、unigram、bigram、和词/短语自己的极性。[14]

　　Sentiment words and phrases：sentiment words就是言语顶用于表达感情的词语，好比好，坏，强感情语录案牍素材网站，差等。大大都表达感情的词语都是描述词和副词，不外也有一些名词和动词能够表达感情，好比傻瓜、憎恨等。另有一个需求留意的处所，就是这些表达感情的词语所表达的感情会跟着语境大概范畴的变革而放生变革。好比“高”，在“凯越的油耗真高”中，“高”表达了一个负面感情；而在“捷达的性价比真高”中，“高”又表达了一个正面感情。基于机械进修的感情分类方将表达感情的词或短语零丁抽出来作为分类特性[3][6]。这个特性的权重次要是呈现的频次(frequency)、表达的感情极性的水平(PMI[9]，Topic Model的几率值[11])。表达感情的词或短语的特性的抽取办法次要有两种：一种是基于辞书的办法，即经由过程一个事师长教师成好的感情词/短语的辞书来抽取这类特性。感情词/短语辞书的天生办法在1.1.2节中有引见；另外一种是基于Topic model的办法。它们凡是是将感情也作为决议词散布的一个身分，将其参加传统的LDA模子中，从而天生了感情分类的词或短语，如MG-LDA[10]、TME[11]等。

　　这个是最简朴也是最直观的思绪。这类办法凡是基于一个假定，就是Aspect都是名词或名词短语，而且关于每种Aspect人们都有经常使用的一种表达。这个办法开始被Hu[15]提出豪情份类，固然简朴，可是结果还不错，以是加上一些改良后被普遍地使用在工程界。

　　有监视的办法要处理的一个比力主要的成绩是锻炼汇合的天生。有主动天生的如[55]，他们起首经由过程一些批评中的反复来天生一个Spam的锻炼汇合。所谓批评中的反复次要包罗四中，1. 统一个用户id在统一个产物上的反复批评; 2. 差别用户id在一个产物上的反复批评; 3. 统一个用户id在差别商品上的反复; 4. 差别用户id在差别商品上的反复。他们利用后三种反复作为正例，其他的作为负例。锻炼分类器利用的Feature次要有三类，一个是批评的文本特性，一个是批评者的特性，如均匀打分、打分的方差、写商品第一个批评的数目等，另有一个是商品的特性，如商品价钱，销量等。尝试的成果显现只用文本特性是不成以很好地判定Spam的，用户举动的特性是须要的。另有一些研讨[56]按照批评的Comments野生来对Spam停止标注。这篇paper利用的Feature和[55]相似，不外也引进了一些新的特性，如客观/客观词的数目，正负感情词的数目等。别的这篇文章不只利用了有监视的办法，也利用了一个半监视的Co-training办法，尝试成果证明要比有监视的办法结果好。不外从尝试成果上来看精确率都不高，普通在70%阁下。

　　Model：传统的文天职类模子，如Naïve Bayes, SVM, Maximum Entropy等。这几种模子被普遍天时用在感情分类中，险些80%的有监视的感情分类的paper都是利用了这三种模子。

　　RNTN：斯坦福大学的研讨职员提出了一个 Recursive Neural Tensor Network 感情语录案牍素材网站，它利用二元句法树作为递归的收集构造来猜测影戏批评的正负偏向，在他们构建的 Sentiment Treebank 数据集上Acc到达了85.4%。[60]

　　评价工具和概念并非完整自力的，他们之间一定存在着语义大概语法上的联系关系。详细地说，好比经由过程频次的办法并没有从“小米2”的批评中挖出”体系呼应”这个aspect，可是在批评中有”体系呼应快”如许的批评，而“快”这个描述词是常见的感情词，如许“体系呼应”这个词也能够抽出来了。这个设法开始被文章[15]提出感情心思疾病，可是该文章并没有依靠句法阐发，而仅仅是将一句话中间隔常见感情词近来的名词或名词短语抽出来了罢了。后续的研讨将Parser阐发出的评价点与感情词之间的依存干系引入来抽取两者。这类办法次要也是经由过程构建一些句法干系来经由过程构建好的感情辞汇合来互相发掘[42][43]。

　　Topic Model: 利用PLSA、LDA大概LDA的变种(如MG-LDA[9]，TME[10]等)抽掏出感情的表达，凡是是一些词大概短语。然后将这些感情的表达作为特性停止分类

　　第二类办法在近来研讨得比力多，此中比力典范的研讨是Blitzer提出的SCL-MI算法[29]，这个算法被许多paper援用过。这个算法的次要思惟是，固然差别的Domain感情分类的特性会有不同，可是总会有一些亘古稳定的特情语录案牍素材网站，他们老是在感情分类上起着感化，好比相似excellent, good, awful如许的词。SCL-MI算法起首找到在两个Domain中都配合呈现多而且和感情label的互信息(Mutual information)高的词的Feature，它们称这个feature为pivot feature。然后在两个domain入网算这个pivot features和non-pivot features的相干性矩阵，并利用SVD对矩阵停止降维酿成线性近似θ；最初用于锻炼分类器的特性是察看到的原始特性x和利用θ映照过的特性θx。利用这两个特性锻炼的分类器可以在有标注和没有标注的数据集上都好用。另有一些其他的研讨，不外根本的思惟都是找到两个domain都共有的一些Feature，然后经由过程这些Feature来将两个Domain联络起来[30][31]。

　　Terms and its frequency：包罗unigram和n-gram和它们的频次。这些都是传统文天职类最多见的特性，同时也被证实对感情分类的感化也是很大的。Pang的研讨发明unigram特性结果最好；但是Google的研讨[2]表白，Pang的结论是只在小数据集上建立，由于小数据集上n-gram是稠密的。而在大数据集上n-gram阐扬了愈来愈主要的感化。Stanford的研讨也证明了关于感情阐发来讲，Bigram的结果是要比unigram要好的，由于言语傍边感情是经由过程一些短语而非单个词来表达的，bigram更能捉住潜伏的表达感情的短语[8]。别的另有一项研讨比力故意思，这项研讨将Character的bigrams作为特性参加分类器，居然一样也带来了感情分类结果上的提拔[36][37]。

　　厥后研讨职员发明，假如只是经由过程无监视的办法，没法辨别开批评词和感情词，以是一些研讨就引入了一些辨别批评词和感情词的指点。好比Zhao et al.[49]，他们提出了一个MaxEnt-LDA的办法。这个模子直观地将每一个Topic算作是一个批评点，但和传统的LDA的办法差别的处所是，他以为每一个Sentence都有一个Topic感情心思疾病，而且词的散布并非从一个狄利克雷散布中随机Sample的，而是经由过程有监视地办法分别出来的。这个模子以为批评中的每个词能够从两个维度来看，一个维度是这个词是普通词、批评词仍是感情词，别的一个维度是这个词是针对批评Target团体的豪情份类，仍是某个详细批评点的。这个模子先经由过程野生标注的数据锻炼一个ME的分类器，用于判定一个词的第一个维度属于这三个种别的几率，利用的特性很简朴就是前一个词、当前词、后一个词自己和他们的POS-tag。而第二个维度的散布顺从一个Beta散布，如许这两个维度两两组合就获得了五个散布。厥后又有一个相似的研讨[11]，他们提出了一个ME-TME的办法，实在就是对Zhao et al.他们的ME-LDA的办法的一个简化，他们以为词只要两类，一类是Topic相干的词，大概Aspect相干的词，别的一类是感情相干的词（不外这内里的感情词包罗了5种：歌颂、贬低、疑问、感激、赞成、不赞成）。他们也一样锻炼了一个ME分类器用于判定这个词终究是哪一类的词感情心思疾病。

　　无监视的感情分类(Unsupervised/Semi-supervised Sentiment Classification)次要都是基于感情词辞书的划定规矩办法。这类办法的研讨重点次要在两个方面，一是感情辞书的发掘，别的一个是划定规矩设置的办法。

　　另有一种是基于语料库的办法(Corpus-based Approach)。这类办法次要是经由过程构建一些词性大概句法上的划定规矩在一个范畴大概多范畴的语料库中发掘感情词。最早的研讨经由过程and、either-or、but等简朴地连词来发掘描述词性的感情词[20]。可是跟着研讨的深化，一些研讨发明仅仅利用单个的描述词没法精确地表达感情。缘故原由有两方面，一方面是描述词描述的名词差别，描述词所表达的感情寄义也会发作变革。如“数码相电机池寿命很长”这个“长”就表达了正向的感情，而“数码相机需求很长工夫来对焦”这个“长”就表达了负向的感情；另外一方面，不异的描述词在差别的范畴也会表达差别的感情偏向，如“汽车声音很小”，这个小就是正向的评价，而“电视的音量很小”，这个“小”就是负向的评价。因而后续基于语料库的感情词发掘的研讨[21]就不单单发掘单个词，而是根据范畴发掘(批评点(aspect)，感情词(sentimental word))的pair。这些pair的发掘次要利用的办法也是经由过程构建一些词性的pattern大概句法的pattern来停止发掘[9][22][23]。厥后也衍生出了一些办法经由过程联系关系发掘的办法从语料库中主动发掘词性pattern，然后操纵这些词性pattern来发掘(批评点，感情词)的pair[25][26][27]。基于语料库发掘出的词、短语、pair对的感情偏向的权重的赋权方法次要有两种，一种是利用他们与典范正负向词与的共现次数来权衡。典范的权衡目标PMI[9]，这个目标被普遍使用在各类paper中，只不外统计共现的数占有所差别，有的是用搜刮引擎，有的是利用现有语料库。别的一种办法是利用机械进修的办法把发掘出的(批评点，感情词)pair大概phrase当做要猜测感情偏向的句子，然后利用1.1.1节中引见得办法来猜测[24]。

　　有监视的感情分类(Supervised Sentiment Classification)，次要是依托有监视的机械进修办法。有监视的机械进修办法，起首是由Bo Pang引入感情阐发范畴[1]。随后基于机械进修办法的感情分类办法就成了感情分类研讨中的支流办法，利用这类办法的Paper许多。感情分类，从素质上说就是一个文天职类成绩。只不外，与传统的文天职类比拟，感情分类分出的成果并非topic，而是感情偏向(Negative/Positive等)。因而，研讨职员就将传统文天职类的特性和办法都移植到感情阐发这个范畴来了。将有监视感情分类的Paper中利用的Feature和Model总结以下。

　　固然这个办法并不是完善，也有一些研讨对其停止了一些改良。Popescu et al.[38]试图经由过程发掘出的名词和名词短语与实体名包系的表达(好比“小米2”这个实体，实体名的相干表达是“小米2有”，“小米2的”等)之间的PMI值来过滤那些不是该实体的属性的词或短语。PMI值是经由过程这两个词在搜刮引擎上的共现来计较的。Goldensohn et al.[39]试图只从客观句或具有某些句法构造的句子中发掘名词或名词短语来提拔发掘的精确率。Liang[40]利用tf*idf的值来替换之前仅参考的tf的值，如许就使一些经常使用词不容易被晒出来。另有一个事情[41]能够不但挖出频次高的名词作为Aspect，还能够挖出一些帮助的词来协助判定这个Aspect。它的办法是起首选出频次最高的名词，然后找出与这个名词information distance比力近的词作为帮助词。好比关于价钱不只能挖出“价钱”这个词情感分析是什么，还能挖出“元”这个词。