一种面向点评数据的情感倾向性检测方法与流程

文档序号：11133966阅读：来源：国知局

技术特征：

1.一种面向点评数据的情感倾向性检测方法，其特征在于，包括如下步骤：

1)获取点评数据，对其进行规范化处理；

2)对规范化处理后的点评数据的句子进行分词处理；

3)对分词后的句子进行要素分析，识别出影响文本情感倾向性检测分析的各类词语；

4)根据句式模版库对进行要素分析后的点评数据进行句式模版匹配；

5)确定点评数据的句子中指代语对应的先行语，并恢复省略的主语；

6)将出现评价对象词、评价属性词或情感词的句子作为候选情感句，采用最大熵模型对候选情感句的句子极性进行判别，得到句子的情感倾向性。

2.如权利要求1所述的方法，其特征在于：步骤1)通过聚焦爬虫从各大主流点评网站获取在线点评数据。

3.如权利要求1所述的方法，其特征在于：步骤1)所述规范化处理，是采用基于规则的方法处理点评文本中的拼写错误，所述规则是“包含错别字的字串或词串”到“相应正确字串或词串”的映射；所述规则通过两种方法获取：一是根据现有知识，即前人总结的常见拼写错误；二是根据每个字或词的上下文的抽取相似字或词，通过人工校验确定正确的字串或词串。

4.如权利要求1所述的方法，其特征在于：步骤2)首先采用基于词典的最大匹配分词方法进行分词，然后针对分词有歧义的部分采用序列标注的分词方法得到正确的分词结果；所述序列标注的分词方法将词的切分问题转换为字的分类问题，每个字根据其在词中的不同位置，赋予不同的位置类别标记，基于这样的标记序列确定句子的切分方式。

5.如权利要求4所述的方法，其特征在于：所述不同的位置类别标记，包括词首、词中、词尾和单字词，并采用条件随机场模型实现序列标注任务。

6.如权利要求1所述的方法，其特征在于：步骤3)所述要素包括点评数据中的评价对象词、评价属性词、情感词、程度副词、普通副词、否定词、插入词，以及关于城市、景点的词语，在将句子中的要素识别出来后，标记上相应的类别标签。

7.如权利要求1所述的方法，其特征在于：步骤4)通过基于点评的自举方法提取句式模版，从而建立句式模版库。

8.如权利要求7所述的方法，其特征在于：步骤4)建立句式模版库的步骤包括：

1)获取点评数据，通过整理各个情感要素的词形成种子词典；

2)对点评数据的句子进行分词处理，然后逐词判定其语义类并用语义类标签进行替换；

3)对标签替换后的点评数据进行断句，根据各语义类的名称及各语义类包含的具体词语生成模版；

4)将模版应用到语义类标签替换后的点评数据中，以抽取各语义类的语义词；

5)根据模版的重要性、推广性和准确性，对各模版进行打分；

6)选取得分最高的部分模版，根据选取的模版及其打分计算各模版抽取的语义词的得分，进而选取得分最高的部分语义词对语义词典进行扩充；

7)步骤2)至步骤6)迭代进行，直到挑选出来的语义词不正确时迭代终止，得到最终的语义词典，并由各模版构成模版库。

9.如权利要求1所述的方法，其特征在于：步骤5)中，如果当前句中没有评价对象词或评价属性词，则选择上一句最后提及的评价对象或评价属性词引入到当前句；如果当前句中只有评价属性词，则当上一句出现评价对象时将其引入到当前句。

10.如权利要求1所述的方法，其特征在于：步骤6)中，所述最大熵模型通过建立条件概率模型预测不同情感类别并估计其概率，所述情感类别包括-1、0、1三类，分别表示差评、无情感、好评。

完整全部详细技术资料下载

当前第2页1 2 3