1.一种产品特征的挖掘与评价方法,其特征在于,包括:
随机抓取多条消费者对于产品的文本评论信息训练感情词典与产品特征词典;
确定目标产品,并从电子商务平台上抓取多条不同消费者对于目标产品的文本评论信息;
根据所述感情词典与产品特征词典,依次从每条所述文本评论信息中抽取出产品特征-感情词语对,并使用所述产品特征-感情词语对迭代更新所述感情词典与产品特征词典,直到多条所述文本评论信息均被处理;
对所有被抽取出的所述产品特征-感情词语对进行统计,获得该产品的产品特征与感情评价。
2.根据权利要求1所述的方法,其特征在于,随机抓取多条消费者对于产品的文本评论信息训练感情词典包括:
确定每条所述随机抓取的文本评论信息为正面评价或负面评价;
对每条所述随机抓取的文本评论信息进行分词处理,并对分词处理得到的每个词进行词性标注;
使用朴素贝叶斯方法将分词处理得到的每个形容词按照该形容词的出现次数计算该形容词的在正面评价与负面评价中的先验概率;
根据该形容词的在正面评价与负面评价中的先验概率将该形容词归为正面词语或负面词语,并加入所述感情词典中。
3.根据权利要求2所述的方法,其特征在于,对每条所述随机抓取的文本评论信息进行分词处理时,也将表情符号与标点符号视为单词进行分词处理;对分词处理得到的每个词进行词性标注时,也将表情符号与标点符号视为单词进行词性标注,并标注为形容词。
4.根据权利要求2所述的方法,其特征在于,对每条所述随机抓取的文本评论信息进行分词处理时,也将习惯用语与句型模板视为单词进行分词处理;对分词处理得到的每个词进行词性标注时,也将习惯用语与句型模板视为单词进行词性标注,并标注为形容词。
5.根据权利要求1所述的方法,其特征在于,随机抓取多条消费者对于产品的文本评论信息训练产品特征词典包括:
对每条所述随机抓取的文本评论信息进行分词处理,并对分词处理得到的每个词进行词性标注;
提取出分词处理得到的所有独立名词并加入所述产品特征词典中;
提取出分词处理得到的所有多个名词直接相连形成的复合词,并将所述复合词整体作为单个名词加入所述产品特征词典中;
提取出分词处理得到的所有多个名词之间以“的”相连形成的短语,并将所述短语整体作为单个名词加入所述产品特征词典中。
6.根据权利要求1所述的方法,其特征在于,根据所述感情词典与产品特征词典,依次从每条所述文本评论信息中抽取出产品特征-感情词语对包括:
依次指定每条所述文本评论信息,并对所述被指定文本评论信息进行预处理;
从预处理后的所述被指定文本评论信息中提取出与所述感情词典记载相匹配的单词,作为所述被指定文本评论信息的感情词汇;
从预处理后的所述被指定文本评论信息中提取出与所述产品特征词典记载相匹配的单词,作为所述被指定文本评论信息的产品特征词汇;
根据所述感情词汇与产品特征词汇,通过“产品特征-感情”模型在预处理后的所述被指定文本评论信息中提取出多个产品特征-感情词语对。
7.根据权利要求6所述的方法,其特征在于,对所述被指定文本评论信息进行预处理包括:
将所述被指定文本评论信息分割为按一定顺序连接的多个单词;
对所述每个单词进行词性标注。
8.根据权利要求7所述的方法,其特征在于,根据所述提取出的感情词汇与产品特征词汇,通过“产品特征-感情”模型在预处理后的所述被指定文本评论信息中提取出多个产品特征-感情词语对包括:
依次指定每个所述感情词汇,根据所述被指定感情词汇在预处理后的所述被指定文本评论信息中的单词位置,提取该位置以前预先指定长度内所有词性被标注为名词的单词,并将所述被指定感情词汇与每个词性被标注为名词的所述单词一一建立产品特征-感情词语对,直到每个所述感情词汇都被指定过;
依次指定每个所述产品特征词汇,根据所述被指定产品特征词汇在预处理后的所述被指定文本评论信息中的单词位置,提取该位置以后预先指定长度内所有词性被标注为形容词的单词,并将所述被指定产品特征词汇与每个词性被标注为形容词的所述单词一一建立产品特征-感情词语对,直到每个所述产品特征词汇都被指定过。
9.根据权利要求1所述的方法,其特征在于,使用所述产品特征-感情词语对迭代更新所述感情词典与产品特征词典包括:
将所述产品特征-感情词语对中的感情部分单词并入所述感情词典中;
将所述产品特征-感情词语对中的产品特征部分单词并入所述产品特征词典中。