一种产品特征的挖掘与评价方法与流程

文档序号:11155267阅读:373来源:国知局
一种产品特征的挖掘与评价方法与制造工艺
本发明涉及电子商务领域,特别地,涉及一种产品特征的挖掘与评价方法。
背景技术
:随着Web2.0应用的出现和快速发展,电子商务正在发展成一个繁荣的商业模式,这样更加容易获取到对商品的反馈,客户可以在消费之后留下他们的评论,之后的客户就可以根据评论来决定是否购买该商品。对消费者来说,如果他们能够对商品的正面和负面评论的百分比有一个清晰的认识,对于是否购买商品会更好地做出选择。把人们评价最多的那些商品的特征提供给消费者也是很有帮助的。同时,这些结果也可以报告给制造商和电子商务销售商,可以用来帮助改进他们的商品和服务。于是整合网络上的信息并进行统计分析,然后给消费者提供一个综合评价就变得非常重要。在获取市场信息方面,现有技术把Twitter作为挖掘市场信息的语料库,包括了主题探测和情感分类。然而,汉语中,包含了大量用户产生的内容信息的微博有太多的虚假评论和广告,难以创建合适的数据集。同时,情感分析常常被当做文本分类问题,与新闻文章和学术论文形式的正式格式文本不一样,UGC有时候并不会严格按照语法,但也会有一些附加的信息。Twitter中使用像“:-)”这样的表情符号作为极性探测的特征;说话方式等也可以作为正面和负面情绪的指示。另外,怎样从商品的评论中抽取它们的特征是现有技术的主要问题。英文产品特征挖掘的作者们使用常用名词和名词短语来进行特征抽取,以及Apriori算法生成频繁特征集并修剪初步的集合,但这个手段不适用于中文。针对现有技术中对英文评论进行挖掘与评价的方法在中文领域不适用的问题,目前尚未有有效的解决方案。技术实现要素:有鉴于此,本发明的目的在于提出一种产品特征的挖掘与评价方法,能够在中文领域上挖掘与评价产品的特征并进行统计分析,为中文电子商务的综合评价提供数据支持。基于上述目的,本发明提供的技术方案如下:本发明提供了一种产品特征的挖掘与评价方法,包括:随机抓取多条消费者对于产品的文本评论信息训练感情词典与产品特征词典;确定目标产品,并从电子商务平台上抓取多条不同消费者对于目标产品的文本评论信息;根据感情词典与产品特征词典,依次从每条文本评论信息中抽取出产品特征-感情词语对,并使用产品特征-感情词语对迭代更新感情词典与产品特征词典,直到多条文本评论信息均被处理;对所有被抽取出的产品特征-感情词语对进行统计,获得该产品的产品特征与感情评价。其中,随机抓取多条消费者对于产品的文本评论信息训练感情词典包括:确定每条随机抓取的文本评论信息为正面评价或负面评价;对每条随机抓取的文本评论信息进行分词处理,并对分词处理得到的每个词进行词性标注;使用朴素贝叶斯方法将分词处理得到的每个形容词按照该形容词的出现次数计算该形容词的在正面评价与负面评价中的先验概率;根据该形容词的在正面评价与负面评价中的先验概率将该形容词归为正面词语或负面词语,并加入感情词典中。并且,对每条随机抓取的文本评论信息进行分词处理时,也将表情符号与标点符号视为单词进行分词处理;对分词处理得到的每个词进行词性标注时,也将表情符号与标点符号视为单词进行词性标注,并标注为形容词。同时,对每条随机抓取的文本评论信息进行分词处理时,也将习惯用语与句型模板视为单词进行分词处理;对分词处理得到的每个词进行词性标注时,也将习惯用语与句型模板视为单词进行词性标注,并标注为形容词。其中,随机抓取多条消费者对于产品的文本评论信息训练产品特征词典包括:对每条随机抓取的文本评论信息进行分词处理,并对分词处理得到的每个词进行词性标注;提取出分词处理得到的所有独立名词并加入产品特征词典中;提取出分词处理得到的所有多个名词直接相连形成的复合词,并将复合词整体作为单个名词加入产品特征词典中;提取出分词处理得到的所有多个名词之间以“的”相连形成的短语,并将短语整体作为单个名词加入产品特征词典中。其中,根据感情词典与产品特征词典,依次从每条文本评论信息中抽取出产品特征-感情词语对包括:依次指定每条文本评论信息,并对被指定文本评论信息进行预处理;从预处理后的被指定文本评论信息中提取出与感情词典记载相匹配的单词,作为被指定文本评论信息的感情词汇;从预处理后的被指定文本评论信息中提取出与产品特征词典记载相匹配的单词,作为被指定文本评论信息的产品特征词汇;根据感情词汇与产品特征词汇,通过“产品特征-感情”模型在预处理后的被指定文本评论信息中提取出多个产品特征-感情词语对。并且,对被指定文本评论信息进行预处理包括:将被指定文本评论信息分割为按一定顺序连接的多个单词;对每个单词进行词性标注。并且,根据提取出的感情词汇与产品特征词汇,通过“产品特征-感情”模型在预处理后的被指定文本评论信息中提取出多个产品特征-感情词语对包括:依次指定每个感情词汇,根据被指定感情词汇在预处理后的被指定文本评论信息中的单词位置,提取该位置以前预先指定长度内所有词性被标注为名词的单词,并将被指定感情词汇与每个词性被标注为名词的单词一一建立产品特征-感情词语对,直到每个感情词汇都被指定过;依次指定每个产品特征词汇,根据被指定产品特征词汇在预处理后的被指定文本评论信息中的单词位置,提取该位置以后预先指定长度内所有词性被标注为形容词的单词,并将被指定产品特征词汇与每个词性被标注为形容词的单词一一建立产品特征-感情词语对,直到每个产品特征词汇都被指定过。另外,使用产品特征-感情词语对迭代更新感情词典与产品特征词典包括:将产品特征-感情词语对中的感情部分单词并入感情词典中;将产品特征-感情词语对中的产品特征部分单词并入产品特征词典中。从上面所述可以看出,本发明提供的技术方案通过使用训练感情词典与产品特征词典,抓取多条不同消费者对于目标产品的文本评论信息抽取出产品特征-感情词语对迭代更新感情词典与产品特征词典,并统计获得该产品的产品特征与感情评价的技术手段,能够在中文领域上挖掘与评价产品的特征并进行统计分析,为中文电子商务的综合评价提供数据支持。附图说明为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为根据本发明实施例的一种产品特征的挖掘与评价方法的流程图;图2为根据应用了本发明实施例的一种产品特征的挖掘与评价方法的系统结构图。具体实施方式为使本发明的目的、技术方案和优点更加清楚明白,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进一步进行清楚、完整、详细地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。根据本发明的实施例,提供了一种产品特征的挖掘与评价方法。如图1所示,根据本发明实施例的提供的一种产品特征的挖掘与评价方法包括:步骤S101,随机抓取多条消费者对于产品的文本评论信息训练感情词典与产品特征词典;步骤S103,确定目标产品,并从电子商务平台上抓取多条不同消费者对于目标产品的文本评论信息;步骤S105,根据感情词典与产品特征词典,依次从每条文本评论信息中抽取出产品特征-感情词语对,并使用产品特征-感情词语对迭代更新感情词典与产品特征词典,直到多条文本评论信息均被处理;步骤S107,对所有被抽取出的产品特征-感情词语对进行统计,获得该产品的产品特征与感情评价。其中,随机抓取多条消费者对于产品的文本评论信息训练感情词典包括:确定每条随机抓取的文本评论信息为正面评价或负面评价;对每条随机抓取的文本评论信息进行分词处理,并对分词处理得到的每个词进行词性标注;使用朴素贝叶斯方法将分词处理得到的每个形容词按照该形容词的出现次数计算该形容词的在正面评价与负面评价中的先验概率;根据该形容词的在正面评价与负面评价中的先验概率将该形容词归为正面词语或负面词语,并加入感情词典中。并且,对每条随机抓取的文本评论信息进行分词处理时,也将表情符号与标点符号视为单词进行分词处理;对分词处理得到的每个词进行词性标注时,也将表情符号与标点符号视为单词进行词性标注,并标注为形容词。同时,对每条随机抓取的文本评论信息进行分词处理时,也将习惯用语与句型模板视为单词进行分词处理;对分词处理得到的每个词进行词性标注时,也将习惯用语与句型模板视为单词进行词性标注,并标注为形容词。其中,随机抓取多条消费者对于产品的文本评论信息训练产品特征词典包括:对每条随机抓取的文本评论信息进行分词处理,并对分词处理得到的每个词进行词性标注;提取出分词处理得到的所有独立名词并加入产品特征词典中;提取出分词处理得到的所有多个名词直接相连形成的复合词,并将复合词整体作为单个名词加入产品特征词典中;提取出分词处理得到的所有多个名词之间以“的”相连形成的短语,并将短语整体作为单个名词加入产品特征词典中。其中,根据感情词典与产品特征词典,依次从每条文本评论信息中抽取出产品特征-感情词语对包括:依次指定每条文本评论信息,并对被指定文本评论信息进行预处理;从预处理后的被指定文本评论信息中提取出与感情词典记载相匹配的单词,作为被指定文本评论信息的感情词汇;从预处理后的被指定文本评论信息中提取出与产品特征词典记载相匹配的单词,作为被指定文本评论信息的产品特征词汇;根据感情词汇与产品特征词汇,通过“产品特征-感情”模型在预处理后的被指定文本评论信息中提取出多个产品特征-感情词语对。并且,对被指定文本评论信息进行预处理包括:将被指定文本评论信息分割为按一定顺序连接的多个单词;对每个单词进行词性标注。并且,根据提取出的感情词汇与产品特征词汇,通过“产品特征-感情”模型在预处理后的被指定文本评论信息中提取出多个产品特征-感情词语对包括:依次指定每个感情词汇,根据被指定感情词汇在预处理后的被指定文本评论信息中的单词位置,提取该位置以前预先指定长度内所有词性被标注为名词的单词,并将被指定感情词汇与每个词性被标注为名词的单词一一建立产品特征-感情词语对,直到每个感情词汇都被指定过;依次指定每个产品特征词汇,根据被指定产品特征词汇在预处理后的被指定文本评论信息中的单词位置,提取该位置以后预先指定长度内所有词性被标注为形容词的单词,并将被指定产品特征词汇与每个词性被标注为形容词的单词一一建立产品特征-感情词语对,直到每个产品特征词汇都被指定过。另外,使用产品特征-感情词语对迭代更新感情词典与产品特征词典包括:将产品特征-感情词语对中的感情部分单词并入感情词典中;将产品特征-感情词语对中的产品特征部分单词并入产品特征词典中。下面根据具体实施例进一步阐述本发明的技术特征。图2示出的是根据本发明实施例应用了产品特征的挖掘与评价方法的系统。如图2所示,除了从电子商务平台上使用爬虫来爬取评论之外,还包括词典训练(即前述的训练产品特征词典)、分类器训练(即前述的训练情感词典)与评论处理(即前述的产品特征-感情词语对处理)。电子商务评论中的虚假评论和广告较少,是一个合适的数据集。在分类器训练方面,本发明实施例使用朴素贝叶斯方法(NaiveBayesian,NB)以高效和方便地判断出一个评论的情感倾向是正面的还是负面的。NB方法以稳定著称,并允许引入自定义的特征和先验概率。朴素贝叶斯方法是一个能够很好地进行文本分类的简单模型。在这个统计学模型中,类C*的值为使得P(c|d)概率值最大的那个c,公式为根据贝叶斯定理,P(c|d)可以这样计算:其中P(c)是一个类别的概率,在这里分为正面和负面两类。P(d)代表评论出现的概率。实际上,只需关注这个分数的分子部分,因为分母是不依赖于c的常数。如果使用的是一个平衡的语料库,即选择用来训练的正面和负面的训练集的大小一样,那么P(c)也可以忽略了。设d={f1,f2,…,fn},f1,f2,…,fn代表评论中的每一个特征,在朴素贝叶斯中,它们被假设为都是条件独立的,然后我们就能得到:使用评论中的每一个词作为特性,下述的两个方法可以弥补一些短评论缺少足够多的指示性的特征词的缺点。评论中的一些表情符号和标点符号也可以被用来作为分类中的指示词。举个例子,“^_^”表达了正面的情感,而“QAQ”则表达了负面的情感。至于标点符号,我们发现了一些标点符号组合可以表达超出文本本身的情感。所以这些符号可以被当做分类的特征词,比如标点符号“~”(重复一次或多次)是一个正面情感指示词,“??”(中文中的疑问标志,重复两次或多次)是一个负面情感指示词。表1中给出了表情符号的示例列表,表2中给出了标点符号的示例列表。表1.中文评论中用到的表情符号表2.指示出情感的标点符号中文评论中有的一些习语比如“没的说”或“没话说”暗示了对这个产品的一种正面的情感。我们收集了一些用在评论中的习语用来分类。在下面表3列出来了这些习语。表3.中文评论中的习语同时,经常会有一些短的、基本上没有复杂表达的评论可以作为模板来用于分类。举个例子,消费者会说“不是很满意”来表达这个商品没有达到他们的预期的意思。本发明实施例给出了一些基于正则表达式的模板,正面的词语代表着一些像“满意”这样的单词,负面的词语代表着一些像“差”这样的单词。负面:不(是)*(太|很)*(令人)*(<正片评价词语>)(真是|简直)*(太)*(<负面评价词语>)(了)*正面:(真是)*(太)*(<正片评价词语>)(了)*没(.)*那么(<负面评价词语>)其中,*代表单词之间的直接连接关系,()代表可选单词,|代表多个单词择一,.代表任意词汇。在评论中的每一个匹配(上述的表情符号和标点符号,习语和模板)在学习算法中都会是一个特征,因此即使从一个短评论中,我们也可以为朴素贝叶斯算法生成足够多的特征。特征抽取模型用来从用户评论中挖掘产品特征,这个模型的主要方法是语法分析。因为情感词语和特征词语通常会成对出现在评论中,所以我们使用一个窗口遍历训练集中的每一条评论去找出情感-特征单词对。同时在遍历训练集的过程中,这个模型中会维护一个情感词典和一个特征词典。在每一条评论中找到的新的特征词和情感词会更新到词典中用于后面评论的挖掘。“词典-窗口”基本模型(DWM)基于评论中的“特征-情感”对。“特征-情感”模型符合用户的评论习惯。例:手机质量真不错。在这个评论中,特征词“手机质量”和情感词“不错”组成了一个“特征-情感”词语对,特征词在情感词之前。收集数据和人工比较得出结论,包含“特征-情感”模型的评论占总共数据的84%。为了得到情感词语更高的辨识性,需要先进行一些预处理工作。评论被分割之后,合并某些名词将会提供更加准确的特征词。例:屏幕分辨率挺高的。在这个评论中,分词工具会把词语“屏幕”和词语“分辨率”被标注为名词。如果我们仅仅是把这两个单词作为特征词,很明显这样做并不是那么准确。我们可能会发现,“屏幕分辨率”是这个评论中准确的特征词。也就是说,在特征抽取过程中,把这两个单词合并成名词词组作为一个特征词会更加合适。本发明实施例定义了三种评论格式,可能产生能够作为产品特征词的名词短语。①单个词语例:价格非常便宜。在这条评论中,价格是在分词之后一个单个词语。我们使用“价格”作为一个产品特性。②两个相邻词语例:屏幕分辨率挺高的。我们把“屏幕”和“分辨率”合并成“屏幕分辨率”之后作为一个产品特征词。③名词+“的”+名词例:外壳的颜色不好看。在这条评论中,我们使用的是“外壳的颜色”作为产品特征,而不是单个词语,比如:“外壳”或者“颜色”。模型可以从评论中找到“情感-特征”词语对,并且可以在训练过程中迭代更新词典。我们称一个单词为一个单元,如果在情感词和产品特征词之间有n个单元,那么我们也叫作大小为n的窗口。我们把词典定义为一个包含特征词或情感词的文档。首先,初始化情感词词典与初始特征词词典。其次,对于训练集中的每条评论c进行如下处理:对c做预处理,包括分词和词性标注等;将包含在情感词词典和c中的所有情感词归入集合S;将包含在特征词词典和c中的所有特征词归入集合F;初始化并重置情感词归化集合与特征词归化集合;对于S中的每一个情感词,如果从s向前数,m个单元之内有名词f,则认为f是特征词,并加入特征词归化集合中;对于F中的每一个特征词,如果从f向后数,m个单元之内有形容词s,则认为s是情感词,并加入情感词归化集合中;将情感词归化集合与特征词归化集合分别并入情感词词典与初始特征词词典中。实验证明了本发明的有效性。本实验使用300个正面评论和300个负面评论作为语料库训练分类器,并使用ICTCLAS进行分词和词性标注之后,按照每个词语出现的次数,统计了每一个词语在正面和负面集中的先验概率。同时本实验使用50000条评论作为输入用DWM模型进行处理,得到了3732个名词短语,包含一些没有意义的单词。清除了其中出现频率小于300的词语,排除了一些出现很多次但是并不能够代表一个产品特征的词语,如“家人”,“朋友”等,特征词典中总共剩下283个特征词。对于每一条评论,本实验基于词典进行特征抽取,然后为分类进行分词和词性标注。大量的评论可以提到不止一个产品特征并且包含了和特征相对应的一些特定的情感,因此本实验基于标点符号和空白把句子进行分割,并把这些子句作为输入。为了证明系统的可用性,实验是在一些真实的数据集上进行的。本实验对这两个模型分开进行了测试并在表格中显示结果,包括情感分析实验与产品特征抽取实验。情感分析正面分类负面分类标注正面1443357标注负面2571543表4情感分析实验结果手工标注了从京东抽取的1800条正面的评论和1800条负面评论,评估结果如上表所示。正面的召回率和精确度80%和84%,而负面的召回率和精确度85%和81%。产品抽取特征非特征抽取特征884165未抽取特征91—表5产品特征抽取实验结果从京东上的400条评论中手工选择特征词,评估结果如上表所示。召回率为90%,精确度84%。综上所述,借助于本发明的上述技术方案,通过训练感情词典与产品特征词典,抓取多条不同消费者对于目标产品的文本评论信息抽取出产品特征-感情词语对迭代更新感情词典与产品特征词典,并统计获得该产品的产品特征与感情评价的技术手段,能够在中文领域上挖掘与评价产品的特征并进行统计分析,为中文电子商务的综合评价提供数据支持。所属领域的普通技术人员应当理解:以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1