一种数据处理方法及其装置与流程

文档序号：11250905阅读：875来源：国知局

本发明涉及数据处理技术，尤其涉及一种数据处理方法及其装置。

背景技术：

由于电商平台的兴起和普及，越来越多的用户选择在电商平台上进行购物，同时会产生百万量级甚至更多的用户评论，这些用户评论中含有大量用户关于产品体验的有效反馈，能够帮助产品方了解产品在用户群体中的定位；但是，由于数据量级很大且包含的信息复杂冗余，这些用户评论很难有效转化为真正对产品方有用的行业知识。而且，现有的评测方案和体系多依赖于行业专家的主观判断，当评论量很大且噪声很多的情况下，很难有效迅速地给出分析结果，并且结果也会因为主观性的参与显得说服力不足。

技术实现要素：

为解决现有存在的技术问题，本发明实施例提供了一种数据处理方法及其装置，能至少解决现有技术中存在的上述问题。

本发明实施例的技术方案是这样实现的：

本发明实施例第一方面提供了一种数据处理方法，所述方法包括：

获取至少两个用户体验信息；所述用户体验信息表征用户对目标产品进行评价的体现用户体验特征的信息；

基于所述至少两个用户体验信息对应的用户体验特征，确定出所述至少两个用户体验信息的体验特征值，以及确定出至少两个主题关键字；

根据所述至少两个用户体验信息中每一用户体验信息对应的体验特征值，得到所述至少两个主题关键字对应的目标特征值，以通过目标特征值辨识出所述目标产品针对于所述至少两个主题关键字对用户体验特征的影响程度。

本发明实施例第二方面提供了一种数据处理装置，所述装置包括：

输入设备，用于获取至少两个用户体验信息；所述用户体验信息表征用户对目标产品进行评价的体现用户体验特征的信息；

处理器，用于基于所述至少两个用户体验信息对应的用户体验特征，确定出所述至少两个用户体验信息的体验特征值，以及确定出至少两个主题关键字；根据所述至少两个用户体验信息中每一用户体验信息对应的体验特征值，得到所述至少两个主题关键字对应的目标特征值，以通过目标特征值辨识出所述目标产品针对于所述至少两个主题关键字对用户体验特征的影响程度。

本发明实施例所述的数据处理方法及其装置，通过获取至少两个用户体验信息，并确定出所述至少两个用户体验信息的体验特征值，以及确定出至少两个主题关键字，进而确定出所述至少两个主题关键字对应的目标特征值(也即系数)，以便于通过目标特征值辨识出所述目标产品针对于所述至少两个主题关键字对用户体验特征的影响程度，如此，利用本发明实施例所述的方法即可将评价信息转化为用户关于产品体验的有效反馈，而且，上述过程是自动化实现的，因此，能够为缩短分析周期奠定基础；同时，本发明实施例所述的方法是基于大数据分析而得出的，所以，与依赖专家主管判断的分析方式相比，本发明实施例得到的结果更能客观且真实的反馈出评价信息中各主题的影响度。

附图说明

图1为本发明实施例数据处理方法的实现流程示意图；

图2为本发明实施例数据处理方法在一具体应用中的实现流程示意图；

图3为本发明实施例数据处理装置的组成结构示意图。

具体实施方式

为了能够更加详尽地了解本发明的特点与技术内容，下面结合附图对本发明的实现进行详细阐述，所附附图仅供参考说明之用，并非用来限定本发明。

实施例一

本实施例提供了一种数据处理方法，所述方法应用于数据处理装置；该数据处理装置可以具体为任意具有数据处理能力的电子设备，如服务器等。具体地，图1为本发明实施例数据处理方法的实现流程示意图，如图1所示，所述方法包括：

步骤101：获取至少两个用户体验信息；所述用户体验信息表征用户对目标产品进行评价的体现用户体验特征的信息；

在实际应用中，所述用户体验信息可以具体为用于针对目标产品的评价信息，该评价信息能够体现出用户对所述目标产品的用户体验特征，例如，用户体验特征可以大致分为体验较好和体验较差两类，对应地，根据用户体验特征即可确定出评价信息的极性，如评价信息可以具体为正评或负评(也即好评或差评)。

步骤102：基于所述至少两个用户体验信息对应的用户体验特征，确定出所述至少两个用户体验信息的体验特征值，以及确定出至少两个主题关键字；

在一具体实施例中，可以采用如下方式来确定用户体验信息(也即评价信息)的体验特征值，具体地，判断所述至少两个用户体验信息对应的用户体验特征是否满足预设条件，进而基于判断结果确定出所述至少两个用户体验信息的体验特征值；其中，所述体验特征值至少包括第一特征值和第二特征值；所述第一特征值表征用户对所述目标产品的用户体验特征满足预设条件；所述第二特征值表征用户对所述目标产品的用户体验特征不满足预设条件。也就是说，在实际应用中，所述体验特征值可以表征出用户体验信息的极性，如，若用户体验信息为正评时，体验特征值可以为正数，若用户体验信息为负评时，体验特征值可以为负数。进一步地，在实际应用中，可以对用户体验信息(也即评价信息)进行分词处理，得到若干个分词，进而根据该若干个分词的极性来确定用户体验信息的极性，例如，当若干个分词中正评分词的个数与负评分词的个数之比大于预设阈值(比如1)时，确定为该用户体验信息为正评，否则，确定为负评；当然，在实际应用中，还可以有其他方式来确定用户体验信息的极性，本实施例对此不作限制。同时，体验特征信息的取值也可根据实际情况而确定。

步骤103：根据所述至少两个用户体验信息中每一用户体验信息对应的体验特征值，得到所述至少两个主题关键字对应的目标特征值，以通过目标特征值辨识出所述目标产品针对于所述至少两个主题关键字对用户体验特征的影响程度。

在一具体实施例中，可以采用如下方式来确定主题关键字的目标特征值；具体地，基于用户体验特征，选取出每一用户体验信息所归属的主题关键字，基于每一用户体验信息所表征的用户体验特征、每一用户体验信息对应的体验特征值，以及每一用户体验信息所归属的主题关键字，建立针对每一用户体验信息的表征体验特征值与主题关键字的对应关系的数学关系式，以得到与所述至少两个用户体验信息对应的至少两个数学关系式；根据所述至少两个数学关系式计算得到每个主题关键字对应的系数；将每个主题关键字对应的系数作为所述主题关键字的目标特征值。具体地，确定出用户体验信息，也即评价信息后，即可根据评价信息的用户体验特征，确定出该评价信息的极性，这里，可以将评价信息的极性作为因变量y，针对每一特定的评价信息，y为已知数；进一步地，将确定出的主题关键字作为自变量x，进而建立主题模型，即yi＝ai1x1+ai2x2+…+aimxm，其中，yi表征评价信息的体验特征值，xj表征主题关键字，aij表征主题关键字对应的系数，也即本实施例所述的目标特征值，其中，所述n和m为大于等于1的正整数；所述i为大于等于1小于等于n的正整数，所述j为大于等于1小于等于m的正整数，这里，所述n的取值取决于评价信息(也即用户体验信息)的个数，所述m的取值取决于主题关键字的个数。对应于每条评价信息而已，对应的主题关键字的个数可以小于等于m值。

进一步地，对于每一特定的评价信息，yi和xj均为已知项，因此，当存在n条评价信息时，即可得到如下公式：

进而利用上述公式即可得到主题关键字的系数，进而得到主题模型，这里，所述主题模型即为表征主题关键字与评价信息的极性之间关系的数学关系式。

这里，当确定出主题关键字的目标特征值，也即确定出主题关键字的系数后，即可基于系数来对待检测用户体验信息进行评价，例如，获取待检测用户体验信息；所述待检测用户体验信息表征用户对所述目标产品进行评价的体现用户体验特征的信息，即待检测用户体验信息为新的评价信息，从所述至少两个主题关键字中选取出所述待检测用户体验信息归属的主题关键字，并确定出所述待检测用户体验信息归属的主题关键字对应的目标特征值，基于所述待检测用户体验信息归属的主题关键字，以及所述待检测用户体验信息归属的所述主题关键字的目标特征值，得到所述待检测用户体验信息的体验特征值，以通过所述待检测用户体验信息的体验特征值确定出待检测用户体验信息对应的用户对所述目标产品的用户体验特征是否满足预设条件。也就是说，利用主题模型即可确定出评价信息的极性。

这样，本发明实施例所述的方法，通过获取至少两个用户体验信息，并确定出所述至少两个用户体验信息的体验特征值，以及确定出至少两个主题关键字，进而确定出所述至少两个主题关键字对应的目标特征值(也即系数)，以便于通过目标特征值辨识出所述目标产品针对于所述至少两个主题关键字对用户体验特征的影响程度，如此，利用本发明实施例所述的方法即可将评价信息转化为用户关于产品体验的有效反馈，而且，上述过程是自动化实现的，因此，能够为缩短分析周期奠定基础；同时，本发明实施例所述的方法是基于大数据分析而得出的，所以，与依赖专家主管判断的分析方式相比，本发明实施例得到的结果更能客观且真实的反馈出评价信息中各主题的影响度。

实施例二

基于实施例一所述的方法，本实施例给出了确定主题关键字的具体方法，具体地，对所述至少两个用户体验信息进行分词处理，得到至少两个分词；对所述至少两个分词进行聚类处理，得到至少两个主题关键字；其中，每一分词归属于一个主题关键字。

例如，在实际应用中，可以利用文档主题生成模型(lda，latentdirichletallocation)对用户体验信息(也即评价信息)进行主题关键字抽取，以最终确定出至少两个主题关键字。这里，在实际应用中，每一用户体验信息可以对应不同的多个主题关键字，而不同的用户体验信息可以对应相同，或者不相同的主题关键字。例如，评价信息为：“希望换货，卖家同意，衣服运费也不用承担，态度好”；对该评价信息进行分词处理，并去除无关词后，得到分词：“换货、卖家、衣服、运费、态度”，进而通过lda算法，对得到的分词进行主题抽取，也即确定出每个分词归属的主题关键字，得到如下主题关键字“质量，服务，质量，物流，服务”，即“换货”和“衣服”归属的主题关键字为“质量”，“卖家”和“态度”归属的主题关键字为“服务”，“运费”归属的主题关键字为“物流”。当然，在实际应用中，还可以根据其他算法抽取出评价信息对应的一个或多个主题关键字，本实施例对此不作限制。

以下给出本发明实施例的一具体应用示例，具体地，如图2所示，首先，获取目标产品的原始用户评论(已分正负评)，将原始用户评论进行分词处理，并过滤掉与分析无关的词(如的，吗等词)；然后，将预处理之后的用户评论拼接为长文本，输入到lda中，获得若干主题关键字；最后，根据用户评论中包含的分词，将每一用户评论映射到主题关键字，构造出针对用户评论的主题矩阵，通过回归算法拟合出正负评关于各个主题关键字的方程，每个主题关键字的系数则反映了其对用户评论极性的影响权重，例如，系数为正表示为正面影响，反之为负面影响，系数大小表示影响度的相对大小。因此，相较于传统的人为统计分析，本发明实施例能够基于算法自动化完成，缩短了分析周期，同时因为算法的可迁移性，本发明实施例也能应对实时的舆情变化和不同的行业背景。而且，相较于传统依赖于专家主观判断的方案而言，本发明实施例能够客观地量化出用户评论中各主题关键字的影响度，同时本发明实施例还能挖掘出用户评论隐含的主题，进而为完善专家行业知识奠定了基础。

实施例三

本实施例提供了一种数据处理装置，该数据处理装置可以具体为任意具有数据处理能力的电子设备，如服务器等。如图3所示，所述装置包括：

输入设备31，用于获取至少两个用户体验信息；所述用户体验信息表征用户对目标产品进行评价的体现用户体验特征的信息；

处理器32，用于基于所述至少两个用户体验信息对应的用户体验特征，确定出所述至少两个用户体验信息的体验特征值，以及确定出至少两个主题关键字；根据所述至少两个用户体验信息中每一用户体验信息对应的体验特征值，得到所述至少两个主题关键字对应的目标特征值，以通过目标特征值辨识出所述目标产品针对于所述至少两个主题关键字对用户体验特征的影响程度。

在一实施例中，所述处理器32，还用于对所述至少两个用户体验信息进行分词处理，得到至少两个分词；对所述至少两个分词进行聚类处理，得到至少两个主题关键字；其中，每一分词归属于一个主题关键字。例如，在实际应用中，可以利用lda对用户体验信息(也即评价信息)进行主题关键字抽取，以最终确定出至少两个主题关键字。这里，在实际应用中，每一用户体验信息可以对应不同的多个主题关键字，而不同的用户体验信息可以对应相同，或者不相同的主题关键字。例如，评价信息为：“希望换货，卖家同意，衣服运费也不用承担，态度好”；对该评价信息进行分词处理，并去除无关词后，得到分词：“换货、卖家、衣服、运费、态度”，进而通过lda算法，对得到的分词进行主题抽取，也即确定出每个分词归属的主题关键字，得到如下主题关键字“质量，服务，质量，物流，服务”，即“换货”和“衣服”归属的主题关键字为“质量”，“卖家”和“态度”归属的主题关键字为“服务”，“运费”归属的主题关键字为“物流”。当然，在实际应用中，还可以根据其他算法抽取出评价信息对应的一个或多个主题关键字，本实施例对此不作限制。

在另一实施例中，所述处理器32，还用于基于用户体验特征，选取出每一用户体验信息所归属的主题关键字；基于每一用户体验信息所表征的用户体验特征、每一用户体验信息对应的体验特征值，以及每一用户体验信息所归属的主题关键字，建立针对每一用户体验信息的表征体验特征值与主题关键字的对应关系的数学关系式，以得到与所述至少两个用户体验信息对应的至少两个数学关系式；根据所述至少两个数学关系式计算得到每个主题关键字对应的系数；将每个主题关键字对应的系数作为所述主题关键字的目标特征值。具体地，确定出用户体验信息，也即评价信息后，即可根据评价信息的用户体验特征，确定出该评价信息的极性，这里，可以将评价信息的极性作为因变量y，针对每一特定的评价信息，y为已知数；进一步地，将确定出的主题关键字作为自变量x，进而建立主题模型，即yi＝ai1x1+ai2x2+…+aimxm，其中，yi表征评价信息的体验特征值，xj表征主题关键字，aij表征主题关键字对应的系数，也即本实施例所述的目标特征值，其中，所述n和m为大于等于1的正整数；所述i为大于等于1小于等于n的正整数，所述j为大于等于1小于等于m的正整数，这里，所述n的取值取决于评价信息(也即用户体验信息)的个数，所述m的取值取决于主题关键字的个数。对应于每条评价信息而已，对应的主题关键字的个数可以小于等于m值。

进一步地，对于每一特定的评价信息，yi和xj均为已知项，因此，当存在n条评价信息时，即可得到如下公式：

在另一实施例中，所述处理器32，还用于判断所述至少两个用户体验信息对应的用户体验特征是否满足预设条件；基于判断结果确定出所述至少两个用户体验信息的体验特征值；其中，所述体验特征值至少包括第一特征值和第二特征值；所述第一特征值表征用户对所述目标产品的用户体验特征满足预设条件；所述第二特征值表征用户对所述目标产品的用户体验特征不满足预设条件。也就是说，在实际应用中，所述体验特征值可以表征出用户体验信息的极性，如，若用户体验信息为正评时，体验特征值可以为正数，若用户体验信息为负评时，体验特征值可以为负数。进一步地，在实际应用中，可以对用户体验信息(也即评价信息)进行分词处理，得到若干个分词，进而根据该若干个分词的极性来确定用户体验信息的极性，例如，当若干个分词中正评分词的个数与负评分词的个数之比大于预设阈值(比如1)时，确定为该用户体验信息为正评，否则，确定为负评；当然，在实际应用中，还可以有其他方式来确定用户体验信息的极性，本实施例对此不作限制。同时，体验特征信息的取值也可根据实际情况而确定。

在另一实施例中，所述输入设备31，还用于获取待检测用户体验信息；所述待检测用户体验信息表征用户对所述目标产品进行评价的体现用户体验特征的信息；对应地，

所述处理器32，还用于从所述至少两个主题关键字中选取出所述待检测用户体验信息归属的主题关键字，并确定出所述待检测用户体验信息归属的主题关键字对应的目标特征值；基于所述待检测用户体验信息归属的主题关键字，以及所述待检测用户体验信息归属的所述主题关键字的目标特征值，得到所述待检测用户体验信息的体验特征值，以通过所述待检测用户体验信息的体验特征值确定出待检测用户体验信息对应的用户对所述目标产品的用户体验特征是否满足预设条件。也就是说，利用主题模型即可确定出评价信息的极性。

这样，本发明实施例所述的装置，通过获取至少两个用户体验信息，并确定出所述至少两个用户体验信息的体验特征值，以及确定出至少两个主题关键字，进而确定出所述至少两个主题关键字对应的目标特征值(也即系数)，以便于通过目标特征值辨识出所述目标产品针对于所述至少两个主题关键字对用户体验特征的影响程度，如此，利用本发明实施例所述的方法即可将评价信息转化为用户关于产品体验的有效反馈，而且，上述过程是自动化实现的，因此，能够为缩短分析周期奠定基础；同时，本发明实施例所述的方法是基于大数据分析而得出的，所以，与依赖专家主管判断的分析方式相比，本发明实施例得到的结果更能客观且真实的反馈出评价信息中各主题的影响度。

这里需要指出的是：以上数据处理装置实施例项的描述，与上述方法描述是类似的，具有同方法实施例相同的有益效果，因此不做赘述。对于本发明数据处理装置实施例中未披露的技术细节，本领域的技术人员请参照本发明方法实施例的描述而理解，为节约篇幅，这里不再赘述。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明实施例的实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明实施例原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明实施例的保护范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王文韬
技术所有人：联想（北京）有限公司
我是此专利的发明人

上一篇：查询彩票信息的方法、装置、设备和计算机存储介质与流程
上一篇：新闻APP应用活跃度的分析方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。