一种投资产品组合推荐方法及系统与流程

文档序号：13935135阅读：183来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本发明涉及计算机技术领域，尤其涉及一种投资产品组合推荐方法及系统。

背景技术：

随着社会的进步以及经济的发展，投资理财逐渐成为了社会中每一个人的需求，而目前市面上的投资理财手段繁多，投资产品五花八门，如何选择合理的理财产品成为了人们的困扰，目前市面上还没有一个完善的理财产品推荐系统，理财产品组合方案推荐更无从谈起。

没有完善的理财产品组合方案推荐系统会导致广大普通消费者在投资产品的选择上陷入盲目，常常过于激进或过于保守，无法权衡收益与风险，导致投资效率低下。

技术实现要素：

本发明针对现有技术中存在的问题，提供了一种投资产品组合推荐方法及系统，能够向用户推荐适合用户的最佳投资产品组合。

本发明就上述技术问题而提出的技术方案如下：

一方面，本发明提供一种投资产品组合推荐方法，包括：

采集用户信息和投资产品信息；

建立并训练强化学习网络模型；

根据所述用户信息并基于训练后的强化学习网络模型，获得用户风险偏好；

根据所述用户风险偏好和所述投资产品信息，获得向用户推荐的投资产品组合；

记录用户采纳所述投资产品组合后的实际收益与风险信息，并根据所述实际收益与风险信息优化所述强化学习网络模型。

进一步地，所述建立并训练强化学习网络模型，具体包括：

获取历史用户信息、历史投资产品信息和投资产品的历史收益与风险信息；

建立所述强化学习网络模型，并将所述历史用户信息输入至所述强化学习网络模型，输出一个初始风险偏好；

根据所述初始风险偏好和所述历史投资产品信息，获得预推荐投资产品组合；

将所述预推荐投资产品组合的历史收益与风险信息返回至所述强化学习网络模型，以调整所述强化学习网络模型的参数，直到所述强化学习网络模型的状态达到最佳。

进一步地，所述根据所述用户风险偏好和所述投资产品信息，获得向用户推荐的投资产品组合，具体包括：

根据所述投资产品信息对不同投资产品进行搭配，生成具有不同风险系数的投资产品组合列表；

将所述用户风险偏好与所述投资产品组合列表中的投资产品组合进行余弦相似度匹配，获得相似度最高的多个投资产品组合，并将所述多个投资产品组合中收益最大的投资产品组合作为向用户推荐的投资产品组合。

进一步地，所述强化学习网络模型包括执行者actor网络；

所述根据所述用户信息并基于训练后的强化学习网络模型，获得用户风险偏好，具体包括：

将所述用户信息输入至所述训练后的强化学习网络模型，由所述actor网络输出所述用户风险偏好。

进一步地，所述强化学习网络模型还包括评价者critic网络；

所述根据所述实际收益与风险信息优化所述强化学习网络模型，具体包括：

将所述实际收益与风险信息输入至所述强化学习网络模型，由所述critic网络计算输出向用户推荐的投资产品组合的奖励值或处罚值；

将所述奖励值或处罚值输入至所述actor网络，更新所述actor网络中的参数，以优化所述强化学习网络模型。

进一步地，所述由所述critic网络计算输出向用户推荐的投资产品组合的奖励值或处罚值，具体包括：

由所述critic网络检测所述实际收益与风险信息是否与用户的满意度相匹配；

若匹配，则计算输出推荐的投资产品组合的奖励值；

若不匹配，则计算输出推荐的投资产品组合的处罚值。

进一步地，在所述建立并训练强化学习网络模型之前，还包括：

对所采集的数据进行归一化处理，以将所采集的数据转换为结构化数据存入数据库中。

另一方面，本发明提供一种投资产品组合推荐系统，包括：

信息采集模块，用于采集用户信息和投资产品信息；

模型训练模块，用于建立并训练强化学习网络模型；

风险偏好获取模块，用于根据所述用户信息并基于训练后的强化学习网络模型，获得用户风险偏好；

推荐模块，用于根据所述用户风险偏好和所述投资产品信息，获得向用户推荐的投资产品组合；以及，

模型优化模块，用于记录用户采纳所述投资产品组合后的实际收益与风险信息，并根据所述实际收益与风险信息优化所述强化学习网络模型。

进一步地，所述推荐模块具体包括：

投资产品搭配单元，用于根据所述投资产品信息对不同投资产品进行搭配，生成具有不同风险系数的投资产品组合列表；以及，

投资产品组合推荐单元，用于将所述用户风险偏好与所述投资产品组合列表中的投资产品组合进行余弦相似度匹配，获得相似度最高的多个投资产品组合，并将所述多个投资产品组合中收益最大的投资产品组合作为向用户推荐的投资产品组合。

进一步地，所述强化学习网络模型包括执行者actor网络和评价者critic网络；

所述风险偏好获取模块具体用于：

将所述用户信息输入至所述训练后的强化学习网络模型，由所述actor网络输出所述用户风险偏好；

所述模型优化模块具体包括：

计算输出单元，用于将所述实际收益与风险信息输入至所述强化学习网络模型，由所述critic网络计算输出所述推荐的投资产品组合的奖励值或处罚值；以及，

参数更新单元，用于将所述奖励值或处罚值输入至所述actor网络，更新所述actor网络中的参数，以优化所述强化学习网络模型。

本发明实施例提供的技术方案带来的有益效果是：

建立强化学习网络模型，通过采集的用户信息获取用户风险偏好，并对用户风险偏好进行需求匹配，以匹配出适合用户的最佳投资产品组合推荐给用户，在用户采纳该投资产品组合后，将该投资产品组合的实际收益与风险信息反馈给强化学习网络模型，不断优化强化学习网络模型，提高强化学习网络模型的匹配精准度，且可以灵活适应环境，对于投资者而言，可以有效的在市场中随时把握动态的风险，获得收益最大化。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一提供的投资产品组合推荐方法的流程示意图；

图2是本发明实施例一提供的投资产品组合推荐方法中投资产品组合推荐原理图；

图3是本发明实施例二提供的投资产品组合推荐系统的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

实施例一

本发明实施例提供了一种投资产品组合推荐方法，参见图1，该方法包括：

s1、采集用户信息和投资产品信息；

s2、建立并训练强化学习网络模型；

s3、根据所述用户信息并基于训练后的强化学习网络模型，获得用户风险偏好；

s4、根据所述用户风险偏好和所述投资产品信息，获得向用户推荐的投资产品组合；

s5、记录用户采纳所述投资产品组合后的实际收益与风险信息，并根据所述实际收益与风险信息优化所述强化学习网络模型。

需要说明的是，在步骤s1中，所采集的用户信息包括用户个人信息和个人偏好信息，即包括投资者的职业、收入、喜好、存款、所在地、社交圈、是否有车、是否有贷款、是否有医疗保障、是否有保险、社保信息、个人征信等信息。投资产品信息包括投资产品属性信息和经济环境信息，其中，投资产品属性信息包括投资产品的周期、最大风险、预期收益、变现速度、稳定性等，经济环境信息包括股价点数、货币汇率、原油价格等。

进一步地，在所述建立并训练强化学习网络模型之前，还包括：

对所采集的数据进行归一化处理，以将所采集的数据转换为结构化数据存入数据库中。

需要说明的是，在采集到足够的数据之后，需要对数据进行一定的预处理，即归一化处理，包括：将数据统一到相同维度，如职业为律师可通过word2vec模型表示为(0，0.6，0.5)、学生可表示为(0.7，0.1，0.3)等；将所有信息统一到相同周期，如将收入统一表示为以年和人民币为单位；将数据结构化，如用户个人信息表示为{性别，职业，收入等}，投资产品信息表示为{平均年收益、最大年收益、最大年亏损范围、是否随时变现、评定风险系数等}。

进一步地，在步骤s2中，所述建立并训练强化学习网络模型，具体包括：

获取历史用户信息、历史投资产品信息和投资产品的历史收益与风险信息；

建立所述强化学习网络模型，并将所述历史用户信息输入至所述强化学习网络模型，输出一个初始风险偏好；

根据所述初始风险偏好和所述历史投资产品信息，获得预推荐投资产品组合；

需要说明的是，在将预推荐投资产品组合的历史收益与风险信息返回至强化学习网络模型后，强化学习网络模型计算输出一个奖励值或惩罚值，再将该奖励值或惩罚值返回至强化学习网络模型，以对强化学习网络模型中的参数进行调整，进而将用户信息输入至调整后的强化学习网络模型中，继续对强化学习网络模型进行训练，直到强化学习网络模型的状态达到最佳。

强化学习网络模型包括执行者actor网络和评价者critic网络。actor网络是一个全连接神经网络模型，其输入端的结构与结构化用户信息的结构相同，用以输入用户信息，其输出端为风险系数不同的若干分类输出项，用以根据用户信息分析输出相应的用户风险偏好。

在建立强化学习网络模型后，初始化actor网络参数fθπ和critic网络参数qθπ，初始化actor目标网络参数θ^π’←θ^π，与critic目标网络参数θ^q’←θ^q，使用actor网络初始化策略模型g，初始化历史记录存储容器b。

进而，在次数为m的迭代中执行：

初始化所有可选择动作空间(即获得可以选择的用户风险偏好选项)；

接收来自环境的状态信息(即获得用户信息)。

在次数为t的迭代中执行：

根据获得信息和actor网络获得一个动作；

将目前所作出来的动作以及获得动作的相应信息存入存储容器b当中；

从存储容器b当中采样一部分样本；

通过最小化损失函数l(θ^q)更新critic网络参数，其更新公式如下：

其中，yi表示目标输出，ri表示奖励值，γ表示奖励折扣系数，表示actor网络在状态si+1下选择执行动作ai+1的策略函数，表示在状态si+1中采取动作ai+1能够得到的最大奖励值，θ^q′为critic目标网络参数，θ^q为critic网络参数。

利用采样梯度更新actor网络参数，其更新公式如下：

其中，θ^π表示actor网络参数，表示actor网络在状态s下对应于动作空间的映射函数，表示括号内式子对权重θ^π的求导数。

另外，critic目标网络参数、actor目标网络参数的更新公式如下：

θ^q′←τθ^q+(1-τ)θ^q′；

θ^π′←τθ^π+(1-τ)θ^π′；

其中，τ表示相关系数，θ^q、θ^π分别表示critic、actor网络参数，θ^q′、θ^π′分别表示critic、actor目标网络参数。

在更新强化学习网络结构参数后，将用户的新状态输入至强化学习网络模型，以循环执行上述步骤，持续迭代对强化学习网络结构参数进行更新，直到强化学习网络模型的状态达到最佳。

进一步地，在步骤s3中，所述根据所述用户信息并基于训练后的强化学习网络模型，获得用户风险偏好，具体包括：

将所述用户信息输入至所述训练后的强化学习网络模型，由所述actor网络输出所述用户风险偏好。

进一步地，在步骤s4中，所述根据所述用户风险偏好和所述投资产品信息，获得向用户推荐的投资产品组合，具体包括：

根据所述投资产品信息对不同投资产品进行搭配，生成具有不同风险系数的投资产品组合列表；

需要说明的是，将采集到的投资产品信息分别用相同周期的收益率与最大风险表示，组成产品列表，并根据资金管理原则分别搭配成若干风险系数的组合，最终生成一系列带有不同风险系数的投资产品组合列表，用以与用户风险偏好进行匹配。

用户风险偏好是以风险系数的形式给出，根据用户需求(例如存取灵活、存储周期等)将用户风险偏好转换为一个向量表示形式，以与投资产品组合列表中的投资产品组合进行余弦相似度匹配。

余弦相似度匹配方法如下：

其中，cosθ为余弦相似度，a为用户风险偏好的向量，b为投资产品组合的向量。

匹配后，获取余弦相似度最高的k(k≥1)个投资产品组合，并从k个投资产品组合中获取收益最高的投资产品组合作为向用户推荐的投资产品组合。

进一步地，在步骤s5中，所述根据所述实际收益与风险信息优化所述强化学习网络模型，具体包括：

将所述实际收益与风险信息输入至所述强化学习网络模型，由所述critic网络计算输出向用户推荐的投资产品组合的奖励值或处罚值；

将所述奖励值或处罚值输入至所述actor网络，更新所述actor网络中的参数，以优化所述强化学习网络模型。

进一步地，所述由所述critic网络计算输出向用户推荐的投资产品组合的奖励值或处罚值，具体包括：

由所述critic网络检测所述实际收益与风险信息是否与用户的满意度相匹配；

若匹配，则计算输出推荐的投资产品组合的奖励值；

若不匹配，则计算输出推荐的投资产品组合的处罚值。

需要说明的是，在将投资产品组合推荐给用户后，将该投资产品组合添加到历史行为记录当中，并跟踪观察该投资产品组合的实际盈利与风险状况。定期将投资产品组合的实际盈利与风险信息输入至强化学习网络模型进行计算，若推荐的投资产品组合的实际盈利与风险与用户实际承受能力相匹配，即与用户的满意度相匹配，输出一个奖励值；若推荐的投资产品组合的实际盈利与风险与用户实际承受能力有一定的偏差，即与用户的满意度不匹配，输出一个惩罚值。将奖励值或惩罚者反馈给actor网络，更新actor网络中的参数。每次优化都通过贝尔曼方程(bellmanequation)形式以递归形式反馈，不断更新网络，直到推荐的投资产品组合每次都达到最高效率。

参见图2，是本发明实施例所提供的投资产品组合推荐方法的原理图。先进行数据采集和预处理，获取用户信息，将用户信息输入至actor网络，输出用户风险偏好。进而，根据用户信息计算用户风险偏好与投资产品组合的数据余弦相似度，将相似度最高且收益最大的投资产品组合作为向用户推荐的投资产品组合。将推荐的投资产品组合的实际收益与风险信息输入至critic网络，由critic网络计算出一个奖励值或处罚值反馈给actor网络，以更新actor网络参数，达到不断优化强化学习网络模型的目的。

本发明实施例能够建立强化学习网络模型，通过采集的用户信息获取用户风险偏好，并对用户风险偏好进行需求匹配，以匹配出适合用户的最佳投资产品组合推荐给用户，在用户采纳该投资产品组合后，将该投资产品组合的实际收益与风险信息反馈给强化学习网络模型，不断优化强化学习网络模型，提高强化学习网络模型的匹配精准度，且可以灵活适应环境，对于投资者而言，可以有效的在市场中随时把握动态的风险，获得收益最大化。

实施例二

本发明实施例提供了一种投资产品组合推荐系统，能够实现上述投资产品组合推荐方法的所有流程，参见图3，所述投资产品组合推荐系统包括：

信息采集模块1，用于采集用户信息和投资产品信息；

模型训练模块2，用于建立并训练强化学习网络模型；

风险偏好获取模块3，用于根据所述用户信息并基于训练后的强化学习网络模型，获得用户风险偏好；

推荐模块4，用于根据所述用户风险偏好和所述投资产品信息，获得向用户推荐的投资产品组合；以及，

模型优化模块5，用于记录用户采纳所述投资产品组合后的实际收益与风险信息，并根据所述实际收益与风险信息优化所述强化学习网络模型。