一种基于知识图谱的科学研究热点分析与预测方法与流程

文档序号:17762950发布日期:2019-05-24 21:52阅读:485来源:国知局
一种基于知识图谱的科学研究热点分析与预测方法与流程

本发明属于计算机技术领域,具体属于数据分析技术领域,涉及一种基于知识图谱的科学研究热点分析与预测方法。



背景技术:

快速、准确地掌握学科研究领域的发展动态,了解科学研究现状、最新势态以及未来趋势从而找到科技创新的突破口,是所有研究人员的迫切需求。

近些年,科学知识图谱作为一种追踪现实科学知识发展动态、探测知识结构、识别热点领域的新手段正在蓬勃兴起,并成为科学计量学最具前景的研究方向。科学知识图谱技术能刻画知识元或知识群之间的网络、结构、互动、交叉、演化或衍生等诸多复杂关系,相对于传统的知识体系具备了知识推理的逻辑结构能力,使分析结果更加客观准确。

自陈悦、刘则渊在《科学学研究》杂志上发表《悄然兴起的科学知识图谱》之后,迅速掀起国内知识图谱研究热潮。众多学者利用知识图谱技术从不同角度展开了“科学研究前沿分析”的研究,但是现有的研究大多以关键词的角度分析研究主题的演化趋势,可研究主题的演化受多种因素影响,如研究主题关注程度,研究人员相互影响,学科之间相互渗透等。

近代和现代科学发展的历史表明,科学上的重大突破、新的生长点乃至新研究主题的产生,常常在不同的学科彼此交叉和相互渗透的过程中实现,所以学科之间相互渗透是影响研究主题未来发展趋势的重要因素。结合强调主题间交叉关系的研究主题结构研究和强调主题变化情况的研究主题趋势研究,可以更好地揭示某一领域研究主题在过去的发展状况并预测未来的发展趋势。



技术实现要素:

本发明的目的就是提供一种基于知识图谱的科学研究热点分析与预测方法。

本发明方法通过关键词的共词关系确定研究主题,并根据高频的核心词,中、高频的突变词和新生词分布情况划分热点研究主题、突变研究主题、新兴研究主题和一般研究主题,最后从主题间的内在交叉关系和主题的变化情况两个角度出发,解读知识图谱的研究主题结构和趋势以预测其中三大研究主题的未来发展。

本发明方法具体包括如下步骤:

步骤1.关键词提取与对齐,方法如下:

(1-1)关键词提取:

根据已提供的关键词创建关键词表,对英文的题目、摘要进行分词和去停用词,以双向最大匹配算法匹配关键词表从而抽取关键词词串;双向最大匹配法算法使用正向最大匹配法和逆向最大匹配法进行切分,以大粒度词优先、非词表词最少为原则的分词结果选取关键词;

(1-2)关键词对齐:

a.以经过分词、去停用词处理的摘要作为word2vec的训练数据,生成词向量,计算每个关键词词组中每个词的词向量x加权平均和作为关键词向量,得到任意两个关键词实体ei、ej的词相似性simkw:

simkw(ei,ej)=simkw(αi,1xi,1+…+αi,mxi,m,αj,1xj,1+…+αj,nxj,n);

两个关键词词组ei、ej分别由m、n个单词构成,α为每个词在关键词词组中的权重占比;

b.构建关键词共词网络,计算相似关键词集w中任意两个关键词实体ei、ej的邻居相似性simnb,根据simnb对相似关键词集进行初步划分,选取simnb大于设定值的关键词集作为备选词集,进一步通过关键词的内部单词结构和在共现网络中共现邻居结构相似度高的两个关键词为对齐关系,使关键词准确对齐:其中,ei′、ej′为关键词实体ei、ej对应的所有邻居关键词,n为参与计算的邻居关键词对个数,设定值为0.5~1。

步骤2.分析关键词共现网络,确定研究主题:

(2-1)词频计算:

结合词频g指数和实际数据的词频分布情况作为选取中高频词的依据,以1~5年的等长时间距离划分时间窗,统计每个时间窗中出现的中高频词词频次数并计算词频变化情况,并按核心词,新兴词,突变词本身的特点进行识别;

所述的核心词为共词网络中居于核心位置的高频词;

所述的突变词为在不同的时间窗下,词频发生显著变化的中、高频词;

所述的新兴词为具有新兴趋势,快速出现并进入中高频区域呈稳定状态的中、高频词;

(2-2)确定研究主题:

中高频关键词在同一个项目中的频率作为关键词之间的联系密切程度,利用ochiia系数计算关键词相关矩阵;以欧式距离衡量点间距离,聚类关键词形成词簇,确定研究主题;a关键词与b关键词的ochiia系数:(2-3)可视化主题结构:

计算衡量主题t与其他主题间关键词相互作用情况的向心度st和主题t内关键词紧密程度的密度dt,并通过战略坐标图可视化所有研究主题的主题结构,战略坐标图以向心度st为横坐标,以密度dt为纵坐标:

其中,o为ochiia系数,k和l为主题t的内部关键词,w为不属于主题t的关键词,q为总词数,q为主题t内的关键词数量;

通过度量在不同时间窗下主题所处象限情况和主题内核心词、新兴词、突变词分布情况,确定热点研究主题、突变研究主题和新兴研究主题:在战略坐标图中,位于第一象限的主题为核心研究主题,其主题内部联系紧密,内部结构稳定;第二象限的主题为成熟研究主题,内部结构稳定,但与其他主题联系松散;第三象限的主题内部结构松散,研究不够成熟;第四象限的主题为活跃主题,但与其他主题联系比较紧密,是潜在的发展主题;通过向心度和密度了解所有研究主题的结构概况。

步骤3.构建完整科学知识图谱:

对项目所属学科、项目申请时间等其他结构化数据进行数据融合,保证每个关键词对应到其所属学科,构建完整的科学知识图谱,涉及的知识加工手段包括知识推理、质量评估。

步骤4.解读知识图谱,探测主题演进趋势:

(4-1)挖掘主题间交叉关系和内部结构变化:

所有主题下的关键词频率将通过该主题涉及的总关键词频率进行归一化,利用kl散度计算主题之间的信息增益;kl值为0时,两大研究主题的关键词分布则完全相同;

通过观察每个时间窗下三大研究主题类型中所有主题的kl值,得到任意两个主题在不同时间窗下的主题交叉情况和所有主题在演进过程中的内部结构变化幅度,挖掘出三大类型的研究主题演进存在的规律和内部共性以预测未来的主题交叉情况;

(4-2)分析包含主题间因果关系的主题变化情况:

对存在显著granger因果关系的主题对,对所有主题对应用霍克斯过程模型,通过建立某一主题历史行为与另一主题当前行为的关系计算主题之间的影响强度,构建主题影响网络;表示因果关系的影响显著性的p值小于0.05的,表示主题对存在显著granger因果关系;

不同时间窗的主题影响网络通过对比和追踪核心词、突变词、新生词的变化,识别核心主题、突变主题以及新兴主题的变化情况和趋势,通过社会网络分析法可视化三大类型演进的内部影响结构,对研究主题变化情况的分析和对未来趋势进行推断。

本发明通过精细的划分热点研究主题、突变研究主题、新兴研究主题和一般研究主题,并从主题间的内在交叉关系和主题的变化情况两个角度出发解读知识图谱,挖掘其中三大类型研究主题结构和呈现的趋势以预测三大研究主题的未来发展,此为技术方案的关键点。

本发明方法相对于传统的知识体系,科学知识图谱的应用使知识体系具备了知识推理的逻辑结构能力,使知识体系更加完整,分析结果更加客观准确。

本发明方法对热点研究主题、突变研究主题、新兴研究主题和一般研究主题的划分,对主题趋势的挖掘更有针对性。

本发明方法从主题间的内在交叉关系和主题的变化情况两个角度出发解读知识图谱,可挖掘主题结构,主题趋势和主题之间的影响关系,更加有深度地对主题发展展开研究。

附图说明

图1是本发明方法的流程图。

具体实施方式

下面结合附图进一步说明本发明的技术方案:

如图1所示,一种基于知识图谱的科学研究热点分析与预测方法,具体步骤是:

步骤1.关键词提取与对齐:

自然科学基金项目数据提供了部分项目的关键词,对于不包含关键词的项目则需从题目和摘要中提取关键词,通过计算关键词向量相似性和与之关联的邻居关键词实体相似性,实现关键词对齐。

(1)关键词提取:

根据已提供的关键词创建关键词表,对英文的题目、摘要进行分词和去停用词,以双向最大匹配算法匹配关键词表从而抽取关键词词串;双向最大匹配法算法使用正向最大匹配法和逆向最大匹配法进行切分,以大粒度词优先、非词表词最少为原则的分词结果选取关键词。

(2)关键词对齐:

a.以经过分词、去停用词处理的摘要作为word2vec的训练数据,从而生成词向量,计算每个关键词词组中每个词的词向量x加权平均和作为关键词向量,得到任意两个关键词实体ei、ej的词相似性simkw,其中word2vec为用于词向量计算的google开源工具:

simkw(ei,ej)=simkw(αi,1xi,1+…+αi,mxi,m,αj,1xj,1+…+αj,nxj,n);

两个关键词词组ei、ej分别由m、n个单词构成,α为每个词在关键词词组中的权重占比。

b.构建关键词共词网络,共同出现在同一项目中的关键词则存在相邻关系,计算相似关键词集w中任意两个关键词实体ei、ej的邻居相似性simnb,为减少计算工作量,根据simnb对相似关键词集进行初步划分,选取simnb大于设定值的关键词集作为备选词集,进一步通过关键词的内部单词结构和在共现网络中共现邻居结构相似度高的两个关键词为对齐关系,使关键词准确对齐:

其中,ei′、ej′为关键词实体ei、ej对应的所有邻居关键词,n为参与计算的邻居关键词对个数,设定值为0.5~1。

步骤2.分析关键词共现网络,确定研究主题:

计算关键词词频和词频变化,识别核心词、突变词、新兴词,关键词共同出现在同一个项目中的频率作为关键词之间的联系密切程度,将属于同一个主题的关键词聚集在同一个类中,使得类团内属性相似性最大,类团间属性相似性最小,从而确定研究主题。通过度量在不同时间窗下主题所处象限情况和主题内核心词、突变词、新兴词的分布情况划分热点研究主题、突变研究主题和新兴研究主题。战略坐标作为研究主题结构的可视化工具,即可以帮助不同类型研究主题更加清晰划分,并且通过向心度和密度可了解所有研究主题的内部结构概况。

(1)词频计算:

结合词频g指数和实际数据的词频分布情况作为选取中高频词的依据,以1~5年的等长时间距离划分时间窗,统计每个时间窗中出现的中高频词词频次数并计算词频变化情况,并按核心词,新兴词,突变词本身的特点进行识别;

所述的核心词为共词网络中居于核心位置的高频词;

所述的突变词为在不同的时间窗下,词频发生显著变化的中、高频词;

所述的新兴词为具有新兴趋势,快速出现并进入中高频区域呈稳定状态的中、高频词。

(2)确定研究主题:

中高频关键词在同一个项目中的频率作为关键词之间的联系密切程度,利用ochiia系数计算关键词相关矩阵;以欧式距离衡量点间距离,聚类关键词形成词簇,确定研究主题;

a关键词与b关键词的ochiia系数:

(3)可视化主题结构:

计算衡量主题t与其他主题间关键词相互作用情况的向心度st和主题t内关键词紧密程度的密度dt,并通过战略坐标图可视化所有研究主题的主题结构,战略坐标图以向心度st为横坐标,以密度dt为纵坐标:

其中,o为ochiia系数,k和l为主题t的内部关键词,w为不属于主题t的关键词,q为总词数,q为主题t内的关键词数量。

通过度量在不同时间窗下主题所处象限情况和主题内核心词、新兴词、突变词分布情况,确定热点研究主题、突变研究主题和新兴研究主题:在战略坐标图中,位于第一象限的主题为核心研究主题,其主题内部联系紧密,内部结构稳定;第二象限的主题为成熟研究主题,内部结构稳定,但与其他主题联系松散;第三象限的主题内部结构松散,研究不够成熟;第四象限的主题为活跃主题,但与其他主题联系比较紧密,是潜在的发展主题;

热点研究主题由高频核心词聚集而成,是具有一定规模且内部结构稳定的词群;突变主题的词群包含大量突变词,在不同时间窗下变化非常显著;新兴研究主题以新兴词为主,词群内初始分布较为松散,但可能成长为核心主题;

结合主题内不同类型关键词的分布情况,对战略坐标可视化图分析可以清晰的划分不同类型研究主题,并且通过向心度和密度可以了解所有研究主题的结构概况。

步骤3.构建完整科学知识图谱:

对项目所属学科、项目申请时间等其他结构化数据进行数据融合,保证每个关键词对应到其所属学科,构建完整的科学知识图谱,涉及的知识加工手段包括知识推理、质量评估;

步骤4.解读知识图谱,探测主题演进趋势:

从“主题间交叉关系和内部结构变化挖掘”和“包含主题间因果关系的主题变化情况分析”两个方面解读知识图谱。通过kl散度计算主题交叉情况和主题内部结构变化幅度,挖掘三大类型主题演进存在的规律和内部共性以预测未来的主题交叉情况。针对不同时间窗下由主题间影响强度构建的主题影响网络,对比和追踪核心词、突变词、新生词的变化,识别核心主题、突变主题以及新兴主题的变化情况和趋势,并以社会网络分析法可视化三大类型演进的内部影响结构,用以对研究主题变化情况的分析和对未来趋势的推断。

(1)挖掘主题间交叉关系和内部结构变化:

所有主题下的关键词频率将通过该主题涉及的总关键词频率进行归一化,利用kl散度计算主题之间的信息增益;kl值为0时,两大研究主题的关键词分布则完全相同;通过观察每个时间窗下三大研究主题类型中所有主题的kl值,得到任意两个主题在不同时间窗下的主题交叉情况和所有主题在演进过程中的内部结构变化幅度,挖掘出三大类型的研究主题演进存在的规律和内部共性以预测未来的主题交叉情况;

(2)分析包含主题间因果关系的主题变化情况:

为进一步观察主题间交叉关系带来的影响,对存在显著granger因果关系的主题对,对所有主题对应用hp(hawkesprocess,霍克斯过程)模型,通过建立某一主题历史行为与另一主题当前行为的关系计算主题之间的影响强度,从而构建主题影响网络;表示因果关系的影响显著性的p值小于0.05的,表示主题对存在显著granger因果关系。

不同时间窗的主题影响网络通过对比和追踪核心词、突变词、新生词的变化,识别核心主题、突变主题以及新兴主题的变化情况和趋势,并通过社会网络分析法可视化三大类型演进的内部影响结构,用以对研究主题变化情况的分析和对未来趋势的推断。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1