基于人工智能的数据库处理方法及装置与流程

文档编号:30623480
研发日期:2022/7/2


1.本公开涉及电子信息技术领域,尤其涉及基于人工智能的数据库处理方法及装置。


背景技术:

2.随着信息快速增长,用户对于信息的检索需求也随之爆发式增长,为了更好的检索数据,现有技术会通过对数据进行标签处理,提高检索的效率,具体的,对文本进行标注是通过自然语言处理(natural language processing,nlp)进行标注处理,但是由于标注复杂度高,单个标注任务标签数量大,标注人员无法很好的记忆多个标签的含义,降低标注效率,影响标注速度。对于大规模的算法建模非常重要,在nlp的文本分类、序列标注和命名实体识别任务中,都会遇到类似标注任务复杂度高,标注任务标签数量多的情况。
3.目前,现有标注系统和方法,无论是单机版,还是平台型的支持多人实时标注的系统,都是一次性倒入标注数据,交给标注人员标注。然而,由于标注任务复杂度高,标注标签数量多,所以标注人员需要记忆很多个标签,并且标签之间可能会存在类似的情况,所以需要标注人员对标签有很高的熟练度。这导致标注人员需要很长的记忆时间来适应复杂的标注任务,影响标注效率,浪费宝贵的人力资源。


技术实现要素:

4.本公开实施例提供一种基于人工智能的数据库处理方法及装置,能够解决在数据库中标记数据时,效率低的问题。所述技术方案如下:
5.根据本公开实施例的第一方面,提供一种基于人工智能的数据库处理方法,该方法包括:
6.获取目标检索事件,并确定该目标检索事件中的目标检索元素,该目标检索事件用于指示根据目标检索元素检索目标数据;
7.根据该目标检索元素,在目标数据库中查找到与该目标检索元素相匹配的目标数据,该目标数据库包括已标记处理的原始数据,及该原始数据对应的目标标签;
8.根据该目标检索元素标记该目标数据,并在该目标数据库中更新该目标数据的目标标签。
9.在一个实施例中,该方法中的确定该目标检索事件中的目标检索元素,包括:
10.根据语义处理算法,提取该目标检索事件中的目标检索信息,该目标检索信息至少包括事件名称、事件类型、地址信息中的至少一项;
11.根据目标检索信息,确定该目标信息中的目标检索元素。
12.在一个实施例中,该方法还包括:
13.获取原始数据,并对该原始数据进行清洗处理,该清洗处理至少包括删除该原始数据中的无效数据;
14.获取与该原始数据相匹配的特征信息,该特征信息至少包括预设文章类型、预设
情感分类中的一项;
15.根据该特征信息标记该已清洗处理的原始数据后,生成该目标数据库。
16.在一个实施例中,该方法中的在目标数据库中查找到与该目标检索元素相匹配的目标数据,包括:
17.根据该目标检索元素,在数据库中查找到与该目标检索元素相匹配的目标标签;
18.当查找到与该目标检索元素相匹配的该目标标签时,确定该目标标签相对应的数据为目标数据;
19.当未查找到与该目标检索元素相匹配的该目标标签时,根据语义处理算法,在该目标数据库中数据中查找到与该目标检索元素相匹配的目标数据。
20.在一个实施例中,该方法还包括:
21.根据预设匹配规则,对该目标数据库中的目标数据及该目标数据对应的目标标签进行核查处理,以确定该目标数据是否与该目标数据对应的目标标签相匹配;
22.当该目标标签与该目标数据不相匹配时,对该目标标签进行更正处理。
23.根据本公开实施例的第二方面,提供一种基于人工智能的数据库处理装置,包括:获取模块、检索模块和标记模块,
24.该获取模块,用于获取目标检索事件,并确定该目标检索事件中的目标检索元素,该目标检索事件用于指示根据目标检索元素检索目标数据;
25.该检索模块,用于根据该目标检索元素,在目标数据库中查找到与该目标检索元素相匹配的目标数据,该目标数据库包括已标记处理的原始数据,及该原始数据对应的目标标签;
26.该标记模块,用于根据该目标检索元素标记该目标数据,并在该目标数据库中更新该目标数据的目标标签。
27.在一个实施例中,该装置中的获取模块还用于
28.根据语义处理算法,提取该目标检索事件中的目标检索信息,该目标检索信息至少包括事件名称、事件类型、地址信息中的至少一项;
29.根据目标检索信息,确定该目标信息中的目标检索元素。
30.在一个实施例中,该装置中的检索模块,还用于
31.根据该目标检索元素,在数据库中查找到与该目标检索元素相匹配的目标标签;
32.当查找到与该目标检索元素相匹配的该目标标签时,确定该目标标签相对应的数据为目标数据;
33.当未查找到与该目标检索元素相匹配的该目标标签时,根据语义处理算法,在该数据库中数据中查找到与该目标检索元素相匹配的目标数据。
34.在一个实施例中,该装置中的该标记模块还用于,
35.获取原始数据,并对该原始数据进行清洗处理,该清洗处理至少包括删除该原始数据中的无效数据;
36.获取与该原始数据相匹配的特征信息,该特征信息至少包括预设文章类型、预设情感分类中的一项;
37.根据该特征信息标记该已清洗处理的原始数据后,生成该目标数据库。
38.在一个实施例中,该装置还包括核查模块,该核查模块用于:
39.根据预设匹配规则,对该目标数据库中的目标数据及该目标数据对应的目标标签进行核查处理,以确定该目标数据是否与该目标数据对应的目标标签相匹配;
40.当该目标标签与该目标数据不相匹配时,对该目标标签进行更正处理。
41.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
42.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
43.图1是本公开实施例提供的一种基于人工智能的数据库处理方法的流程图;
44.图2是本公开实施例提供的一种基于人工智能的数据库处理方法的标记处理示意图;
45.图3是本公开实施例提供的一种基于人工智能的数据库处理方法的逻辑示意图;
46.图4是本公开实施例提供的一种基于人工智能的数据库处理装置的结构图。
具体实施方式
47.这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
48.实施例一
49.本公开实施例提供一种基于人工智能的数据库处理方法,如图1所示,该基于人工智能的数据库处理方法包括以下步骤:
50.101、获取目标检索事件,并提取该目标检索事件中的目标检索元素。
51.该目标检索事件用于指示根据目标检索元素检索目标数据。例如,获取用户输入的文字数据,通过语义分析获取该文字数据中的目标检索元素,具体的,本公开中的确定该目标检索事件中的目标检索元素可以包括:,
52.根据语义处理算法,提取该目标检索事件中的目标检索信息,该目标检索信息至少包括事件名称、事件类型、地址信息中的至少一项;
53.根据目标检索信息,确定该目标信息中的目标检索元素。
54.102、根据该目标检索元素,在目标数据库中查找到与该目标检索元素相匹配的目标数据。
55.该目标数据库包括已标记处理的原始数据,及该原始数据对应的目标标签。
56.本公开所提供方法还包括根据采集数据的特征信息创建目标数据库,具体包括:
57.获取原始数据,并对该原始数据进行清洗处理,该清洗处理至少包括删除该原始数据中的无效数据;
58.获取与该原始数据相匹配的特征信息,该特征信息至少包括预设文章类型、预设情感分类中的一项;
59.根据该特征信息标记该已清洗处理的原始数据后,生成该目标数据库。
60.具体的,如图2所示,本技术中所提供的目标数据对应的标签信息可以包括:数据属性信息和目标检索元素信息,具体的数据属性信息可以包括:地区、内容短文本、情感分析、正面得分、负面得分、文章类型、文章标签、文章关键词。
61.本公开所提供的方法中在目标数据库中查找到与该目标检索元素相匹配的目标数据,包括:
62.根据该目标检索元素,在数据库中查找到与该目标检索元素相匹配的目标标签;
63.当查找到与该目标检索元素相匹配的该目标标签时,确定该目标标签相对应的数据为目标数据;
64.当未查找到与该目标检索元素相匹配的该目标标签时,根据语义处理算法,在该数据库中数据中查找到与该目标检索元素相匹配的目标数据。
65.103、根据该目标检索元素标记该目标数据,并在该目标数据库中更新该目标数据的目标标签。
66.本公开所提供的方法在根据目标数据标注目标检索元素后,生成该目标数据的新的目标标签,该目标标签包括数据的特征信息,以及检索信息中的目标检索元素(事件信息、事件标签等)相结合,通过搜索引擎进行全文检索,该检索结果可做为检索样本,从而进一步的缩小人工核查的成本,同时,可在此检索样本上批量的进行人工核查,确保样本无误后以事件名称作为文章标签交由机器进行训练、学习。
67.此处列举具体示例进行阐述:
68.当用户需要对数据库中的失信企业进行检索时,可以先根据失信企业的目标检索信息对目标数据库进行二次标记处理,便于用户快速检索到失信企业,具体的处理过程可以包括:首先检索目标检索信息,如与失信企业相关的法条:《严重违法失信企业名单管理暂行办法》,根据该办法中规定,生成目标检索信息,并提取该目标检索信息中的特征信息作为检索元素。如,根据第五条中“被列入经营异常名录届满3年仍未履行相关义务的”提取检索元素“列入经营异常名录”和“届满三年”,作为目标检索元素,根据该目标检索元素在目标数据库中的企业信息中查找到目标企业作为目标数据,并对该企业信息根据目标检索元素进行标注,更新数据库。
69.本公开所提供的方法在对数据库中的数据进行标记处理时,采用自然语言处理技术,实时自动的对采集数据进行扩展标签的提取;用户通过自定义事件名称、关键词以及描述信息,即可快速根据自有标签以及扩展标签,同时结合语义分析定位其所对应的热点事件内容,也可将该热点事件内容作为第一样本数据进行样本集训练,若对匹配结果存在异议,可对匹配结果进行人工核查,核查完之后再交由机器进行样本训练。
70.采用学习结果可动态实时的对隶属这个事件的全量数据以及增量数据进行智能标注。如果要对某一事件存量数据再次进行标注,通过扩充样本数据集再次进行学习,进而提升事件智能标注的准确性。
71.本公开所提供的方法在对数据进行标记处理后,还包括验证处理,具体包括:
72.根据预设匹配规则,对该目标数据库中的目标数据及该目标数据对应的目标标签进行核查处理,以确定该目标数据是否与该目标数据对应的目标标签相匹配;
73.当该目标标签与该目标数据不相匹配时,对该目标标签进行更正处理。
74.如图3所述的数据库标记处理的逻辑过程,本公开所提供的方法在向目标数据库
注入数据时通过两种途径,一种是标记处理后,通过数据属性信息、检索元素等信息进行标注对数据进行标注处理后入库,从而提高数据识别的精准度,便于用户快速的根据事件名称进行热点事件内容的检索;另一种是基于已标注处理后数据,进行智能核查后,确定是否允许在数据库中录入数据,从而增加机器学习的样本数量。
75.其中,上述的标记处理可以至少经过两种方式进行标注处理的目标数据,具体的,第一种通过数据属性标签进行标注处理;第二种标记处理是通过获取用户的输入信息,确定是否进行智能标注,当确定需要智能标注时,则根据该输入信息的检索元素进行标记处理,从而便于用户快速的根据事件名称进行热点事件内容的检索。
76.本公开实施例提供的基于人工智能的数据库处理方法,当获取目标检索信息时,根据该目标检索事件中提取的目标检索元素,在目标数据库中查找到与目标检索元素相对应的目标数据,并根据该目标检索元素对该目标数据进行标记,并对该目标标签进行更新。本公开通过对数据库中数据根据检索信息再次进行标注处理能够大幅提升事件智能标注的准确性,降低人工成本。
77.实施例二
78.基于上述图1和图3对应的实施例中所描述的基于人工智能的数据库处理方法,下述为本公开装置实施例,可以用于执行本公开方法实施例。
79.本公开实施例提供一种基于人工智能的数据库处理装置,如图4所示,该基于人工智能的数据库处理装置40包括:
80.获取模块401、检索模块402和标记模块403,
81.该获取模块401,用于获取目标检索事件,并确定该目标检索事件中的目标检索元素,该目标检索事件用于指示根据目标检索元素检索目标数据;
82.该检索模块402,用于根据该目标检索元素,在目标数据库中查找到与该目标检索元素相匹配的目标数据,该目标数据库包括已标记处理的原始数据,及该原始数据对应的目标标签;
83.该标记模块403,用于根据该目标检索元素标记该目标数据,并在该目标数据库中更新该目标数据的目标标签。
84.在一个实施例中,该获取模块401还用于,
85.根据语义处理算法,提取该目标检索事件中的目标检索信息,该目标检索信息至少包括事件名称、事件类型、地址信息中的至少一项;
86.根据目标检索信息,确定该目标信息中的目标检索元素。
87.在一个实施例中,该检索模块402,还用于
88.根据该目标检索元素,在数据库中查找到与该目标检索元素相匹配的目标标签;
89.当查找到与该目标检索元素相匹配的该目标标签时,确定该目标标签相对应的数据为目标数据;
90.当未查找到与该目标检索元素相匹配的该目标标签时,根据语义处理算法,在该数据库中数据中查找到与该目标检索元素相匹配的目标数据。
91.在一个实施例中,该标记模块403还用于,
92.获取原始数据,并对该原始数据进行清洗处理,该清洗处理至少包括删除该原始数据中的无效数据;
93.获取与该原始数据相匹配的特征信息,该特征信息至少包括预设文章类型、预设情感分类中的一项;
94.根据该特征信息标记该已清洗处理的原始数据后,生成该目标数据库。
95.在一个实施例中,该装置40还包括核查模块404,该核查模块404用于:
96.根据预设匹配规则,对该目标数据库中的目标数据及该目标数据对应的目标标签进行核查处理,以确定该目标数据是否与该目标数据对应的目标标签相匹配;
97.当该目标标签与该目标数据不相匹配时,对该目标标签进行更正处理。
98.本公开实施例提供的基于人工智能的数据库处理装置,当获取目标检索信息时,根据该目标检索事件中提取的目标检索元素,在目标数据库中查找到与目标检索元素相对应的目标数据,并根据该目标检索元素对该目标数据进行标记,并对该目标标签进行更新。本公开通过对数据库中数据根据检索信息再次进行标注处理能够大幅提升事件智能标注的准确性,降低人工成本。
99.基于上述图1和图3对应的实施例中所描述的人工智能的数据库处理方法,本公开实施例还提供一种计算机可读存储介质,例如,非临时性计算机可读存储介质可以是只读存储器(英文:read only memory,rom)、随机存取存储器(英文:random access memory,ram)、cd-rom、磁带、软盘和光数据存储装置等。该存储介质上存储有计算机指令,用于执行上述图1和图3对应的实施例中所描述的数据处理方法,此处不再赘述。
100.本领域技术人员在考虑说明书及实践这里公开的公开后,将容易想到本公开的其它实施方案。本技术旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
当前第1页1 2 
猜你喜欢
网友询问留言