一种基于语义分析的数据处理系统及方法与流程

文档序号:11155000阅读:1432来源:国知局
一种基于语义分析的数据处理系统及方法与制造工艺

本发明属于人工智能领域,尤其是涉及一种信息分析与处理技术领域。



背景技术:

通过计算机对数据进行运算和关联是一种常见需求。

搜索引擎是一种简单化的方式,其优点在于精度高和简便性。但是搜索引擎有很强的局限性:只能搜索关键词相关内容;无法识别关键词的语义并进一步处理;无法对数据进行多对多处理。

语义分析是一种有效的处理方式,通过对不同的数据进行分析,可使计算机理解数据的语义,而不被语言的表达形式所限制。但是现有的语义分析算法复杂,精度低,软硬件和时间开支庞大。

语义分析精度严重依赖大量的统计,当数据过少时,语义分析很难建立足够的精度。

常见数据一般都包含一定的非语义结构,语义分析并不能理解和利用这些结构。



技术实现要素:

针对上述存在的问题,本发明提供一种数据处理系统,可以克服现有搜索引擎使用有局限而语义分析复杂低效的问题,有效利用数据本身的非语义结构,并优化小数据的语义分析效果。

本发明提供一种数据处理系统,包括:

数据筛选模块:对不同数据进行分割,可使用语义分析或其他方法对数据进行结构分割以建立次级结构。特别的,数据的次级结构可以重叠,并且可以是数据自身。

数据分析模块:对所述分割后数据的某次级结构进行语义分析,并用结果建立索引。对同一笔数据的多个不同结构可以进行相应的多次分析并建立多个索引。

运算模块:对所述的索引进行逐项运算,依运算结果对索引进行记录。

联合模块:依索引运算记录,将索引对应的数据进行关联。

本发明提供了一种数据处理方法,包括以下步骤:

对目标数据进行分割;对分割后数据的某部分或全部进行语义分析并对结果建立索引;对索引进行运算并记录运算结果;依索引运算记录,将索引对应的数据进行关联。

附图说明

图1,本发明数据处理系统结构图。

图2,本发明数据处理系统工作流程图。

图3,本发明数据处理方法步骤图。

具体实施方式

以下所述仅是本发明的优选实施方案,应当指出,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施方案一,应用于智能客服,即能够自动回答客户提问的系统。本发明应用于智能客服时,比单纯使用语义分析要更加精确和简便。为了便于理解本发明的特点,先说明单纯使用语义分析的方法。

单纯使用语义分析时,语义分析引擎先对知识库进行拆字断句、提取关键词、建立语义表和逻辑表,此过程依赖于对知识库和其他大量数据的统计,不仅极其复杂和漫长,而且对知识库本身要求严苛;且最终的语义表和逻辑表极其庞大。

当客户进行提问时,对提问进行拆字断句、提取关键词、建立语义表,此过程的结果依旧依赖于对知识库和其他大量数据的统计;然后依据所述知识库的逻辑表和语义表进行关联,由于知识库语义表和逻辑表的庞大,需要进行大量的计算。

当知识库中存在答案时,还需要依据语义表使用语言生成器系统生成自然语言。

应当注意的是,由于历史积累和用户习惯的,厂商都有产品说明书和人工客服的客服问答记录,尽管可以将产品说明书和客服问答记录作为知识库的一部分单纯使用语义分析处理,但是这样使用使得产品说明书和客服问答记录天然的内在结构得不到利用。

对于使用本发明的系统,仅需要如下流程:

对客服问答记录的用户提问进行语义分析并建立语义表;

当客户进行提问时,对提问进行语义分析并建立语义表;

用客户问题的语义表对问答记录中问题的语义表进行检索或其他简单运算,判断是否相似。

客服问答记录语义表中有和客户问题语义表匹配项,则所述客服问答记录语义表对应项的问题与客户提问相同,直接将客服问答记录中问题对应的答案给予客户即可。

使用本方法后,不用全知识库的语义表,不仅提高了效率还减少了知识污染;不用建立逻辑表,即减少了知识库的维护又提高了回答相应速度。

特别的,由于客服问答记录既有的大量重复问答严重影响了系统效率,本系统还可以合并相似问答以优化系统。具体方法如下:

对客服问答记录中的提问逐项进行语义分析并建立语义表,再进行简单运算,判断是否相似。

记录语义表中相似的条目,对其相应问答记录的提问和答案进行语义分析并建立语义表,并进行简单运算,判断是否相似。若相似,则建立相似记录,给予客户回答时依所述记录将相似问题折叠显示。

实施方案二,应用于舆情分析,及时分析媒体中产品相关信息。传统方法有三种,人工分析,建模分析,单纯语义分析。

人工分析即对数据进行人工记录并统计,对记录的理解程度和灵活性最高,但效率低下、及时性差且资源消耗高。

建模分析依靠人工建立算法,对数据进行计算,效率最高,对记录的理解程度差,灵活性差,及时性差,资源消耗高。

语义分析不需要依赖人工,但由于媒体内容的碎片化、多样化、复杂化和流行性,导致语义分析的时效性差,精度和可靠性也差,设备资源消耗更高。所述碎片化是指语言表达过短且不完整,所述多样化是表达方式差异较大,所述复杂化是指即使同一表达其语义含义也可能截然不同,流行性是指大量相似的表达方式会爆发性的突然出现和消失。

使用本系统进行舆情分析,包含如下流程:

对数据进行筛选,可使用多样化的筛选方式,如先进行检索关键词,并包含关键词上下文一定范围。

对筛选后的数据进行语义分析,并对结果进行简单运算,合并相似内容形成数据群,并记录群中数据的数量。

把不同数据群划分到不同的维度。所述维度是人工建立的集合,约定以一定的方法使系统自动合并相似数据群。特别的,当某数据群包含数据过大或增长过快时,系统可对该数据群建立临时维度,其后再由人工处理。因此当突然爆发媒体流行时,也不会错失舆情。

本实施方案一和实施方案二中所述的简单运算是指不需要进行语义分析或不依赖对于对知识库进行语义分析生成的逻辑表的运算,包括但不限于逻辑运算符,人工给定的算法,人工给定的有限逻辑表。

本领域普通技术人员可以理解:实现上述系统实施的全部或部分可以通过程序指令相关的硬件来实现,前述的方法亦可以通过程序指令相关的硬件来完成。

最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;

尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其

依然可以对前述各实施方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使修改后相应方案的本质脱离本发明各实施方案的范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1