一种数据分类方法及系统与流程

文档序号:11133960阅读:312来源:国知局
一种数据分类方法及系统与制造工艺

本发明涉及互联网技术领域,特别涉及一种数据分类方法及系统。



背景技术:

随着互联网的发展,越来越多的数据累计起来。对于一个运营中的用户平台,会出现海量的数据需要处理和分析。这就需要数据的导入导出以及备份等工作。通常的数据导出是在数据库层面进行的。

数据库(Database)是按照数据结构来组织、存储和管理数据的仓库,它产生于距今六十多年前,随着信息技术和市场的发展,特别是二十世纪九十年代以后,数据管理不再仅仅是存储和管理数据,而转变成用户所需要的各种数据管理的方式。数据库有很多种类型,从最简单的存储有各种数据的表格到能够进行海量数据存储的大型数据库系统都在各个方面得到了广泛的应用。

数据库中的数据是为众多用户所共享其信息而建立的,已经摆脱了具体程序的限制和制约。不同的用户可以按各自的用法使用数据库中的数据;多个用户可以同时共享数据库中的数据资源,即不同的用户可以同时存取数据库中的同一个数据。数据共享性不仅满足了各用户对信息内容的要求,同时也满足了各用户之间信息通信的要求。

随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。《著云台》的分析师团队认为,大数据(Big data)通常用来形容一个公司创造的大量非结构化数据和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。

大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘电网、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。

大数据就是互联网发展到现今阶段的一种表象或特征而已,没有必要神话它或对它保持敬畏之心,在以云计算为代表的技术创新大幕的衬托下,这些原本很难收集和使用的数据开始容易被利用起来了,通过各行各业的不断创新,大数据会逐步为人类创造更多的价值。

数据分类就是将不同的项目数据根据一定的标准分为多个数据类别,这个分类的依据可以是多样的,可以根据需要将不同的数据区别开来,以便后续的数据统计等操作。

目前存在多种数据分类方案,可以根据数据类型、数据来源、数据大小等等,不同的应用场景应用不同的数据分类,不同的分类标准又会带来不同的分类方式和结果。各种数据分类各自有各自的应用环境的目的,分类方法也各不相同。

现有技术中,各种数据分类方案均可以解决数据分类的问题,但是,效果不一而足。同时,针对具体应用环境而产生的数据分类机制目前均有不完善之处。尤其是对于用户项目数据的分类问题,目前的方案多过于繁琐,操作复杂,不利于应用。尚没有一种可以有效解决数据分类问题,同时又能够提高效率,操作简便的方案。



技术实现要素:

本发明提供一种数据分类方法及系统,用以解决现有技术中数据分类方案过于复杂不易操作的问题。

本发明提供一种数据分类方法,包括:

在项目数据中增加关键字列;

将数据分类标志写入所述关键字列;

根据所述关键字列的内容分类所述项目数据。

所述方法还包括:

所述项目数据中增加多个关键字列,每个关键字列写入一种或多种分类标志。

所述方法还包括:

所述关键字列中没有分类标志时,将所述项目数据单独分为一类。

所述方法还包括:

所述关键字列中分类标志为第一次出现时,建立新的分类项目分类所述项目数据。

所述方法还包括:

根据所述分类后的项目数据进行分类统计。

所述方法还包括:

预设分类标志,根据所述分类标志设定统计分类。

一种数据分类系统,包括:

关键字列设定单元,用于在项目数据中增加关键字列;

分类标志写入单元,用于将数据分类标志写入所述关键字列;

项目数据分类单元,用于根据所述关键字列的内容分类所述项目数据。

所述项目数据分类单元还用于在所述关键字列中没有分类标志时,将所述项目数据单独分为一类。

所述项目数据分类单元还用于在所述关键字列中分类标志为第一次出现时,建立新的分类项目分类所述项目数据。

所述关键字列设定单元还用于在所述项目数据中增加多个关键字列;

所述分类标志写入单元还用于在每个关键字列写入一种或多种分类标志。

本发明实施例中,通过在项目数据中增加关键字列;将数据分类标志写入所述关键字列;根据所述关键字列的内容分类所述项目数据。本发明实施例的 方案,能够通过在项目数据中增加关键字列,通过关键字列写入分类标志,当获取关键字列后,即可根据其中的分类标志对数据进行分类,方案简单,可操作性强,同时可以保证分类效果,极大的提高了用户体验度。

本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:

图1为本发明实施例1提供的一种数据分类方法原理流程图;

图2为本发明实施例2提供的一种数据分类系统结构示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。

如图1所示,为本发明实施例1提供的一种数据分类方法原理流程图,其中,

步骤11,在项目数据中增加关键字列。

项目数据即为一般的数据库表单中的数据,可以是项目产生的数据,也可以是用户项目数据等。项目数据在数据库中以表单形式存储,每个项目数据为一行,其中每列均有实际的内容,因而可以在数据中加入一列用以标示专门的内容。

本实施例中,在项目数据中增加关键字列,用以标示数据分类的关键字。

数据库(Database)是按照数据结构来组织、存储和管理数据的仓库,它产生于距今六十多年前,随着信息技术和市场的发展,特别是二十世纪九十年代以后,数据管理不再仅仅是存储和管理数据,而转变成用户所需要的各种数据管理的方式。数据库有很多种类型,从最简单的存储有各种数据的表格到能够进行海量数据存储的大型数据库系统都在各个方面得到了广泛的应用。

在信息化社会,充分有效地管理和利用各类信息资源,是进行科学研究和决策管理的前提条件。数据库技术是管理信息系统、办公自动化系统、决策支持系统等各类信息系统的核心部分,是进行科学研究和决策管理的重要技术手段。

数据库指的是以一定方式储存在一起、能为多个用户共享、具有尽可能小的冗余度的特点、是与应用程序彼此独立的数据集合。在经济管理的日常工作中,常常需要把某些相关的数据放进这样的“仓库”,并根据管理的需要进行相应的处理。

例如,企业或事业单位的人事部门常常要把本单位职工的基本情况(职工号、姓名、年龄、性别、籍贯、工资、简历等)存放在表中,这张表就可以看成是一个数据库。有了这个"数据仓库"我们就可以根据需要随时查询某职工的基本情况,也可以查询工资在某个范围内的职工人数等等。这些工作如果都能在计算机上自动进行,那我们的人事管理就可以达到极高的水平。此外,在财务管理、仓库管理、生产管理中也需要建立众多的这种"数据库",使其可以利用计算机实现财务、仓库、生产的自动化管理。

数据库的基本结构分三个层次,反映了观察数据库的三种不同角度。

以内模式为框架所组成的数据库叫做物理数据库;以概念模式为框架所组成的数据叫概念数据库;以外模式为框架所组成的数据库叫用户数据库。

物理数据层是数据库的最内层,是物理存贮设备上实际存储的数据的集合。这些数据是原始数据,是用户加工的对象,由内部模式描述的指令操作处理的位串、字符和字组成。

概念数据层是数据库的中间一层,是数据库的整体逻辑表示。指出了每个数据的逻辑定义及数据间的逻辑联系,是存贮记录的集合。它所涉及的是数据库所有对象的逻辑关系,而不是它们的物理情况,是数据库管理员概念下的数据库。

用户数据层是用户所看到和使用的数据库,表示了一个或一些特定用户使用的数据集合,即逻辑记录的集合。

数据库不同层次之间的联系是通过映射进行转换的。

数据库通常分为层次式数据库、网络式数据库和关系式数据库三种。而不同的数据库是按不同的数据结构来联系和组织的。

1.数据结构模型

数据结构是指数据的组织形式或数据之间的联系。

如果用D表示数据,用R表示数据对象之间存在的关系集合,则将DS=(D,R)称为数据结构。

例如,设有一个电话号码簿,它记录了n个人的名字和相应的电话号码。为了方便地查找某人的电话号码,将人名和号码按字典顺序排列,并在名字的后面跟随着对应的电话号码。这样,若要查找某人的电话号码(假定他的名字的第一个字母是Y),那么只须查找以Y开头的那些名字就可以了。该例中,数据的集合D就是人名和电话号码,它们之间的联系R就是按字典顺序的排列,其相应的数据结构就是DS=(D,R),即一个数组。

数据结构又分为数据的逻辑结构和数据的物理结构。

数据的逻辑结构是从逻辑的角度(即数据间的联系和组织方式)来观察数据,分析数据,与数据的存储位置无关;数据的物理结构是指数据在计算机中存放的结构,即数据的逻辑结构在计算机中的实现形式,所以物理结构也被称为存储结构。

这里只研究数据的逻辑结构,并将反映和实现数据联系的方法称为数据模型。

比较流行的数据模型有三种,即按图论理论建立的层次结构模型和网状结构模型以及按关系理论建立的关系结构模型。

2.层次、网状和关系数据库系统

层次结构模型实质上是一种有根结点的定向有序树(在数学中"树"被定义为一个无回的连通图)。例如,一个高等学校的组织结构图。这个组织结构图像一棵树,校部就是树根(称为根结点),各系、专业、教师、学生等为枝点(称为结点),树根与枝点之间的联系称为边,树根与边之比为1:N,即树根只有一个,树枝有N个。

按照层次模型建立的数据库系统称为层次模型数据库系统。IMS(Information Management System)是其典型代表。

按照网状数据结构建立的数据库系统称为网状数据库系统,其典型代表是DBTG(Database Task Group)。用数学方法可将网状数据结构转化为层次数据结构。

关系式数据结构把一些复杂的数据结构归结为简单的二元关系(即二维表格形式)。例如某单位的职工关系就是一个二元关系。

由关系数据结构组成的数据库系统被称为关系数据库系统。

在关系数据库中,对数据的操作几乎全部建立在一个或多个关系表格上,通过对这些关系表格的分类、合并、连接或选取等运算来实现数据的管理。

dBASEⅡ就是这类数据库管理系统的典型代表。对于一个实际的应用问题(如人事管理问题),有时需要多个关系才能实现。用dBASEⅡ建立起来的一个关系称为一个数据库(或称数据库文件),而把对应多个关系建立起来的多个数据库称为数据库系统。dBASEⅡ的另一个重要功能是通过建立命令文件来实现对数据库的使用和管理,对于一个数据库系统相应的命令序列文件,称为该数据库的应用系统。

因此,可以概括地说,一个关系称为一个数据库,若干个数据库可以构成一个数据库系统。数据库系统可以派生出各种不同类型的辅助文件和建立它的 应用系统。

数据表是数据库中一个非常重要的对象,是其他对象的基础。根据信息的分类情况,一个数据库中可能包含若干个数据表。

没有数据表,关键字、主键、索引等也就无从谈起。在数据库画板中可以显示数据库中的所有数据表(即使不是用PowerBuilder创建的表),创建数据表,修改表的定义等数据表是数据库中一个非常重要的对象,是其他对象的基础。

数据表(或称表)是数据库最重要的组成部分之一。数据库只是一个框架,数据表才是其实质内容。如“教学管理系统”中,教学管理”数据库包含分别围绕特定主题的6个数据表:“教师”表“课程”表、“成绩”表、“学生”表、“班级”表和“授课”表,用来管理教学过程中学生、教师、课程等信息。这些各自独立的数据表通过建立关系被联接起来,成为可以交叉查阅、一目了然的数据库。

本实施例中的项目数据即以数据表的形式存在于数据库中。因而可以通过增加关键字列的方式增加相应的数据标志。当然,可以在所述项目数据中增加多个关键字列,每个关键字列可以写入一种或多种分类标志。

步骤12,将数据分类标志写入所述关键字列。

当关键字列增加完成后,需要在增加的关键字列写入内容。每个项目数据的关键字列写入对应的内容。在数据表中,每个项目数据即为一行数据,在关键字列分别写入对应的内容,这个内容就是分类标志。

分类标志时预先设定的,根据项目数据可分为的类别来设定。例如,如果项目数据分为两类,则可以在关键字列写入0和1以分类。当然,如果分为更多的类,可以在关键字列写入具有策略内容的具体分类策略。

每个项目数据可以增加多个关键字列,每个关键字列可以分别写入不同的分类标志。也就是说,同一个项目数据根据不同的关键字列中的分类标志可以分为不同的类别,具体采用何种关键字列的分类标志取决于具体的分类标准和用途。

所述关键字列中没有分类标志时,将所述项目数据单独分为一类。也就是说,当关键字列中没有写入内容,则该项目数据需要单独分类,与其它项目数据相区别。

所述关键字列中分类标志为第一次出现时,建立新的分类项目分类所述项目数据。当个关键字列中分类标志为新的时,之前没有与之相同的分类标志时,后续分类也需要单独建立新的分类标准。

步骤13,根据所述关键字列的内容分类所述项目数据。

所述关键字列的内容即为分类标志,当然,也有的关键字列中没有内容,则单独分为一类。这样,仅仅根据关键字列就完成了项目数据的分类。

进一步的,可以根据所述分类后的项目数据进行分类统计。这样,分类后的数据可以进行后续的统计操作。

进一步的,之前需要预设分类标志,然后根据所述分类标志设定统计分类。

本发明实施例中,通过在项目数据中增加关键字列;将数据分类标志写入所述关键字列;根据所述关键字列的内容分类所述项目数据。本发明实施例的方案,能够通过在项目数据中增加关键字列,通过关键字列写入分类标志,当获取关键字列后,即可根据其中的分类标志对数据进行分类,方案简单,可操作性强,同时可以保证分类效果,极大的提高了用户体验度。

如图2所示,为本发明实施例2提供的一种数据分类系统结构示意图,其中,

关键字列设定单元21,用于在项目数据中增加关键字列;

分类标志写入单元22,用于将数据分类标志写入所述关键字列;

项目数据分类单元23,用于根据所述关键字列的内容分类所述项目数据。

进一步的,上述项目数据分类单元23还用于在所述关键字列中没有分类标志时,将所述项目数据单独分为一类。

进一步的,上述项目数据分类单元23还用于在所述关键字列中分类标志 为第一次出现时,建立新的分类项目分类所述项目数据。

进一步的,上述关键字列设定单元21还用于在所述项目数据中增加多个关键字列;

所述分类标志写入单元22还用于在每个关键字列写入一种或多种分类标志。

综上所述,本发明实施例中,通过在项目数据中增加关键字列;将数据分类标志写入所述关键字列;根据所述关键字列的内容分类所述项目数据。本发明实施例的方案,能够通过在项目数据中增加关键字列,通过关键字列写入分类标志,当获取关键字列后,即可根据其中的分类标志对数据进行分类,方案简单,可操作性强,同时可以保证分类效果,极大的提高了用户体验度。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个 流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1