信息检索系统的排序方法及装置的制造方法_2

文档序号:9750801阅读:来源:国知局
系统的排序装置一实施方式的结构示意图;
[0028] 图6是本发明信息检索系统的排序装置另一实施方式的结构示意图;
[0029] 图7是本发明信息检索系统的排序装置一实施方式的实体结构示意图。
【具体实施方式】
[0030] 下面结合附图和实施方式对本发明进行详细说明。
[0031] 参阅图1,图1是本发明信息检索系统的排序方法一实施方式的流程图,该方法包 括:
[0032] 步骤S101 :接收查询信息。
[0033] 查询信息是指用户为了某种需求进行查询时输入的信息,例如:关键词、关键词组 合等等。
[0034] 步骤S102 :根据查询信息进行检索得到初始排序的文档集合,初始排序的文档集 合是按照检索结果文档与查询信息的相关性的大小,将检索结果文档进行排序后的文档集 合。
[0035] 信息检索系统接收查询信息后,根据该查询信息进行检索,获得候选的检索结果 文档,同时根据候选的检查结果文档与查询信息的相关性的大小,对检索结果文档进行排 序,例如,检查结果文档与查询信息的相关性越大,该检查结果文档在排序时越靠前,据此 获得的排序后的文档集合即为初始排序的文档集合。需要说明的是,此处的信息检索系统 包括但不限于互联网搜索、垂直领域搜索、企业知识搜索等,以及任何以信息检索为组件的 系统,包括但不限于自动问答系统、移动应用商店等。另外,如果检索结果小于等于一个,则 无所谓排序问题,因此本方案不考虑该集合中子集为空或者为1情况。
[0036] 步骤S103 :在排序规则库中,获取与查询信息、初始排序的文档集合相关联的排 序规则集合。
[0037] 排序规则库是指为满足各种需求所需要考虑的有关规则和知识的数据库,它是根 据不同的信息检索的业务需要,由人工或者数据挖掘的方法产生的。比如,在网页搜索反作 弊的业务中,排序规则库可能保存的是一些不同程度的作弊或有安全隐患的网页的统一资 源定位符(Uniform Resource Locator,URL),以及将它们的排序位置置后的位置说明(比 如,置于第5位以后、或第10位以后等)。又比如,在网页搜索多样性的业务中,排序规则库 中保留一系列具有多样性的查询词,以及这些查询词对应的前10位置必须覆盖的主题:t匕 如,对于"苹果"这个查询词,排在前10结果中必须包含"苹果"作为IT品牌的网页,也必 须包括"苹果"作为水果的网页。在实际系统中,排序规则库通常包括多个业务维度上的规 贝1J。因此,该排序规则库能够满足实际应用中复杂多变且动态变化的需求。另外,由于排序 规则库能够独立存在,因此排序规则库在建立后,可以单独对排序规则库进行自动化的管 理和维护,可以根据实际应用情况进行动态调整的,例如,可以新增有关的规则和知识,可 以修改有关的规则和知识,可以删除有关的规则和知识等。
[0038] 输入查询信息和初始排序的文档集合,根据相关性分析,即可在排序规则库中查 询到与查询信息、初始排序的文档集合相关联的排序规则集合。排序规则集合中的各个规 则之间没有任何顺序要求,只要与查询信息、初始排序的文档集合相关联,该规则即可选择 进入排序规则集合中。
[0039] 步骤S104 :根据初始排序的文档集合和排序规则集合进行后排序,生成最终排序 的文档集合。
[0040] 后排序(post ranking)是指在经过初始相关性排序获得初始排序的文档集合之 后,根据知识和规则对初始排序的文档集合进行的后处理。例如:对于某些具有多种含义 的查询词,为了提升搜索结果的多样性,在相关性排序的基础上,需要排在前面的文档覆盖 尽可能多的子话题,比如,以"病毒"作为查询词,可能是指生物学中的病毒,或者是计算机 病毒,因此,在进行后排序时,需要在前面的搜索结果中尽量同时覆盖这两种概念的文档。 又比如:在互联网搜索中,为了保护用户的隐私和安全,在进行后排序时,需要把恶意页面 (恶意收集用户隐私、攻击用户计算机等)排在后面的位置,而不论其相关性的好坏。与初 始相关性排序不同,后排序能够考虑到如多样性、安全、运营、商业等诸多方面的需求。
[0041] 根据初始排序的文档集合和排序规则集合进行后排序,生成最终排序的文档集 合,该最终排序的文档集合是在综合考虑排序规则集合中的各个规则后,对初始排序的文 档集合进行后处理,即进行第二次排序后的结果。因此最终排序的文档集合能够满足实际 应用中复杂多变且动态变化的需求。
[0042] 本发明实施方式根据查询信息进行检索得到初始排序的文档集合;在排序规则库 中,获取与查询信息、初始排序的文档集合相关联的排序规则集合;根据初始排序的文档集 合和排序规则集合进行后排序,生成最终排序的文档集合。由于进行后排序所需要的排序 规则集合可以从排序规则库中获取,且与查询信息、初始排序的文档集合相关联,即排序规 则集合不是固定不变的,能够根据查询信息、初始排序的文档集合的变化而变化,这样使得 整个后排序成为一个动态的过程,而非固定的链式策略,能够自动适应排序规则的变更,通 过这种方式,能够使排序规则集合满足复杂多样且动态变化的需求;而且,在查询信息、初 始排序的文档集合发生变化后,各个规则能够自然解耦,这样使得规则管理和维护的成本 大大降低;进一步,由于排序规则库是独立存在的,能够实现排序规则库的自动化的管理和 维护。
[0043] 参见图2,其中,步骤S104,即根据初始排序的文档集合和排序规则集合进行后排 序,生成最终排序的文档集合,可以具体是如下内容:
[0044] 步骤S104a :根据初始排序的文档集合和排序规则集合,利用最优化方法进行后 排序,生成最终排序的文档集合。
[0045] 最优化方法是近几十年形成的,它主要运用数学方法研究各种系统的优化途径及 方案,从数学意义上说,最优化方法是一种求极值的方法,即在一组约束条件下,使系统的 目标函数达到极值,即最大值或最小值。本发明实施方式中,采用最优化方法的目的在于针 对所研究的系统,求得一个从全局角度考虑的、将各种排序需求进行综合和折衷的方案,从 而以最低成本解决各个排序规则之间的冲突,最终达到系统的最优目标。最优化方法包括 但不限于:梯度下降法,牛顿法,线性规划、二次规划、遗传算法等等。
[0046] 在本发明实施方式中,不需要将排序规则"排列",而是将排序规则集合中的规则, 全部输入,利用最优化方法统筹优化。在现有技术中的串联规则中,规则之间通常以链式串 联,后面的规则一定会覆盖之前的规则,而在本发明实施方式中,不会有这种情况出现,而 是折衷选择出对排序规则集合中所有规则集体最优的排序,也因此认为是规则的冲突被最 大程度的解决了;在串联规则情况下,新增、修改、或删除一条规则都需要考虑对前后规则 的影响,而在本发明实施方式中,每个规则在实时排序之前都是独立的,故维护时只需要考 虑单独的每个规则。
[0047] 图2中与图1相同的步骤请参见图1以及相应的文字说明,在此不再赘叙。
[0048] 参阅图3,图3是本发明信息检索系统的排序方法又一实施方式的流程图,本实施 方式和图1、图2的实施方式基本相同,相同之处请参见图1、图2以及相关的文字说明,不 同之处在于:图2中步骤S104a,即根据初始排序的文档集合和排序规则集合,利用最优化 方法进行后排序,生成最终排序的文档集合,还可进一步包括:
[0049] 步骤S201 :通过融合初始排序的文档集合和排序规则集合,构造优化目标函数。
[0050] 将初始排序的文档集合和排序规则集合作为自变量,构建一个目标函数,即为优 化目标函数。
[0051] 步骤S202 :求解优化目标函数,获得优化目标函数的最优解。
[0052] 需要说明的是,优化目标函数可以有多种形式,每一种形式的优化目标函数都有 其对应的最优解,本方案的优化目标函数不是唯一形式,本方案获取的最优解也不是唯一 最优解。
[0053] 步骤S203 :根据优化目标函数的最优解确定最终排序的文档集合。
[0054] 优化目标函数的最优解即为初始排序的文档集合中各个文档的最终排序得分,按 照该最终排序得分排序即可以生成最终排序的文档集合。
[0055] 由于本实施方式将初始排序的文档集合和排序规则集合同时纳入一个优化目标 函数中,所以能够从全局考虑各种排序需求的综合和折衷,并以最低成本解决各个规则间 的冲突。
[0056] 其中,参阅图4,图3中步骤S201中的通过融合初始排序的文档集合和排序规则集 合,构造优化目标函数,可以进一步包括:
[0057] 步骤S301 :获取排序规则集合中各个排序规则的优先级别。
[0058] 步骤S302 :通过融合初始排序的文档集合、排序规则集合中各个排序规则以及各 个排序规则的优先级别,构造优化目标函数。
[0059] 每个排序规则的优先级是通过业务的重要性、数据可信度等综合权衡的。如果排 序规则库中已经预设了每个排序规则的优先级,则可以直接获取。如果预先没
当前第2页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1