1.一种压缩分子标记的核酸序列数据的方法,其包括:
接收多个核酸序列读段、多个流动空间信号测量值的向量和多个序列比对值,其中每个序列读段与分子标记序列相关,所述分子标记序列标识由核酸样品中的特定多核苷酸分子产生的序列读段家族,其中每个流动空间信号测量值的向量和每个序列比对值与所述序列读段的一个相对应;
将与相同分子标记序列相关的序列读段分组以形成序列读段家族、流动空间信号测量值的对应向量和对应的序列比对值,每个家族具有许多成员;
计算所述流动空间信号测量值的对应向量的算术平均值以形成所述家族的共有流动空间信号测量值的向量;
计算所述流动空间信号测量值的对应向量的标准偏差以形成所述家族的标准偏差向量;
基于所述家族的所述共有流动空间信号测量值的向量确定共有碱基序列;
通过将所述共有碱基序列与所述家族的所述对应序列比对值的映射质量最高的所述序列读段进行比较来确定共有序列比对值;和
生成包含共有压缩数据的压缩数据结构,所述共有压缩数据包括每个家族的所述共有碱基序列、所述共有序列比对值、所述共有流动空间信号测量值的向量、所述标准偏差向量和成员数量。
2.根据权利要求1所述的方法,其还包括确定所述家族的序列读段是否流同步。
3.根据权利要求1所述的方法,其还包括基于匹配流同步定义所述家族的子族,其中所述子族的序列读段流同步。
4.根据权利要求3所述的方法,其还包括进行以下步骤:计算所述流动空间信号测量值的向量的算术平均值,计算所述流动空间信号测量值的向量的标准偏差,并且确定所述家族的子族的序列读段的共有碱基序列,其中所述生成压缩数据结构包括所述家族的子族的共有压缩数据。
5.根据权利要求1所述的方法,其中所述接收还包括接收至少一个与流动空间信号测量值的每个向量相对应的模型参数,其中所述方法还包括计算所述家族的流动空间信号测量值的对应向量的所述模型参数的算术平均值以形成所述家族的至少一个共有模型参数,其中所述生成压缩数据结构包括所述共有压缩数据中的所述共有模型参数。
6.根据权利要求5所述的方法,其中所述确定所述家族的序列读段的共有碱基序列进一步基于所述家族的所述至少一个共有模型参数。
7.根据权利要求5所述的方法,其中所述至少一个模型参数包括不完整扩展(ie)参数。
8.根据权利要求5所述的方法,其中所述至少一个模型参数包括转发(cf)参数。
9.根据权利要求1所述的方法,其还包括使用至少一部分来自于所述压缩数据结构的所述共有压缩数据确定给定共有碱基序列中的变体。
10.根据权利要求9所述的方法,其中所述确定变体是基于对应所述给定共有碱基序列的所述共有流动空间信号测量值的向量和所述标准偏差向量。
11.根据权利要求9所述的方法,其中所述确定变体还包括基于所述共有流动空间信号测量值的向量中给定位置的所述共有流动空间信号测量值与所述标准偏差向量中给定位置的所述标准偏差的函数,估计候选等位基因的预测流动空间信号值的对数似然性。
12.根据权利要求1所述的方法,其中所述压缩数据结构与bam文件格式兼容。
13.根据权利要求1所述的方法,其包括将所述共有碱基序列映射到参考基因组以生成当所述共有碱基序列不匹配所述家族中映射质量最高的序列读段时的所述共有序列比对值。
14.根据权利要求1所述的方法,其中所述多个核酸序列读段包含正向序列读段和反向序列读段,其中将序列读段分组还包括标识所述家族的子族,其中所述第一子族含有所述正向序列读段而第二子族含有所述反向序列读段。
15.根据权利要求14所述的方法,其还包括进行以下步骤:计算所述流动空间信号测量值的向量的算术平均值,计算所述流动空间信号测量值的向量的标准偏差,并且确定所述家族的两个子族中的每一个的序列读段的共有碱基序列,其中所述生成压缩数据结构包括所述家族的两个子族的共有压缩数据。
16.一种非临时性机器可读存储介质,其包括在由处理器执行时,使所述处理器执行压缩分子标记的核酸序列数据的方法的指令,所述方法包括:
接收多个核酸序列读段、多个流动空间信号测量值的向量和多个序列比对值,其中每个序列读段与分子标记序列相关,所述分子标记序列标识由核酸样品中的特定多核苷酸分子产生的序列读段家族,其中每个流动空间信号测量值的向量和每个序列比对值与所述序列读段的一个相对应;
将与相同分子标记序列相关的序列读段分组以形成序列读段家族、流动空间信号测量值的对应向量和对应的序列比对值,每个家族具有许多成员;
计算流动空间信号测量值的对应向量的算术平均值以形成所述家族的共有流动空间信号测量值的向量;
计算所述流动空间信号测量值的对应向量的标准偏差以形成所述家族的标准偏差向量;
基于所述家族的所述共有流动空间信号测量值的向量确定共有碱基序列;
通过将所述共有碱基序列与所述家族的所述对应序列比对值的映射质量最高的所述序列读段进行比较来确定共有序列比对值;和
生成包含共有压缩数据的压缩数据结构,所述共有压缩数据包括每个家族的所述共有碱基序列、所述共有序列比对值、所述共有流动空间信号测量值的向量、所述标准偏差向量和成员数量。
17.根据权利要求16所述的非临时性机器可读存储介质,其还包括使所述处理器进行所述方法的指令,其中所述接收还包括接收至少一个与每个流动空间信号测量值的向量相对应的模型参数,其中所述方法还包括计算所述家族的流动空间信号测量值的对应向量的所述模型参数的算术平均值以形成所述家族的至少一个共有模型参数,其中所述生成压缩数据结构包括所述共有压缩数据中的所述共有模型参数。
18.根据权利要求16所述的非临时性机器可读存储介质,其还包括使所述处理器执行所述方法的指令,所述方法还包括使用至少一部分来自于所述压缩数据结构的所述共有压缩数据确定给定共有碱基序列中的变体。
19.根据权利要求16所述的非临时性机器可读存储介质,其还包括使所述处理器执行所述方法的指令,所述方法还包括基于匹配流同步定义所述家族的子族,其中所述子族的序列读段流同步。
20.一种压缩分子标记的核酸序列数据的系统,其包括:
机器可读存储器;和
配置成执行机器可读指令的处理器,所述指令在由处理器执行时使所述系统进行用于压缩分子标记的核酸序列数据的方法,所述方法包括:
接收多个核酸序列读段、多个流动空间信号测量值的向量和多个序列比对值,其中每个序列读段与分子标记序列相关,所述分子标记序列标识由核酸样品中的特定多核苷酸分子产生的序列读段家族,其中每个流动空间信号测量值的向量和每个序列比对值与所述序列读段的一个相对应;
将与相同分子标记序列相关的序列读段分组以形成序列读段家族、流动空间信号测量值的对应向量和对应的序列比对值,每个家族具有许多成员;
计算流动空间信号测量值的对应向量的算术平均值以形成所述家族的共有流动空间信号测量值的向量;
计算所述流动空间信号测量值的对应向量的标准偏差以形成所述家族的标准偏差向量;
基于所述家族的所述共有流动空间信号测量值的向量确定共有碱基序列;
通过将所述共有碱基序列与所述家族的所述对应序列比对值的映射质量最高的所述序列读段进行比较来确定共有序列比对值;和
生成包含共有压缩数据的压缩数据结构,所述共有压缩数据包括每个家族的所述共有碱基序列、所述共有序列比对值、所述共有流动空间信号测量值的向量、所述标准偏差向量和成员数量。