信息处理方法、装置、电子设备及存储介质与流程

文档序号：26007471发布日期：2021-07-23 21:26阅读：79来源：国知局

本申请数字音乐领域，尤其涉及一种信息处理方法、装置、电子设备及存储介质。

背景技术：

自信息革命以来，音乐和多媒体的传播方式在短时间内发生了天翻地覆的变化。这种质的变化使得市场对各类音乐的需求呈现了爆发式的增长：无论是以流行音乐或艺术创作为主要元素的单曲、专辑、mv、卡拉ok，还是使用音乐作为辅助的短视频、广告、动画、宣传片和影视作品，抑或是使用音乐作为背景内容的电台、主播、公共空间音乐，都需要大量的原创音乐。在计算机自动作曲技术中，对自动创作出的旋律，如果需要配词等后续的应用，需要对旋律进行旋律断句(即乐句划分)，能够进行自动的乐句划分在自动作曲、歌声合成等应用中非常重要。如何快速实现乐句的自动化划分成为亟待解决的技术问题。

技术实现要素：

本申请提供了一种信息处理方法、装置、电子设备及存储介质。

根据本申请的一方面，提供了一种信息处理方法，包括：

根据旋律信息及预先训练好的乐句划分模型，将所述旋律信息基于多级阈值进行旋律断句处理，得到构成所述旋律信息的多级乐句信息；其中，用于训练所述乐句划分模型的标注信息包括：以基于所述旋律信息进行歌曲演唱时的演唱换气点为划分时刻所得到的乐句标注信息。

根据本申请的另一方面，提供了一种信息处理装置，包括：

断句处理模块，用于根据旋律信息及预先训练好的乐句划分模型，将所述旋律信息基于多级阈值进行旋律断句处理，得到构成所述旋律信息的多级乐句信息；其中，用于训练所述乐句划分模型的标注信息包括：以基于所述旋律信息进行歌曲演唱时的演唱换气点为划分时刻所得到的乐句标注信息。

根据本申请的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与该至少一个处理器通信连接的存储器；其中，

该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行本申请任意一实施例所提供的方法。

根据本申请的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使该计算机执行本申请任意一项实施例所提供的方法。

采用本申请，可以根据旋律信息及预先训练好的乐句划分模型，将所述旋律信息基于多级阈值进行旋律断句处理，得到构成所述旋律信息的多级乐句信息；其中，用于训练所述乐句划分模型的标注信息包括：以基于所述旋律信息进行歌曲演唱时的演唱换气点为划分时刻所得到的乐句标注信息，从而可快速的实现乐句的自动化划分。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请实施例的信息处理方法的流程示意图；

图2是根据本申请实施例的信息处理装置的组成结构示意图；

图3是用来实现本申请实施例的信息处理方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括a、b、c中的至少一种，可以表示包括从a、b和c构成的集合中选择的任意一个或多个元素。本文中术语“第一”、“第二”表示指代多个类似的技术用语并对其进行区分，并不是限定顺序的意思，或者限定只有两个的意思，例如，第一特征和第二特征，是指代有两类/两个特征，第一特征可以为一个或多个，第二特征也可以为一个或多个。

另外，为了更好的说明本申请，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本申请同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本申请的主旨。

根据本申请的实施例，提供了一种信息处理方法，图1是根据本申请实施例的信息处理方法的流程示意图，该方法可以应用于信息处理装置，例如，该装置可以部署于终端或服务器或其它处理设备执行的情况下，可以执行乐句划分等等。其中，终端可以为用户设备(ue，userequipment)、移动设备、蜂窝电话、无绳电话、个人数字处理(pda，personaldigitalassistant)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中，该方法还可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。如图1所示，包括：

s101、根据旋律信息及预先训练好的乐句划分模型，将所述旋律信息基于多级阈值进行旋律断句处理，得到构成所述旋律信息的多级乐句信息；其中，用于训练所述乐句划分模型的标注信息包括：以基于所述旋律信息进行歌曲演唱时的演唱换气点为划分时刻所得到的乐句标注信息。

一示例中，对自动创作出的旋律信息，如果需要配词以实现合成歌声等后续应用，需要对旋律信息进行旋律断句处理(或称乐句信息的划分处理)。其中，乐句信息是构成一首乐曲的一个具有特性的基本结构单位，比如四句歌词，对应着四个乐句。由于训练该乐句划分模型的样本数据集中的标注信息，是以歌曲演唱时的演唱换气点为划分时刻进行乐句标注所得到的乐句标注信息，而不是按照一个明显的逻辑规则进行乐句标注，因此，在得到的该多级乐句信息中，如果以包含两级乐句信息(即一级乐句信息及二级乐句信息)为例，则二级乐句信息的换气概率会低于一级乐句信息的换气概率，从而，使得基于本申请中该乐句标注信息训练后得到的该预先训练好的乐句划分模型，对应该模型输出的概率分布在一级乐句信息和二级乐句信息间存在明显差别，使得分级乐句划分成为可能。最终，进行上述旋律断句处理(如根据多级阈值进行多级的乐句划分)可以实现自动的多级乐句划分。而且，对于难以划分乐句的旋律信息，也可以给出判断。

一实施方式中，还包括：获取乐谱信息；按照预设节拍，从所述乐谱信息中提取包含乐句信息的乐段构建信息；根据所述乐段构建信息得到乐段结构，以所述乐段结构为单位进行数据收集，得到用于训练所述乐句划分模型的样本数据集；其中，所述样本数据集包括：所述乐句标注信息。

一实施方式中，所述以所述乐段结构为单位进行数据收集，包括：针对所述乐段结构中移调至预定位置的旋律表示进行收集，所述旋律表示用于描述不同划分时刻的旋律情况。比如，乐段结构需要收集移调至预定位置(如c大调或a小调后)的旋律表示。

一实施方式中，所述乐段结构，包括针对所述旋律信息划分得到的多个旋律序列；其中，所述小节为首小节的情况下，所述首小节的位置根据所述乐段结构开始的第一个和弦来判断。

一实施方式中，还包括：在训练所述乐句划分模型的过程中，根据所述样本数据集得到针对所述旋律信息划分得到的多个旋律序列，及与所述多个旋律序列(如m)分别对应的多个位置序列(pos)；将所述多个旋律序列及所述多个位置序列输入所述乐句划分模型，得到与所述多个旋律序列分别对应的多个向量的概率，所述概率用于表征每个旋律序列为所述多级乐句信息开头的概率；基于所述概率进行损失函数的反向传播直至收敛，得到所述预先训练好的乐句划分模型。

一实施方式中，所述根据旋律信息及预先训练好的乐句划分模型，将所述旋律信息基于多级阈值进行旋律断句处理，得到构成所述旋律信息的多级乐句信息，包括：根据旋律信息及预先训练好的乐句划分模型，得到与多个旋律序列分别对应的多个向量的概率；所述概率大于一级乐句阈值的情况下，从所述多个旋律序列中提取出与当前情况相匹配的多个第一子旋律序列，基于所述多个第一子旋律序列得到多个第一级乐句信息；所述概率大于二级乐句阈值且小于所述一级乐句阈值的的情况下，从所述多个第一子旋律序列中提取出与当前情况相匹配的多个第二子旋律序列，基于所述多个第二子旋律序列得到多个第二级乐句信息；根据所述多个第一级乐句信息及所述多个第二级乐句信息，得到所述多级乐句信息。

应用示例：

在计算机自动作曲技术中，能够对旋律进行自动的乐句划分非常重要。目前尚未有类似的自动旋律乐句划分技术，只存在语音、文本的自动断句技术。假设有基于规则的旋律自动乐句划分技术，例如根据节奏中音的时值和当前乐句长度等信息进行是否断句的条件判断。然而，基于规则的自动断句技术，很难涵盖各种旋律情况，尤其是对于自动生成的旋律，往往会出现乐句不明显，难以用很简单的逻辑进行划分，会出现无法自动划分，划分不合理等情况。另外，难以进行多级的乐句划分。

针对上述问题，应用本申请实施例一应用示例的处理流程，可以通过预先训练好的乐句划分模型对旋律进行自动化的乐句划分，对一段用n个数值表示的旋律m＝m0…mn-1，进行自动乐句划分，即需要找到一组严格递增的位置下标p＝p0…pk,表示旋律被分为k句一级乐句，其中pi为第i∈{0,...,k-1}句旋律的开头的位置下标。特别地，为方便表示，约定pk＝n。其中第i∈{0,...,k-1}句的旋律为并有q＝q0…qk-1,pi＜qi＜pi+1-1表示在第i句可以被分为两个二级乐句对于不能划分一级乐句或二级乐句的情况，作出自动的判断。具体包括如下内容：

一、数据的收集，表示，预处理和模型

收集乐谱，以乐段为单位进行记录，构成数据集。一个乐段需要记录移调至c大调或a小调后的旋律进行，旋律需要以歌曲演唱时的呼吸点为划分进行乐句标注，旋律首小节位置，总小节数b，其中首小节位置根据乐段开始的第一个和弦来判断，规定首小节的第一拍为乐段的0时刻，旋律首音相对于首小节的位置差值记为δst，若乐段的旋律开始于首小节前，称提前部分的旋律为弱起旋律,δst＜0；若开始于首小节第一拍或之后，则没有弱起旋律,δst≥0。数据集中最长允许弱起长度stmax为32，δst≥-stmax。

确定每拍量化长度spq为4，例如对于四四拍的歌曲，每小节的旋律用16个数值来表示其重点在于对于歌曲旋律“等间距离散化的表示”，即：歌曲旋律不论多复杂，每拍都在时间刻度上均匀的划分为4个时刻，在4个时刻处可以按如下mi的计算公式记录这一时刻的旋律情况。每拍4个时刻，每小节4拍，即是16个时刻，对应了16个旋律的mi值。另外，本申请不限制乐段的拍号，不限制是否采用移调记谱和移调的目标调号，不限制spq值，也不一定要等分表示，如下mi的计算公式也可以变化，只要可以采用一种简单的“量化”方式来表示旋律都在本申请的保护范围之内。

采取spq量化，考虑弱起的情况，一个乐段的旋律需用n个数值表示,n＝16×b+δst,限定只选取符合-32≤δst＜16,b≥4的乐段，一个乐段的旋律表示为m＝m0…mn-1，其中，mi,i∈{0,1,...,n-1}描述了时刻时的旋律情况。若存在音符或休止符的开始时间不等于某一个ti，则调整其开始时间使之等于其附近的一个ti。可以将整个旋律八度移动，使得旋律满足如下公式：

旋律值的种类数共有nm＝62类。

可以得到一个与旋律序列对应的位置序列pos＝pos0...posn-1，其中：

posi＝i+δst+stmax

旋律的断句标注可表示为一个与旋律序列一一对应的向量s＝s0…sn-1。其中，

二、训练模型

模型可以是一个注意力网络transformer，可以由序列m和pos计算s的概率序列y＝＝y0…yn-1，yi为旋律mi的一个乐句的开头的概率

y＝transformer(m,pos)

训练模型，调整模型参数θ，优化如下损失函数：

其中代表数据集，d代表一个乐段的数据，m代表d中的旋律。

三、利用模型进行断句

对于给定的旋律序列m和δst计算pos序列。

利用训练好的模型transformer，由公式y＝transformer(m,pos)计算y序列。

设置一个一级乐句阈值a＝0.9。

在y序列中，找出所有概率值大于a的项，项的总数记为k，即可以划分k个一级乐句，项的位置下标按增序得到p0…pk-1，其满足：

结合pk＝n，得到所需序列p＝p0…pk，其中第i句一级乐句

在第i句中寻找除去首位，即一级乐句的句首外，对应y序列中概率最大的位置下标，其下标即为所需的qi：

设置一个二级乐句阈值b＝0.3。

若则可以认为第i句不存在二级乐句，或二级乐句不显著。

若则qi为所需二级乐句的位置下标。

对第i∈{0,1,...,k-1}一级乐句分别进行如上所述的二级乐句划分，于是得到了q＝q0…qk-1。至此得到了旋律序列的一级乐句划分p和二级乐句划分q。

根据数据集和应用场景设置一个可接受的最大一级乐句数na_max，最小一级乐句数na_min。若可以认为该旋律乐句数不符合要求。

设置一个疑似乐句阈值c＝0.6，和疑似比例rc＝0.5。若y序列中处于区间[a,c]的比例大于rc，可以认为该旋律乐句划分不明显，难以进行乐句划分。

采用本申请，使用神经网络进行乐句划分的流程，实现了数据驱动的分级乐句划分，因为数据是按照演唱换气点进行乐句标注，而不是按照一个明显的逻辑规则进行乐句标注，而二级乐句换气的概率低于一级乐句，这使得训练后的神经网络，给出的概率可以在一级乐句和二级乐句有明显差别，因此，使得分级乐句划分成为可能，从而实现了无需规则的自动乐句划分技术，而且可以根据设置阈值进行多级乐句划分。对于难以划分乐句的旋律，也可以给出判断。

根据本申请的实施例，提供了一种信息处理装置，图2是根据本申请实施例的信息处理装置的组成结构示意图，如图2所示，包括：断句处理模块51，用于根据旋律信息及预先训练好的乐句划分模型，将所述旋律信息基于多级阈值进行旋律断句处理，得到构成所述旋律信息的多级乐句信息；其中，用于训练所述乐句划分模型的标注信息包括：以基于所述旋律信息进行歌曲演唱时的演唱换气点为划分时刻所得到的乐句标注信息。

一实施方式中，还包括：乐谱获取模块，用于获取乐谱信息；乐段构建的提取模块，用于按照预设节拍，从所述乐谱信息中提取包含乐句信息的乐段构建信息；样本集收集模块，用于根据所述乐段构建信息得到乐段结构，以所述乐段结构为单位进行数据收集，得到用于训练所述乐句划分模型的样本数据集；其中，所述样本数据集包括：所述乐句标注信息。

一实施方式中，所述样本集收集模块，用于：针对所述乐段结构中移调至预定位置的旋律表示进行收集，所述旋律表示用于描述不同划分时刻的旋律情况。

一实施方式中，所述乐段结构，包括针对所述旋律信息划分得到的多个旋律序列；还包括：判断模块，用于：所述小节为首小节的情况下，所述首小节的位置根据所述乐段结构开始的第一个和弦来判断。

一实施方式中，还包括：第一处理模块，用于在训练所述乐句划分模型的过程中，根据所述样本数据集得到针对所述旋律信息划分得到的多个旋律序列，及与所述多个旋律序列分别对应的多个位置序列；第二处理模块，用于将所述多个旋律序列及所述多个位置序列输入所述乐句划分模型，得到与所述多个旋律序列分别对应的多个向量的概率，所述概率用于表征每个旋律序列为所述多级乐句信息开头的概率；第三处理模块，用于基于所述概率进行损失函数的反向传播直至收敛，得到所述预先训练好的乐句划分模型。

一实施方式中，所述断句处理模块，用于：根据旋律信息及预先训练好的乐句划分模型，得到与多个旋律序列分别对应的多个向量的概率；所述概率大于一级乐句阈值的情况下，从所述多个旋律序列中提取出与当前情况相匹配的多个第一子旋律序列，基于所述多个第一子旋律序列得到多个第一级乐句信息；所述概率大于二级乐句阈值且小于所述一级乐句阈值的情况下，从所述多个第一子旋律序列中提取出与当前情况相匹配的多个第二子旋律序列，基于所述多个第二子旋律序列得到多个第二级乐句信息；根据所述多个第一级乐句信息及所述多个第二级乐句信息，得到所述多级乐句信息。

本申请实施例各装置中的各模块的功能可以参见上述方法中的对应描述，在此不再赘述。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图3所示，是用来实现本申请实施例的信息处理方法的电子设备的框图。该电子设备可以为前述部署设备或代理设备。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图3所示，该电子设备包括：一个或多个处理器801、存储器802，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示gui的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图3中以一个处理器801为例。

存储器802即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的信息处理方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的信息处理方法。

存储器802作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的信息处理方法对应的程序指令/模块。处理器801通过运行存储在存储器802中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的信息处理方法。

存储器802可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器802可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器802可选包括相对于处理器801远程设置的存储器，这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

信息处理方法的电子设备，还可以包括：输入装置803和输出装置804。处理器801、存储器802、输入装置803和输出装置804可以通过总线或者其他方式连接，图3中以通过总线连接为例。

输入装置803可接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置804可以包括显示设备、辅助照明装置(例如，led)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(lcd)、发光二极管(led)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用asic(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(pld))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，crt(阴极射线管)或者lcd(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(lan)、广域网(wan)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：孙炜岳;吴健;韩毅
技术所有人：北京灵动音科技有限公司
我是此专利的发明人

上一篇：钼精矿短流程制备高纯度含硫产物的方法与流程
上一篇：用于形成光栅的方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。