识别对象的方法和设备以及训练识别器的方法和设备的制造方法_2

文档序号：9866122阅读：来源：国知局

实施例的目的。然而，本发明构思的示例实施例可W许多替代形式被实施，并且不应被解释为仅限于运里阐述的实施例。
[0036] 因此，虽然本发明构思的示例实施例能够做出各种修改和替代形式，但是本发明构思的实施例W在附图中的示例的方式被示出，并将会在运里被详细描述。然而，应该理解，不意图将本发明构思的示例实施例限制于所公开的特定形式，而正相反，本发明构思的示例实施例将覆盖落入本发明构思的示例实施例范围内的所有修改、等同物和替代物。贯穿附图的描述，相同的标号指示相同的元件。
[0037] 将理解的是，虽然术语第一、第二等可在运里使用W描述各种元件，但是运些元件不应被运些术语限制。运些术语仅用于将一个元件与另一元件区分。例如，在不脱离本发明构思的示例实施例的范围的情况下，第一元件可被称为第二元件，类似地，第二元件可被称为第一元件。如在运里使用的，术语"和/或"包括一个或多个关联的所列项的任何和所有组厶 1=1 〇
[0038] 将理解的是，当元件被表示为"连接"或者"禪合"到另一元件时，该元件可能直接连接到或者禪合到所述另一元件，或者可能存在中间元件。与此相反，当元件被表示为"直接连接"或者"直接禪合"到另一元件时，不存在中间元件。用来描述元件之间的关系的其它词语应W同样的方式被解释(例如，"在……之阿'与"直接在……之间"、"相邻"与"直接相邻"等）。
[0039] 在运里使用的技术仅为描述特定实施例的目的，而并非意图限制本发明构思的示例实施例。如在运里使用的，除非上下文明确地另有指示，否则单数形式也意图包括复数形式。还将理解，当在运里使用术语"包括"和/或"包含"时，指定所述的特征、整数、步骤、操作、元件和/或组件的存在，但不排除一个或多个其它特征、整数、步骤、操作、元件、组件和/ 或其群组的存在或添加。
[0040] 还应注意，在一些可选实现中，提及的功能/作用可不W图中提到的顺序发生。例如，根据设及的功能/作用，相继示出的两幅图实际可W实质上同时被执行或有时可相反的顺序被执行。
[0041] 在运里参照作为本发明构思的理想化的实施例的示意图（和中间结构）来描述本发发明构思的示例实施例。因此，由于例如制造技术和/或偏差的来自于示意图的形状的改变是可预期的。因此，本发明构思的示例实施例不应被解释为限制于运里示出的区域的具体形状，而应包括由于例如制造所产生的形状上的偏差。
[0042] 虽然可能未示出某些剖视图的相应的俯视图和/或透视图，但是运里示出的装置结构的剖视图向多个装置结构提供支持，所述多个装置结构如同会在俯视图中示出的一样沿着两个不同的方向扩展，和/或如同会像在透视图中示出的一样沿着Ξ个不同的方向扩展。所述两个不同的方向可能是或可能不是相互正交的。所述Ξ个不同的方向可包括可能与所述两个不同的方向正交的第Ξ方向。所述多个装置结构可被集成在同一个电子装置中。例如，当在剖视图中示出装置结构(例如，存储器单元结构或晶体管结构)时，如同会由电子装置的俯视图示出的一样，该电子装置可包括多个装置结构(例如，存储器单元结构或晶体管结构）。所述多个装置结构可阵列和/或二维图案被布置。
[0043] 在下文中，将对实施例做出详细参考，运些实施例的示例被示出在附图中，其中，相同的标号始终指示相同的元件。W下的至少一些示例实施例可被应用于识别对象(例如，脸部)的技术。例如，至少一些示例实施例可被应用于用户识别、多媒体的（例如，照片)捜索和管理。
[0044] 图1是示出根据至少一些示例实施例的训练设备的框图。参照图1，根据至少一些示例实施例的训练设备100可包括接收器110和训练器120。接收器110可接收训练图像。训练器120可使用接收的训练图像训练识别器。例如，训练设备100可训练被配置为识别脸部的识别器。训练设备100可接收包括脸部的训练图像，并基于接收到的训练图像训练被配置为识别脸部的识别器。接收器110和训练器120可被实施为软件模块、硬件模块、或它们的组合。可各种计算装置和/或系统(例如，智能电话、平板计算机、膝上型计算机、台式计算机、电视、可穿戴装置、安全系统W及智能家居系统)提供训练设备100。例如，根据本发明构思的至少一个示例实施例，训练设备100可包括一个或多个电路或电路装置(例如，硬件)或者可由一个或多个电路或电路装置实现，其中，所述一个或多个电路或电路装置被专口构造为：当运里描述的一些或全部操作被训练设备1〇〇(或它的元件)执行时，实现运里描述的一些或全部操作。根据本发明构思的至少一个示例实施例，训练设备100可包括存储器和一个或多个处理器或者可由存储器和一个或多个处理器实现，其中，当运里描述的一些或全部操作被训练设备1〇〇(或它的元件)执行时，所述一个或多个处理器可执行存储在存储器中的包括与运里描述的一些或所有操作相应的指令的计算机可读代码(例如，软件）。根据本发明构思的至少一个示例实施例，训练设备100可被例如W上提到的硬件和执行计算机可读代码的处理器的组合实现。
[0045] 如在运里使用的，术语"处理器"可表示例如具有被物理构造为执行期望的操作的电路的硬件实现的数据处理装置，其中，所述期望的操作包括例如被表示为包括在程序中的代码和/或指令的操作。W上提到的硬件实现的数据处理装置的示例包括(但不限于)微处理器、中央处理单元(CPU)、处理器核、多核处理器、多处理器、专用集成电路(ASIC)、现场可编程口阵列(FPGA)。执行程序代码的处理器是已编程处理器，因此也是专用计算机。
[0046] 多个元素可在训练图像中被标记。多个元素可包括:标识(ID)，被配置为确定训练图像;属性，与训练图像相关联。ID可W是将用来标识包括在训练图像中的对象的信息，例如，将用来标识包括在训练图像中的用户的信息。属性可W是被配置为表达包括在训练图像中的对象的信息，可包括例如性别、年龄、种族、吸引力、面部表情、W及与包括在训练图像中的用户的脸部区域相应的情感。
[0047] 训练器120可基于在训练图像中标记的多个元素训练识别器从训练图像中识别多个元素。与由一般的脸部识别方案训练的识别器不同，由训练器120训练的识别器可从输入图像识别多个元素。例如，由一般的脸部识别方案训练的识别器可能仅从输入图像中识别 ID，而由训练器120训练的识别器可从输入图像中同时识别ID、性别、年龄、种族、吸引力、面部表情和情感。由训练器120训练的识别器可W是被配置为执行多个元素的多任务识别的单个识别器。
[004引图2示出根据至少一些示例实施例的多任务训练。参照图2,训练器120可训练识别器130从脸部图像识别ID和属性。脸部图像可W是从训练图像提取的脸部区域的图像。训练器120可训练识别器130同时识别多个元素。因此，图2的训练器120的操作可被称为多任务训练。与训练设备100类似，运里描述的识别器和训练器可被实现为例如硬件、执行计算机可读代码的处理器、或W上提到的硬件和执行计算机可读代码的处理器的组合。在基于例如不同的光照、姿势、面部表情和各种视角之间的遮挡的特定情况下，同一用户的脸部(例如，同一用户脸部的两个不同的视角或照片）可能看起来不同。在运个示例中，即使不同视角均为同一用户的脸部的视角，从不同视角提取的特征之间也可形成不同的属性。相反地，在基于例如相似的光照、姿势、面部表情和各种视角之间的遮挡的特定情况下，不同用户的脸部(例如，两个不同用户的脸部的各自的两个视角或照片)可能看起来相似。在运个示例中，即使不同视角为不同用户的脸部的视角，从不同视角提取的特征之间也可形成相似的属性。
[0049] 由训练器120训练的识别器可同时识别多个元素，因此提高识别准确度。例如，多个元素可包括中级属性(例如，眼睛颜色和鼻子形状）。中级属性可W对光照、姿势、面部表情和遮挡的改变具有鲁棒性。因此，识别器可通过共同学习 ID和中级属性提高识别准确度。识别器还可通过共同学习 ID和准确地区分不同用户的属性(例如，性别和发型)来提高识别准确度。
[0050] 图3示出根据至少一些示例实施例的通过共同学习元素提高识别准确度的识别器的原理。参照图3,存在有各种脸部的分布可由多个高斯模型的混合310表示。多个高斯模型的混合310可按中级属性进行分类。与每个中级属性相应的脸部的分布可由多个高斯模型 320表示。例如，多个高斯模型的混合310可被分类为h=l(其中，性别对应为男性)的情况的高斯模型、h = 2(其中，性别对应为女性）的情况的高斯模型、h = 3(其中，种族对应为非洲人）的情况的高斯模型、h = 4(其中，种族对应为亚洲人）的情况的高斯模型、W及h = 5(其中，种族对应为白种人)的情况的高斯模型。
[0051] 中级属性可比低级属性(例如，像素值)更稳定。因此，通过针对每个中级属性执行强化学习（intensive learning)，可提高识别准确度。
[0052] 图4示出根据至少一些示例实施例的多任务训练的原理。参照图4,训练器120可将脸部图像410输入至到目前为止训练的识别器420。例如，训练器120可从脸部图像410提取特征向量，并将提取的特征向量输入到识别器420中。
[0053] 识别器420可基于输入值产生与多个元素相应的输出值。识别器420可包括人工神经网络(例如，深度卷积神经网络(DCNN))。稍后将参考图5详细描述DC順。
[0054] 人工神经网络可包括输入层、隐藏层和输出层。每个层可包括多个节点，相邻层之间的节点可基于连接权重彼此连接。每个节点可基于激活模型进行操作。与输入值相应的输出值可基于激活模型被确定。预定的或者期望的节点的输出值可被输入到与相应节点连接的下一层的节点中。下一层的节点可接收从多个节点输出的值。在将预定的或者期望的节点的输出值输入到下一层的节点的过程中，可应用连接权重。下一层的节点可基于激活模型将与输入值相应的输出值输出到与相应节点连接的下一层之下的层的节点。
[0055] 输出层可包括与多个元素相应的节点。输出层的节点可输出与多个元素相应的特征值。如将在W下描述的，从人工神经网络输出的特征值可通过用于所述多个元素的线性分类器被转换为元素。训练器120可知道在脸部图像410中标记的实际元素。因此，训练器 120可计算实际元素与通过识别器420预测的元素之间的损失（loss)430。
[0056] 训练器120可通过使用反向传播更新识别器420W减少损失430。例如，训练器120 可W沿反方向从识别器420中的人工神经网络的输出层经由隐藏层向输入层传播损失430。当损失430沿反方向被传播时，节点之间的连接权重可被更新W减少损失430。如上所述，训练器120可基于与多个元素相应的损失430来训练识别器420。更新后的识别器440可用于下一训练期（邱och)，并且W上描述的多任务训练操作可被迭代地执行，直至损失430少于预定的或者期望的阔值。
[0化7] 图5示出根据至少一些示例实施例的DC順的示例。参照图5,根据至少一些示例实施例的DO^N可包括卷积层510、全连接层520、损失层530。卷积层510可对应于识别器的滤波模块，滤波模块被配置为对输入图像进行滤波。卷积层510可包括卷积滤波层、池化(pool ing)层，或者它们的组合。例如，卷积层510可包括第一卷积滤波层、第一池化层、第二卷积滤波层、第二池化层、第Ξ卷积滤波层、W及第Ξ池化层。
[0058] 在第一卷积滤波层中，卷积滤波可通过使用8X8大小的64个滤波器来执行。运64 个滤波器中的每个可对预定的或者期望的边缘进行滤波。作为卷积滤波的结果，可产生与所述滤波器相应的64个滤波图像。第一卷积滤波层可包括包括在64个滤波图像中的节

完整全部详细技术资料下载

当前第2页1 2 3 4 5