摘要: 数据中存在扭曲是指不同的输入特征向量可能表示相同的实体,该问题是机器学习领域存在已久的困难之一。对上述问题的研究促进了不变机器学习中诸如能够忽略图像中的平移、旋转、光照和姿态变化等方法的发展。这些方法通常使用预定义的不变特征或不变核,并且需要设计者仔细分析数据中可能存在的扭曲的类型。对于图像数据来说,我们很容易发现其可能存在的扭曲的类型,但对于其它领域的数据却比较困难。本文的目标是在任何关于非图像数据中扭曲的类型的信息都未知的情况下,只基于任意两个样本是否为同一实体的扭曲变体的信息,从数据中学习不变表示。理论上,给定足够多的样本,标准的神经网络结构应该能从数据中学习不变性。实际中,我们通过实验发现,标准的神经网络即使学习去近似一个简单类型的不变表示都是困难的。因此,本文提出一个新的扩展层,其具有更丰富的输出表示,更适合从数据中学习不变表示。
中图分类号: