摘要: 随着大数据时代的到来,互联网上的数据呈爆炸式增长,如何精准高效地从海量数据中检索出感兴趣的信息,是当下亟需解决的问题。目前主流的图文跨模态检索模型架构主要基于双编码器或融合编码器,前者分别将图片和文本进行编码,然后计算图文间向量的相似度距离,虽然检索效率较高,但精度不足;后者通过对图文数据进行联合编码得到图文之间的相似度分数,检索精度较高,但效率低下。针对上述模型架构存在的问题,本文提出一种基于预训练模型和编码器的图文跨模态检索算法。首先,提出一种召回排序策略,使用双编码器实现粗略召回,再使用融合编码器实现精准排序;其次,提出了一种基于多路Transformer预训练模型构建双编码器和融合编码器的方法,实现图文之间高质量的语义对齐,提升检索性能。在两个公开数据集MSCOCO和Flickr30k上的实验证明了所提算法的有效性。
中图分类号: