2019-05-05 22:50:07 智東西

智东西（公众号：zhidxcom）编 | 王小溪

导语：时隔一年，谷歌发布了Google-Landmarks-v2，其中包含了500万张照片和20多万个地标图像。

智东西5月5日消息，据外媒报道，谷歌发布了一个更大的开源地标识别语料库Google-Landmarks-v2，其中包含了500万张照片和20多万个地标图像，照片数量是谷歌去年发布的全世界最大的Google-Landmarks数据集中照片数量的两倍，地标图像是去年的七倍。这标志着谷歌向更复杂的地标检测计算机视觉模型的目标迈出了重要的一步。

此外，谷歌还在其机器学习社区Kaggle上推出了两项比赛：地标识别赛（Landmark Recognition 2019）和地标检索赛（Landmark Retrieval 2019），并发布了区域图像检索框架Detect-to-Retrieve的源代码和模型。

地标识别赛是让参赛者设计地标识别AI模型，地标检索赛让参赛者用AI系统查找显示目标地标的图像。比赛奖金达5万美元，并且获胜团队将被邀请参加2019年计算机视觉和模式识别会议第二次地标识别研讨会。

一、Google-Landmarks-v2：500万张照片、20万地标图像

根据Google AI软件工程师Bingyi Cao和Tobias Weyand的说法，Google-Landmarks-v2包含了超过500万张来自世界各地摄影师收集的20多万个不同地标的图像。所提交的照片中，有问题的照片标出了照片中所含的景点，比如新天鹅堡（Neuschwanstein Castle）、金门大桥（Golden Gate Bridge）、清水寺（Kiyomizu-dera）、哈利法塔（Burj Khalifa）、吉萨大狮身人面像（Great Sphinx of Giza）、马丘比丘（Machu Picchu）和其他著名景点。然后，谷歌研究人员用来自Wikimedia Commons、维基媒体基金会（Wikimedia Foundation）中的历史性的、鲜为人知的免费图像、声音等对这些问题照片做了补充。

Cao和Weyand写道：“实例识别和图像检索方法不管是在图像数量还是地标种类上都需要更大的数据集，以便训练更好、更强大的系统。我们希望这个数据集（Google-Landmarks-v2）能够帮助推进实例识别和图像检索技术的进步。”

▲Google-Landmarks-v2中地标位置的热图。

二、Detect-to-Retrieve框架

Detect-to-Retrieve是一种区域图像检索框架。Cao和Weyand表示，这个框架是由8000个原始地标数据组成的数据集训练而成，它利用来自物体检测模型的边界框来为包含感兴趣项目的图像区域提供“额外的权重”，从而显著提高了准确性。关于区域图像检索框架Detect-to-Retrieve的详细信息，可参考论文《Detect-to-Retrieve: Efficient Regional Aggregation for Image Search》。

在论文中，研究者首先提供基于谷歌Landmarks数据集的新的地标边界框数据集来填补，其中包括来自15000个独特地标的94000张图像。然后，他们展示了用新数据集来训练的地标探测器模型，它可用来索引图像区域并提高检索准确性。在此外，研究者进一步介绍了一种新的区域聚合匹配内核（R-ASMK）的方法，利用边界框选定的图像区域，对局部特征贡献进行有效的重新加权，强调最终图像表示中的相关视觉模式。在不增加内存成本的情况下，显著提升图像检索精度，甚至优于独立索引图像区域的系统。

他们提出的区域聚合方法概述：从图像中提取出深色的局部特征部分（星星表示）和对象区域（框表示）。区域聚合分两步进行，使用大型码本视觉词（描绘红色和黄色视觉词）：首先，用VLAD算法（(Vector of Aggragate Locally Descriptor)）对图中的每个区域中进行描述；第二，将总和池和每视觉词归一化。最终的区域聚合图像表示可以组合到选择性匹配内核并提供改进的图像相似性估计：研究人员将此技术称为区域聚合选择性匹配内核（R-ASMK）。