基于内容的图像检索
此条目没有列出任何参考或来源。 (2017年8月14日) |
基于内容的图像检索(英语:Content-based image retrieval,CBIR;或content-based visual information retrieval),属于图像分析的一个研究领域。基于内容的图像检索目的是在给定查询图像的前提下,依据内容信息或指定查询标准,在图像数据库中搜索并查找出符合查询条件的相应图片。
互联网络上传统的搜索引擎,包括Google、Yahoo以及MSN都推出相应的图片搜索功能,但是这种搜索主要是基于图片的文件名建立索引来实现查询功能(也许利用了网页上的文字信息)。这种从查询文字,文件名,最后到图片查询的机制并不是基于内容的图像检索。基于内容的图像检索指的是查询条件本身就是一个图像,或者是对于图像内容的描述,它建立索引的方式是通过提取底层特征,然后通过计算比较这些特征和查询条件之间的距离,来决定两个图片的相似程度。
技术细节
基于内容的图像检索通常包括以下几个部分:
特征提取
可提取的特征可以包括颜色、纹理、平面空间对应关系、外形,或者其他统计特征。 图像特征的提取与表达是基于内容的图像检索技术的基础。从广义上讲,图像的特征包括基于文本的特征(如关键字、注释等)和视觉特征(如色彩、纹理、形状、对象表面等)两类。视觉特征又可分为通用的视觉特征和领域相关的视觉特征。前者用于描述所有图像共有的特征,与图像的具体类型或内容无关,主要包括色彩、纹理和形状;后者则建立在对所描述图像内容的某些先验知识(或假设)的基础上,与具体的应用紧密有关,例如人的面部特征或指纹特征等。
相似性(非相似性)的定义
从图像中提取的特征可以组成一个向量,两个图像之间可以通过定义一个距离或者相似性的测量度来计算相似程度。
弥补语义鸿沟
在传统的基于文字的查询技术中,不存在这个问题,因为查询关键字基本能够反映查询意图。但是在基于内容的图像查询中,就存在一个底层特征和上层理解之间的差异(这也就是著名的semantic gap)。主要原因是底层特征不能完全反映或者匹配查询意图。弥补这个鸿沟的技术手段主要有:
- 相关反馈(relevance feedback):按照最初的查询条件,查询系统返回给用户查询结果,用户可以人为介入(或者自动)来选择几个最符合他查询意图的返回结果(正反馈),也可以选择最不符合他查询意图的几个返回结果(负反馈)。这些反馈信息被送入系统用来更新查询条件,重新进行查询。从而让随后的搜索更符合查询者的真实意图。
- 建立复杂的分类模型:一些比较复杂的非线性分类模型,比如支持向量机(Support Vector Machine)本身就可以起到一定程度的效果来弥补语义鸿沟。
查询模式
应用和研究
最早成功应用基于内容的图像检索技术的是IBM的QBIC系统。这个系统是为一个俄国博物馆制作的绘画作品查询系统。QBIC系统的网站为IBM的QBIC系统。除了IBM的QBIC系统之外,比系较著名的反向图像搜索统还包括UIUC大学的MARS系统、MIT的Photo book、UC Berkeley的Digital Library Project,加拿大的TinEye.com, 以及Columbia大学的VisualSEEk等。
参见
外部链接
- The GNU Image Finding Tool (GIFT) (页面存档备份,存于互联网档案馆) - an open source query by example CBIRS
- SIMBA - demo of the Search IMages By Appearance system by the Albert-Ludwigs-Universität Freiburg (Germany) - Computer Science Department - Inst. for Pattern Recognition and Image Processing
- Viper Demo - an online demonstration of the GIFT
- LCPD: Leiden 19th-Century Portrait Database - an online database of 19th century studio portraits searchable via CBIR and commonly referenced in the literature