我们看到了更多有关Google如何在搜索结果中对页面和图像进行排名的机器学习。
这可能会使我们所知道的传统或旧学校排名信号落后。
值得研究那些较旧的排名信号,因为它们可能在排名中发挥作用
当我写这篇关于对图像结果进行排名的新专利时,我决定包括在对图像进行排名时所使用的内容。
图像可以在图像搜索中排名,并且可以帮助页面排名更高,从而使页面与其排名相关的查询词更加相关。
当尝试对图像搜索结果进行排名时,我将包含以下信号:
- 使用反映页面内容的有意义的图像-使它们与查询相关
- 使用与图像有关的图像文件名(我也使用连字符将图像的文件名中的单词分开)
- 使用alt文字作为alt属性可以很好地描述图片,文字与查询相关,并避免关键字填充
- 使用与该页面所涉及的查询字词相关的有用标题
- 在页面上使用标题和相关文本,以了解页面的内容以及图像所显示的内容
- 使用适当大小的图像,且分辨率不误认为是缩略图 这些信号有助于对图像搜索结果进行排名,也有助于对该页面进行排名。
一项新的专利申请使用机器学习对图像搜索结果进行排名。它没有列出帮助图像排名的功能,例如替代文本,标题或文件名。它确实提到了可能包括那些信号以及其他信号的“特征”。
这些机器学习专利可能会在Google上变得更加普遍。
机器学习模型对图像搜索结果进行排名
该机器学习模型可以使用许多不同类型的机器学习模型。
这些模型可以是:
- 深度机器学习(例如,包含许多非线性操作层的神经网络。)
- 其他模型(例如,广义线性模型,随机森林,决策树模型等)。
这种机器学习模型可以为索引数据库中的图像着陆页对准确生成相关性得分。”
该专利告诉我们有关图像搜索系统的信息,其中包括训练引擎。
训练引擎使用来自已经与地面真实性或相关性得分的已知值相关联的图像着陆页对的训练数据来训练机器学习模型。
机器学习模型的一个示例根据图像,登录页面和查询特征为图像搜索结果生成关联分数。在此图像中,搜索者提交图像搜索查询。系统基于用户提交的图像搜索查询生成图像查询功能。
排名图像搜索结果包括图像查询功能
该系统学习由特定图像搜索结果标识的登录页面的登录页面功能以及该图像搜索结果标识的图像的图像功能。
然后,图像搜索系统将查询功能,登录页面功能和图像功能作为输入提供给机器学习模型。
Google可能会根据各种因素对图片搜索结果进行排名
这些可能是来自以下方面的单独信号:
1.图片特征
2.登陆页面的功能
3.按照固定的加权方案组合单独的信号,该方案对于每个接收到的搜索查询都是相同的
该专利描述了如何以这种方式对图像搜索结果进行排名:
1.为图像搜索查询获取许多候选图像搜索结果
2.每个候选图像搜索结果识别相应图像和相应图像的登陆页面
3.对于每个候选图像的搜索结果处理
- 图像搜索查询的功能
- 由候选图像搜索结果识别的各个图像的特征
4.使用图像搜索结果排名机器学习模型,由候选图像搜索结果标识的各个登陆页面的特征,该模型经过训练以生成用于测量候选图像搜索结果与图像搜索查询的相关性的相关性得分
5.根据图像搜索结果排名机器学习模型生成的相关性得分对候选图像搜索结果进行排名
–生成图像搜索结果演示文稿,以显示根据排名排序的候选图像搜索结果
–提供图像搜索结果以供用户设备演示
使用机器学习模型对图像搜索结果进行排名的优势
如果Google可以使用机器学习模型根据相关性得分对图像搜索查询对进行排名,那么它可以响应于图像搜索查询而提高图像搜索结果的相关性。
这与传统的资源排名方法不同,因为机器学习模型会接收单个输入,其中包含图像搜索查询,登录页面和给定图像搜索结果所标识的图像的特征,以预测图像搜索结果与广告资源的相关性。收到查询。
此过程使机器学习模型更具动态性,并以查询特定的方式赋予目标网页功能或图像功能更多的权重,从而提高了返回给用户的图像搜索结果的质量。
通过使用机器学习模型,图像搜索引擎不会对每个接收到的查询的着陆页特征和图像特征应用相同的固定加权方案。相反,它以依赖查询的方式结合了登录页面和图像功能。
该专利还告诉我们,经过训练的机器学习模型可以根据初始信号分布或其他特征的变化,轻松,优化地调整分配给各种特征的权重。
在传统的图像搜索中,我们被告知需要大量的工程工作来基于初始信号分布的变化来调整传统的手动调整模型的权重。
但是,在此获得专利的过程中,基于信号分布的变化来调整训练有素的机器学习模型的权重非常容易,从而提高了图像搜索引擎的维护难度。
此外,如果添加了新功能,则手动调整的功能会根据目标独立调整新功能的功能(即损失功能,同时保持现有功能不变)。
但是,如果添加了新功能,则训练有素的机器学习模型可以自动调整功能权重。
相反,机器学习模型可以包括新功能,并适当地重新平衡其所有现有权重,以针对最终目标进行优化。
因此,可以提高图像搜索引擎的准确性,效率和维护。
排名图像搜索结果专利申请可以在以下位置找到
使用机器学习模型对图像搜索结果进行排名
美国专利申请号16263398申请
日期:31.01.2019
公开号US20200201915
公开日期2020年6月25日
申请人Google LLC
发明人Manas Ashok Pathak,Sundeep Tirumalareddy,Wenyuan Yin,Suddha Kalyan Basu,Shubhang Verma,Sushrut Karanjkar和Thomas Richard Strohmann
抽象
包括编码在计算机存储介质上的计算机程序的方法,系统和装置,用于使用机器学习模型对图像搜索结果进行排名。在一个方面,一种方法包括:从用户设备接收图像搜索查询;以及从用户设备接收图像搜索查询。获取多个候选图像搜索结果;对于每个候选图像搜索结果:使用图像搜索结果排名机器学习模型处理(i)图像搜索查询的特征和(ii)由候选图像搜索结果标识的各个图像的特征,以生成相关性得分,测量候选图像搜索结果与图像搜索查询的相关性;基于相关度得分对候选图像搜索结果进行排名;生成图像搜索结果演示;
索引引擎
搜索引擎可以包括索引引擎和排名引擎。
索引引擎对图像着陆页对进行索引,并将已索引的图像着陆页对添加到索引数据库。
即,索引数据库包括识别图像的数据,并且对于每个图像,包括对应的登陆页面。
索引数据库还将图像登陆页面对与以下内容相关联:
- 图像搜索查询的功能
- 图像的特征,即表征图像的特征
- 登陆页面的功能,即表征登陆页面的功能
可选地,索引数据库还将图像登陆对的集合中的索引的图像登陆页面对与索引的图像登陆页面对的图像搜索引擎排名信号的值相关联。
响应于所接收的搜索查询,排名引擎使用每个图像搜索引擎排名信号来对图像登陆页面对进行排名。
排名引擎根据图像登陆页面对的图像搜索引擎排名信号(例如,从索引数据库访问或在查询时计算得出的信号)的值,为索引数据库中索引的图像登陆页面对生成各自的排名分数,并根据各个排名得分对图片着陆页对进行排名。给定图像着陆页面对的排名得分反映了图像着陆页面对与接收的搜索查询的相关性,给定图像着陆页面对的质量或两者。
图像搜索引擎可以使用机器学习模型来响应接收到的搜索查询对图像着陆页对进行排名。
机器学习模型是一种机器学习模型,配置为接收包含以下内容的输入:
(i)图像搜索查询的特征
(ii)图像的特征和
(iii)图像登录页面的特征,并生成一个相关性分数,该分数可测量候选图像搜索结果与图像搜索查询的相关性。
一旦机器学习模型生成了图像登陆页面对的相关性分数,则排名引擎便可以响应于接收到的搜索查询,使用相关性分数来生成图像登陆页面对的排名性分数。
对图像搜索结果进行排名的过程背后的排名引擎
在一些实施方式中,排名引擎使用索引数据库中的信号为多个图像登陆页面对中的每一个生成初始排名得分。
然后,排名引擎可以选择一定数量的得分最高的图像-着陆对,以供机器学习模型进行处理。
然后,排名引擎可以基于来自机器学习模型的相关性得分对候选图像-着陆页对进行排名,或将那些相关性得分用作调整候选图像的初始排名得分的附加信号-着陆页对。
机器学习模型将接收单个输入,该输入包括图像搜索查询,登录页面和图像的特征,以预测特定图像搜索结果与用户图像查询的相关性(即相关性得分)。
我们被告知,这允许机器学习模型以查询特定的方式对着陆页特征,图像特征或图像搜索查询特征给予更大的权重,这可以提高返回给用户的图像搜索结果的质量。
可用于图像和登录页面以对图像搜索结果进行排名的功能
第一步是接收图像搜索查询。
一旦发生这种情况,图像搜索系统可以识别满足图像搜索查询的初始图像登陆页面对。
它将根据在搜索引擎索引数据库中建立索引的对进行测量,这些信号来自测量对质量的信号以及对与搜索查询的相关性,或两者兼而有之。
对于这些对,搜索系统将识别:
图像搜索查询的功能
图片特征
登陆页面的功能
从图像中提取的特征
这些特征可以包括代表图像内容的向量。
可以通过通过嵌入神经网络处理图像来得出表示图像的向量。
或者这些矢量可以通过其他图像处理技术生成以用于特征提取。特征提取技术的示例可以包括边缘,拐角,脊和斑点检测。特征向量可以包括使用形状提取技术(例如,阈值化,模板匹配等)生成的向量。作为特征向量的替代或补充,当机器学习模型是神经网络时,特征可以包括特征向量的像素数据。图片。
从着陆页提取的功能
这些不是我在历史上优化图像时通常想到的功能。这些功能可以包括:
首次搜寻或更新页面的日期
表征着陆页作者的数据
到达网页的语言
到达网页所属网域的功能
代表着陆页内容的关键字
图片和登录页面链接的功能,例如链接的锚文本或源页面
描述着陆页中图像上下文的功能
依此类推
从着陆页提取的功能描述着陆页中图像的上下文
该专利有趣地将这些功能分开:
表征着陆页内图像位置的数据
着陆页上图像的突出程度
到达网页上图片的文字说明
等等。
有关登陆页面上图像上下文的更多详细信息
该专利指出了一些其他方式可以找到图像在着陆页中的位置:
在水平和垂直方向上使用基于像素的几何位置
基于用户设备的水平和垂直尺寸的长度(例如,以英寸为单位)
基于HTML / XML DOM的类似XPATH的标识符
基于CSS的选择器
等等。
该登陆页面上的图像的显着性可以使用图像的相对尺寸的一般装置和一个特定的用户设备上显示来测量。
着陆页上图像的文本描述可以包括图像的替代文本标签,图像周围的文本等。
从图像搜索查询中提取的功能
图像搜索查询的功能可以包括::
搜索查询的语言
搜索查询中的部分或全部术语
提交搜索查询的时间
提交搜索查询的位置
表征接收查询的用户设备的数据
依此类推
查询,图像和登录页面中的要素如何协同工作
这些特征可以分类或离散地表示
可以通过预先存在的特征来创建其他相关特征(可以通过相加,相乘或其他数学运算的组合来在一个或多个特征之间创建关系。)
对于每个图像着陆页对,系统使用图像搜索结果排名机器学习模型处理功能,以生成相关性得分输出
所述相关性得分测量候选图像搜索结果与图像搜索查询的相关性(即,候选图像搜索结果的相关性得分测量用户提交搜索查询将点击搜索结果或与搜索结果交互的可能性。较高的相关性得分表示提交搜索查询的用户会发现候选图像搜索更相关并单击)
候选图像搜索结果的相关性分数可以是由人类评估者生成的分数的预测,以评估图像搜索查询的结果质量
调整初始排名分数
系统可以基于相关性分数将图像搜索结果的初始排名分数调整为:
促进相关性得分更高的搜索结果
降级相关分数的搜索结果
或两者
训练排名机器学习模型以对图像搜索结果进行排名
该系统接收一组训练图像搜索查询。
对于每个训练图像搜索查询,该查询的训练图像搜索结果分别与地面真理相关性分数相关联。
地面真相相关性得分是应由机器学习模型为图像搜索结果生成的相关性得分(即,当相关性得分衡量用户响应给定搜索查询而选择搜索结果的可能性时,每个地面真相相关性得分可以识别提交给定搜索查询的用户选择了图像搜索结果还是提交给定搜索查询的用户选择图像搜索结果的比例。
该专利提供了另一个可能如何生成真实相关性分数的示例:
当由模型生成的相关性分数是人对分配给图像搜索结果的分数的预测时,地面真实性相关性分数是由人类评估者分配给搜索结果的实际分数。
对于每个训练图像搜索查询,系统可以为每个相关的图像登陆页面对生成特征。
对于这些对中的每对,系统可以标识:
(i)图片搜索查询的
功能(ii)图片的功能和
(iii)登录页面的功能。
我们被告知,在训练或使用机器学习模型之前,可能会提取,生成和选择特征。我在上面列出的与图像,登录页面和查询有关的功能示例。
排名引擎通过处理每个图像搜索查询来训练机器学习模型
图像搜索查询的功能
由候选图像搜索结果识别的各个图像的特征
由候选图像搜索结果标识的各个着陆页的特征以及测量候选图像搜索结果与图像搜索查询的相关性的各个地面真实性相关性
该专利提供了一些特定的实现过程,这些过程可能会根据所使用的机器学习系统而有所不同。
拿走排名图像搜索结果
我提供了一些有关Google过去可能在图像搜索结果排名中使用的功能的信息。
在机器学习方法下,Google可能会更加关注图像查询的功能,图像的功能以及找到这些图像的着陆页的功能。该专利列出了许多这些功能,如果您花时间比较旧功能和机器学习模型方法下的功能,您会发现有重叠之处,但是机器学习方法涵盖了更多的选择。