机器学习 | 机器学习能在互联网搜索的哪些环节起什么作用

又到新开学了,我打开了刚刚看完第一章的西瓜书,这个问题就出来了,我跃跃欲试。我先将这个问题定义为:机器学习在搜索引擎上的应用

维基百科:搜索引擎(英语:search engine)是一种信息检索系统,旨在协助搜索存储在计算机系统中的信息。

搜索引擎

我们先得明白搜索引擎都干了啥,然后看哪些部分可以用机器学习来提高用户体验的,下图出自:第 1 章 搜索引擎是如何工作的

构成搜索引擎的全部要素
1、文档管理器:存储作为检索对象的文档。当查询到相匹配的文档时,会取出该文档的一部分作为摘要。
2、索引构建器:从检索对象的文本文档中构建文本的索引。
3、索引管理器:管理带有索引结构的数据,索引结构是一种用于进行高速检索的数据结构。
4、索引检索器:利用用户的查询进行文本检索,并根据某种规则进行排序并将结果返回给应用。

除了以上的组建除外,一个完整的搜索引擎还包括:爬虫、搜索排序系统。

因为我们只是大致地了解一下机器学习在搜索引擎上的作用,所以关于搜索引擎的部分就先讲到这,然后来看看哪些地方可以优化。

机器学习对搜索引擎可进行哪些优化

根据搜索引擎的结构,我们可以进行以下的机器学习优化

  1. 文档管理器:生成更精准的摘要。本质就是文档摘要的自动生成,涉及深度学习、神经网络、NLP
  2. 索引构建器:索引构建已很成熟,但我发现仍有学者将机器学习应用于这部分,主要是用机器学习算法代替标准哈希函数,但效果还不太好[3]。
  3. 索引管理器:暂无。
  4. 索引检索器:这里涉及查询与文本间的匹配,以及搜索结果的排序,也是直接面向用户的部分。

综上分析,我们主要来看索引检索器的部分,这部分可以有哪些优化呢:

  1. 搜索引擎直接给出搜索的答案:这里用到神经网络,它可以通过分析大量数据从而完成特定的任务,如从相关网页中获取长句子和段落,然后提出有关问题答案的信息。
直接给出答案

2. 直接进行图片、视频(等多元数据)的搜索:图片的识别已经是常见的技术了,那直接从视频中提出信息呢?谷歌推出Video Intelligence API,不仅可以从视频中提取特定的信息,还能总结视频的脉络、记录视频中的场景,从而对视频进行准确的分类。

3. 更精准的排序(也可成为「精准营销」的部分):如使用神经网络、决策树等为基础的网页排序算法:RankNet, LambdaRank 和LambdaMART。2015年,谷歌推出RankBrain,它可以选择最适合当前搜索类型的结果,相当于为每个搜索都提供个性化的算法组合。

4. 对用户行为进行综合分析(如历史搜索数据、点击模式、身份信息等进行结构化信息整合):更多使用在电子商务的搜索系统中。这在电商网站中的使用,应该是很盛行的,但具体没有调研过。

5. 对话式智能交互搜索:如Baidu的语音搜索、利用Siri进行搜索又或者是Google Assistant等。涉及自然语言处理、知识图谱及神经网络等内容。

小爱能够回答的问题

6. 对垃圾网站的筛选(模式识别):这部分可以用Outlier的检测来实现,尤其对以前的标题党,或者以前针对算法进行SEO的网站进行甄别。

最理想的模型应该是:搜索引擎成为一个具备不断自我学习和改善的系统。也就是将机器学习应用于搜索引擎的所有方面,一个全自动化的搜索引擎系统。

现在的难点有哪些呢?

  1. 搜索引擎是否真正第理解自然语言查询词及文档的意义,还不得知。
  2. 仍需要大量的人工对相关数据进行标记,尤其需要大量的语言学家进行这方面的工作。
  3. 跨语的搜索精确度的问题,当然这部分也是机器学习能够改善的部分。
  4. 其他的自然语言遇到的问题,例如歧义等,讲到底还是语意的理解。


参考资料:

[1]:第 1 章 搜索引擎是如何工作的

[2]:深度学习之文本摘要自动生成 - CSDN博客

[3]:The Case For Learned Indexes (Google/MIT) (arxiv-vanity.com/papers)

[4]:AI 再造搜索3招:谷歌如何用机器学习和深度学习直接给你答案

[5]:搜索引擎如何使用机器学习:我们需要知道的9种方式 | ATYUN

编辑于 2018-11-06 14:10