首发于误入深度学习

机器学习 | 机器学习能在互联网搜索的哪些环节起什么作用

误入深度学习

又到新开学了，我打开了刚刚看完第一章的西瓜书，这个问题就出来了，我跃跃欲试。我先将这个问题定义为：机器学习在搜索引擎上的应用。

维基百科：搜索引擎（英语：search engine）是一种信息检索系统，旨在协助搜索存储在计算机系统中的信息。

搜索引擎

我们先得明白搜索引擎都干了啥，然后看哪些部分可以用机器学习来提高用户体验的，下图出自：第 1 章搜索引擎是如何工作的

构成搜索引擎的全部要素

1、文档管理器：存储作为检索对象的文档。当查询到相匹配的文档时，会取出该文档的一部分作为摘要。
2、索引构建器：从检索对象的文本文档中构建文本的索引。
3、索引管理器：管理带有索引结构的数据，索引结构是一种用于进行高速检索的数据结构。
4、索引检索器：利用用户的查询进行文本检索，并根据某种规则进行排序并将结果返回给应用。

除了以上的组建除外，一个完整的搜索引擎还包括：爬虫、搜索排序系统。

因为我们只是大致地了解一下机器学习在搜索引擎上的作用，所以关于搜索引擎的部分就先讲到这，然后来看看哪些地方可以优化。

机器学习对搜索引擎可进行哪些优化

根据搜索引擎的结构，我们可以进行以下的机器学习优化

文档管理器：生成更精准的摘要。本质就是文档摘要的自动生成，涉及深度学习、神经网络、NLP
索引构建器：索引构建已很成熟，但我发现仍有学者将机器学习应用于这部分，主要是用机器学习算法代替标准哈希函数，但效果还不太好[3]。
索引管理器：暂无。
索引检索器：这里涉及查询与文本间的匹配，以及搜索结果的排序，也是直接面向用户的部分。

综上分析，我们主要来看索引检索器的部分，这部分可以有哪些优化呢:

搜索引擎直接给出搜索的答案：这里用到神经网络，它可以通过分析大量数据从而完成特定的任务，如从相关网页中获取长句子和段落，然后提出有关问题答案的信息。

直接给出答案

2. 直接进行图片、视频（等多元数据）的搜索：图片的识别已经是常见的技术了，那直接从视频中提出信息呢？谷歌推出Video Intelligence API，不仅可以从视频中提取特定的信息，还能总结视频的脉络、记录视频中的场景，从而对视频进行准确的分类。

3. 更精准的排序（也可成为「精准营销」的部分）：如使用神经网络、决策树等为基础的网页排序算法：RankNet, LambdaRank 和LambdaMART。2015年，谷歌推出RankBrain，它可以选择最适合当前搜索类型的结果，相当于为每个搜索都提供个性化的算法组合。

4. 对用户行为进行综合分析（如历史搜索数据、点击模式、身份信息等进行结构化信息整合）：更多使用在电子商务的搜索系统中。这在电商网站中的使用，应该是很盛行的，但具体没有调研过。

5. 对话式智能交互搜索：如Baidu的语音搜索、利用Siri进行搜索又或者是Google Assistant等。涉及自然语言处理、知识图谱及神经网络等内容。

小爱能够回答的问题

6. 对垃圾网站的筛选（模式识别）：这部分可以用Outlier的检测来实现，尤其对以前的标题党，或者以前针对算法进行SEO的网站进行甄别。

最理想的模型应该是：搜索引擎成为一个具备不断自我学习和改善的系统。也就是将机器学习应用于搜索引擎的所有方面，一个全自动化的搜索引擎系统。

现在的难点有哪些呢？

搜索引擎是否真正第理解自然语言查询词及文档的意义，还不得知。
仍需要大量的人工对相关数据进行标记，尤其需要大量的语言学家进行这方面的工作。
跨语的搜索精确度的问题，当然这部分也是机器学习能够改善的部分。
其他的自然语言遇到的问题，例如歧义等，讲到底还是语意的理解。

参考资料：

[1]:第 1 章搜索引擎是如何工作的

[2]:深度学习之文本摘要自动生成 - CSDN博客

[3]:The Case For Learned Indexes (Google/MIT) (https://www.arxiv-vanity.com/papers/1712.01208/)

[4]:AI 再造搜索３招：谷歌如何用机器学习和深度学习直接给你答案

[5]:搜索引擎如何使用机器学习:我们需要知道的9种方式 | ATYUN

编辑于 2018-11-06 14:10

机器学习（Drew Conway，John Myles White 著）（书籍）

机器学习（周志华著）（书籍）

文章被以下专栏收录

误入深度学习

YannLecun可以让我后悔到没有边界