
Sign up to save your podcasts
Or
相信今天大家都已习惯了每天使用搜索引擎的生活,但是你是否思考过搜索引擎是如何把网络中的信息和我们的信息需求相匹配并展示出来的呢?
举个例子,隔壁老王想给我买一台新iPhone来讨我欢心,就上百度查价格,他在搜索框输入了iPhoneX售价,此时经过0.几秒的一瞬间,老王就看到了几百万个网页链接,在这电光火石的一瞬间,度娘难道去互联网世界翻箱倒柜了嘛,并没有。搜索引擎靠的是两大技术支撑,一个叫爬虫,一个叫索引。爬虫的英文原称号是robot,但是因为它是一个可以从任何网页出发,使用各种算法自动访问到每一个网页并把它们存起来,我们中文给他了一个很形象的名字——爬虫。我们每个网页里都有各种超链接,爬虫只要得到一个网页,跟随超链接使用深度优先或广度优先算法,因为整个互联网是想通的,所以就可以得到非常多的数据,实际中谷歌和百度的网络爬虫是一个有千百万台服务器组成的分布式系统,他们协同工作几乎下载了整个互联网的静态内容,注意是静态内容,也就是说在爬虫得到新的网页之前,你是搜不到新内容的,得到了这么多的数据,这时候你要查询某个关键词在哪里的时候怎么办,最简单的方法是把这些内容从头看一遍,但是内容实在是太多了,可能要看到地老天荒,这时候怎么办呢,就轮到索引上场啦,索引将告诉你比如说iPhone这个单词在哪里出现,出现了几次,分别在什么位置,通过解析和处理整理成数据结构,每到一段时间就会重新生成新的索引,避免信息过时。当然,搜索引擎还有各种连小航也不懂的神马运算呀、矩阵呀、映射balabala的,在此就不多聊啦,说回正经的,老王得到了搜索几百万条搜索结果,怎么给他展现在搜索列表里呢,一般来说,搜索引擎有几个排序原则,主要是谁给我钱谁在前面,谁浏览量多谁在前面和谁最近更新谁在前面,但搜索引擎从创建那一刻就需要巨大的资源并且每分每秒都在奔命与互联网世界的边边角角,他不是雷锋,也要生存,所以大家要明白一个道理,通常你搜出来的信息,并不是你想看到的信息,而是搜索引擎想让你看到的信息,在生活中要格外擦亮双眼,免得被骗哦
相信今天大家都已习惯了每天使用搜索引擎的生活,但是你是否思考过搜索引擎是如何把网络中的信息和我们的信息需求相匹配并展示出来的呢?
举个例子,隔壁老王想给我买一台新iPhone来讨我欢心,就上百度查价格,他在搜索框输入了iPhoneX售价,此时经过0.几秒的一瞬间,老王就看到了几百万个网页链接,在这电光火石的一瞬间,度娘难道去互联网世界翻箱倒柜了嘛,并没有。搜索引擎靠的是两大技术支撑,一个叫爬虫,一个叫索引。爬虫的英文原称号是robot,但是因为它是一个可以从任何网页出发,使用各种算法自动访问到每一个网页并把它们存起来,我们中文给他了一个很形象的名字——爬虫。我们每个网页里都有各种超链接,爬虫只要得到一个网页,跟随超链接使用深度优先或广度优先算法,因为整个互联网是想通的,所以就可以得到非常多的数据,实际中谷歌和百度的网络爬虫是一个有千百万台服务器组成的分布式系统,他们协同工作几乎下载了整个互联网的静态内容,注意是静态内容,也就是说在爬虫得到新的网页之前,你是搜不到新内容的,得到了这么多的数据,这时候你要查询某个关键词在哪里的时候怎么办,最简单的方法是把这些内容从头看一遍,但是内容实在是太多了,可能要看到地老天荒,这时候怎么办呢,就轮到索引上场啦,索引将告诉你比如说iPhone这个单词在哪里出现,出现了几次,分别在什么位置,通过解析和处理整理成数据结构,每到一段时间就会重新生成新的索引,避免信息过时。当然,搜索引擎还有各种连小航也不懂的神马运算呀、矩阵呀、映射balabala的,在此就不多聊啦,说回正经的,老王得到了搜索几百万条搜索结果,怎么给他展现在搜索列表里呢,一般来说,搜索引擎有几个排序原则,主要是谁给我钱谁在前面,谁浏览量多谁在前面和谁最近更新谁在前面,但搜索引擎从创建那一刻就需要巨大的资源并且每分每秒都在奔命与互联网世界的边边角角,他不是雷锋,也要生存,所以大家要明白一个道理,通常你搜出来的信息,并不是你想看到的信息,而是搜索引擎想让你看到的信息,在生活中要格外擦亮双眼,免得被骗哦