2.2、页面搜集原理、技术和系统-搜集过程_互联网营销师_火才教育

互联网营销师报名网

互联网行业新风口

2.2、页面搜集原理、技术和系统-搜集过程

2011年11月28日侵权/举报

了解了一些页面搜集的基础知识后，我们来看看搜索引擎搜集一个页面的整个过程是怎么进行的。

下图是搜索引擎搜集网页的过程流程图：

搜索引擎搜集网页过程

调度器是整个搜集过程的核心，它内部保存有一个已访问URL库和未访问URL库，统称URL库。一开始调度器会从未访问URL库中取出一条URL，分配给蜘蛛，让蜘蛛去抓取未抓取过的URL。
当一个蜘蛛得到URL的时候，它会向这个URL发出请求抓取，流程是：对该URL对应的域名进行DNS解析 -> 得到IP进行Socket连接 -> 连接成功发出http请求 -> 接收网页信息。
蜘蛛得到网页信息后，会返回源代码给调度器，调度器会将源代码保存到网页数据库中。
调度器还会对抓取到的网页进行链接提取，将未抓取过的URL存放到未访问URL库中，并将刚刚抓取完的URL更新到已抓取URL库中。

小结

上述讲的都是搜索引擎网页抓取的整个过程，过程虽简单，但是一些细节上的问题还是存在的，比如如何避免网页重复搜集，如何首先搜集重要的网页等等，黄聪会在之后的章节做解答，下一节我们来看《2.3、页面搜集原理、技术和系统--天网存储结构定义》。

有什么问题？可在线提问！

互联网营销师讲师证书 2022-07-27

互联网可以考吗 2022-05-11

学历为高中肄业可以考吗? 2022-04-09

最新资讯 更多

高质量！硬实力！振兴路上福菌突起 2023-06-08 吉林省全力打造千亿级食药用菌产业 2023-06-08 2023年邕台就业创业实训交流活动 2023-05-18 广西农职大经管学院与托宝电商实训 2023-05-18 公众号怎么发布内容，微信公众号怎么发布内容？ 2022-10-20 公众号怎么推广和引流，公众号怎么推广和引流呢？ 2022-10-20

资讯更多

网络短视频内容审核标准细则（2021） 2021-12-16 人社部公示电子商务师国家职业技能标准4-01-02-02 2021-09-30 网络营销与直播电商专业 2021-09-02 新媒体主播从业资格证 2021-08-31 互联网营销师证书颁发机构是哪个？ 2021-06-13 非相关专业可以考互联网营销师证书吗？ 2021-06-13

热门话题

伊春互联网营销师上岗证书

宝坻互联网营销师

鄂州互联网营销师培训

带货网红已正名互联网营销师

广西简阳互联网营销师

白银互联网营销师证书培训

苏州哪里互联网营销师培训

互联网营销师初级证有用吗

互联网营销师央视新闻

互联网营销师选什么专业

联系我们