网站建设新闻

网站建设网络蜘蛛的基本原理

2020-03-19 12:40:42 合肥网站建设制作网络公司
要想了解网站建设收录,首先要了解网络蜘蛛的基本工作原理。网络蜘蛛又称为网络机器人,英文名字叫Web Spider, 这是一个非常形象的名字,如果把互联网比喻成一个蜘蛛网,那么Spider
就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,从网站的某个页面(通常是首页)开始,读取网页的内容,找到在网页中其他链接地址,然后通过这些链接地址寻  找下一个网页,如此循环下去,直到把这个网站所有的网页都抓取完。
网络蜘蛛
网站建设者更愿意把网络蜘蛛称为抓取机器人,这是因为网络蜘蛛在抓取所有的页面文件之后, 会把抓取到的文件存入数据库,可以把这个数据库比作为一个非常庞大的 Excel 表格,这个 Excel 表格的每一行就代表一个网页,而网页的文字则被分解到每个单元格里。
网站建设者认为当用户在搜索引擎界面中输入关键词时,搜索引擎程序就会对搜索词进行处理,从搜索引擎数据库找到所有包含搜索词的页面,并根据排名算法计算出各个网页的排名。对于这个“搜索词处理” 的 环节, 就好像在一个庞大的虚拟的 Excel 表格进行 ”条件筛选” 的 过程, 当然整个搜索引擎的过程比这复杂得多。
网络蜘蛛在抓取网页时, 一般网站建设者认为有两种策略: 广度优先和深度优先。
广度优先的抓取顺序,
A- B C.DE F — H. G— ]
 
深度优先的抓取顺序
A- F—G
E-H-I
 
网络蜘蛛抓取网页策略
( 1 )广度优先
网站建设者认为广度优先是指网络蜘蛛会先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页。这是最常用的方式,因为这个方法可以让网络蜘蛛并行处理,提高其抓取速度。
( 2 )深度优先
 
网站建设者认为深度优先是指网络蜘蛛会从起始页开始,一个链接一个链接地跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。这个方法有一个优点就是网络蜘蛛在抓取的时候比
网站的收录较容易。
每个网络蜘蛛都有自己的名字, 在抓取网页时,都 会向网站表明自己的身份。例如 Google网络蜘蛛称为 Google Bot, 百度网络蜘蛛称为 BaiDuSpider , 雅虎网络蜘蛛称为 Inktomi S lu rp 等。
 

关于网站建设公司

网站模板超市

网络公司案例

15375431506

网络公司咨询:周一至周日 08:00~21:00