网站建设新闻

网站建设分享robots.txt

2020-03-20 14:39:31 合肥网站建设制作网络公司

网站建设分享robots.txt 是搜索引擎的一个程序, 俗称“电脑机器人” 或“搜索引擎蜘蛛", 搜索引擎就是通过这些 robot 在网上沿着网页链接不断抓取资料,并 建立自己的数据库的,不  同 的 robot , 其爬行和抓取网页的方式和功能不同, 这就是为什么  Google  、百度、雅虎等搜索同一个关键词的时候, 为什么出现不一样的搜索结果页面。很显然, robot   对搜索引擎和搜索排名是有很大的影响的。
1.网站建设分享robots语法
搜索引擎使用搜索引擎蜘蛛程序自动访问互联网上的网页并获取网页信息。spider在访问一个网站时,首先 会检查该网站的根域下是否有一个叫做 robots.txt 的纯文本文件, 这个文件用于指定 spider 在你网站上的抓取范围。如果该文件不存在或者为空,那 么 搜索机器人就沿着链接抓取。
另外, robots.txt 必须放置在一个站点的根目录下, 而且文件名必须全部小写。
 
2.robots文件的语法
-begging-----
 
# Robots.txt  file from http://www.xxx.com
# All robots will spider the domain User-agent:*
Disallow:
 
------ending-- 其意思为:接受所有的搜索引擎。具体语法分析:
#后面文字为说明信息;
User-agent: 后面为搜索机器人的名称,后面如果是*,则泛指所有的搜索机器人;
Disallow: 后面为不允许访问的文件目录;
Allow: 后面为允许访问的文件目录。
3. 网站建设分享robots的功能
我们在进行网站优化时,通常情况下是希望网站抓取和收录的信息越多越好,但有时候根    据网站商业需求或其他需求,把一些无用链接,以及重要文件、二级目录(如网站后台管理)    进行保密,如果涉及国家机密,甚至对整个网站都需要进行保密,只能让内部人员使用。对于    这些信息, 我们是不希望蜘蛛抓取和收录的,这 个 时 候 就 可以利用 robots.txt 功能进行屏蔽,以防重要文件被外人所看到。
可以通过 robots.txt 语法来设置 robots.txt 的功能特征, robots.txt
禁止所有搜索引擎访间网站的任何部分 User-agent: •
Disallow:/
允许所有的 robot 访问 User-agent: • Disallow:
或者
User-agent: • Allow:/
仅禁止 Baiduspider 访问你的网站 User-agent: Baiduspider
Disallow:/
 
仅允许 Baiduspider 访问你的网站 User-agent: Baiduspider Disallow:
User-agent: •
Disallow:/
 
禁止 spider 访问特定目录 User-agent: • Disallow: /cgi-bin/ Disallow: /tmp/
Disallow: 1-joe/
允许访问特定目录中的部分 url User-agent: • Allow: /cgi-bin/see Allow: /tmp/hi Allow:  Hoe/look
Disallow: /cgi-bin/
允许访间特定目录中的部分 url Disallow: /tmp/
Disallow: 1-joe/
使用..... 限制访问 url
禁止访问/cgi-bin/目录下的所有以 ".htm" 为后缀的 URL (包含子目录)。 User-agent: •
Disallow: /cgi-bin/*.htm
 
使用 "$" 限制访问 url
仅允许访问以 ".htm" 为后缀的 URL User-agent: • Allow: .htm$
Disallow:/
禁止访问网站中所有的动态页面 User-agent: •
Disallow: /*?*
 
 
禁止 Baiduspide r 抓取网站上所有图片仅允许抓取网页,禁止抓取任何图片 User-agent: Baiduspider Disallow: .jpg$ Disallow: .jpeg$ Disallow: .gif$ Disallow: .png$
Disallow: .bmp$
 
 
 
 

关于网站建设公司

网站模板超市

网络公司案例

15375431506

网络公司咨询:周一至周日 08:00~21:00