dede怎么做视频网站cps推广接单平台
原文网址:SEO系列--robots.txt的用法-CSDN博客
简介
本文介绍网站的robots.txt文件的用法。
Robots是站点与搜索引擎爬虫沟通的重要渠道,站点通过robots文件声明本网站中不想被搜索引擎抓取的部分或者只让搜索引擎抓取指定内容。
搜索引擎使用spider(爬虫)程序自动获取网页信息。spider访问网站时,首先检查该网站根域下是否有robots.txt的纯文本文件,比如:https://example.com/robots.txt。
如果robots.txt不存在或者为空文件,表示允许所有的搜索引擎robot访问和收录。
robots.txt文件格式
robots.txt文件放置于根目录下,比如:https://example.com/robots.txt,包含一条或更多的记录,这些记录通过回车分割。
一条记录的格式如下所示:
<field>:<optional space><value><optionalspace>
- 可以使用#进行注解
- 通常以一行或多行User-agent开始,后面加上若干Disallow和Allow行
通配符
可以使用通配符*和$来模糊匹配url。
*:匹配0或多个任意字符
$:匹配行结束符。
User-agent
该项的值用于描述搜索引擎robot的名字。至少要有一条User-agent记录。如果有多条User-agent记录说明有多个robot会受到"robots.txt"的限制。
如果设为*,则允许所有robot访问。即:User-agent:*。(这样的记录只能有一条)。
如果加入"User-agent:SomeBot"和若干Disallow、Allow行,那么名为"SomeBot"只受到"User-agent:SomeBot"后面的 Disallow和Allow行的限制。
Disallow
表示不希望被访问的一组URL,这个值可以是一条完整的路径,也可以是路径的非空前缀。
例如:
- Disallow:/help:禁止robot访问/help.html、/helpabc.html、/help/index.html
- Disallow:/help/:允许robot访问/help.html、/helpabc.html,不能访问/help/index.html。
Allow
表示允许访问的一组URL,与Disallow项相似,这个值可以是一条完整的路径,也可以是路径的前缀。
例如:
- Allow: /hibaidu:允许robot访问/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。
Sitemap
表示站点地图的地址:
Sitemap: https://abc.com/mysitemap.txt
对于百度来说,支持以下两种Sitemap格式:
- txt文本格式
- xml格式
示例
最常用的配置
User-agent: *
Allow: /
Disallow: /*?*Sitemap: https://abc.com/mysitemap.xml
例1.允许所有的robot访问
User-agent: *
Allow: /
(或者也可以建一个空文件robots.txt)。
一般情况下,防止参数里有垃圾信息,导致网站收录量变少或被ban,要禁止带参数:
User-agent: *
Allow: /
Disallow: /*?*
例2.禁止所有搜索引擎访问网站的任何部分
user-agent: *
Disallow: /
例3.仅禁止Baiduspider访问您的网站
user-agent: Baiduspider
Disallow: /
例4.仅允许Baiduspider访问您的网站
User-agent: Baiduspider
Allow: /User-agent:*
Disallow: /
例5.仅允许Baiduspider以及Googlebot访问
User-agent: Baiduspider
Allow: /User-agent: Googlebot
Allow: /User-agent: *Disallow: /
例6.禁止spider访问特定目录
User-agent: *
Disallow: /cgi-bin/
Disallow: /~joe/
在这个例子中,该网站有三个目录对搜索引擎的访问做了限制,不允许robot访问这三个目录。需要注意的是:对每一个目录必须分开声明,而不能写成这样:Disallow: /cgi-bin/ /temp/
例7.允许访问特定目录中的部分url
User-agent: *
Allow:/tmp/hi
Allow: /~joe/look
Allow: /cgi-bin/see
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
例8.使用*限制访问url
禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。
User-agent: *
Disallow: /cgi-bin/*.htm
例9.使用$限制访问url
仅允许访问以.htm为后缀的URL。
User-agent: *
Allow: *.htm$
Disallow: /
例10.禁止Baiduspider抓取网站上所有图片
仅允许抓取网页,禁止抓取任何图片。
user-agent: Baiduspider
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /".pngs
Disallow: /*.bmps
例12.仅允许Baiduspider抓取网页和.gif格式图片
允许抓取网页和gif格式图片,不允许抓取其他格式图片
User-agent: Baiduspider
Allow: * .gif$
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.png$
Disallow: /*.bmp$
例13.仅禁止Baiduspider抓取.Jpg格式图片
User-agent: Baiduspider
Disallow: /*.jpg$