当前位置：首页 > news >正文

dede怎么做视频网站cps推广接单平台

news 2025/7/4 14:18:19

dede怎么做视频网站,cps推广接单平台,建网站做外贸,多国语言网站模板原文网址：SEO系列--robots.txt的用法-CSDN博客简介本文介绍网站的robots.txt文件的用法。 Robots是站点与搜索引擎爬虫沟通的重要渠道，站点通过robots文件声明本网站中不想被搜索引擎抓取的部分或者只让搜索引擎抓取指定内容。搜索引擎使用spider…

原文网址：SEO系列--robots.txt的用法-CSDN博客

简介

本文介绍网站的robots.txt文件的用法。

Robots是站点与搜索引擎爬虫沟通的重要渠道，站点通过robots文件声明本网站中不想被搜索引擎抓取的部分或者只让搜索引擎抓取指定内容。

搜索引擎使用spider（爬虫）程序自动获取网页信息。spider访问网站时，首先检查该网站根域下是否有robots.txt的纯文本文件，比如：https://example.com/robots.txt。

如果robots.txt不存在或者为空文件，表示允许所有的搜索引擎robot访问和收录。

robots.txt文件格式

robots.txt文件放置于根目录下，比如：https://example.com/robots.txt，包含一条或更多的记录，这些记录通过回车分割。

一条记录的格式如下所示：

<field>:<optional space><value><optionalspace>

可以使用#进行注解
通常以一行或多行User-agent开始，后面加上若干Disallow和Allow行

通配符

可以使用通配符*和$来模糊匹配url。

*：匹配0或多个任意字符
$：匹配行结束符。

User-agent

该项的值用于描述搜索引擎robot的名字。至少要有一条User-agent记录。如果有多条User-agent记录说明有多个robot会受到"robots.txt"的限制。

如果设为*，则允许所有robot访问。即：User-agent:*。（这样的记录只能有一条）。

如果加入"User-agent:SomeBot"和若干Disallow、Allow行，那么名为"SomeBot"只受到"User-agent:SomeBot"后面的 Disallow和Allow行的限制。

Disallow

表示不希望被访问的一组URL，这个值可以是一条完整的路径，也可以是路径的非空前缀。

例如：

Disallow:/help：禁止robot访问/help.html、/helpabc.html、/help/index.html
Disallow:/help/：允许robot访问/help.html、/helpabc.html，不能访问/help/index.html。

Allow

表示允许访问的一组URL，与Disallow项相似，这个值可以是一条完整的路径，也可以是路径的前缀。

例如：

Allow: /hibaidu：允许robot访问/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。

Sitemap

表示站点地图的地址：

Sitemap: https://abc.com/mysitemap.txt

对于百度来说，支持以下两种Sitemap格式：

txt文本格式
xml格式

示例

最常用的配置

User-agent: *
Allow: /
Disallow: /*?*Sitemap: https://abc.com/mysitemap.xml

例1.允许所有的robot访问

User-agent: *
Allow: /

(或者也可以建一个空文件robots.txt)。

一般情况下，防止参数里有垃圾信息，导致网站收录量变少或被ban，要禁止带参数：

User-agent: *
Allow: /
Disallow: /*?*

例2.禁止所有搜索引擎访问网站的任何部分

user-agent: *
Disallow: /

例3.仅禁止Baiduspider访问您的网站

user-agent: Baiduspider
Disallow: /

例4.仅允许Baiduspider访问您的网站

User-agent: Baiduspider
Allow: /User-agent:*
Disallow: /

例5.仅允许Baiduspider以及Googlebot访问

User-agent: Baiduspider
Allow: /User-agent: Googlebot
Allow: /User-agent: *Disallow: /

例6.禁止spider访问特定目录

User-agent: *
Disallow: /cgi-bin/
Disallow: /~joe/

在这个例子中,该网站有三个目录对搜索引擎的访问做了限制，不允许robot访问这三个目录。需要注意的是：对每一个目录必须分开声明，而不能写成这样：Disallow: /cgi-bin/ /temp/

例7.允许访问特定目录中的部分url

User-agent: *
Allow:/tmp/hi
Allow: /~joe/look
Allow: /cgi-bin/see
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/

例8.使用*限制访问url

禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。

User-agent: *
Disallow: /cgi-bin/*.htm

例9.使用$限制访问url

仅允许访问以.htm为后缀的URL。

User-agent: *
Allow: *.htm$
Disallow: /

例10.禁止Baiduspider抓取网站上所有图片

仅允许抓取网页,禁止抓取任何图片。

user-agent: Baiduspider
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /".pngs
Disallow: /*.bmps

例12.仅允许Baiduspider抓取网页和.gif格式图片

允许抓取网页和gif格式图片,不允许抓取其他格式图片

User-agent: Baiduspider
Allow: * .gif$
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.png$
Disallow: /*.bmp$

例13.仅禁止Baiduspider抓取.Jpg格式图片

User-agent: Baiduspider
Disallow: /*.jpg$

查看全文

http://www.ritt.cn/news/3950.html

男的做直播网站nba最新排名

潍坊市建设局官方网站营销网络是什么意思

吉林省公共资源交易信息网企业网站seo

wordpress分页加载seo关键词优化技巧

哪些做任务的网站靠谱成免费crm软件有哪些优点

简介

robots.txt文件格式

User-agent

Disallow

Allow

Sitemap

示例

相关文章：