本篇文章1200字,读完约3分钟
百度根目录下的robots协议,所有网页使用robots协议告诉搜索引擎哪些是页面可以抓取,哪些是不允许抓取。robots.txt协议的目的是为了防止网站被收录,同时也告诉搜索引擎哪些网页可以抓取。除了用户自身行为行为的规范化,还会提醒搜索引擎哪些是不允许抓取的,当然百度并不是唯一的机器人,所以我们能够完全控制好网站页面不被收录的,哪些是不允许抓取的。
搜索引擎爬虫的抓取方式和百度机器人是一样的,要根据网站自身情况进行判断,robots协议常见的有以下几种。
站内网页robots.txt在网站的根目录下,会出现一些后缀的index.htm或者default.htm,后缀名就是spider抓取的内容。
由于搜索引擎爬虫是按照网页的重要性进行抓取的,robots.txt文件也是为了能够更好的引导爬虫的抓取,为了方便SEO人员能够更好的理解蜘蛛,所以网站robots文件是必须要有的。
我们在百度站长平台和谷歌站长平台上都会看到,网站的robots协议实际上就是这个样子。
站内网页robots.txt可以分为以下两种。
(1)普通的动态文件,需要特殊对待,不能使用;
(2)网站中一些页面禁止被爬取,比如: 栏目首页禁止抓取等等。
网站中,关于网站robots协议文件是需要放置的。
有很多,这里我就不一一列出来了,每个站的情况不同,可以看到下面几个问题。
1、一般的动态页面的网站如何设置robots文件
1)、robots文件的名称可以使用网站的网址
(2)、robots文件的生成、写法
3、robots文件需要放在网站根目录下,或者使用robots文件禁止访问。
2、一般的动态页面,
(1)、robots文件需要放置在网站根目录下,因为这样会导致网站根目录下的内容被搜索引擎收录。
(2)、robots文件需要放在网站根目录下面,并且还要知道文件夹下的内容是什么
2、robots文件的内容一般有:网站后台
(1)、网站后台,需要写入robots文件的内容,一定要写入,如果写入了,就写入robots文件。
(2)、网站后台代码,需要书写入robots文件的内容,一定要写入,robots文件也一定要写入,robots文件也一定要写入,robots文件也一定要写入。
3、301重定向和404页面
一般大家的301重定向和404页面在后台页面会出现,但是这两种页面是不一样的,所以在后台页面中,我们需要写入301重定向和404页面。
4、alt标签
alt标签主要是用来对图片的描述,alt标签的内容需要在alt标签中含关键词,而不是在标签内堆砌关键词。
二、网站标题、关键词、描述设置
当用户通过搜索引擎来到我们的网站后,看到的就是我们所写的内容,所以在这里我们的标题、关键词、描述中,最好包含关键词。
在我们进行关键词设置的时候,可以适当添加一些核心关键词,但是切记不能堆积。
标题:百度根目录(百度网盘的根目录)
地址:http://www.edungo.net/keji/35887.html