之前,我们在如何写robots.txt文件有谈论到,很多人开始做网站推广、SEO时,可能都还在学习SEO。而在学习SEO的过程中,robots.txt的撰写是不可避免的,所以我们才大概的简单介绍robots.txt的写法。用wordpress来建站的朋友很多,用起来真得很方便,为了达到良好的SEO效果,也是要注意robots.txt的编写。因此,今天来说明如何来写WordPress的robots.txt文件。
在WordPress中阻止Spider爬行一些目录和档案,不但可以有效的节省搜寻引擎对服务器带宽的占用,还可以提高网站在搜寻引擎中的排名。
使用WordPress搭建的博客或网站,利用robots.txt档限制搜寻引擎抓取部分目录及文档,归纳大致有以下几种方法。
最简单的开放写法:
User-agent: *
Disallow:
使用说明:允许所有蜘蛛访问,允许访问所有内容。Wordpress只要范本中连结设计合理,没有需要限制的特殊内容,推荐使用这种写法。
最简单的严格写法:
User-agent: *
Disallow: /wp-*
#Allow: /wp-content/uploads/
Disallow: /*.php$
Disallow: /*.inc$
Disallow: /*.js$
Disallow: /*.css$
Disallow: /?s=
使用说明:允许所有蜘蛛访问,限制以“wp-”开头的目录及档,限制抓取.php文件、.inc文件、.js文件、.css档,限制抓取搜寻结果。
Disallow: /wp-* 会连同附件目录一起限制抓取,如果想让搜寻引擎抓取附件中的内容,将第三行的 # 号注释去掉。Allow 不是所有搜寻引擎都支持。
最合理的写法:
User-agent: *
Disallow: /wp-admin
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-includes
Disallow: /?s=
Sitemap: http://domain/sitemap.xml
使用说明:允许所有搜寻引擎抓取,逐一列举需要限制的目录,限制抓取搜索结果。
包含sitemap.xml地址(这一项wiki中有专门的说明,但Google管理员工具会提示‘检测到无效的 Sitemap 引用’,有效性尚有争议)。
robots.txt其他写法:为避免在搜索引擎中出现重複页面,Wordpress玩家自创了很多robots写法,列举一些常用的,作为参考(适用于伪静态方式的永久连结):
* Disallow: /page/ #限制抓取Wordpress分页
* Disallow: /category/*/page/* #限制抓取分类的分页
* Disallow: /tag/ #限制抓取标籤页面
* Disallow: */trackback/ #限制抓取Trackback内容
* Disallow: /category/* #限制抓取所有分类列表
好好的去写WordPress的robots.txt文件,除了可以达到比较好的SEO效果,也能不会因为搜寻引擎无效的爬行佔用频宽,最后,推荐使用Google管理员工具,登录后访问“工具 -> 分析 robots.txt”,检查档有效性。