中文字幕第五页-中文字幕第页-中文字幕韩国-中文字幕最新-国产尤物二区三区在线观看-国产尤物福利视频一区二区

做SEO不得不知道的robots文件

2013-08-11    分類: 網站建設

  robots這個詞對每一位做SEO優化的人來說都不陌生,但是你知道了解全部有關robots文件的知識了嗎?不妨來看看創新互聯SEO專家接下來要給大家介紹的robots文件潛規則。

做SEO不得不知道的robots文件

  有關robots文件潛規則:

  1、spider名字的大小寫問題

  大多數搜索引擎的spider在讀取user-agent值的時候都是忽略大小寫,既Googlebot和googlebot應該都能被google識別。但是,我在學習淘寶seo的時候也發現,或許為了保險起見,淘寶的工作人員在自己的“/robots.txt”里面分別寫了“user-agent: baiduspider”和“user-agent: baiduspider”兩條。(參見:http://www.taobao.com/robots.txt)

  2、不允許出現多條user-agent的記錄

  一份“/robots.txt”文檔中不允許出現多條包含“user-agent: *”的記錄(但允許沒有此記錄)。

  3、allow和disallow的順序

  大部分情況下,想要兼容所有的機器人,就應當將allow指令放在disallow指令的前面,例如:

  Allow: /a/b.html

  Disallow: /a/

  這會阻止對”/a/”內除了”/a/b.html”以外一切內容的檢索,因為后者是優先匹配成功的。雖然對于google和百度來說,先后順序并不重要。但是不排除會導致其他搜索引擎出現抓取問題。

  4、allow與disallow的角力

  如果allow指令中的地址同disallow指令中的地址相比具有相同或更多字符(意味著allow指令所描述的地址更“深”、更“具體”)的話,雖然disallow指令也能匹配,但allow指令仍然會“獲勝”(這樣就達到開放子文件夾的目的了,同時沒被allow的部分依然不會被檢索)。

  舉個例子吧(假設和順序無關)

  Disallow:/a/b

  Allow:/a

  這樣就是允許除b以外的所有a

  Disallow:/a

  Allow:/a/b

  這樣就是禁止除b以外的所有a

  反斜杠“/”的意義

  反斜杠“/”表示禁止搜索引擎進入該目錄。

  User-agent: spider

  Disallow: /a

  對這樣的記錄機器人該怎么反應?按照res標準,機器人會將名為“a”的文件和名為“a”的目錄都disallow。當然,比較符合邏輯切清晰的寫法是使用“/”來標識所聲明的路徑:

  Disallow: /a/

  注意不要忘記“a”前面的“/”

  根據“/”的意義,對于只允許某搜索引擎,有些robots.txt會這樣寫

  User-agent: Baiduspider

  Disallow:

  User-agent: *

  Disallow: /

  這樣用百度的robots工具測試也是OK的,但從百度自家產品,百度知道的robots來看,更多的是寫成

  User-agent: Baiduspider

  Allow: ?/

  User-agent: *

  Disallow: /

  我其實在想,或許“/”正確的表述應該是"進入該目錄"的意思,要不然Allow: ?/就不好理解了

  在指示行末尾加注的問題

  在“/robots.txt”文件中,凡以“#”開頭的行,均被視為注解內容,這和unix中的慣例是一樣的。例如:

  Disallow: /cgi-bin/ # this bans robots from our cgi-bin

  盡量不要在一行的前面出現空格

  如“ disallow: /”《很多人非常不小心,空格就沒了》

  Res標準并未對這種格式予以特別說明,但和上面一個問題一樣,可能導致某些機器人無法正確解讀。

  文件目錄區分大小寫(這個或許是困惑大多數人的)

  雖然res標準忽略大小寫(case insensitive),但目錄和文件名卻是大小寫敏感的。所以對于”user-agent”和”disallow”指令,用大小寫都是可以的。但對于所聲明的目錄或文件名卻一定要注意大小寫的問題。例如:

  Disallow: /abc.htm

  會攔截“http://www.example.com/abc.htm”

  卻會允許http://www.example.com/Abc.htm

  所以在IIS服務器可能出現的 諸多 大小寫目錄問題,可以通過此方法得到圓滿解決。

  如果頁面中包含了多個同類型meta標簽,spider會累加內容取值

  對于下面兩條語句來說:

  <meta name=”robots” content=”noindex” />

  <meta name=”robots” content=”nofollow” />

  搜索引擎將會理解成:

  <meta name=”robots” content=”noindex, nofollow” />

  當內容取值沖突的時候,google和百度等大多數搜索引擎會采納限制性最強的參數

  例如,如果頁面中包含如下meta標簽:

  <meta name=”robots” content=”noindex” />

  <meta name=”robots” content=”index” />

  Spider會服從noindex的取值。

  如果你既用了robots.txt文件又用了robots meta標簽

  當二者出現沖突,googlebot會服從其中限制較嚴的規則

  如果你在robots.txt中阻止了對一個頁面的檢索,googlebot永遠不會爬到這個頁面,因此也根本不會讀到這個頁面上的meta標簽。 如果你在robots.txt里面允許了對一個頁面的檢索,卻在meta標簽中禁止了這一行為,googlebot會到達這個頁面,在讀到meta標簽后終止進一步的檢索行為。

  robots文件是我們跟搜索引擎對話的渠道,而且通過設置,我們能夠告訴搜索引擎蜘蛛哪些可以抓取,哪些不可以抓取。

當前名稱:做SEO不得不知道的robots文件
網頁網址:http://m.2m8n56k.cn/news10/2710.html

成都網站建設公司_創新互聯,為您提供網站收錄、企業建站、虛擬主機、網站改版、定制網站Google

廣告

聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創新互聯

搜索引擎優化
主站蜘蛛池模板: 最新亚洲人成网站在线影院 | 欧美成人午夜毛片免费影院 | 亚洲视频在线观看网址 | 免费观看成为人视频 | 久久精品视屏 | 国产91精品露脸国语对白 | 三级色网站 | 喷潮白浆直流在线播放 | 激情欧美一区二区三区 | 萌白酱福利视频在线网站 | 在线第一页 | 久久精品青草社区 | 久99频这里只精品23热 视频 | 久草在线视频资源 | 国产一区二区在线 |播放 | 色综合久久91 | 特级一级毛片视频免费观看 | 综合久久久久久 | 欧美精品一区二区三区视频 | 国产一区二区高清在线 | 欧美在线精品一区二区三区 | 免费黄网大全 | 成人免费视频69 | 中文字幕 亚洲 一区二区三区 | 日韩在线视频不卡一区二区三区 | 萌白酱福利视频在线网站 | 欧美乱大交xxxxx在线观看 | 欧美人成在线观看ccc36 | 刺激一区仑乱 | 亚洲一区中文字幕在线 | 国产高清一级片 | 99久久精品国产国产毛片 | 欧美做a欧美 | 亚洲图片视频在线观看 | 99精品一区二区免费视频 | 亚洲在线一区二区三区 | 日本草草影院 | 国产精品久久久久无毒 | 国产成人咱精品视频免费网站 | 日韩精品中文字幕在线观看 | 国产免费观看a大片的网站 国产免费黄色网址 |