中文字幕第五页-中文字幕第页-中文字幕韩国-中文字幕最新-国产尤物二区三区在线观看-国产尤物福利视频一区二区

seo優化公司:爬蟲質量的評價標準

2023-08-17    分類: 網站建設

爬蟲質量的評價標準

如果從搜索引擎用戶體驗的角度考慮,對爬蟲的工作效果有不同的評價標準,其中最主要的 3 個標準是:抓取網頁的覆蓋率、抓取網頁時新性及抓取網頁重要性。如果這 3 方面做得好,則搜索引擎用戶體驗必定好。

對于現有的搜索引擎來說,還不存在哪個搜索引擎有能力將互聯網上出現的所有網頁都下載并建立索引,所有搜索引擎只能索引互聯網的一部分。而所謂的抓取覆蓋率指的是爬蟲抓取網頁的數量占互聯網所有網頁數量的比例,覆蓋率越高,等價于搜索引擎的召回率越高,用戶體驗越好。

索引網頁和互聯網網頁對比

抓取到本地的網頁,很有可能已經發生變化,或者被刪除,或者內容被更改,因為爬蟲抓取完一輪需要較長的時間周期,所以抓取到的網頁當中必然會有一部分是過期的數據,即不能在網頁變化后第一時間反應到網頁庫中。所以網頁庫中過期的數據越少,則網頁的時新性越好,這對用戶體驗的改善大有裨益。

如果時新性不好,搜索到的都是過期數據,或者網頁被刪除,用戶的內心感受可想而知。

互聯網盡管網頁繁多,但是每個網頁的差異性都很大,比如來自騰訊、網易新聞的網頁和某個作弊網頁相比,其重要性猶如天壤之別。如果搜索引擎抓取到的網頁大部分是比較重要的網頁,則可以說明在抓取網頁重要性方面做得比較好。這方面做的越好,則越說明搜索引擎的搜索精度越高。

通過以上 3 個標準的說明分析,可以將爬蟲研發的目標簡單描述如下:在資源有限的情況下,既然搜索引擎只能抓取互聯網現存網頁的一部分,那么就盡可能給選擇比較重要的那部分頁面來索引;對于已經抓取到的網頁,盡可能快的更新內容,使得索引網頁和互聯網對應頁面內容同步更新;在此基礎上,盡可能擴大抓取范圍,抓取到更多以前無法發現的網頁。

3 個“盡可能”基本說清楚了爬蟲系統為增強用戶體驗而奮斗的目標。

大型商業搜索引擎為了滿足 3 個質量標準,大都開發了多套針對性很強的爬蟲系統。以Google為例,至少包含兩套不同的爬蟲系統:一套被稱為Fresh Bot,主要考慮網頁的時新性,對于內容更新頻繁的網頁,目前可以達到以秒計的更新周期;另外一套被稱之為Deep Crawl Bot,主要針對更新不是那么頻繁的網頁抓取,以天為更新周期。

除此之外,Google投入了很大精力研發針對暗網的抓取系統,

分享文章:seo優化公司:爬蟲質量的評價標準
網站鏈接:http://m.2m8n56k.cn/news13/276563.html

成都網站建設公司_創新互聯,為您提供軟件開發ChatGPT品牌網站制作外貿網站建設品牌網站設計企業建站

廣告

聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:[email protected]。內容未經允許不得轉載,或轉載時需注明來源: 創新互聯

網站建設網站維護公司
主站蜘蛛池模板: 一级做a爰片性色毛片视频图片 | 亚洲人成在线播放网站 | 美女视频黄a视频免费全过程 | 亚洲另类激情综合偷自拍图 | 欧美一级日韩一级 | 一区二区三区伦理 | 9久re在线观看视频精品 | 国产精品久久久久久久午夜片 | 特级a欧美孕妇做爰片毛片 特级a欧美做爰片毛片 | 韩国美女豪爽一级毛片 | 亚洲视频 欧美视频 | 久久女同互慰一区二区三区 | 亚欧美图片自偷自拍另类 | 黄 色 成 年人网站 黄 色 免费网 站 成 人 | 国产日本一区二区三区 | 国产精品v欧美精品v日本精 | 台湾黄三级高清在线观看播放 | 日韩高清一级 | 国产精品久久自在自线观看 | a级片在线观看免费 | 99国内精品久久久久久久 | 一级片中文字幕 | 网站国产 | 亚洲国产一区二区三区a毛片 | 国产精品videossex另类 | 美女视频免费看视频网站 | 污美女网站www在线观看 | 草草视频免费观看 | 欧美成人免费全部观看天天性色 | 美国毛片一级视频在线aa | 日本三级日产三级国产三级 | 91视频国内 | 久久久日韩精品国产成人 | 一区二区三区高清不卡 | 一级视频网站 | 美女被拍拍拍拍拍拍拍拍 | 成人免费高清视频网址 | 99精品久久精品一区二区 | 欧美精品久久久久久久免费观看 | 精品日本一区二区三区在线观看 | 一区二区三区国产精品 |