亚洲中文字幕黄网站,偷窥国产亚洲女爱视频在线,2021免费的一级片,狠狠狠狼鲁亚洲综合网,精品国产欧美,免费看美女乱轮黄色片,午夜成人在线视频

Robots.txt文件生成工具

限制目錄 (每個(gè)目錄必須以/開頭)
Sitemap 文件 (留空為無)
檢索間隔 (單位秒)留空為不限
所有搜索引擎
國內(nèi)搜索引擎
百度爬蟲
搜狗爬蟲
有道爬蟲
SOSO爬蟲
頭條爬蟲
神馬爬蟲
國外搜索引擎
Google爬蟲
Bing爬蟲
雅虎爬蟲
Ask/Teoma爬蟲
Alexa爬蟲
MSN爬蟲
Scrub The Web爬蟲
DMOZ爬蟲
GigaBlast爬蟲
MJ12 爬蟲
Maui 爬蟲
BLEX 爬蟲
Ahrefs 爬蟲
Dot 爬蟲
Semrush 爬蟲
MegaIndex.ru 爬蟲
華為花瓣 爬蟲
Zoominfo 爬蟲
ExtLinks 爬蟲
俄羅斯 爬蟲
特殊搜索引擎
Google Image爬蟲
Google Mobile爬蟲
Yahoo MM爬蟲
Yahoo Blogs爬蟲
MSN PicSearch爬蟲
Robots.txt文件生成工具

在線robots.txt文件生成工具,可以幫助站長(zhǎng)快速生成標(biāo)準(zhǔn)的robots.txt文件,支持一鍵導(dǎo)出,直接傳到網(wǎng)站根目錄即可。

小經(jīng)驗(yàn):強(qiáng)烈建議每個(gè)站根目錄都放置一個(gè)robots.txt的文件,可以直接留空,但一定要放,避免因程序問題導(dǎo)致/robots.txt返回其他錯(cuò)誤響應(yīng)內(nèi)容造成不可預(yù)知的結(jié)果,如搜索引擎不收錄等。

Robots協(xié)議(爬蟲協(xié)議)是國際互聯(lián)網(wǎng)界通行的道德規(guī)范,一般是在一個(gè)web站點(diǎn)的根目錄下寫的robots.txt文件,用來告知搜索引擎哪些頁面能被抓取,哪些頁面不能被抓取,可以屏蔽一些網(wǎng)站中比較大的文件,如:圖片,音樂,視頻等,節(jié)省服務(wù)器帶寬;可以屏蔽站點(diǎn)的一些死鏈接。方便搜索引擎抓取網(wǎng)站內(nèi)容;設(shè)置網(wǎng)站地圖連接,方便引導(dǎo)蜘蛛爬取頁面。

robots.txt基本用法

User-agent

User-agent是用來匹配爬蟲的,每個(gè)爬蟲都會(huì)有一個(gè)名字,如果你有安裝awstats統(tǒng)計(jì)工具,你就能查看到爬蟲的名字,比如百度的爬蟲叫BaiDuSpider,Google的爬蟲叫Googlebot,*表示所有爬蟲。

Disallow

Disallow表示禁止爬蟲訪問的目錄。Disallow: / 表示攔截整站。

Allow

Allow表示允許爬蟲訪問的目錄。Allow: / 表示允許整站。

Sitemap

Sitemap用來指定sitemap的位置。

Crawl-delay

Crawl-delay用來告訴爬蟲兩次訪問的間隔,單位是秒。爬蟲如果爬得很勤,對(duì)動(dòng)態(tài)網(wǎng)站來說,壓力有點(diǎn)大,可能會(huì)導(dǎo)致服務(wù)器負(fù)載增高,用戶訪問變慢。

還可以使用通配符

*:匹配任意多個(gè)字符

$:表示URL的結(jié)尾

Robots.txt舉例

不管是Disallow,Allow還是Sitemap,每行只能寫一條規(guī)則。

攔截部分文件或目錄

User-agent: *

Disallow: /cgi-bin/

Disallow: /aaa.html

允許爬蟲訪問所有的目錄,有兩種寫法

User-agent: *

Disallow:

User-agent: *

Allow: /

通配符的使用,攔截.gif文件

User-agent: *

Disallow: /*.gif$

攔截帶有?的文件

User-agent: *

Disallow: /*?

Sitemap例子

Sitemap: https://www.36jxs.com/too/sitemap.xml

分享鏈接