關(guān)于 Amazonbot
Amazonbot 是亞馬遜的網(wǎng)絡(luò)爬蟲(chóng),用于改善我們的服務(wù),例如使Alexa能夠回答更多客戶(hù)的問(wèn)題。Amazonbot 遵循標(biāo)準(zhǔn)的 robots.txt 規(guī)則。
如何識(shí)別Amazonbot?
在用戶(hù)代理字符串中,您會(huì)看到“Amazonbot”以及其他附加代理信息。一個(gè)示例看起來(lái)像這樣:
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML\, like Gecko) Version/8.0.2 Safari/600.2.5 (Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot)
如何控制Amazonbot在您的網(wǎng)站上爬取什么?
Robots.txt:Amazonbot 尊重 robots.txt 中的 user-agent 和 Disallow 指令。在下面的示例中,Amazonbot 不會(huì)爬取位于 /do-not-crawl/ 或 /not-allowed 下的文檔:
User-agent: Amazonbot # Amazon的用戶(hù)代理
Disallow: /do-not-crawl/ # 不允許爬取此目錄
User-agent: * # 任何機(jī)器人
Disallow: /not-allowed/ # 不允許爬取此目錄
AmazonBot 不支持 robots.txt 中的 crawl-delay 指令,也不支持 HTML 頁(yè)面上的 robots 元標(biāo)記,如“nofollow”和“noindex”。
鏈接級(jí) Rel 參數(shù):Amazonbot 支持鏈接級(jí)的 rel=nofollow 指令。在您的 HTML 中包含這些,以阻止 Amazonbot 跟蹤和爬取您網(wǎng)站上的特定鏈接,格式如下:
<a href="signin.php" rel=nofollow>Sign in </a>
驗(yàn)證Amazonbot通過(guò)使用DNS查找來(lái)驗(yàn)證訪(fǎng)問(wèn)您服務(wù)器的爬蟲(chóng)是否是官方的Amazonbot爬蟲(chóng),可以幫助您識(shí)別其他可能訪(fǎng)問(wèn)您站點(diǎn)并聲稱(chēng)是Amazonbot的機(jī)器人或惡意代理。
您可以使用命令行工具按照以下步驟驗(yàn)證Amazonbot:
從服務(wù)器日志中找到訪(fǎng)問(wèn)IP地址
使用host命令對(duì)IP地址運(yùn)行反向DNS查找
驗(yàn)證檢索到的域名是crawl.amazonbot.amazon的子域名
使用host命令對(duì)檢索到的域名運(yùn)行正向DNS查找
驗(yàn)證返回的IP地址與服務(wù)器日志中的原始IP地址相同
例如:
$ host 12.34.56.789
789.56.34.12.in-addr.arpa domain name pointer 12-34-56-789.crawl.amazonbot.amazon.
$ host 12-34-56-789.crawl.amazonbot.amazon
12-34-56-789.crawl.amazonbot.amazon has address 12.34.56.789
如果你覺(jué)得以上方法比較麻煩,可以直接通過(guò)爬蟲(chóng)識(shí)別網(wǎng)站,輸入 Amazonbot 的 IP 地址,即可判斷是否是真正的 Amazonbot 爬蟲(chóng)。