神馬蜘蛛是神馬上網(wǎng),自動(dòng)抓取網(wǎng)頁(yè)的程序。蜘蛛抓取網(wǎng)頁(yè)并建立索引,以便用戶可以通過(guò)搜索引擎在互聯(lián)網(wǎng)上搜索資源。
神馬Spider的網(wǎng)站訪問(wèn)頻率
神馬會(huì)根據(jù)網(wǎng)站的規(guī)模、服務(wù)能力、頁(yè)面質(zhì)量、更新速度等因素來(lái)決定訪問(wèn)網(wǎng)站的頻率。通常神馬蜘蛛這種質(zhì)量高、頁(yè)面更新快的網(wǎng)站,訪問(wèn)頻率相對(duì)較高,這樣才能保證高質(zhì)量、時(shí)效性的呈現(xiàn)給用戶。
神馬Spider是否會(huì)造成帶寬負(fù)擔(dān)
神馬蜘蛛有規(guī)范的抓取流程,也會(huì)考慮網(wǎng)站的忙閑時(shí)間來(lái)抓取,所以不會(huì)給網(wǎng)站造成帶寬負(fù)擔(dān)。如果您發(fā)現(xiàn)名為Yisouspider的用戶代理的抓取嚴(yán)重影響網(wǎng)站的正常訪問(wèn),您可以將該時(shí)間段的訪問(wèn)日志信息反饋給zhanzhangpingtai@service.alibaba.com,神馬校友會(huì)將給您發(fā)送分析結(jié)論。神馬Spider的user-agent及ip地址
用戶代理是http協(xié)議的一個(gè)屬性,代表終端的身份。神馬蜘蛛的用戶代理是Yisouspider,由于歷史原因這個(gè)用戶代理名稱會(huì)繼續(xù)使用。神馬spider如何發(fā)現(xiàn)新網(wǎng)頁(yè)
神馬蜘蛛發(fā)現(xiàn)新網(wǎng)頁(yè)的方法有很多。最典型的方式就是對(duì)找到的網(wǎng)頁(yè)中的超鏈接關(guān)系進(jìn)行分析,選擇url并爬取,從而不斷擴(kuò)展,爬取盡可能多的有價(jià)值的網(wǎng)頁(yè)。另外,神馬會(huì)從dns服務(wù)商那里獲取新網(wǎng)站的域名,可以及時(shí)搶到新網(wǎng)站。關(guān)于robots協(xié)議
Robots.txt是搜索引擎訪問(wèn)網(wǎng)站時(shí)首先訪問(wèn)的文件,以此來(lái)決定允許或禁止抓取哪些網(wǎng)頁(yè)。神馬搜索符合互聯(lián)網(wǎng)機(jī)器人協(xié)議。如果想完全禁止神馬的訪問(wèn)或者部分目錄,可以通過(guò)robots.txt文件設(shè)置內(nèi)容,限制神馬蜘蛛的訪問(wèn)權(quán)限。
不想讓神馬搜索抓取,可以選擇robots.txt協(xié)議禁止。
User-agent: Yisouspider
Disallow: /
如果還是禁止不了,可以選擇nginx規(guī)則禁止訪問(wèn),如下:
if ($http_user_agent ~* "Yisouspider") {
return 403;
}