Heritrix是一個開源的網(wǎng)絡(luò)爬蟲,主要用于在互聯(lián)網(wǎng)上抓取和歸檔網(wǎng)頁內(nèi)容。它是由Internet Archive(互聯(lián)網(wǎng)檔案館)開發(fā)的,旨在幫助機構(gòu)和個人建立自己的網(wǎng)絡(luò)內(nèi)容歸檔。
Heritrix的設(shè)計目標是支持大規(guī)模的、可持續(xù)的網(wǎng)頁抓取,并且具有高度的可配置性和靈活性。它使用模塊化的架構(gòu)和可擴展的插件系統(tǒng),可以根據(jù)用戶的需求進行定制和擴展。
Heritrix被廣泛應(yīng)用于數(shù)字圖書館、檔案館、新聞機構(gòu)等領(lǐng)域,用于創(chuàng)建和維護大規(guī)模的網(wǎng)絡(luò)內(nèi)容歸檔,以便長期保存和檢索互聯(lián)網(wǎng)上的信息資源。
不過對于國內(nèi)網(wǎng)站來說不會帶來什么流量,可以選擇robots.txt協(xié)議禁止。
User-agent: heritrix
Disallow: /
如果還是禁止不了,可以選擇nginx規(guī)則禁止訪問,如下:
if ($http_user_agent ~* "heritrix") {
return 403;
}