亚洲中文字幕黄网站,偷窥国产亚洲女爱视频在线,2021免费的一级片,狠狠狠狼鲁亚洲综合网,精品国产欧美,免费看美女乱轮黄色片,午夜成人在线视频

heritrix

Heritrix是一個開源的網(wǎng)絡(luò)爬蟲,主要用于在互聯(lián)網(wǎng)上抓取和歸檔網(wǎng)頁內(nèi)容。它是由Internet Archive(互聯(lián)網(wǎng)檔案館)開發(fā)的,旨在幫助機構(gòu)和個人建立自己的網(wǎng)絡(luò)內(nèi)容歸檔。

Heritrix的設(shè)計目標是支持大規(guī)模的、可持續(xù)的網(wǎng)頁抓取,并且具有高度的可配置性和靈活性。它使用模塊化的架構(gòu)和可擴展的插件系統(tǒng),可以根據(jù)用戶的需求進行定制和擴展。

Heritrix被廣泛應(yīng)用于數(shù)字圖書館、檔案館、新聞機構(gòu)等領(lǐng)域,用于創(chuàng)建和維護大規(guī)模的網(wǎng)絡(luò)內(nèi)容歸檔,以便長期保存和檢索互聯(lián)網(wǎng)上的信息資源。

不過對于國內(nèi)網(wǎng)站來說不會帶來什么流量,可以選擇robots.txt協(xié)議禁止。

User-agent: heritrix

Disallow: /

如果還是禁止不了,可以選擇nginx規(guī)則禁止訪問,如下:

if ($http_user_agent ~* "heritrix") {

 return 403;

}

補充糾錯
上一蜘蛛: YouBot
下一蜘蛛: EtaoSpider