• 一站式百度SEO排名優化!-找老劉博客 低投入,高轉化,精益求精、一絲不茍:旨在提供更好的SEO服務!

    首頁>>老劉專欄

    Unknown robot是什么蜘蛛?怎么屏蔽垃圾蜘蛛爬蟲,屏蔽ip段?

    首頁 2022-10-31 老劉專欄 799 ℃Tags:


    Unknown robot (identified by 'spider')是什么蜘蛛?

    一般的蜘蛛都會在后臺控制面板中顯示名字,例如baidu,google,yahoo,alexa等等,但是如果你用的虛擬主機是cpanel的控制面板,那么發現Unknown robot (identified by 'spider')這個蜘蛛消耗很大的網站流量,那么可以推測這個是百度蜘蛛,因為cpanel的控制面板默認是不識別百度蜘蛛的,所以就會顯示為Unknown robot (identified by 'spider')。而且通過robots.txt是無法禁止這個蜘蛛抓取網站內容的——這些垃圾爬蟲不可能老老實實遵守robots規則,君不見新浪和字節前段時間還因為robots.txt打了官司,大廠都如此,其他爬蟲更別指望。

    image.png

    寶塔屏蔽常見垃圾蜘蛛和掃描工具的兩種辦法:最近觀察網站后臺網站蜘蛛爬取狀況,除了我們常見的搜索引擎如百度、Google、Sogou、360等搜索引擎蜘蛛之外,還發現有很多垃圾的蜘蛛平繁的爬取本站,通常這些搜索引擎不僅不會帶來流量,因為大量的抓取請求,還會造成主機的CPU和帶寬資源浪費,屏蔽方法也很簡單,按照下面步驟操作即可,原理就是分析指定UA然后屏蔽。

    下面給大家帶來兩種屏蔽垃圾蜘蛛的方法

    方法一 通過網站Robots.txt來屏蔽

    User-agent: AhrefsBot
    Disallow: /
    User-agent: DotBot
    Disallow: /
    User-agent: SemrushBot
    Disallow: /
    User-agent: Uptimebot
    Disallow: /
    User-agent: MJ12bot
    Disallow: /
    User-agent: MegaIndex.ru
    Disallow: /
    User-agent: ZoominfoBot
    Disallow: /
    User-agent: Mail.Ru
    Disallow: /
    User-agent: SeznamBot
    Disallow: /
    User-agent: BLEXBot
    Disallow: /
    User-agent: ExtLinksBot
    Disallow: /
    User-agent: aiHitBot
    Disallow: /
    User-agent: Researchscan
    Disallow: /
    User-agent: DnyzBot
    Disallow: /
    User-agent: spbot
    Disallow: /
    User-agent: YandexBot
    Disallow: /

    JavaScript

    把以上代碼復制到網站robots.txt里面


    方法二、通過寶塔面板配置文件判斷來屏蔽垃圾蜘蛛和掃描工具

    1.首先進入寶塔面板,文件管理進入/www/server/nginx/conf目錄,新建空白文件kill_bot.conf。然后將以下代碼保存到當前文件中。

    #禁止垃圾搜索引擎蜘蛛抓取教程來自癡癡資源網 https://www.chichisvip.com/

    if ($http_user_agent ~* "CheckMarkNetwork|Synapse|Nimbostratus-Bot|Dark|scraper|LMAO|Hakai|Gemini|Wappalyzer|masscan|crawler4j|Mappy|Center|eright|aiohttp|MauiBot|Crawler|researchscan|Dispatch|AlphaBot|Census|ips-agent|NetcraftSurveyAgent|ToutiaoSpider|EasyHttp|Iframely|sysscan|fasthttp|muhstik|DeuSu|mstshash|HTTP_Request|ExtLinksBot|package|SafeDNSBot|CPython|SiteExplorer|SSH|MegaIndex|BUbiNG|CCBot|NetTrack|Digincore|aiHitBot|SurdotlyBot|null|SemrushBot|Test|Copied|ltx71|Nmap|DotBot|AdsBot|InetURL|Pcore-HTTP|PocketParser|Wotbox|newspaper|DnyzBot|redback|PiplBot|SMTBot|WinHTTP|Auto Spider 1.0|GrabNet|TurnitinBot|Go-Ahead-Got-It|Download Demon|Go!Zilla|GetWeb!|GetRight|libwww-perl|Cliqzbot|MailChimp|SMTBot|Dataprovider|XoviBot|linkdexbot|SeznamBot|Qwantify|spbot|evc-batch|zgrab|Go-http-client|FeedDemon|JikeSpider|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|YisouSpider|HttpClient|MJ12bot|EasouSpider|LinkpadBot|Ezooms") {
     return 403;
     break;
    }
    #禁止掃描工具客戶端
    if ($http_user_agent ~* "crawl|curb|git|Wtrace|Scrapy" ) {
     return 403;
     break;
    }

    2.保存后返回到寶塔 – 【網站】-【設置】點擊左側 【配置文件】選項卡,在 “#SSL-START SSL相關配置,請勿刪除或修改下一行帶注釋的404規則” 上方空白行插入紅色字體的代碼:“include kill_bot.conf; ” 保存后即可生效,這樣這些蜘蛛或工具掃描網站的時候就會提示403禁止訪問。

    希望這個教程能幫助到大家,謝謝支持!

    實測下面的屏蔽ip段,效果更好!

    使用Nginx文件屏蔽IP地址

    如果您的網站在增強版云虛擬主機(Nginx)上運行,請按照本操作配置網站的指定訪問權限,屏蔽不允許的IP地址訪問。

    1. 登錄云虛擬主機管理頁面。

    2. 找到待配置Nginx文件的增強版云虛擬主機,單擊對應操作列的管理。

    3. 在左側導航欄,選擇高級環境設置 > NGINX設置。

    4. NGINX設置頁面的編輯區域,輸入您的配置Nginx文件內容(IP地址屏蔽規則)。

      以WordPress網站配置Nginx文件為例。

      各場景下IP地址屏蔽的生效規則示例如下所示:

      • 禁止單個IP地址訪問

        location / {
            deny 192.168.13.0;
        }
      • 禁止多個指定IP地址訪問

        location / {
            deny 192.168.13.0;
            deny 192.168.13.1;
            deny 10.1.5.0;
        }
      • 禁止多個不指定IP地址訪問

        location / {
            allow 192.168.13.0;
            allow 10.1.5.0;
            deny all;
        }
      • 禁止IP地址段訪問

        location / {
            deny 192.168.13.0/24;
        }

        說明 使用掩碼方式配置IP地址段權限時,請您使用網段中最小地址/掩碼方式,否則會出現配置錯誤提示:更新nginx設置失?。簄ginx: [warn] low address bits of **** are meaningless。

    5. Nginx文件編輯完成后,單擊保存設置。

      完成IP屏蔽規則的配置后,如果這些屏蔽的IP再次訪問您的WordPress網站,網頁會返回403錯誤,表示您無訪問權限。

    使用.htaccess文件屏蔽IP地址

    如果您的網站在普通版Linux操作系統云虛擬主機(Apache)上運行,請按照本方法配置網站的指定訪問權限,屏蔽不允許的IP地址訪問。

    1. 登錄云虛擬主機管理頁面。

    2. 找到待管理網站文件的Linux操作系統云虛擬主機,單擊對應操作列的管理。

    3. 在左側導航欄,選擇文件管理 > 文件管理器。

    4. 文件管理器頁面,上傳網站程序文件到Linux操作系統云虛擬主機。

      關于上傳網站程序文件到云虛擬主機的站點根目錄的具體操作,請參見使用文件管理器管理文件。

      說明 如果您使用FTP工具管理云虛擬主機上的網站文件,具體操作,請參見上傳網站文件到Linux操作系統云虛擬主機。

    5. 在Linux操作系統云虛擬主機的/htdocs目錄下,找到需要查看或修改的.htaccess文件,單擊對應操作列的查看。

      說明 如果您使用FTP客戶端查看或修改.htaccess文件,該文件一般為隱藏文件,關于如何顯示隱藏文件的具體操作,請參見如何顯示FTP隱藏的文件。通過FTP客戶端連接云虛擬主機后,您可以在遠程站點區域通過下載、編輯和上傳操作來完成.htaccess文件的修改。

    6. 在彈出的文件查看/編輯頁面的編輯區域,輸入您的.htaccess文件內容(IP地址屏蔽規則)。

      以WordPress網站配置.htaccess文件為例。

      各場景下IP地址屏蔽的生效規則示例如下所示:

      • 禁止單個IP地址訪問

        Order Allow,Deny
        Allow from allDeny from 192.0.2.0
      • 禁止多個指定IP地址訪問

        Order Allow,Deny
        Allow from allDeny from 192.0.2.1 192.0.2.0

        或者

        Order Deny,Allow
        Deny from 192.0.2.1 192.0.2.0
      • 禁止多個不指定IP地址訪問

        Order Deny,Allow
        Deny from allAllow from 192.0.2.1 192.0.2.0
      • 禁止IP地址段訪問

        Order Allow,Deny
        Allow from allDeny from 192.168.13.0/24
    7. .htaccess文件編輯完成后,單擊確認。

      完成IP屏蔽規則的配置后,如果這些屏蔽的IP再次訪問您的WordPress網站,網頁會返回403錯誤,表示無訪問權限。


    搜索
    分類
    熱門標簽
  • 首頁
  • 電話
  • QQ
  • ?
    聯系老劉手機
    1043025812
    聯系老劉微信
    掃描微信二維碼
    34pao国产成视频永久免费_国产精品专区第5页_无码精品A∨在线观看_国色天香精品一卡二卡三卡_ww.国产精品