首頁>>老劉專欄
Unknown robot (identified by 'spider')是什么蜘蛛?
一般的蜘蛛都會在后臺控制面板中顯示名字,例如baidu,google,yahoo,alexa等等,但是如果你用的虛擬主機是cpanel的控制面板,那么發現Unknown robot (identified by 'spider')這個蜘蛛消耗很大的網站流量,那么可以推測這個是百度蜘蛛,因為cpanel的控制面板默認是不識別百度蜘蛛的,所以就會顯示為Unknown robot (identified by 'spider')。而且通過robots.txt是無法禁止這個蜘蛛抓取網站內容的——這些垃圾爬蟲不可能老老實實遵守robots規則,君不見新浪和字節前段時間還因為robots.txt打了官司,大廠都如此,其他爬蟲更別指望。
寶塔屏蔽常見垃圾蜘蛛和掃描工具的兩種辦法:最近觀察網站后臺網站蜘蛛爬取狀況,除了我們常見的搜索引擎如百度、Google、Sogou、360等搜索引擎蜘蛛之外,還發現有很多垃圾的蜘蛛平繁的爬取本站,通常這些搜索引擎不僅不會帶來流量,因為大量的抓取請求,還會造成主機的CPU和帶寬資源浪費,屏蔽方法也很簡單,按照下面步驟操作即可,原理就是分析指定UA然后屏蔽。
下面給大家帶來兩種屏蔽垃圾蜘蛛的方法
方法一 通過網站Robots.txt來屏蔽
User-agent: AhrefsBot Disallow: / User-agent: DotBot Disallow: / User-agent: SemrushBot Disallow: / User-agent: Uptimebot Disallow: / User-agent: MJ12bot Disallow: / User-agent: MegaIndex.ru Disallow: / User-agent: ZoominfoBot Disallow: / User-agent: Mail.Ru Disallow: / User-agent: SeznamBot Disallow: / User-agent: BLEXBot Disallow: / User-agent: ExtLinksBot Disallow: / User-agent: aiHitBot Disallow: / User-agent: Researchscan Disallow: / User-agent: DnyzBot Disallow: / User-agent: spbot Disallow: / User-agent: YandexBot Disallow: /
JavaScript
把以上代碼復制到網站robots.txt里面
方法二、通過寶塔面板配置文件判斷來屏蔽垃圾蜘蛛和掃描工具
1.首先進入寶塔面板,文件管理進入/www/server/nginx/conf目錄,新建空白文件kill_bot.conf。然后將以下代碼保存到當前文件中。
#禁止垃圾搜索引擎蜘蛛抓取教程來自癡癡資源網 https://www.chichisvip.com/
if ($http_user_agent ~* "CheckMarkNetwork|Synapse|Nimbostratus-Bot|Dark|scraper|LMAO|Hakai|Gemini|Wappalyzer|masscan|crawler4j|Mappy|Center|eright|aiohttp|MauiBot|Crawler|researchscan|Dispatch|AlphaBot|Census|ips-agent|NetcraftSurveyAgent|ToutiaoSpider|EasyHttp|Iframely|sysscan|fasthttp|muhstik|DeuSu|mstshash|HTTP_Request|ExtLinksBot|package|SafeDNSBot|CPython|SiteExplorer|SSH|MegaIndex|BUbiNG|CCBot|NetTrack|Digincore|aiHitBot|SurdotlyBot|null|SemrushBot|Test|Copied|ltx71|Nmap|DotBot|AdsBot|InetURL|Pcore-HTTP|PocketParser|Wotbox|newspaper|DnyzBot|redback|PiplBot|SMTBot|WinHTTP|Auto Spider 1.0|GrabNet|TurnitinBot|Go-Ahead-Got-It|Download Demon|Go!Zilla|GetWeb!|GetRight|libwww-perl|Cliqzbot|MailChimp|SMTBot|Dataprovider|XoviBot|linkdexbot|SeznamBot|Qwantify|spbot|evc-batch|zgrab|Go-http-client|FeedDemon|JikeSpider|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|YisouSpider|HttpClient|MJ12bot|EasouSpider|LinkpadBot|Ezooms") { return 403; break; } #禁止掃描工具客戶端 if ($http_user_agent ~* "crawl|curb|git|Wtrace|Scrapy" ) { return 403; break; }
2.保存后返回到寶塔 – 【網站】-【設置】點擊左側 【配置文件】選項卡,在 “#SSL-START SSL相關配置,請勿刪除或修改下一行帶注釋的404規則” 上方空白行插入紅色字體的代碼:“include kill_bot.conf; ” 保存后即可生效,這樣這些蜘蛛或工具掃描網站的時候就會提示403禁止訪問。
希望這個教程能幫助到大家,謝謝支持!
實測下面的屏蔽ip段,效果更好!
使用Nginx文件屏蔽IP地址
如果您的網站在增強版云虛擬主機(Nginx)上運行,請按照本操作配置網站的指定訪問權限,屏蔽不允許的IP地址訪問。
登錄云虛擬主機管理頁面。
找到待配置Nginx文件的增強版云虛擬主機,單擊對應操作列的管理。
在左側導航欄,選擇 。
在NGINX設置頁面的編輯區域,輸入您的配置Nginx文件內容(IP地址屏蔽規則)。
以WordPress網站配置Nginx文件為例。
各場景下IP地址屏蔽的生效規則示例如下所示:
禁止單個IP地址訪問
location / { deny 192.168.13.0; }
禁止多個指定IP地址訪問
location / { deny 192.168.13.0; deny 192.168.13.1; deny 10.1.5.0; }
禁止多個不指定IP地址訪問
location / { allow 192.168.13.0; allow 10.1.5.0; deny all; }
禁止IP地址段訪問
location / { deny 192.168.13.0/24; }
說明 使用掩碼方式配置IP地址段權限時,請您使用網段中最小地址/掩碼方式,否則會出現配置錯誤提示:更新nginx設置失?。簄ginx: [warn] low address bits of **** are meaningless。
Nginx文件編輯完成后,單擊保存設置。
完成IP屏蔽規則的配置后,如果這些屏蔽的IP再次訪問您的WordPress網站,網頁會返回403錯誤,表示您無訪問權限。
使用.htaccess文件屏蔽IP地址
如果您的網站在普通版Linux操作系統云虛擬主機(Apache)上運行,請按照本方法配置網站的指定訪問權限,屏蔽不允許的IP地址訪問。
登錄云虛擬主機管理頁面。
找到待管理網站文件的Linux操作系統云虛擬主機,單擊對應操作列的管理。
在左側導航欄,選擇 。
在文件管理器頁面,上傳網站程序文件到Linux操作系統云虛擬主機。
關于上傳網站程序文件到云虛擬主機的站點根目錄的具體操作,請參見使用文件管理器管理文件。
說明 如果您使用FTP工具管理云虛擬主機上的網站文件,具體操作,請參見上傳網站文件到Linux操作系統云虛擬主機。
在Linux操作系統云虛擬主機的/htdocs目錄下,找到需要查看或修改的.htaccess文件,單擊對應操作列的查看。
說明 如果您使用FTP客戶端查看或修改.htaccess文件,該文件一般為隱藏文件,關于如何顯示隱藏文件的具體操作,請參見如何顯示FTP隱藏的文件。通過FTP客戶端連接云虛擬主機后,您可以在遠程站點區域通過下載、編輯和上傳操作來完成.htaccess文件的修改。
在彈出的文件查看/編輯頁面的編輯區域,輸入您的.htaccess文件內容(IP地址屏蔽規則)。
以WordPress網站配置.htaccess文件為例。
各場景下IP地址屏蔽的生效規則示例如下所示:
禁止單個IP地址訪問
Order Allow,Deny Allow from allDeny from 192.0.2.0
禁止多個指定IP地址訪問
Order Allow,Deny Allow from allDeny from 192.0.2.1 192.0.2.0
或者
Order Deny,Allow Deny from 192.0.2.1 192.0.2.0
禁止多個不指定IP地址訪問
Order Deny,Allow Deny from allAllow from 192.0.2.1 192.0.2.0
禁止IP地址段訪問
Order Allow,Deny Allow from allDeny from 192.168.13.0/24
.htaccess文件編輯完成后,單擊確認。
完成IP屏蔽規則的配置后,如果這些屏蔽的IP再次訪問您的WordPress網站,網頁會返回403錯誤,表示無訪問權限。
猜你喜歡
- 2022-11-10 【官方文檔】百度搜索網站被黑防范指南
- 2022-11-03 【干貨必備】百度搜索優質內容指南
- 2022-08-01 百度隱藏“快照”功能:原因未知-百度快照沒了?
- 2022-06-20 淺析“百度搜索基礎信息設置規范”!
- 2022-06-15 SEO尷尬,有排名,沒流量,沒咨詢,怎么辦?
- 2022-05-16 IE瀏覽器宣布6月16日退役 Edge瀏覽器將接棒
- 搜索
-
- 2023-02-15 互聯網公司忽悠員工的黑話,套路太深了
- 2023-02-14 SEM新接手賬戶,需要做哪些準備?
- 2023-02-14 干貨!競價推廣常見問題解析
- 2023-02-10 ChatGPT淘汰的那些人,其實早就已經···
- 2023-02-03 流量運營的核心精華,又何止1000種方法
- 2023-02-03 什么是二類電商,一類電商和二類電商的區別
- 2023-02-02 搜狗競價退出歷史舞臺,SEM行業2023···
- 2023-01-11 營銷的底層邏輯
- 2023-01-05 如何生產優質的圖文內容
- 2022-12-10 SEM精細化運營:從展現到轉化的40個提···
- 2022-12-01 網站頁面黑白色濾鏡效果實現技巧
- 2022-11-26 優化 CSS 代碼的12個小技巧
- 2019-11-01 Origin DNS error:使用百···
- 2020-12-01 一級域名好還是二級域名好?
- 2020-10-13 百度抓取診斷工具一直抓取失敗怎么辦?
- 2020-06-20 “401 - 未授權: 由于憑據無效,訪···
- 2019-12-09 域名解析后,網站返回狀態碼511應對方法
- 2021-01-06 百度移動端的搜索結果上線“踩頂”功能,對···
- 2020-09-03 element.style樣式的修改
- 2019-08-12 網站出現“403,服務器上文件或目錄拒絕···
- 2019-11-06 正確打開.db數據庫文件的兩種方式,避免···
- 2020-10-20 UC神馬搜索怎么做快速排名優化
- 2020-04-10 百度下拉框怎么刷?刷百度下拉框軟件原理及···
- 2021-04-13 html/txt文件中文用瀏覽器打開有亂···
- 2020-10-28 除了靈感,你還需要什么來寫一篇文章?
- 2022-08-25 導航欄吸頂簡單代碼解決
- 2020-07-28 不注意這些會毀掉你的網站
- 2022-08-31 如何獲取微信公眾號圖文封面
- 2019-03-11 網站用戶體驗-頁面加載速度的提升辦法
- 2019-06-27 屏蔽右鍵和網站源碼代碼防復制,到底是好事···
- 2019-11-01 被語言暴力毀掉的中國孩子ZT
- 2020-02-27 跳槽時,如何才能爭取到更高的薪資?
- 2022-06-29 PbootCMS簡單兩步增加自動清理緩存···
- 2019-09-14 為老年用戶做網站體驗設計應該特別注意的細···
- 2019-12-10 網站排名一直不斷下跌是何緣故?
- 2019-12-27 剖析seo發包技術原理和前景分析
- 熱門標簽
-
- 401錯誤
- 401未授權
- 語義效應
- 話術技巧
- tab切換
- 選項卡滑動切換
- 百度
- 谷歌
- pagerank算法
- 算法原理
- 達克效應
- 認知局限
- 交流分享
- webp轉GIF
- webp格式轉GIF動圖
- webp to gif
- 錨定效應
- 百度快排
- 快速排名
- SEO快排
- 萬詞霸屏
- SEO優化
- 按天計費系統
- 搜索推廣模式對比
- SEO優化師
- seo工資
- 合肥seo
- seo公司
- 合肥優化公司
- 選擇seo公司
- 互聯網黑話
- 2019it黑話
- SEO快速排名
- 百度熊掌號
- 灰色樣式
- 網站被k
- 收錄消失
- 百度公告
- seo外包
- 外包公司
- seo職業發展
- FTP
- ftp隱藏文件
- seo計費系統
- 在家辦公
- 網頁劫持
- seo前景
- seo發展
- 2019冬至
- 冬至
- 中文搜索
- 頭條搜索
- 中文搜索引擎起源和發展
- 頭條權重
- 私域流量
- 企業主
- 偽靜態
- 純靜態
- seo友好度
- spider爬蟲
- 網站改版
- seo部署
- 301重定向
- 首選域名
- 301跳轉
- seo專家
- seo思維塑造
- seo高手
- seo套路
- seo誤區
- seo策略
- seo平衡
- seo和可訪問性
- 黑帽SEO
- 刷快排
- seoer
- 提升seo價值
- 百度算法
- 算法更新
- 網站排名波動
- 網站懲罰
- 百度小程序
- 小程序
- seo改版
- 網站改版周期
- seo內容
- 優質內容
- 改版后SEO
- 屏蔽右鍵
- 禁止右鍵
- 禁止查看源代碼
- 友情鏈接
- 被懲罰鏈接
- seo顧問
- 360算法
- 后羿算法
- SEO
- SEO實踐
- 重復內容