由於這個月流量已經快爆表了[1. 每月流量限制為32GB],再這樣下去可能30號就沒有流量可以使用(我不太清楚我的主機商是否有提供緩衝流量),並因為流量一般呈正成長的關係,所以下個月會更慘[2. 一月21.94GB、二月16.38GB、三月18.3GB、四月29.61GB、五月在寫這篇文章時為28.29GB]
於是又開始動robots.txt[3. robots.txt於wikipedia上的解釋:一種存放於網站根目錄下的ASCII編碼的文本文件,它通常告訴網路搜索引擎的漫游器(又稱網路蜘蛛),此網站中的哪些內容是不能被搜索引擎的漫游器獲取的,哪些是可以被(漫游器)獲取的。]、檔IP、查盜連(事實上是我看refer的時候不小心看到有盜連)
照例備份跟給其他站長參考,原本robots.txt想用白名單直接過濾,但…那些不敢公佈自己名字的robots根本不看robots.txt
# ALL
User-agent: *
Disallow: /wp-admin/
Disallow: /browsers/
Disallow: /wp-content/backup/
Disallow: /wp-content/upgrade/
Disallow: /wp-content/uploads/
Disallow: /wp-content/plugins/
Disallow: /wp-content/languages/
Disallow: /wp-includes/
User-agent: Googlebot-Image
Disallow: /User-agent: Googlebot
Disallow: /*.gif$
Disallow: /*.jpg$
Disallow: /*.png$
Disallow: /*.wmv$# baidu
User-agent: Baiduspider
Disallow: /# help.soso.com/webspider.htm
User-agent: Sosospider
Disallow: /# msn
User-agent: searchpreview
Disallow:/
User-agent: msnbot
Disallow: /
但是robots.txt要等到它生效還真是有夠久。我到後台ban了一些比較誇張的IP
country: MX
201.147.251.195country: CN
202.108.0.0 – 202.108.255.255
202.120.0.0 – 202.120.63.255
61.177.0.0 – 61.177.255.255 spam (只找post.php意圖相當明顯)
61.135.0.0 – 61.135.255.255 百度 (吃了7.65%流量)Country: US
69.136.0.0 – 69.143.255.255 spam (只找post.php意圖相當明顯)
最後我找到一個頗有名的blog,它…居然連到我站上的JS,我昨晚睡前已經去留言了,就等該格主回應…(我相信他是無心的)某一些頁面甚至比我的流量還多了好幾倍啊Orz(儘管那只是一個小小的、不到1k的檔案)
–5.27 14:00
該站已經修正了語法,感謝!
早上我也將一些JS跟使用頻繁的小圖移到其他地方去,不過這些遠遠比不上robots的流量。阿門……
7 Comments
謝謝分享您的robots.txt,非常受用。
o.o
原來vsy的流量那麼大XDD!!!
32是我的幾倍啊 呵~
其實你這種檔的方法我還不是很會呢
是把這個txt檔案上傳到Ftp就好了嗎@@
@muki:
對,放在根目錄下面~詳細的使用方法可以看wiki喔
喔喔~看來muki大如果不封的話下個月就會暴表了
老實說我對查IP這項技術不懂…
有什麼好用的工具及判斷方式嗎?
我有用免費論壇
結果只是幾隻小小的robots就把我的論壇操暴了
之後還是他們看沒油水可撈才離開呢…
大陸也多了很多類似 Google 的 search engine. 看referral 發現 images 有被找到才知道, 我也是盡快 block…. 可是新的網站一直出來, 要全部擋下還真不簡單呢… :|
[quote comment=”8897″]
老實說我對查IP這項技術不懂…
有什麼好用的工具及判斷方式嗎?
[/quote]
自用主機可以用cpanel提供的統計系統,找找看是哪幾個IP request最多(不過別誤封了自己的IP)
接著用whois去查詢IP是哪個公司行號/國家來的,不是google yahoo那種我就把他封了
[quote comment=”8924″]大陸也多了很多類似 Google 的 search engine. 看referral 發現 images 有被找到才知道, 我也是盡快 block…. 可是新的網站一直出來, 要全部擋下還真不簡單呢… :|[/quote]
流量不是太大的我不會在意,search engine也不一定都會看robots.txt,所以…也許最好的方法是設置圖片檔防盜連吧
:|
哇…好羨慕喔…
流量只要有M大的5分之一(那也很多了)
我就很高興了…(貪~)