由於這個月流量已經快爆表了[1. 每月流量限制為32GB],再這樣下去可能30號就沒有流量可以使用(我不太清楚我的主機商是否有提供緩衝流量),並因為流量一般呈正成長的關係,所以下個月會更慘[2. 一月21.94GB、二月16.38GB、三月18.3GB、四月29.61GB、五月在寫這篇文章時為28.29GB]

於是又開始動robots.txt[3. robots.txt於wikipedia上的解釋:一種存放於網站根目錄下的ASCII編碼的文本文件,它通常告訴網路搜索引擎的漫游器(又稱網路蜘蛛),此網站中的哪些內容是不能被搜索引擎的漫游器獲取的,哪些是可以被(漫游器)獲取的。]、檔IP、查盜連(事實上是我看refer的時候不小心看到有盜連)

照例備份跟給其他站長參考,原本robots.txt想用白名單直接過濾,但…那些不敢公佈自己名字的robots根本不看robots.txt


# ALL
User-agent: *
Disallow: /wp-admin/
Disallow: /browsers/
Disallow: /wp-content/backup/
Disallow: /wp-content/upgrade/
Disallow: /wp-content/uploads/
Disallow: /wp-content/plugins/
Disallow: /wp-content/languages/
Disallow: /wp-includes/

# Google
User-agent: Googlebot-Image
Disallow: /

User-agent: Googlebot
Disallow: /*.gif$
Disallow: /*.jpg$
Disallow: /*.png$
Disallow: /*.wmv$

# baidu
User-agent: Baiduspider
Disallow: /

# help.soso.com/webspider.htm
User-agent: Sosospider
Disallow: /

# msn
User-agent: searchpreview
Disallow:/
User-agent: msnbot
Disallow: /

但是robots.txt要等到它生效還真是有夠久。我到後台ban了一些比較誇張的IP

country: MX
201.147.251.195

country: CN
202.108.0.0 – 202.108.255.255
202.120.0.0 – 202.120.63.255
61.177.0.0 – 61.177.255.255 spam (只找post.php意圖相當明顯)
61.135.0.0 – 61.135.255.255 百度 (吃了7.65%流量)

Country: US
69.136.0.0 – 69.143.255.255 spam (只找post.php意圖相當明顯)

最後我找到一個頗有名的blog,它…居然連到我站上的JS,我昨晚睡前已經去留言了,就等該格主回應…(我相信他是無心的)某一些頁面甚至比我的流量還多了好幾倍啊Orz(儘管那只是一個小小的、不到1k的檔案)
–5.27 14:00
該站已經修正了語法,感謝!

早上我也將一些JS跟使用頻繁的小圖移到其他地方去,不過這些遠遠比不上robots的流量。阿門……

Author

現為網路行銷工作者。曾建立韓國部落格程式 Tatter Tools 臺灣中文社群、擔任 Mozilla Taiwan Firefox 社群版主與 Wiki 責任編輯。熱愛學習語言藉以瞭解當地文化。

7 Comments

  1. o.o
    原來vsy的流量那麼大XDD!!!
    32是我的幾倍啊 呵~
    其實你這種檔的方法我還不是很會呢
    是把這個txt檔案上傳到Ftp就好了嗎@@

  2. 喔喔~看來muki大如果不封的話下個月就會暴表了

    老實說我對查IP這項技術不懂…
    有什麼好用的工具及判斷方式嗎?

    我有用免費論壇
    結果只是幾隻小小的robots就把我的論壇操暴了
    之後還是他們看沒油水可撈才離開呢…

  3. 大陸也多了很多類似 Google 的 search engine. 看referral 發現 images 有被找到才知道, 我也是盡快 block…. 可是新的網站一直出來, 要全部擋下還真不簡單呢… :|

  4. vsy Reply

    [quote comment=”8897″]
    老實說我對查IP這項技術不懂…
    有什麼好用的工具及判斷方式嗎?
    [/quote]
    自用主機可以用cpanel提供的統計系統,找找看是哪幾個IP request最多(不過別誤封了自己的IP)
    接著用whois去查詢IP是哪個公司行號/國家來的,不是google yahoo那種我就把他封了

    [quote comment=”8924″]大陸也多了很多類似 Google 的 search engine. 看referral 發現 images 有被找到才知道, 我也是盡快 block…. 可是新的網站一直出來, 要全部擋下還真不簡單呢… :|[/quote]
    流量不是太大的我不會在意,search engine也不一定都會看robots.txt,所以…也許最好的方法是設置圖片檔防盜連吧
    :|

發表迴響

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料