robots.txt これは何?
プロバイダーからのアクセスログを見ると
「Code404-Not Found」ファイルが9.5%もあった。
リンク切れがそんなにもあるのかと調べてみた。その結果、小生の頁にはないファイルを探していて、NotFound になっているのを発見した。
その中に、robots.txt と、言うファイル名があった。ネットで調べると、最近、このファイルが使われるようになったとのこと。結論から言うと、ロボット検索を回避するフォルダーやファイルを指定するファイルだ。と、言うことが解った。
robots.txt 設置場所と書式内容
robots.txt 設置場所
robots.txt はそのサイトのトップにおく必要があります。
- ○ http://www.aaa.bbb/robots.txt
- × http://www.aaa.bbb/~page/robots.txt
上記の前者は有効ですが、後者では機能しません。後者は、個人の頁や無料のWeb頁の多くがこれに当てはまります。しかし、設置しても害にはなりません。
robots.txt 書式内容
書式は、次の内容です。
- User-agent: *
- Disallow: /
これは、すべて(*)の検索ロボットに対して、/ ではじまるファイル(つまりはすべてのファイル)を検索データベースに登録しないようにします。
実際の書式内容
- User-Agent: *
- Disallow: /dk/
- Disallow: /cgi-bin/
これは、小生の「machizukan.net」に設置したファイルの内容です。
- 解説:
- 全ての検索ロボットに、/dk/ と /cgi-bin/ フォルダーを検索しないように。と、言う内容です。
ここで、/DK/ はあるが /dk/ フォルダーはないので、\dk\index.html に
/DK/ へ強制的に移動するリストを記しておけば、DK へ移動します。
/cgi-bin/ にも、index.html を設置して、トップ頁へ移動させれば、よいでしょう。
この移動の理由は、robots.txt とアドレス欄に打ち込むと、リストが表示され、dk または cgi-bin と言うフォルダーがあることが解ります。
もしそこで、フォルダー名を入れれば、その頁が表示され、検索を回避した理由がなくなります。そのため、そのフォルダーには、別の頁へ強制的に移動する index.html リストを記するのが鉄則です。
そして、頁を開くファイルは別の名前にします。
例えば、index_1.html もしくは abc.html 。
検索を回避する別の方法
頁のトップの 「head」 の中に以下の指定を記せば、検索を規制できます。
頁ごとに記する必要があります。
- <meta name="robots" content="noindex,nofollow">
- 解説:
- noindex - 検索データベースへの記載を禁止。
- nofollow - このページに含まれるリンクをたどることを禁止。