作成したサイトまたは、作成中のサイトはクロールされたくないといったことがあるかと思います。
そういったクローラーの拒否を制御するファイルのrobots.txt。
robots.txtを設定することでSEO対策の一環にもなりますので設定しておくのがよいとされています。
今回の記事ではrobots.txtとは何なのか、記述方法や設置の際の注意点もご紹介していきます。
目次
robots.txtとは?
robots.txtはクローラーを巡回させたくないページやサイトがある場合に設定しておくことで、クローラーに対して該当のページをクロールしないように制御したり、クロールさせるページを示すファイルのことです。
こちらを記述することで作成中や修正中のページをクロールさせることなく、サイト内の優先してクロールさせたいコンテンツをクロールするように制御することができます。
補足:クローラーとクロールとは
クローラーはインターネット上の画像や文章など様々なコンテンツを収集し、データベース内に保存をしてサイト内を巡回するプログラムのことです。
クローラーがサイト内を巡回することをクロールと言います。
robots.txtとSEO対策
基本的にGoogle等の検索エンジンからクロールされることはサイトが評価されインデックスされる良いことではありますが、インデックスさせたくないコンテンツや重複コンテンツ、会員限定コンテンツなどはクロールしてしまうことで、SEO的に悪い効果をもたらしてしまう可能性があります。
そんな時にrobots.txtを設定することで、クロールさせたくないページを指定し重要なコンテンツや優先にクロールさせたいページに対して最適化をかけることができます。
robots.txtの記述方法
robots.txtは比較的強い指定のため、間違えた記述をしてしまうとサイト内に重大な問題が発生してしまうことがありますので、記述には十分気を付ける必要がございます。
ここからはrobots.txtの記述方法をご紹介します。
正しい記述方法
テキストエディタを開き、文字コードは「UTF-8」でファイル名は必ず「robots.txt」としてください。
最も基本的なrobots.txtの記述方法は以下の通りです。
以下の記述では、クローラーを拒否しているものはなく、クローラーに対してsitemapを提示しています。
User-Agent:*
Disallow:
Sitemap:https://○○○○○○.○○/sitemap.xml
以下でそれぞれの行の記述について説明していきます。
User-Agent
こちらは対象のクローラを指定する記述です。
なんのクローラに対してそこから下の記述を対応させるかを指定します。
上記の例では*としていますが、こちらはすべてのクローラーという指定しています。
他の例としてはGooglebotと記述すると、Googleのクローラーを指定することが可能です。
Disallow
DisallowはUser-Agentで指定したクローラーに対して、アクセスを拒否するページを指定します。
上記の例では記述をしていませんが、こちら記述しない場合には上記のようにDisallowの後はなにも記述しなければ、拒否するページがないことを意味します。
Sitemap
sitamapは、クローラーに対してsimemap.xmlを示してあげる記述になります。
クローラーはsitemapがなくてもリンクを辿りサイトないを巡回しますが、sitemapをクローラに対して示すことでクロールの必要がないページに巡回させないようにし、必要なページに早くクロールできるようにします。
サイトに来たクローラーに対してクロールしてもらうサイト内の地図を渡してあげるイメージです。
正しい設置方法
robots.txtのファイルが作成できましたら、実際にサイト内に設置していきましょう。
ファイルの設置場所は必ずサイトのルートディレクトリ(サイト内最上位のディレクトリ)となります。
設置方法としてはFTP接続やSFTP接続などでサーバーにアクセスし、ファイルを該当のディレクトリにアップロードすることで設置が完了となります。
robots.txtの確認方法
既にサイトを制作していて、robots.txtファイルを設置しているかどうかわからないといった方や、設置したので正しく設置されているか確認したいという方に簡単な確認方法をご紹介します。
https://ドメイン名/robots.txt
以上の記述をすることで、設置している場合にはrobot.txtファイルの中身がブラウザに表示されます。
設置ができていない場合などには404エラーなどが表示されます。
Google Search Consoleを使った確認方法
上記テスターはGoogleが提供しているサービスのSearch Consoleの機能の1つです。
Search Consoleを導入しているドメインであればこちらでドメインを選択しGooglebotを拒否しているページがあれば、ページURLを入力することで制御できているかテストすることができます。
テストできるのはGooglebotのみですので注意が必要です。
robots.txt使用の注意点
robots.txtは設定しておくことでSEOに対して良い効果を発揮しますが、設置の際には注意すべきことがいくつかあります。
インデックスさせたくない場合はnoindexを用いる
インデックスしないようにする措置でrobots.txtを使用することはやめておきましょう。
Disallowを指定することでクローラーを制限できるため実質的にインデックスはしないのですが、Disallowを指定していないページにDisallowを指定しているページへの内部リンクなどが設置されていた場合にはインデックスされてしまう可能性があります。
インデックスさせたくない場合にはnoindexのmetaタグを設置しましょう。
数千以上の大量のページがある場合以外はクロールの最適化の必要はない
大量のページがサイト内にある場合クローラーが回ることが遅い、回りきらないといった問題が起こる可能性がありますが、数千以下のページを有するサイトの場合はそういった問題が起こることはないと考えられているため、基本的には優先してクロールさせるなどの最適化を行う必要はありません。
robots.txtの使用方法とSEO効果|まとめ
今回の記事ではrobots.txtの概要や記述方法について解説しました。
robots.txtは検索エンジンのクローラーを制御することができるファイルで、テキストファイル内に記述してサイト内に設置することで効果を発揮します。
クローラーを制御することで数千ページ以上のサイトの場合にはSEO対策の施策の一つとして有効です。
弊社ではSEO対策サービスも提供しております。
SEO施策やコンテンツ制作などSEO対策にお困りの方は是非一度ご相談ください。
Web集客相談フォームはこちら!
当ブログの運営をしている株式会社メディアエクシードは、少数精鋭のWebマーケティング会社です。
一言でいえば、少数だからこその強みを生かした「痒いところに手が届く会社」です。
王道のWebマーケティングだけではなく、弊社が自社プロダクトの集客のために、独自で編み出したマーケティング手法を持っており、
そのノウハウの中からクライアント様の業態に合った最適な集客プランをご提案させていただいております。
もし、「現状のWeb施策が成約に繋がっていない、Webで効率的に新規開拓をしたい!」とお考えでしたら、お気軽にご相談ください。
関連記事
-
マーケティングブログ
インデックスカバレッジとは?エラーや除外が出た時の対応法を解説!
2019/09/03
-
マーケティングブログ
キーワードスタッフィングとは?やってはいけないブラックハットSEO
2023/05/08
-
マーケティングブログ
YouTubuスーパーサンクスとは?利用方法とメリットを徹底解説
2023/05/01
-
マーケティングブログ
YouTubeチャンネルアートのサイズは?バナーの作り方を解説!
2020/09/30
-
マーケティングブログ
YouTube広告の運用代行会社15選!広告の種類も詳しく解説
2021/07/19
-
マーケティングブログ
WordPress運用代行会社15選!運用の注意点や代行のメリット
2024/02/15