robots.txt

robot.txt
robots.txtとは
robots.txtとは、冒頭でも少し触れましたが、サイトを巡回するクローラーの動作をコントロールするために記述するテキストファイル(.txt)のことです。主に、クローラーにサイト内のページ(ブログ記事)やディレクトリといったファイルへの巡回を制限する指定を記述するときに robots.txt(ロボッツテキスト) を用いることが多いです。これは、User-Agentでクローラーの種類を指定し、巡回させたくないファイルをDisallowを用いて記述することで、クローラーの巡回が制限できます。

>> SEOでは「重要なページをGoogleに認識させること」を指します

略歴/流れ

robot.txtは、1994年頃にWebCrawlerという検索エンジンで働いていたMartijn Kosterが工夫して考え出しました。

実際には、1995年のAlta Vistaなどの検索エンジンが登場してからrobot.txtが一般化されました。

2007年11月までは、Googleやヤフーなどの主要検索エンジンは、robot.txtの採用を表明していませんでした。

しかし、2019年には、GoogleがIETFでの標準化することを発表され、さらに一般化されていると言えます。

robots.txtとは?

robot.txtとは?

robots.txtとは、どこのWebサイトのURLにアクセスしてよいのか、検索エンジンのクローラに伝えるファイルのことを指します。

基本的には、クローラのサイトへのデータ量を管理するために利用されています。

ファイル形式によっては、Googleの判断でデータを非表示することを目的にして利用することも可能です。

検索エンジンのクローラーによって自分のコンテンツの重要なページにクロールさせることができます。

関連する単語の紹介

検索エンジン

検索エンジンとはユーザーが入力したキーワードに対して、関連性が高いWebサイトや画像、動画などを検索結果に表示させることが可能です。

世界で利用されている代表的な検索エンジンは、以下の通りです。

  • Google
  • Yahoo!
  • Baidu
  • Bing
  • DuckDuckGo

上記以外にも数多くの検索エンジンがあるため、利用目的に適した検索エンジンを活用することによって、効率よく検索することができます。

SEO対策

SEO対策とは、幅広いユーザーに対して、自分のWebコンテンツを多く露出をさせるための対策を指し、検索エンジン最適化とも呼ばれています。

具体的なSEO対策として、主に以下3つに分けられます。

  • コンテンツSEO
  • 内部対策
  • 外部対策

基本的には、ユーザーに対して、高品質で有益なコンテンツを作成することが求められます。

SEO対策を行って、成果が出るのに数ヶ月の期間が必要になりますが、検索上位表示されることによって、安定的にユーザーの集客を目指すことが可能です。

クローラー

クローラーは、検索エンジンが検索順位を決定するための要素を、サイトを巡回して情報収集を行うロボットのことです。

検索エンジンによって、クローラーの種類は異なり、主な検索エンジンのクローラーは以下の通りです。

検索エンジン クローラー
Google、Yahoo! Googlebot
Bing Bingbot
Baidu Baiduspider

また、クローラーが情報収入している項目は、主に以下項目です。

  • テキストファイル
  • HTML
  • CSSファイル
  • JavaScriptファイル
  • 画像
  • 動画

検索上位表示を狙うためには、クローラーに検索されやすいコンテンツ作りを行うことが重要と言えます。

インデックス

インデックスとは、検索エンジンのデータベースに、自分自身のWebコンテンツが登録されることです。

SEO対策を行う大前提として、インデックスがされていないと検索結果に表示させることができないため、必ずインデックスがされていることをすることが重要です。

基本的に、Webコンテンツを検索結果に表示させれば、約一週間でインデックスされますが、検索上位を狙うためには、できるだけ早くインデックスさせることによって有利に働きます。

robots.txtのSEO対策

robots.txtを導入することによって、不要なページへのクロールを防ぐことができ、重要なコンテンツへのクロールが優先させることができ、SEO対策にも効果的に働きます。

ユーザーによって価値があるコンテンツの評価基準として、短時間で不要なコンテンツを減らすことも重要とされています。

しかし、誤った記述をしてしまうと重要なコンテンツも不要なページとして扱われてしまう可能性もあります。

robots.txtの注意点

robots.txtの注意点について理解しておくことで、自分自身のWebコンテンツの検索順位を下落させてしまうリスクを減らすことが可能です。

また、SEO対策を行う際にも、有利に働くことができます。

具体的なrobots.txtの注意点について、特徴を踏まえて以下にて解説します。

全ページクロール拒否しない

検索エンジンのクローラーからの評価を得ることができなくなるため、全ページクロール拒否しないように注意が必要です。

全ページクロール拒否してしまうと、どんなに高品質で有益な情報があるコンテンツでも、評価されることがないため、検索上位を狙うことができません。

具体的には、Disallowを使用してしまうと、クロールブロックされてしまうため、Disallowは使用しないことをおすすめします。

表示させたくないページにはnoindexを利用する

表示させたくないページにnoindexを利用することによって、クローラーからの評価を上げることに繋げることが可能です。

noindexは、コンテンツへのアクセスをページ単位で制御することができるため、SEO対策を行う際にも有利に働くことができます。

noindexの実装する方法は、HTTPレスポンスヘッダーとメタタグの2種類があり、自分自身のコンテンツに合った方法を利用することをおすすめします。

関連リンク

アルゴリズム

コアリズムアップデート

HTML5/W3C

Google品質評価ガイドライン