クローラー

クローラー
クローラーとは

クローラとは、インターネット上のあらゆるWebサイトの情報を取得して、検索用データベース・インデックスを作成する自動巡回プログラムのことである。Webサイトを這う(クロールする)ことからこのような名称が付けられた。

クローラでは、WebサイトのHTMLに記載されているリンクをたどり、そのWebサイトがどのような内容なのか、どのような構造になっているのかなどを判断し、データベース化していく。クローラがアクセスできるファイル・情報はすべてデータベース化され、誰もが検索できるようになってしまうので、機密文書などに関してはアクセス権を設定するなどの注意が必要である。

近年では検索結果の上位に表示させるためのSEOとして、有名検索Webサイトのクローラの動きを特に意識したWebサイト構築が目立つようになってきている。


SEOでは、情報取得のことを指します。

クローラーとは?

クローラーとは

クローラーは、インターネット上を巡回し、文章や画像などの情報を収集・分析し、検索データベースへの登録を行うロボットプログラム(bot)です。

「這う」、「腹ばいで進む」という意味を持つ「crawl」が語源とされており、インターネット上の情報が網目状の蜘蛛の巣のように繋がっていることから、蜘蛛を意味するスパイダー(spider)と呼ばれることもあります。

検索エンジンによってクローラの種類は異なりますが、基本的に検索エンジンでは「クローリング(パーシング)」、「インデックス」、「クエリ」、「ランキング」の4つのプロセスが行われており、クローラーはこの中の第一段階の担当です。

まず「クローリング(パーシング)」プロセスでクローラーインターネット上を巡回してHTML、CSS、JavaScript、文章、画像(GIF、JPEG、PNG、BMP、WebP、SVGなど)、動画(MP4、WebMなど)、PDF、FLASHといった認識可能なファイルをかき集めます。

そして「インデックス」プロセスでクローラーが集めた情報が検索エンジンのデータベース上に格納(インデックス化)。

ユーザーが検索エンジンから検索ワード(クエリ)を入力・検索すると3番目の「クエリ」プロセスとして検索ワードから求める情報を解析し、最後に「ランキング」プロセスとして、膨大なデータベースからランキング順にWEBサイトが選び出され、一覧表示されます。

関連する単語の紹介

関連する言葉
  • SEO
  • Googlebot
  • クローラビリティ
  • インデックス
  • 検索クエリ

SEO

SEOとはSearch Engine Optimizationの略で、WEBサイトへの訪問者を増やす、またはそのために行う処置や計画のことです。

Googlebot

Googleが提供するクローラーです。

日本で主に使われている検索エンジンの提供会社はGoogle、Microsoft、Yahooですが、2011年からはYahooJapanもGooglebotを使用しており、7割以上のシェアをしめていると言われています。

クローラビリティ

クローラーにやさしいWEBサイト作成を心がけることです。

クローラーが見つけやすく、情報収集・分析がスムーズにできるように工夫します。

インデックス

インデックス(index)は、「索引」を意味しますが、SEOにおいては検索エンジンなどのデータベースにいつでも取り出せるように情報が格納されている状態をあらわします。

同様の意味で「インデックス化」「インデキシング」と言われる場合もあります。

検索クエリ

検索エンジンの検索窓に入力するワードです。

検索クエリをもとに、検索エンジンのアルゴリズムが実行されクローラーが集めた膨大なWEBサイトの中から表示順位を決定、結果を表示させます。

SEOにおける効果的なクローラーの活用方法

活用

クローラーを有効的に活用すれば、検索エンジンで上位表示されやすくなり、WEBサイトの訪問者数・閲覧数をあげることができます。

そのためには、日本のシェア7割以上をしめるGooglebotを対象として、クローラビリティの高い、クローラーにやさしいWEBサイト作りを心がけることが重要です。

クローラビリティを向上させるためには以下の6つの方法がポイントとなります。

  1. Googleにクロールをリクエストする
  2. XMLサイトマップを作成・設置する
  3. 内部リンクを最適化する
  4. リンク切れページをなくす
  5. パンくずリストを設定する
  6. robots.txtを作成・設置する

Googleにクロールをリクエストする

Googleにクロールのリクエストを行うことでWEBサイトへのクロールを促すことができます。

リクエストするには、Googleサーチコンソールへの無料登録が必要です。確実にクロールされる為にもGoogleサーチコンソールへの登録、リクエストは必ず行っておきましょう。

XMLサイトマップを作成・設置する

XMLサイトマップとは、WEBサイト全体を分かりやすくした地図のようなものです。作成することでクローラーの巡回を促し、スムーズに情報を収集させることができます。

XMLサイトマップは、Googleサーチコンソールから送信が可能です。

内部リンクを最適化する

内部リンクとは、同じWEBサイト内のページ同士をリンクでつなげることです。

内部リンクを作り、最適化することで全体的な構造が分かりやすくなり、閲覧もしやすくなるため、クローラーのみならず、閲覧者にとってもやさしいWEBサイトにつなげることができます。

Googleの検索エンジンでは、クローラーがhref 属性が指定された<a>タグのみを対象としていますので、<a>タグでリンク設置を行いましょう。

リンク切れページをなくす

リンク切れとは、何らかの原因でリンク先が表示できなくなっている状態をいいます。クローラーは、一度に巡回できる回数が決まっています。

リンク切れが多いとその分、巡回数を無駄に使ってしまい、クローラーに優良なサイトと判断されにくくなります。閲覧者の信用を失う可能性もあるため、リンク切れページはできる限りなくすようにしてください。

パンくずリストを設定する

パンくずリスト(Breadcrumb List)とは、「トップページ>SEO>クローラー」のようなWEBサイト内での階層を表す表示のことです。

それ自体がリンクにもなっていますので、内部リンクの最適化としても利用でき、クローラーの巡回をスムーズにする効果があります。

robots.txtを作成・設置する

robots.txtとは、クローラーの巡回を禁止・制限するために作成するファイルです。WEBサイトの規模が大きいほど、全てのページをクローラーが巡回するまでの時間は長くなります。

そのため、優先度の低いページを巡回禁止にすることで、より早く優先度の高いページにクローラーが向かうように誘導することが可能です。

作成したrobots.txtは、ルートドメインに置くことで有効となります。

「クローラー」のメリット・注意点

  • 検索結果上位表示・集客アップ効果が期待できる
  • クロールバジェットの浪費を引き起こす要因に注意

検索結果上位表示・集客アップ効果が期待できる

WEBサイトの閲覧者を増やすためには、検索エンジンの検索結果でなるべく上位に表示させ、クリックされる回数を増やすことが重要です。

検索結果への表示、ランキングの決定は、クローラーが巡回・収集した情報をもとに検索エンジンが行っています

そのため、クローラーにできるだけ早く発見され、巡回された回数が多い方が集客数を増やすことができると言えます。

クロールバジェットの浪費を引き起こす要因に注意

クローラーが一度に巡回できる数には上限があります。

この上限はクロールバジェットと呼ばれており、何らかの原因でクロールバジェットを無駄遣いしてしまい、重要なページへの巡回が遅れてしまう状態のことを「クロールバジェットの浪費」といいます。

特に、リンク切れが多い、内部リンクが最適化されていないなど、巡回しにくい原因を持つWEBサイトで起こりやすいので注意が必要です。

その他関連する話

日本で最もシェア率の高いクローラーはGooglebotですが、次に多く使われているのがMicrosoftのBingbotです。

GoogleではGoogleサーチコンソールへ登録・リクエストすることでクローラー巡回を促すことができますが、MicrosoftのBing検索でも「BingWebマスターツール」に登録し、管理画面からサイトマップを送ることで同様の効果を得ることができます。

Googleサーチコンソール同様に、インデックス状況や登録されたページのクリック数、検索されたキーワードの表示、XML ファイルの設置など、さまざまなメニューが用意されてSEO対策に効果的です。

関連リンク

ページランク