- クローラーとは
- クローラとは、インターネット上のあらゆるWebサイトの情報を取得して、検索用データベース・インデックスを作成する自動巡回プログラムのことである。Webサイトを這う(クロールする)ことからこのような名称が付けられた。クローラでは、WebサイトのHTMLに記載されているリンクをたどり、そのWebサイトがどのような内容なのか、どのような構造になっているのかなどを判断し、データベース化していく。クローラがアクセスできるファイル・情報はすべてデータベース化され、誰もが検索できるようになってしまうので、機密文書などに関してはアクセス権を設定するなどの注意が必要である。近年では検索結果の上位に表示させるためのSEOとして、有名検索Webサイトのクローラの動きを特に意識したWebサイト構築が目立つようになってきている。
- >> MEOでは「webコンテンツを検索エンジンが評価する仕組みのこと」を指します
タップできる見出し
略歴/流れ
インターネット上に存在するテキストや画像の情報を周期的に取得し、自動でデータベース化させるプログラムのクローラー(Crawler)は、1998年にGoogleが創業したことと深い関連があります。
初期のGoogleは検索に特化したシンプルなものでしたが、検索に対して価値を提供できるサイトであるか判別するための目安(ページランク)に加え、ユーザーのニーズに叶う独自の検索ランキングを付ける機能が備わっていました。
また、この検索結果に満足できるとして多くの支持を集め、Yahoo!もGoogleの検索エンジンを取り入れたという事実があります。
その影響と研究により2010年頃には、両者がほぼ同一の検索結果を得ることとなり、同時にGoogleは国内外最大級の検索エンジンとなり、クローラーのようなロボット型の検索エンジンが主流となっていったのです。
クローラーの定義と種類
クローラー(crawler)とは、インターネット上におびただしく存在するWebサイトおよび画像や動画、SNSといったあらゆる情報をキャッチし、検索データベースを自動で作成する巡回プログラムを指します。
インターネット上をクロール(這う)ことから、それらはクローラーと呼ばれているわけです。
現在の検索エンジンは大方がロボット型の検索エンジンとなっており、そのしくみは主に以下の通りです。
- インターネット上で拾ったWebサイトなどのページ情報をデータベース化する
- データベースに集められた情報から、登録されているページをランク付けする
- ランク付けされた順番に検索結果を画面上へ表示する
このことから分かる通り、クローラーの機能と検索エンジンのシステムは、ほぼ直結しているといえます。
まとめると、クローラーはインターネット上をクローリング(巡回)してWebサイト内の情報を収集するというのが、メインのプログラムということです。
したがって、自社のWebサイトや自身のブログを検索エンジンの上位検索結果に表示させたい場合、このクローラーが巡回する際に認識されなければなりません。
詳しく説明すると、多くのクローラーは、データベースへと登録されているWebサイトから順に、リンク先へと遷移しつつ巡回します。
そして、Webページにたどり着いたクローラーはページ内のパーシング(解析)を行い、情報を処理して検索アルゴリズムに適したデータへと変換し、その結果をデータベースへと登録していくのです。
パーシングによって、リンクに到達すればリンク先へ飛んで、そこでまた、情報収集→パーシングで判断してデータベースへ登録……といった過程を繰り返し行っています。
クローラーは「http」または「https」で取得できる情報を対象にサーバーと通信し、クローリングします。
クローリングの対象は、以下の通りです。
- Flash
- CSSファイル
- JavaScriptファイル
- 画像
- テキストファイル
検索エンジンとして著名なものとしては、以下のものが挙げられます。
- Googlebot(Google)
- Yahoo Slurp
- Bingbot
- WebCrawler
さらに、広告や画像に特化したクローラーなども存在し、今後はますます機能も緻密になっていくことでしょう。
関連する単語の紹介
NAP
NAPとはName(店舗名や会社名)・Address(住所)・Phone(電話番号)の頭文字を取ったものを指します。クローラーにとっても、重要な情報源です。
クローラビリティ
クローラーがインターネット上でWebページを巡回する際の、ページの見つけやすさをクロ―ラビリティと呼びます。クロ―ラビリティが良ければクロールの回数も増え、検索エンジンからも認識されやすいです。
一般的な活用方法、様々な目線から紹介
自身の持つWebサイトや企業のホームページのアクセス数を上げるためには、いかにクローリングされるかがカギを握ります。
クローラーに正確かつ最新の情報を解析し、評価されることで検索結果の上位を狙えるでしょう。
そのためには、以下の対策が必要です。
- 画像リンクよりテキストリンクを貼る(クローラーはテキストリンクを辿って巡回しやすい)
- トップから2クリックででページにたどり着けるように設定すると、クローラーが隅々までページをクローリングしやすい。
Webサイト運営者から見たクローラーのメリット・活用
クローラーによってブログや自社のサイトがクローリングされることで、検索結果上位になりアクセス数が増えます。
加えて、ページ派のアクセス数も多いほどクローリングされやすくなるため、常にサイトに正しく最新の情報を記載するよう心掛けるきっかけにもなるでしょう。
良質なサイトを持つことで、会社のイメージアップや新規顧客の獲得にもつながります。
ユーザーから見たクローラーのメリット・活用
クローラーによって検索結果上位に表示されるサイトは、まずSSL化がなされているところも多くセキュリティが守られます。
同時に、ユーザーのニーズに応えてくれるサイトが見つけやすくなります。
MEOにおける優位点・メリット・注意点
マップエンジン最適化を意味するMEO(Map Engine Optimization)によって、自社の店舗や会社を検索結果上位に表示させるためには、NAPが外せないポイントとなるでしょう。
店舗や会社の情報は、公式サイトだけでなく「食べログ」や「エキテン」、「ぐるなび」や「ホットペッパービューティー」といったプラットホームにも存在しますが、複数持つ場合は必ず、NAPを統一させることが重要です。
一致する情報はクローラーにも認識しやすく、関連性や知名度とつなげて評価が行われやすくなるというメリットが生まれます。
注意点としては、MEOでは悪いレビューを書かれることで悪影響を受ける可能性があること、Googleマイビジネスは定期的に更新し、放置させないことを知っておきましょう。
特にGoogleマイビジネスの管理をさぼって放置することによって、以下のデメリットが発生します。
- 悪意のあるクチコミがそのままになり、来客減少につながる可能性
- 第三者によって店舗や会社の情報が改ざんされる危険性
運用が難しい場合は、代行業者を活用するなどして、自社や店舗の情報は常に運用させましょう。