クローラーとは?自社サイトに導く方法

クローラー(Crawler)とは、検索エンジンがWebサイトの情報を収集するため、インターネット上を巡回させているロボット(bot)を指します。

検索エンジンは、クローラーが集めてきた情報をデータベースにインデックスし、アルゴリズムに基づいて検索順位を決定します。そのため、SEO対策の第一歩としてクローラーを自社サイトに導き、サイト内を回遊しやすい状況に整えておく必要があります。

自社サイトにクローラーを導く方法や、効率よくサイト内情報を収集させるコツとは何かをこのページでご紹介します。

クローラーとは

クローラーとは、GoogleやYahoo!、bingなどの検索エンジンが、インターネット上のリンクを辿ってWebサイトの情報を集めるために巡回させているロボット(bot)です。

新しいコンテンツの作成や既存コンテンツの情報更新をしたら、クローラーを自社サイトに呼び込んで情報を収集してもらい、検索エンジンのデータベースにインデックス(収納)してもらう必要があります。

言い換えれば、クローラーが自社サイトに回ってこなければ、新しい情報は検索エンジンのデータベースにインデックスされません。インデックスされなければ、サイトやページが評価されることも、検索結果画面に表示されないことを知っておきましょう。

クローラーの種類と収集する情報

検索エンジンのクローラーには主に以下の5つが挙げられます。

クローラーの種類
  • GoogleのクローラーであるGooglebot
  • Yahoo!のクローラーであるYahoo Slurp
  • BingのクローラーであるBingbot
  • Baidu(中国)のクローラーであるBaiduspider
  • Naver(韓国)のクローラーであるYetibot

いわゆるSEO対策の対象として注視するべきは、Googlebotです。

クローラーは、検索エンジンのデータベースにある情報内のリンクを辿り、インターネットの巡回をスタートします。Webサイトに到着したら、サイト内の内部リンクやXMLサイトマップ、パンくずリストなどから各ページに入り、以下の情報を集めます。

クローラーが収集する情報
  • テキスト
  • HTMLタグ
  • CSS
  • 画像・動画
  • php・JavaScript

検索エンジンは、クローラーが集めるこれらの情報をインデックスし、アルゴリズムに基づいてページを評価した上で順位を決め、検索結果画面に表示します。

クローラーを自社サイトに導く方法

新しく作ったコンテンツや、サイト内で更新した情報をクローラーに集めてもらうためには、自社サイトに導く必要があります。

どうすればクローラーを自社サイトに導けるのか、その方法をご紹介します。

Google Search Consoleからクロールをリクエスト

新しいコンテンツを作って公開、または時間経過による情報変化に合わせてコンテンツ内容を更新したら、Google Search Consoleを使ってクローラーを呼ぶリクエストをします。

Google Search Consoleにログインし、メニューの中から「検索パフォーマンス」を選びます。検索窓(PC画面なら画面上部、スマートフォンやタブレットの場合は画面上部の虫眼鏡をクリック)に、クロールさせたいページのURLを入力します。

サーチコンソールからインデックス登録を確認する方法

新規ページの場合は「URLがGoogleに登録されていません」と表示され、既存ページだと「URLはGoogleに登録されています」と表示されます。いずれの場合も、その下にある「インデックス登録をリクエスト」をクリックすれば、該当ぺージのクローリングをリクエストできます。

外部サイトからの被リンク

外部サイトから貼られたリンク(被リンク)で自社サイトを巡回してもらう方法もあります。

クローラーはリンクを頼りにWebサイトを巡回しているため、外部サイトから自社サイトへのリンクが貼られていれば、クローラーの入り口になります。外部サイトからの被リンクは、自社サイトの評価が上がるため、SEO効果にもつながります。

ただし、検索エンジンが評価する被リンクは、「自社サイトで案内している内容と結びつきがあり、コンテンツの質が高い外部サイトからのリンク」に限られます。自社サイトと関係がなく、内容の薄い低品質なコンテンツばかりの外部サイトからの被リンクは、自社サイトの評価を下げることにつながるので注意しましょう。

クローラーをサイト内で効率よく巡回させるには

クローラーを自社サイトまで導きながら、同時にクローラーがサイト内を効率よく巡回できる環境を整える必要があります。これをクローラビリティの向上といいます。

自社サイトを訪れたクローラーが、サイト内を巡回しやすくするためにできる施策をご紹介します。

URLを正規化しコンテンツをまとめる

1つ目は、URLの正規化です。

サイトの中にはシステムやサーバーなどの影響で、以下のようなURLは異なるものの内容が同じコンテンツが複数存在してしまう場合があります。このような場合に、「URLの正規化」を行うことで、分散するSEO評価を1つのURLへまとめることができ、効率よくクローリングしてもらうことが可能です。

重複コンテンツ例
  • www.の有無(https://www.aaa.co.jp と https://aaa.co.jp)
  • /index.htmlの有無(https://aaa.co.jp と https://aaa.co.jp/index.html)
  • /の有無(https://aaa.co.jp と https://aaa.co.jp/)
  • 計測のためのパラメーター(https://aaa.co.jp と https://aaa.co.jp/?utm~)
  • SSL設定(http://aaa.co.jp と https://aaa.co.jp)

上記は、いずれもサイトのトップページに該当するURLですが、URLの表記が異なる場合、クローラーはそれぞれを別々のページと認識し情報を集めてしまいます。

もし、別々のページと認識されてしまうと、それぞれのページが評価され、評価の分散が起きてしまいます。また、クローラーにはクローリングするぺージ数に限界値(クローラーバジェット)を持っているため、その他のコンテンツが正しくクローリングされないなどに繋がります。

評価の分散やクローラーバジェットの浪費を防ぐためにも、canonicalタグを使ってURLの正規化を行い、指定した1つのURLをクロールさせましょう。

内部リンクの設置と最適化

2つ目は、内部リンクの設置と最適化です。

クローラーは、自社サイト内のリンク(内部リンク)や他社サイトからのリンク(被リンク)を頼りに、各コンテンツを巡回しています。被リンクに関しては、自社ではコントロールできませんが、内部リンクに関しては、自社でコントロール可能です。

そのため、内部リンクを正しく設置し最適化することで、クローラビリティが向上します。しかし、だからといって、無闇やたらに内部リンクを設置することは、かえってクローラビリティを下げることにも繋がります。

内部リンクを適切に設置する方法として、以下の点に注意しましょう。

内部リンクを設置する際の注意点
  • 関係性のあるページ同士を結びつける
  • アンカーテキストはリンク先の情報が分かりやすいものにする
  • 3クリック以内で全てのページへたどり着けるようにする

XMLサイトマップの作成と設置

3つ目は、XMLサイトマップの作成と設置です。

XMLサイトマップは、サイト内のどこに、どのようなコンテンツがあるかをクローラーに知らせる地図のようなものです。XMLサイトマップを作成しサーバーにアップロードすることで、クローラビリティの向上に役立ちます。

というのも、サイト内のページの中には、内部リンクが貼られておらず、クローラーが自力で発見しにくいものがあります。また、内部リンクが設置されているものの、該当のページへ辿り着くまでに複数回のリンクをクリックしなければ、到達できない記事もクローラーは発見しにくいです。

そのような記事をクローラーに巡回してもらうためにも、XMLサイトマップの作成と設定が必要です。サイトの規模が大きくなり、ページ数が増えているものの、まだXMLサイトマップを設定していないのであれば、導入することをおすすめします。

パンくずリストを設定する

最後は、パンくずリストの設定です。

パンくずリストとは、ユーザーがサイトの構造内でどこにいるかを示すナビゲーションで、基本的にはページ上部に設置されています。

ユーザーはパンくずリストを確認することで、求める情報が記載された別ページへ移動しやすくなります。また、クローラーにとっても、パンくずリストがあることでサイト構造を理解しやすくなり、クローラビリティの向上につながります。

パンくずリストは内部リンクにも該当するため、まだ導入できていない場合には、パンくずリストを設定することをおすすめします。

クローラーがページを巡回しインデックスされたか確認する方法

クローラーが自社サイトを巡回した後は、検索エンジンのデータベースにインデックスされたか確認しておきましょう。

インデックスを確認する3つの方法をご紹介します。

Google Search Consoleでインデックスの確認

1つ目は、Google Search Consoleを使った確認方法です。

ログイン後、PC画面なら上部の空欄、スマートフォンやタブレットの場合は虫眼鏡をタップして検索窓を開き、確認したいページのURLを入力します。インデックスされていれば、「URLはGoogleに登録されています」と表示されます。

サーチコンソールでインデックスされているか確認する方法

「URLがGoogleに登録されていません」と表示される場合は、まだインデックスが完了していません。インデックスには時間がかかる場合もあります。

数日様子を見て、インデックスされていない場合は、noindexタグが誤って設定されていないか、robots.txtファイルに該当ページのクロール拒否を記載していないか確認し、再度クローリングをリクエストしましょう。

site:URLで検索する

2つ目のインデックス確認方法は、site:URLでの検索です。

Googleの検索窓に、「site:(コロン)」+URLを入力し、検索をかけます。インデックスされていれば、検索結果として該当ページのタイトルと概要が表示されます。

site:検索方法と未インデックス画面

cache:URLで検索する

3つ目の方法は、cache:URLでの検索です。

「cache:(コロン)」+URLでGoogle検索をかけると、Google が最後にアクセスしたときのウェブページの状態を、キャッシュ情報を元に表示させます。新規ページであればすでにインデックスされたことを意味します。

既存ページの情報更新を行い、クローラーが新しい情報を読み込んだかどうか確認する場合は、該当ページを開いて変更部分をチェックしておきましょう。

クローラーのアクセスを制限する方法

前述した通り、クローラーがサイト内を巡回する場合、上限があります。

検索エンジンのデータベースにインデックスさせるまでもないページに、クローラーを巡回させないようアクセスを制限することで、より効率よくサイト内の情報を収集してもらえます。

クローラーのアクセスを制限するための2つの方法をご紹介します。

robots.txtを設置する

robots.txtとは、サイト内でクローラーがアクセスできるファイルを制限するためのテキストファイルです。

自社サイト内の問い合わせフォームや、その後に表示されるサンクスページはユーザーに確認してもらうため必要ではあるものの、内容は薄くインデックスしてもらう必要はありません。

その他、会員登録ページや、新しいシステムを導入するためテストページを作成している場合など、インデックスを避けたいページはrobots.txtファイルを使い、クローラーを巡回させない設定をしておきましょう。

robots.txtでクローラーのアクセスを制限し、ユーザーの役に立たない低品質なページをインデックスさせないことは、SEO対策にもなります。

Basic認証を使う

Basic(ベーシック)認証とは、サイトを設置しているサーバーでサイトやページへのアクセス制限をかける認証方法です。

Basic認証で指定したディレクトリにアクセスする際、ユーザーはIDやパスワードが求められるようになり、クローラーはアクセスできません。

注意点として、Basic認証でのアクセス制限は、使用しているサーバーによっては設定できない場合があります。また、ページファイルではなく指定が「ディレクトリ単位」であること、それからSSL化されていないサイトの場合はセキュリティの問題も生じます。

クローラーのアクセス制限を行う場合は、robots.txtファイルを設定しましょう。

まとめ

クローラーとは何かを理解すると、効率的なSEO対策を進められます。

自社サイトをスタートさせたばかりで、新しいコンテンツを作り続けているものの、なかなかインデックスされず、検索結果画面に表示されない場合は、自社サイトがクローラーの巡回しやすい状態になっているか、確認しましょう。

すでにサイトを立ち上げてから時間が経過し、規模が大きくページ数も増えている状態なら、クローラビリティを改善すると得られるSEO効果が大きくなります。

このページで紹介した施策を取り入れ、ユーザーだけでなく、クローラーにとっても快適なサイト運営を心がけましょう。