クローリングとは

検索エンジンのボット(クローラー)がWebサイトを巡回し、ページの情報を収集するプロセス。インデックスの前段階にあたる。

クローリングとは

クローリングとは、検索エンジンのロボット(クローラー/ボット)がインターネット上のWebページを自動的に巡回し、ページの内容を収集するプロセスです。Googleのクローラーは「Googlebot」と呼ばれ、リンクを辿ってページからページへと移動しながら、テキスト、画像、動画などの情報を収集します。

クローリングは「クロール→インデックス→ランキング」という検索エンジンの3段階プロセスの最初のステップです。

クローリングの仕組み

1. URLの発見

Googlebotは以下の方法で新しいURLを発見します。

  • 既知のページ内のリンクを辿る
  • XMLサイトマップに記載されたURLを読み取る
  • Google Search Consoleから送信されたURL
  • 以前クロールしたページの再訪

2. クロールキューへの追加

発見されたURLは、クロールの優先度やrobots.txtの指示を考慮してクロールキューに追加されます。

3. ページの取得と解析

Googlebotがページにアクセスし、HTMLコンテンツを取得します。JavaScriptで生成されるコンテンツも、Googleのレンダリングサービスによって処理されます。

クローラビリティを改善する方法

サイト構造を最適化する

  • すべての重要なページにトップページから3クリック以内でアクセスできるようにする
  • 論理的な階層構造でカテゴリ・サブカテゴリを整理する
  • パンくずリストを設置してサイト構造を明示する

XMLサイトマップを作成・送信する

XMLサイトマップを作成し、Google Search Consoleから送信することで、Googlebotにクロールすべきページを明示的に伝えられます。

robots.txtを適切に設定する

クロールさせたくないページ(管理画面、重複ページなど)をrobots.txtでブロックし、クロールバジェットを重要なページに集中させます。

内部リンクを充実させる

サイト内のページ同士を適切にリンクで結ぶことで、Googlebotがサイト全体を効率的にクロールできるようになります。孤立したページ(他のページからリンクされていないページ)はクロールされにくくなります。

ページの表示速度を改善する

表示速度が遅いサイトでは、Googlebotが一度にクロールできるページ数が制限される場合があります。Core Web Vitalsの改善はクロール効率にも好影響を与えます。