クローリングとは
クローリングとは、検索エンジンのロボット(クローラー/ボット)がインターネット上のWebページを自動的に巡回し、ページの内容を収集するプロセスです。Googleのクローラーは「Googlebot」と呼ばれ、リンクを辿ってページからページへと移動しながら、テキスト、画像、動画などの情報を収集します。
クローリングは「クロール→インデックス→ランキング」という検索エンジンの3段階プロセスの最初のステップです。
クローリングの仕組み
1. URLの発見
Googlebotは以下の方法で新しいURLを発見します。
- 既知のページ内のリンクを辿る
- XMLサイトマップに記載されたURLを読み取る
- Google Search Consoleから送信されたURL
- 以前クロールしたページの再訪
2. クロールキューへの追加
発見されたURLは、クロールの優先度やrobots.txtの指示を考慮してクロールキューに追加されます。
3. ページの取得と解析
Googlebotがページにアクセスし、HTMLコンテンツを取得します。JavaScriptで生成されるコンテンツも、Googleのレンダリングサービスによって処理されます。
クローラビリティを改善する方法
サイト構造を最適化する
- すべての重要なページにトップページから3クリック以内でアクセスできるようにする
- 論理的な階層構造でカテゴリ・サブカテゴリを整理する
- パンくずリストを設置してサイト構造を明示する
XMLサイトマップを作成・送信する
XMLサイトマップを作成し、Google Search Consoleから送信することで、Googlebotにクロールすべきページを明示的に伝えられます。
robots.txtを適切に設定する
クロールさせたくないページ(管理画面、重複ページなど)をrobots.txtでブロックし、クロールバジェットを重要なページに集中させます。
内部リンクを充実させる
サイト内のページ同士を適切にリンクで結ぶことで、Googlebotがサイト全体を効率的にクロールできるようになります。孤立したページ(他のページからリンクされていないページ)はクロールされにくくなります。
ページの表示速度を改善する
表示速度が遅いサイトでは、Googlebotが一度にクロールできるページ数が制限される場合があります。Core Web Vitalsの改善はクロール効率にも好影響を与えます。