N.N. LLC. ロゴ - 千葉県船橋市のIT企業N.N. LLC.
技術ブログ

ログファイル分析でクロール効率を最適化する方法

6分で読めます
ログファイル分析でクロール効率を最適化する方法

ログファイル分析とは — クロールの実態を可視化する

ログファイル分析とは、Webサーバーのアクセスログを解析し、Googlebotをはじめとする検索エンジンのクローラーがどのようにサイトをクロールしているかを可視化する手法です。Google Search Consoleで確認できるクロール統計は概要レベルの情報に限られますが、サーバーログを直接分析することで、クローラーの行動パターンをURL単位で詳細に把握できます。

大規模サイトにおいて、クロールバジェット(Googleがサイトに割り当てるクロールリソース)の最適化は極めて重要なSEO課題です。数万ページ以上を持つサイトでは、すべてのページが効率的にクロールされているとは限りません。ログファイル分析により、クローラーが重要なページを見逃していないか、不要なページに過剰なクロールリソースを消費していないかを確認し、クロール効率を最適化できます。

サーバーログの取得と前処理

ログファイルの取得方法

サーバーログは、利用しているホスティング環境によって取得方法が異なります。

  • VPS・専用サーバー:Apache の場合は/var/log/apache2/access.log、Nginx の場合は/var/log/nginx/access.logに保存されている
  • クラウドホスティング(AWS):CloudFront のアクセスログをS3に出力する設定を行う。ALB のアクセスログも同様に設定可能
  • CDN利用時:Cloudflare Enterprise やFastly ではログストリーミング機能を提供しており、リアルタイムでログを外部に転送可能
  • 共有ホスティング:コントロールパネル(cPanel等)からアクセスログをダウンロードする

ログデータの前処理

取得したログファイルからSEO分析に必要なデータを抽出するための前処理を行います。主な処理は以下の通りです。

  1. User-Agentフィールドでフィルタリングし、Googlebotのリクエストだけを抽出する(「Googlebot」「Googlebot-Image」「Googlebot-Video」等)
  2. ステータスコード、リクエストURL、タイムスタンプ、レスポンスサイズを構造化データとして整理する
  3. URLパラメータの正規化を行い、同一コンテンツへのアクセスを集約する
  4. CSS、JavaScript、画像などの静的リソースへのリクエストを必要に応じてフィルタリングする

クロールデータの分析ポイント

クロール頻度の分布

各URLが期間内に何回クロールされたかを集計し、クロール頻度の分布を確認します。重要なページが十分な頻度でクロールされているか、逆に重要でないページが過剰にクロールされていないかを判断します。

  • 高頻度クロールページ:トップページ、カテゴリページ、新着記事一覧など。これらが高頻度でクロールされるのは正常
  • 低頻度・未クロールページ:サイト階層が深い、内部リンクが少ない、クロール対象外にされている可能性がある
  • 過剰クロールページ:パラメータ付きURL、無限ページネーション、カレンダーページなどが過剰にクロールされているケースがある

ステータスコードの分析

Googlebotが受け取ったHTTPステータスコードの分布を確認します。200以外のレスポンスが多い場合、クロールバジェットの浪費が発生している可能性があります。特に、301/302リダイレクトの連鎖、404エラー、500番台のサーバーエラーが頻発していないかを重点的にチェックします。

ログファイル分析ツールの活用

専用ツールの比較

ログファイル分析には、Screaming Frog Log File Analyser、Oncrawl、JetOctopusなどの専用ツールが利用できます。これらのツールはログファイルを読み込むだけで、クロール統計の可視化、クロール済み・未クロールページの分類、Screaming Frogのクロールデータとの突合せ分析などを自動的に行ってくれます。

  1. Screaming Frog Log File Analyser:デスクトップ型で操作が直感的。Screaming Frog SEO Spiderとの連携が強み
  2. Oncrawl:クラウド型でログデータの大量処理が可能。セグメント分析やトレンド分析機能が充実
  3. JetOctopus:大規模サイト向けに設計されたクラウド型ツール。GSCデータとの統合分析が可能

分析結果に基づくクロール最適化施策

ログファイル分析の結果から、具体的なクロール最適化施策を実行します。不要なURLのクロールを制限するためにrobots.txtの調整やnoindexタグの追加を行い、重要ページへの内部リンクを強化してクロール優先度を高めます。パラメータ付きURLの制御にはSearch Consoleのパラメータ処理設定やcanonicalタグを活用します。定期的にログファイル分析を実施し、施策の効果を検証するサイクルを確立することで、クロール効率を継続的に改善していくことが可能です。

ログファイル分析
クロール最適化
テクニカルSEO
Googlebot
クロールバジェット

関連記事