2022 年 6 月 28 日火曜日、Google は Googlebot に関するドキュメントの更新をリリースし、Googlebot は特定のファイル タイプを取得するときに最初の 15 メガバイトしか「認識」できないことを明確にしました。この制限は何年も前からありましたが、デバッグを支援するためにドキュメントに追加されたのは最近のことです。この制限は、Googlebot による最初のリクエストにのみ適用され、ページで参照されているリソースには適用されないことに注意してください (たとえば、HTML ページが JavaScript ファイルを参照している場合、Googlebot は引き続き JavaScript ファイルを表示および取得できます)。インターネット上でこれより大きなページはほとんどないため、Googlebot の新しい 15 MB 制限は大きな影響を与えない可能性があります。ただし、HTML ページが 15 MB を超える場合は、インライン スクリプトと CSS を外部ファイルに移動してみてください。最初の 15 MB より後のコンテンツは Googlebot によって削除され、最初の 15 MB のみがインデックスに転送されます。これは、Google 検索でサポートされているファイル形式をフェッチする際の Googlebot (Googlebot スマートフォンおよび Googlebot デスクトップ) によるフェッチに適用されます。しません。 Googlebot は、URL を使用して HTML で参照されている動画や画像を取得します (例: <img src="https://example.com/images/puppy.jpg" alt="かわいい子犬はがっかりしている" />
は連続抽出とは別のものです。はい。 データ URI{rel="nofollow"} を使用すると、HTML ファイルであるため、HTML ファイルのサイズが大きくなります。多くの方法がありますが、おそらく最も簡単な方法は、独自のブラウザーとその開発者ツールを使用することです。通常どおりページを読み込み、開発者ツールを起動して [ネットワーク] タブに切り替えます。ページをリロードすると、ブラウザがページをレンダリングするために必要なすべてのリクエストが表示されます。一番上のリクエストが探しているもので、ページのサイズ (バイト単位) は [サイズ] 列にあります。たとえば、Chrome デベロッパー ツール{rel="nofollow"} では、サイズの列が 150 kB の場合、次のようになります。サイトをクロールするときに Googlebot がダウンロードしたデータの量を確認するには、Chrome デベロッパー ツールの [ネットワーク] タブを使用するか、コマンド ラインから cURL を使用します。 cURL を使用するには、次のコードを入力します: curl \ -A "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (Gecko のような KHTML) Chrome/103.0.0.0 Safari/537.36" \ -so /dev / null https://example.com/puppies.html -w '%{size_download}' "https://example.com/puppies.html" を確認したいページの URL に置き換えます。このプロセスについてさらに質問がある場合は、Twitter および検索センター フォーラムで詳細を確認できます。さらに説明が必要な場合は、ドキュメント ページにフィードバックを残すこともできます。