Google検索結果におけるPDFファイル取扱いの6つのヒント
Google ウェブマスター向け公式ブログ: 検索結果における PDF ファイルの取り扱いについてのヒント
http://googlewebmastercentral-ja.blogspot.com/2011/09/pdf.html
上記記事によると、
Googleは2001年にPDFファイルのインデックスを開始したようですが
HTMLではないPDFという形式で作成されたページが
Googleによってどのように扱われているか
Googleウェブマスター向け公式ブログでアナウンスされていたので
噛み砕いてまとめてみました。
わたくし個人としては、プレスリリースや案内などは
HTMLファイルの方がよいかと思いますが
ユーザ視点で考えると印刷やメール添付する場合もありますので
両方用意しておくことにこしたことはないのかなと感じます。
そんなPDFファイルを用意した際に
Googleの処理方法について、
意外と認知していない部分もありましたので
ご参考になれば幸いです。
Googleの検索結果におけるPDFファイルの取り扱い
・PDFファイルに含まれているテキストコンテンツはインデックスされる
PDF文書内のテキストをコピーして、標準的なテキスト文書にペーストできるのであれば
そのテキストはインデックスされる。
テキストが画像として埋め込まれていても
アルゴリズムで処理しテキストを抽出することができる。
ただし、ファイルが保護、暗号化している場合はインデックス不可能。
・PDFファイル内の画像はインデックスには登録されない
画像をインデックス登録するには、その画像用のHTMLページを作成する必要がある。・PDFファイル内のリンクは、HTML内のリンクと同様に扱われる
PDFファイル内のリンクからPageRankをはじめとするインデックスするシグナルが渡される。現在では、PDFファイル内のリンクに対して、nofollow属性は設定できない。
・PDFファイルも他のウェブサイトと同じように検索結果に表示される。
PDFファイルの文章内容、サイトの埋め込み方法、その他のウェブページからのリンク状況などに基づき検索結果上に表示させている。
もし、検索結果に表示させたくなければ
PDFファイル用のHTTPヘッダーにX-Robots-Tag: noindexを追加すれば
インデックスから除外されていく。
早急に除外したい場合は、Googleウェブマスターツール内のURL削除ツールを使用する。
・検索結果に表示されるPDF文書のタイトルはカスタマイズ可能
GoogleがPDFファイルを検索結果に表示するタイトルの生成には、PDFファイル内のタイトルメタデータと、
そのPDFファイルを指すリンクのアンカーテキストという
2つの主要要素を使用しているおり、この2つをアップデートすることを推奨している。
・同じ内容のHTMLとPDFが存在する場合、正規化を推奨
Googleは、HTMLとPDFの両方の形式でアップしていると重複コンテンツとして判断する可能性があるので
コンテンツとしてどちらかのファイル一方にするか、
HTMLもしくは、PDF文章のHTTPヘッダー内でrel=”canonical” 属性を設定するなど
正規化を推奨している。
- Newer: 2011年09月26日のtwitterまとめ
- Older: 2011年09月22日のtwitterまとめ