EBシリーズサポート掲示板(終了:閲覧のみ可)
このフォームからは投稿できません。
name
e-mail
url
subject
comment

[記事リスト] [新着記事] [ワード検索] [過去ログ] [管理用]

記事No : 612
タイトル Re: xdoc2txtでpptから抽出されない
投稿日: 2010/10/04(Mon) 12:23:16
投稿者hishida

> 現在、社内で全文検索を導入しようとしている中で、フィルターをいろいろ検証していたのですが、ある特定のPowerPoint文書からワードが抽出できないケースがあり、原因が掴めない状況で困っています。

(略)
お返事遅れてすみません。
PowerPointの仕様には不明な部分があって、完全に対応できていないことは事実です。
特に、PowerPoint2007以降で、PowerPoint2003互換で書き出したpptファイルは、xdoc2txtでファイル抽出できないことがわかっています。理由は未知のエレメントが使われているためです。
Office文書の仕様は、Office97頃まではMSDNライブラリに記載がありましたが、office2000以降は記載がありません。Office2000以降に登場したエレメントは未知なので全てスキップしています。
逆にPowerPoint2007以降のpptxのほうは、公開ドキュメントがあるので、かなりちゃんとテキストが抽出できるはずです。
「Microsoftと契約を結べば完全なドキュメントが提供される」と聞いたことがありますが、個人のベンダなので、この辺が限界です。


- 関連一覧ツリー (▼ をクリックするとツリー全体を一括表示します)