EBシリーズサポート掲示板(終了:閲覧のみ可)
このフォームからは投稿できません。
name
e-mail
url
subject
comment

[記事リスト] [新着記事] [ワード検索] [過去ログ] [管理用]

記事No : 615
タイトル Re^2: xdoc2txtでpptから抽出されない
投稿日: 2010/10/04(Mon) 13:12:29
投稿者koma

お返事ありがとうございます。

> 特に、PowerPoint2007以降で、PowerPoint2003互換で書き出したpptファイルは、xdoc2txtでファイル抽出できないことがわかっています。理由は未知のエレメントが使われているためです。

どうやらこれが原因のようです。
この読めない文書は、確か一度2007で編集してます。


> Office文書の仕様は、Office97頃まではMSDNライブラリに記載がありましたが、office2000以降は記載がありません。Office2000以降に登場したエレメントは未知なので全てスキップしています。
> 逆にPowerPoint2007以降のpptxのほうは、公開ドキュメントがあるので、かなりちゃんとテキストが抽出できるはずです。
> 「Microsoftと契約を結べば完全なドキュメントが提供される」と聞いたことがありますが、個人のベンダなので、この辺が限界です。

了解いたしました。
マイクロソフト側が公開していないのでは仕方ありませんね。
運用で対応するようにしたいと思います。
ありがとうございました。


- 関連一覧ツリー (▼ をクリックするとツリー全体を一括表示します)