[リストへもどる]
一括表示
タイトル字通テキスト化について
記事No55
投稿日: 2008/04/05(Sat) 20:09:55
投稿者tree
平凡社「字通」のテキスト抽出を試みています。
UWSC(フリーソフト)を使って、コピー&ペーストで行う予定です。
字通の親字数は約9000字あるようです。
独自のフォントを持っていて、普通は外字や画像扱いになりそうな甲骨文字等をすべてフォントとして持っているようです。すごいなあと感心しています。

本題です。
特殊な字体はあきらめて一般のフォントで9000字を抽出しようと考えています。
文字コードの扱いを知らないと抽出できないようです。
つまり、単純にエディタに貼り付けると特殊な文字は■になっています。
ワープロに貼り付けてhtmlとしてならばもとの文字として見ることのできます。textで保存すると特殊な文字が別の文字になっています。
unicodeの扱い方を知る必要がありそうだと考えています。

質問です。
コピー&ペーストを行った後でunicode形式のテキストファイルで保存する方法を教えていただけないでしょうか。
またはとんちんかんなことを考えているかもしれません。それならば、考え方をただしていただけませんか。

タイトルRe: 字通テキスト化について
記事No56
投稿日: 2008/04/06(Sun) 12:01:04
投稿者hishida
> 平凡社「字通」のテキスト抽出を試みています。
> UWSC(フリーソフト)を使って、コピー&ペーストで行う予定です。
> 字通の親字数は約9000字あるようです。
> 独自のフォントを持っていて、普通は外字や画像扱いになりそうな甲骨文字等をすべてフォントとして持っているようです。すごいなあと感心しています。
>
> 本題です。
> 特殊な字体はあきらめて一般のフォントで9000字を抽出しようと考えています。
> 文字コードの扱いを知らないと抽出できないようです。
> つまり、単純にエディタに貼り付けると特殊な文字は■になっています。
> ワープロに貼り付けてhtmlとしてならばもとの文字として見ることのできます。textで保存すると特殊な文字が別の文字になっています。
> unicodeの扱い方を知る必要がありそうだと考えています。
>

字通は所有していないので詳しいことはわかりませんが、独自フォントで実現しているなら、Unicodeではない可能性が高いと思います。
ワープロに貼り付けると見えると言うことは、フォント指定も含めてコピーされているからかもしれません。

> 質問です。
> コピー&ペーストを行った後でunicode形式のテキストファイルで保存する方法を教えていただけないでしょうか。

これは単純に答えられます。秀丸やemeditorなど、Unicode対応のエディタを使用してください。

タイトルRe: 字通テキスト化について
記事No57
投稿日: 2008/04/06(Sun) 16:52:20
投稿者tree
ご返答ありがとうございます。
unicodeのファイルについて単純ですね。何となく理解したように思います。

文字が入れ替わる問題は(a)の文字が(b)の文字になります。

外字について知るよい教材と思ったのですが、私の知識だとEPWING化は今のところ無理なようです。時間が作れるときに、再チャレンジしてみます。

(a)畎(田+犬)   UCS  754E
         UTF-8 E7 95 8E

(b)祝  UCS  795D
         UTF-8 E7 A5 9D
         JIS  3D4B
         シフトJIS 8F6A