EBPocket / EBWin サポート掲示板(終了:閲覧のみ可)
このフォームからは投稿できません。
name
e-mail
url
subject
comment

[記事リスト] [新着記事] [ワード検索] [過去ログ] [管理用]

記事No : 2345
タイトル Re: インデックス化後の全文検索の速度
投稿日: 2015/07/03(Fri) 09:55:00
投稿者hishida

> Pronceton WordNet 3.1 と Princeton WordNet 3.0 日本語WordNet
> 1.1の統合版(http://wordnetepwing.osdn.jp/) をインデックス化
> したのですが、する前と比べて全文検索の速度が明らかに遅いです
> 。"domesticated"や"addend"といった検索語
> で検索しました。EBWIN 4.1.3.1、PCのスペックは、Windows7 Home
> Premium 64bit sp1 Corei3 2.4GHz *2 メモリ4GB です。
> HONMO
> N, fts.dat, fts.db が入るフォルダを Program Files (x86)フォル
> ダとは別フォルダにしているのですが関係ありますか?

確認しましたが、確かに通常の全文検索よりもかえって遅くなります。
フォルダの場所の問題ではなくて、現在のEBWin4の全文検索の方法が、英語に向いていないのだと思います。
全文検索には形態素解析とN-gramという二種類の方法があってEBWin4はN-gram方式を使っています。日本語の検索ではN-gramのほうが向いていますが、英語のように単語が分けられるものでは逆に遅くなる可能性があります。
全角部分はN-gram、半角部分は単語単位にするなどハイブリッド型にするなどの工夫が必要そうです。

今年後半には全文検索のver2を考えたいと思いますが、当面は英語タイトルでは全文検索インデックスはつけないで運用していただければと思います。


- 関連一覧ツリー (▼ をクリックするとツリー全体を一括表示します)