a22_acl2_02 のバックアップ(No.4)

acl2ライブラリ #2

(by K, 2022.11.24)

↑

(1) Crit-bit木について #1

[1-1]
acl2ライブラリには、ACrit32L0B1などのクラスがあって、これはCrit-bit木を利用するためのクラスです。それでまずはCrit-bit木について説明します。

[1-2]
何か適当なオブジェクトの集合があって、それらを高速に検索したいとします。ソートした結果をポインタの配列で持っておくことができたら、あとは二分探索で探すだけでよくなるので、とても便利だと思います。これならO(logN)です（もしソートしてなかったら二分探索が使えないので、O(N)になってしまいます）。
ソートといえばqsort()でしょう。ということで、ひとまず解決です。
・・・でも待ってください。もし今100万件のデータがソート済みで、そこから一つだけデータを消すとしたらどうでしょうか？まず消すべきデータがどこにあるのかは二分探索ですぐにわかります。そして、そこを一番最後の要素で上書きすれば、これで一つ消したことになります。しかしこれだとソートされた状態が維持できていません。仕方ないのでqsortを呼びます。・・・これはいけません。O(NlogN)の時間がかかります。
それならmemmove()で消したい場所移行を1つ分だけ前にずらすのはどうでしょうか。これならO(N)で済みます。qsort()よりもいいです。・・・同じ問題は、データを1件だけ追加するときにも生じます。二分探索で挿入すべき場所を探して、memmove()でそこに1つ分の空きを作って入れるやり方のほうがqsort()よりも速いです。・・・結局qsort()は最初にたくさんのデータをソートするには最適なアルゴリズムですが、その後1件ずつ更新するには不向きなアルゴリズムです。

[1-3]
しかしO(N)というのはお世辞にも速いアルゴリズムだとは言えません。・・・これより速いアルゴリズムがあります。それば二分木やB木などです。これらはソートされた結果をポインタの配列で保持するのをやめて、「木」と呼ばれるデータ構造で管理します。この状態でもデータの検索はO(logN)で行えます。またデータの削除や追加はそれぞれどちらもO(logN)で、先のO(N)よりも格段に速いです。ただし、単純な配列よりもメモリは使います。たいてい単純な配列バージョンの数倍の容量を必要とします。ですから開発者はスピード重視かそれとも省メモリ重視なのかで使い分けることになります。

[1-4]
とはいえ、人類のアルゴリズムの探求は終わりません。もっと速くできないでしょうか。・・・結局、二分木やB木の処理時間のほとんどは、キーデータの比較です。そう、単純な配列であっても二分探索の際にはO(logN)回のキーの比較をやっていました。だからこの比較処理をやめることができたら、ずっと速くできそうです。・・・そんな夢みたいな方法があるのか・・・あるんです。
たとえば、キーのデータが、必ず大文字のアルファベット4文字で構成されているとしましょう。これは26^4=45.7万通りしかありません。それなら45.7万の要素を持つポインタの配列を作ればいいじゃないですか。これで、キーの値が"KAWA"のオブジェクトがどこにあるかをO(1)で検索できるようになります。データの1件ずつの追加も削除もすべてO(1)です。これはもはやハッシュ関数を使わないハッシュテーブルです。
しかしまあ、実際はそんな「キーの値は45.7万通りしかない」みたいなことはまれで、たいていはテーブル配列をメモリ上に構築できません（大きすぎて無理）。でも要点は一つ見つかりました。「ほかのキーとの比較をやめればいい」これです。
たとえばこうです。"KAWAI"と"OSASK"と"ESSEN"の3つのキーがあるのなら、1文字目だけ見ればそれだけでどこに行けばいいのかわかります。もしここで"OMAKE"も入って合計4つのキーになった場合は、1文字目が"O"の場合に限って2文字目を見て、"S"か"M"かで分岐します。こういう「木」を作ればいいのです。・・・この木をたどる際には、自分のキーだけ見ていればいいのです。他のキーとの比較は発生しません。・・・こういう木を「トライ木」と総称します。

[1-5]
先の例ではキーの文字に注目しました。文字だと分岐が多くなります。仮に1文字が1バイトだとしても256通りもあります。そんな木は管理が大変なので、キーをビット列に展開し、3ビット目が"0"ならこっち、"1"ならあっち、みたいな木を作ります。これがCrit-bit木です。Crit-bitというのは「クリティカル・ビット」の略らしいです。これは私の推測ですが、臨界点（クリティカル・ポイント）という言葉があって、水と氷のさかい目の温度とか、水蒸気と水のさかい目の温度などのことを指しているのですが（というか物質は水に限らないし、温度じゃなくて圧力の場合も臨界点なのですが）、そういう、AかBかのぎりぎりのさかい目ということで、クリティカル・ビットなのかなーと。1ビットで枝分かれするのであれば、分岐はそれぞれ2つしかありません。二分木とにたような木になって理解しやすいです。ということで、Crit-bitはトライ木のうちの一つです。

↑

(2) Crit-bit木について #2

[2-1]
ここで、ベンチマーク結果を示したいと思います。・・・0から999999まで、数を数えて文字列にします。これで"0", "1", "2", "3", ... という100万件の文字列データができます。これをqsortでソートします。その際に比較関数を
```
int qscmp(const void *a, const void *b)
{
    return strcmp(*(char **) a, *(char **) b);
}
```
としてみました。すると当方の環境（Kano PC, Celeron N4000）では、初期の並びを配列に書き込んでqsort()が終わるまでに340ミリ秒かかりました。ソート結果を出力するとこうなっていました。
```
0
1
10
100
1000
10000
100000
100001
100002
100003
100004
100005
100006
100007
100008
100009
10001
100010
100011
```

いい感じに混ざり合っているのがよくわかります。次に、比較関数を改良しました。strcmp()は遅いので、使わない形に書きました。

int qscmp(const void *a, const void *b)
{
    const unsigned char *ca = *(const unsigned char **) a, *cb = *(const unsigned char **) b;
    if (ca[0] != cb[0]) return ca[0] - cb[0];
    if (ca[1] != cb[1]) return ca[1] - cb[1];
    if (ca[2] != cb[2]) return ca[2] - cb[2];
    if (ca[3] != cb[3]) return ca[3] - cb[3];
    if (ca[4] != cb[4]) return ca[4] - cb[4];
    if (ca[5] != cb[5]) return ca[5] - cb[5];
    return ca[6] - cb[6];
}

こうすると、286ミリ秒になりました。もちろん結果は同じです。ではもっと改良します。32bitのintを使って、4文字ずつ比較します。

int qscmp(const void *a, const void *b)
{
    const unsigned int *ca = *(const unsigned int **) a, *cb = *(const unsigned int **) b;
    if (ca[0] != cb[0]) return ca[0] - cb[0];
    return ca[1] - cb[1];
}

この比較を成功させるためには、文字列を加工する必要があります。x86はリトルエンディアンなので、char *s;のs[0]が上位に来てくれないのです。それでエンディアンを入れ替える処理を追加しました。するとソートに要する時間は278ミリ秒になりました（このキーの加工にかかる時間はこの278ミリ秒には含まれません）。32ビット環境ではこれくらいがqsort()での限界かなと思います。

[2-2]
では同じことをACrit32L0B1でやってみました。100万件の文字列を作って、やはりキーを都合のいい形式に加工しておきます（ビットを入れ替える）。また空っぽの木も準備しておきます。ここから処理時間を計測開始です。ACrit32L0B1_ins()でデータを1つずつ追加していきます。合計100万件です。そしてその後、qsort()と結果が同じ形式になるように配列にポインタを出力させます。この時間を計りました。100万回のinsに186ミリ秒かかって、配列への出力に20ミリ秒かかりました。合計で206秒です。qsort()での最速の278ミリ秒よりも明らかに速いです！

[2-3]
話はこれで終わりではありません。実はACrit32L0B2とACrit32L0B4というクラスもあります。使い方は同じなのですが、速さが違います。この違いは何かというと、～B1は1ビットずつのCrit-bit木なのですが、～B2は2ビットずつのCrit-bit木なのです。～B4は4ビットずつのCrit-bit木です。結果を以下にまとめておきます。
qsrot #1 340ms
qsort #2 286ms
qsort #3 278ms
ACrit32L0B1 186+20=206ms
ACrit32L0B2 145+17=162ms
ACrit32L0B4 127+15=142ms
このようにこの例ではqsort()よりも高速になりましたが、他のキーに対してはまた別の結果になるだろうと思います。またC++のSTLのsortはqsort()よりも3～4倍くらい速いという話を見聞きしたことがあるので、ACrit32はそれには負けていると思います。やっぱり高速に1件ずつ追加したり削除したりできることを優先していると、まとめて一気にソートするアルゴリズムには勝てないです、たぶん。

[2-4]
上記の例では文字列は最長でも6バイトでした。もっと長い文字列でやったら当然遅くなると思いますが、さてどの程度遅くなるでしょうか。実験してみました。文字列はUTF8で全角文字にしました。これで1文字当たり3バイトになるので、最長18バイトになります。

qsortの比較関数はこうしました。

int qscmp(const void *a, const void *b)
{
    const unsigned int *ca = *(const unsigned int **) a, *cb = *(const unsigned int **) b;
    if (ca[0] != cb[0]) return ca[0] - cb[0];
    if (ca[1] != cb[1]) return ca[1] - cb[1];
    if (ca[2] != cb[2]) return ca[2] - cb[2];
    if (ca[3] != cb[3]) return ca[3] - cb[3];
    if (ca[4] != cb[4]) return ca[4] - cb[4];
    return ca[5] - cb[5];
}

結果は以下の通りです。
qsort
ACrit32L0B1 203+21=224ms
ACrit32L0B2
ACrit32L0B4 160+16=176ms

qsrot #1	340ms
qsort #2	286ms
qsort #3	278ms
ACrit32L0B1	186+20=206ms
ACrit32L0B2	145+17=162ms
ACrit32L0B4	127+15=142ms

qsort
ACrit32L0B1	203+21=224ms
ACrit32L0B2
ACrit32L0B4	160+16=176ms