a21_txt01_5

川合のプログラミング言語自作のためのテキスト第三版#5

(by K, 2021.03.02)

(1) HL-5

さて、HL-3にしてもHL-4にしても、実行速度はあまり速くありません。この原因の一つとして、実行時にgetTc()をたくさん使っていることがあります。
このgetTc()はシンプルに作ってあるので、実行速度はかなり遅いです。
実は一度getTc()したらもう値が変わることはないので、実行ループの中で何度もgetTc()しなおす必要は全くありません。
ということで、最初の一回はgetTc()するけど、それ以降は値を覚えておいてgetTc()しないように書き換えてみたいと思います。どのくらい速くなるでしょうか？
また最初にlexer()を使うことで狙ったトークンに固定のトークンコードを割り当てることもできるので、それも利用します。

#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <time.h>

typedef unsigned char *String;	// こう書くと String は unsigned char * の代用になる.

int loadText(String path, String t, int siz) → HL-4と同じなので省略

///////////////////////////////////////////////////////////////////////////////

#define MAX_TC  255 // トークンコードの最大値.
String ts[MAX_TC + 1]; // トークンの内容(文字列)を記憶.
int tl[MAX_TC + 1]; // トークンの長さ.
unsigned char tcBuf[(MAX_TC + 1) * 10]; // トークン1つ当たり平均10バイトを想定.
int tcs = 0, tcb = 0;

int var[MAX_TC + 1];	// 変数.

int getTc(String s, int len) → HL-4と同じなので省略

///////////////////////////////////////////////////////////////////////////////

int isAlphabet(unsigned char c) → HL-2と同じなので省略

int lexer(String s, int tc[]) → HL-2と同じなので省略

int tc[10000];	// トークンコード.

enum { TcSemi = 0, TcDot, TcWiCard, Tc0, Tc1, Tc2, Tc3, Tc4, Tc5, Tc6, Tc7, Tc8, TcEEq, TcNEq, TcLt, TcGe, TcLe, TcGt };

char tcInit[] = "; . !!* 0 1 2 3 4 5 6 7 8 == != < >= <= >";

///////////////////////////////////////////////////////////////////////////////

int phrCmp_tc[32 * 100], ppc1, wpc[9]; // ppc1:一致したフレーズの次のトークンをさす, wpc[]:ワイルドカードのトークンの場所をさす.

int phrCmp(int pid, String phr, int pc)
{
    int i0 = pid * 32, i, i1, j;
    if (phrCmp_tc[i0 + 31] == 0) {
        i1 = lexer(phr, &phrCmp_tc[i0]);
        phrCmp_tc[i0 + 31] = i1;
    }
    i1 = phrCmp_tc[i0 + 31];
    for (i = 0; i < i1; i++) {
        if (phrCmp_tc[i0 + i] == TcWiCard) {
            i++;
            j = phrCmp_tc[i0 + i] - Tc0; // 後続の番号を取得.
            wpc[j] = pc;
            pc++;
            continue;
        }
        if (phrCmp_tc[i0 + i] != tc[pc]) return 0; // マッチせず.
        pc++;
    }
    ppc1 = pc;
    return 1; // マッチした.
}

/////////////////////////////////////////////////////////////////////////////// 

int run(String s)
{
    clock_t t0 = clock();
    int pc, pc1;
    pc1 = lexer(s, tc);
    tc[pc1++] = TcSemi;	// 末尾に「;」を付け忘れることが多いので、付けてあげる.
    tc[pc1] = tc[pc1 + 1] = tc[pc1 + 2] = tc[pc1 + 3] = TcDot;	// エラー表示用のために末尾にピリオドを登録しておく.
    for (pc = 0; pc < pc1; pc++) { // ラベル定義命令を探して位置を登録.
        if (phrCmp( 0, "!!*0:", pc)) {
            var[tc[pc]] = ppc1; // ラベル定義命令の次のpc値を記憶させておく.
        }
    }
    for (pc = 0; pc < pc1;) { // プログラム実行開始.
        if (phrCmp( 1, "!!*0 = !!*1;", pc)) { // 単純代入.
            var[tc[wpc[0]]] = var[tc[wpc[1]]];
        } else if (phrCmp( 2, "!!*0 = !!*1 + !!*2;", pc)) {  // 加算.
            var[tc[wpc[0]]] = var[tc[wpc[1]]] + var[tc[wpc[2]]];
        } else if (phrCmp( 3, "!!*0 = !!*1 - !!*2;", pc)) {  // 減算.
            var[tc[wpc[0]]] = var[tc[wpc[1]]] - var[tc[wpc[2]]];
        } else if (phrCmp( 4, "print !!*0;", pc)) { // print.
            printf("%d\n", var[tc[wpc[0]]]);
        } else if (phrCmp( 0, "!!*0:", pc)) {	// ラベル定義命令.
            // 何もしない.
        } else if (phrCmp( 5, "goto !!*0;", pc)) { // goto.
            pc = var[tc[wpc[0]]];
            continue;
        } else if (phrCmp( 6, "if (!!*0 !!*1 !!*2) goto !!*3;", pc) && TcEEq <= tc[wpc[1]] && tc[wpc[1]] <= TcGt) {
            int gpc = var[tc[wpc[3]]], v0 = var[tc[wpc[0]]], cc = tc[wpc[1]], v1 = var[tc[wpc[2]]];
            if (cc == TcEEq && v0 != v1) { pc = gpc; continue; } // 条件が成立したらgoto処理.
            if (cc == TcNEq && v0 == v1) { pc = gpc; continue; } // 条件が成立したらgoto処理.
            if (cc == TcLt  && v0 <  v1) { pc = gpc; continue; } // 条件が成立したらgoto処理.
        } else if (phrCmp( 7, "time;", pc)) {
            printf("time: %.3f[sec]\n", (clock() - t0) / (double) CLOCKS_PER_SEC);
        } else if (phrCmp( 8, ";", pc)) {
            // 何もしない.
        } else
           goto err;
        pc = ppc1;
    }
    return 0;
err:
    printf("syntax error : %s %s %s %s\n", ts[tc[pc]], ts[tc[pc + 1]], ts[tc[pc + 2]], ts[tc[pc + 3]]);
    return 1;
}

///////////////////////////////////////////////////////////////////////////////

int main(int argc, const char **argv)
{
    unsigned char txt[10000];
    int i;
+   lexer(tcInit, tc);
    if (argc >= 2) {
        if (loadText((String) argv[1], txt, 10000) == 0) {
            run(txt);
        }
        exit(0);
    }
    for (;;) { // Read-Eval-Print Loop.
        printf("\n>");
        fgets(txt, 10000, stdin);
        i = strlen(txt);
        if (txt[i - 1] == '\n') { // 末尾に改行コードが付いていればそれを消す.
            txt[i - 1] = 0;
        }
        if (strncmp(txt, "run ", 4) == 0) {
            if (loadText(&txt[4], txt, 10000) == 0) {
                run(txt);
            }
        } else if (strcmp(txt, "exit") == 0) {
            exit(0);
        } else {
            run(txt);
        }
    }
}

↑

(2) HL-5の簡単な説明

関数：
- void loadText(String path, String t, int siz)
  - ファイルパスpathで指定されたソースファイルをtに読み込む。sizはtの最大サイズを表す（これを超える長さのファイルは途中で打ち切られる）。
- int getTc(String s, int len)
  - トークン（単語）をsに渡すと、それに対応するトークンコード（整数）を返す。
- int isAlphabetOrNumber(unsigned char c)
  - 引数で渡された文字コードが、英数字であれば1を返す。それ以外なら0を返す。
  - アンダースコアもHL-5の中ではアルファベットということにしておく。そうすることで、変数の一文字目に使えるようになる。
  - この関数は以下のlexer()の下請け。
- int lexer(String s, int tc[])
  - sにプログラムのソースコードを渡す。すると、tc[]にトークンコード（単語番号）に変換させられた数列が入って返される。
  - より詳しい動作は、a21_txt01_2aを参照のこと。
- int phrCmp(int pid, String phr, int pc)
  - tc[pc]からのトークンコード列がphrで指定されたトークン列と一致するかどうか調べる。
  - pidはフレーズIDで、この番号を使ってphrCmp_tc[]のどこにphrのlexer結果をしまっておくかを決めている。
  - なお、処理できるフレーズの最大長はこのプログラムの場合は31トークンである。
- int run(String s)
  - 言語処理の本体。HL-3までのmain()に相当。
- int main(int argc, const char **argv)
  - REPLの処理をしている。

変数：
- String ts[]
  - getTc()が管理している配列変数で、トークンコードからトークン文字列を得るために使う。
- int tl[]
  - getTc()が管理している配列変数で、トークンコードからトークン文字列の長さを得るために使う。
- unsigned char tcBuf[]
  - getTc()が管理している変数で、トークン文字列の実体を保存しておくための場所。
- int tcs, tcb
  - どちらもgetTc()が管理している変数で、tcsは今までに発行したトークンコードの個数（0～tcs-1が発行済み）。
  - tcbはtcBuf[]の未使用領域を指している。
  - もしtcBuf[]やtcbの役割がピンとこない場合は、a21_txt01_2bを参照。
- int var[]
  - 変数の値を記憶しておくための変数。トークンコードをそのまま変数番号に転用している。
- int tc[]
  - プログラムをトークンコード列に変換したものがここに入る。
- int phrCmp_tc[]
  - phrCmp()が管理している変数で、phrCmp_tc[]にはフレーズのlexer()の結果を保存する。
- int ppc1, wpc[]
  - フレーズが一致した場合、ppc1に一致したフレーズの次のトークンの位置が入る。
  - wpc[]にはワイルドカードで一致した位置が入る。

要点は、run()の中の「プログラム実行開始」以降は、getTc()を一度も呼ばないようにしたことです。代わりにphrCmp()を使っています。
これはphrase-compareのつもりなのですが、つまり複数のトークンが並んだものを一度に比較して一致しているかどうかを調べられる便利な関数です。
- 以下を比べてみてください。
```
[HL-4] } else if (tc[pc] == getTc("if", 2) && tc[pc + 1] == getTc("(", 1) && tc[pc + 5] == getTc(")", 1) && tc[pc + 6] == getTc("goto", 4) && tc[pc + 8] == semi) {
[HL-5] } else if (phrCmp( 6, "if (!!*0 !!*1 !!*2) goto !!*3;", pc)) {
```
- どちらが読みやすいでしょうか。もちろんphrCmp()のほうですよね！
- （実際のHL-5では「 && TcEEq <= tc[wpc[1]] && tc[wpc[1]] <= TcGt」もついていますが、これはHL-4ではチェックしていなかったことなので比較には含めないでおきました。）
ということでphrCmp()関数について説明します。
- phrCmp()は最初に呼ばれたとき、渡されたフレーズをlexer()でトークンコード列に変換して、phrCmp_tc[]にしまっておきます。
- これは最初の一回だけしかやらないので、実行時間にはほとんど影響しません。
- そしてプログラム中のトークンコード列と、phrCmp_tc[]を比較して、一致したかどうかを調べます。
- なお、「!!*」は特別なトークンで、これがあるとその場所には何が来ても一致したとみなします（ワイルドカード）。ワイルドカードの直後には0～8の数字を書くことになっていて、これでワイルドカードの位置がwpc[]で参照できるようになります。
- wpc[]が使えるようになったことで、プログラムはこんな感じに変わりました。
```
[HL-4]
        } else if (tc[pc + 1] == getTc("=", 1) && tc[pc + 3] == getTc("+", 1) && tc[pc + 5] == semi) {  // 加算.
            var[tc[pc]] = var[tc[pc + 2]] + var[tc[pc + 4]];

[HL-5]
        } else if (phrCmp( 2, "!!*0 = !!*1 + !!*2;", pc)) {  // 加算.
            var[tc[wpc[0]]] = var[tc[wpc[1]]] + var[tc[wpc[2]]];
```
- if文の条件節の部分はphrCmpのほうが読みやすいのは自明だと思います。その次の加算式についても、 pc + 2 とか pc + 4 とかを人間が計算しなくてよくなったところが進歩点です。
- 今のところ、1フレーズ当たり最大31トークンとして、100フレーズを記憶できるようにしてあります。
- さてこれによってどのくらい速くなったでしょうか。
- こちらの環境で試したときには約6倍くらい高速になりました。

もう一つのテクニックとして、以下のenumとtcInitがあります。

enum { TcSemi = 0, TcDot, TcWiCard, Tc0, Tc1, Tc2, Tc3, Tc4, Tc5, Tc6, Tc7, Tc8, TcEEq, TcNEq, TcLt, TcGe, TcLe, TcGt };

char tcInit[] = "; . !!* 0 1 2 3 4 5 6 7 8 == != < >= <= >";

これはmain()関数の最初で、tcInitをlexer()することで、トークンコードを決めてしまう方法です。enumは記述した定数名に 0, 1, 2, 3,... という定数を割り当てていくC言語の命令です。これで以後はgetTc()しなくてもトークンコードがわかるようになるのです。
これで一番得をしているのは、0～8が確実に連番になることと、比較演算子が連番になることです。
連番になっているとわかっているからこそ、「TcEEq <= tc[wpc[1]] && tc[wpc[1]] <= TcGt」という方法で比較演算子かどうかがわかります。
連番になっているからこそ、「j = phrCmp_tc[i0 + i] - Tc0; // 後続の番号を取得.」という書き方ができています。
（余談ですが、私は「a <= x && x <= b」という書き方が好きです。なぜなら数学の「a <= x <= b」に似ている気がするからです。）

なお、HL-5では6つの比較演算子のトークンコードを決めておきながら、結局実装したのは3つだけになっています。もしこれで足りないと思えば、各自が残りを実装してください。

↑

次回に続く

次回: a21_txt01_6

↑

こめんと欄

コメント	お名前	NameLink

最新の20件

川合のプログラミング言語自作のためのテキスト第三版#5

(1) HL-5

(2) HL-5の簡単な説明

次回に続く

こめんと欄