* 川合のプログラミング言語自作のためのテキスト第三版#5 -(by [[K]], 2021.01.27) ** (11) TL-5 -さて、TL-3にしてもTL-4にしても、実行速度はあまり速くありません。この原因の一つとして、実行時にstrcmp()をたくさん使っていることがあります。 -実はTL-2以降では、トークンコードを使うだけでもトークン単位で簡単に比較ができるので、strcmp()はほとんど使わずに実行を進められるはずなのです。 -ということで、そうできるように書き換えてみたいと思います。どのくらい速くなるでしょうか? #include <stdio.h> #include <stdlib.h> #include <string.h> #include <time.h> typedef unsigned char *String; // こう書くと String は unsigned char * の代用になる. int loadText(String path, String t, int siz) → TL-4と同じなので省略 int isAlphabet(unsigned char c) → TL-2と同じなので省略 int lexer(String s, String b, String t[]) → TL-2と同じなので省略 #define MAX_TC 255 // トークンコードの最大値. String ts[MAX_TC + 1]; // トークンの内容(文字列)を記憶. unsigned char tcBuf[10000]; int tcs = 0, tcb = 0; int getTc(String s) → TL-4と同じなので省略 int phrCmp_tc[100 * 20]; unsigned char phrCmp_buf[100 * 100]; int phrCmp(int pid, String phr, int tc[], int pc) { int i, i1; if (phrCmp_tc[pid * 20] == 0) { String t[20]; i1 = lexer(phr, &phrCmp_buf[pid * 100], t); phrCmp_tc[pid * 20] = i1 + 1; for (i = 0; i < i1; i++) { if (strcmp(t[i], "!!*") == 0) { phrCmp_tc[pid * 20 + 1 + i] = -1; } else { phrCmp_tc[pid * 20 + 1 + i] = getTc(t[i]); } } } i1 = phrCmp_tc[pid * 20] - 1; for (i = 0; i < i1; i++) { if (phrCmp_tc[pid * 20 + 1 + i] == -1) continue; if (phrCmp_tc[pid * 20 + 1 + i] != tc[pc + i]) return 0; // マッチせず. } return 1; // マッチした. } int pc, pc1, var[MAX_TC + 1], tc[1000]; // 変数(var)とトークンコード(tc). String t[1000]; // トークン(t). int run(String s) { clock_t t0 = clock(); unsigned char buf[10000]; int i, tcs0 = tcs, semi = getTc(";"); strcpy(s + strlen(s), ";"); // 末尾に「;」を付け忘れることが多いので、付けてあげる. pc1 = lexer(s, buf, t); t[pc1] = t[pc1 + 1] = t[pc1 + 2] = t[pc1 + 3] = ""; // エラー表示用のために末尾にいくつか長さ0の文字列を登録しておく. for (pc = 0; pc < pc1; pc++) { // プログラム中で使われているすべてのトークンを調べて、tc[]の初期化. tc[pc] = getTc(t[pc]); } for (i = tcs0; i < tcs; i++) { // 定数の初期値を代入. var[i] = strtol(ts[i], 0, 0); // 定数だった場合に初期値を設定(定数ではないときは0になる). } for (pc = 1; pc < pc1; pc++) { // ラベル定義命令を探して位置を登録. if (strcmp(t[pc], ":") == 0) { var[tc[pc - 1]] = pc + 1; // ラベル定義命令の次のpc値を記憶させておく. } } for (pc = 0; pc < pc1; pc++) { // プログラム実行開始. if (phrCmp( 1, "=", tc, pc + 1)) { // 2単語目が"=". if (phrCmp( 2, ";", tc, pc + 3)) { // 単純代入. var[tc[pc]] = var[tc[pc + 2]]; } else if (phrCmp( 3, "+ !!* ;", tc, pc + 3)) { // 加算. var[tc[pc]] = var[tc[pc + 2]] + var[tc[pc + 4]]; } else if (phrCmp( 4, "- !!* ;", tc, pc + 3)) { // 減算. var[tc[pc]] = var[tc[pc + 2]] - var[tc[pc + 4]]; } else goto err; } else if (phrCmp( 5, "print !!* ;", tc, pc)) { // print. printf("%d\n", var[tc[pc + 1]]); } else if (phrCmp( 6, ":", tc, pc + 1)) { // ラベル定義命令. pc++; // 1単語だけ読み飛ばす(for文がもう1単語を読み飛ばしてくれる). continue; } else if (phrCmp( 7, "goto !!* ;", tc, pc)) { // goto. pc = var[tc[pc + 1]] - 1; // for文がpc++するので、1を引いておく. continue; } else if (phrCmp( 8, "if ( !!* !!* !!* ) goto !!* ;", tc, pc)) { // if (...) goto. int pc1 = var[tc[pc + 7]] - 1, v0 = var[tc[pc + 2]], v1 = var[tc[pc + 4]]; if (phrCmp( 9, "!=", tc, pc + 3) && v0 != v1) { pc = pc1; continue; } if (phrCmp( 10, "==", tc, pc + 3) && v0 == v1) { pc = pc1; continue; } } else if (phrCmp( 11, "time ;", tc, pc)) { printf("time: %.3f[sec]\n", (clock() - t0) / (double) CLOCKS_PER_SEC); } else if (tc[pc] == semi) { // 何もしない. } else goto err; while (tc[pc] != semi) pc++; } return 0; err: printf("syntax error : %s %s %s %s\n", t[pc], t[pc + 1], t[pc + 2], t[pc + 3]); return 1; } int main(int argc, const char **argv) → TL-4と同じなので省略 ** (12) TL-5の簡単な説明 -関数: --void loadText(String path, String t, int siz) ---ファイルパスpathで指定されたソースファイルをtに読み込む。sizはtの最大サイズを表す(これを超える長さのファイルは途中で打ち切られる)。 --int isAlphabet(unsigned char c) ---引数で渡された文字コードが、アルファベットであれば1を返す。アルファベットでなければ0を返す。 ---アンダースコアもTL-4の中ではアルファベットということにしておく。そうすることで、変数の一文字目に使えるようになる。 --int lexer(String s, String b, String t[]) ---sにプログラムのソースコードを渡す。すると、t[]にトークン(単語)に切り分けられた文字列が入って返される。bは切り分けた文字列片をしまうところ。 ---より詳しい動作は[[a21_txt01_2a]]を参照のこと。 ---もし引数bの役割がいまいちわからないようであれば、[[a21_txt01_2b]]を参照のこと。 --int getTc(String s) ---トークン(単語)をsに渡すと、それに対応するトークンコード(整数)を返す。 --int phrCmp(int pid, String phr, int tc[], int pc) ---(準備中) --int run(String s) ---文字列sをプログラムだと解釈して実行する。 --int main(int argc, const char **argv) ---言語処理の本体。 -変数:(註:TL-2と全く同じです) --String ts[] ---getTc()が管理している配列変数で、トークンコードからトークン文字列を得るために使う。 --unsigned char tcBuf[] ---getTc()が管理している変数で、トークン文字列の実体を保存しておくための場所。lexer()でいうところの引数bに相当。 --int tcs, tcb ---どちらもgetTc()が管理している変数で、tcsは今までに発行したトークンコードの個数(0~tcs-1が発行済み)。 ---tcbはtcBuf[]の未使用領域を指している。 --int phrCmp_tc[] ---(準備中) --unsigned char phrCmp_buf[] ---(準備中) --int pc, pc1, var[], tc[] ---pcは現在プログラムのどこを実行しているのか指し示すもの。pc1はプログラムの終端位置。 ---var[]は変数の値を保持するための変数。tc[]はプログラムのトークン列をトークンコードに変換して並べたもの。 --String t[] ---lexer()によってトークン単位に切り分けられたプログラム。 ---- -要点は、run()の中の「プログラム実行開始」以降は、strcmpを一度も呼ばないようにしたことです。代わりにphrCmp()を使っています。 -これはphrase-compareのつもりなのですが、つまり複数のトークンが並んだものを一度に比較して一致しているかどうかを調べられる便利な関数です。 --以下を比べてみてください。 [TL-4] } else if (strcmp(t[pc], "if") == 0 && strcmp(t[pc + 1], "(") == 0 && strcmp(t[pc + 5], ")") == 0 && strcmp(t[pc + 6], "goto") == 0 && strcmp(t[pc + 8], ";") == 0) { [TL-5] } else if (phrCmp( 8, "if ( !!* !!* !!* ) goto !!* ;", tc, pc)) { --どちらが読みやすいでしょうか。もちろんphrCmp()のほうですよね! -ということでphrCmp()関数について説明します。 --phrCmp()は最初に呼ばれたとき、渡されたフレーズをlexer()でトークンに切り分けて、さらにgetTc()でトークンコードに変換し、phrCmp_tc[]にしまっておきます。 --これは最初の一回だけしかやらないので、実行時間にはほとんど影響しません。 --そしてプログラム中のトークンコード列と、phrCmp_tc[]を比較して、一致したかどうかを調べます。 --なお、「!!*」は特別なトークンで、これがあるとその場所には何が来ても一致したとみなします。 -さてこれによってどのくらい速くなったでしょうか。 -こちらの環境で試したときには約1.5倍くらい高速になりました。 ** 次回に続く -次回: [[a21_txt01_6]] *こめんと欄 #comment