川合のプログラミング言語自作のためのテキスト第三版#5
(1) HL-5
- さて、HL-3にしてもHL-4にしても、実行速度はあまり速くありません。この原因の一つとして、実行時にgetTc()をたくさん使っていることがあります。
- このgetTc()はシンプルに作ってあるので、実行速度はかなり遅いです。
- 実は一度getTc()したらもう値が変わることはないので、実行ループの中で何度もgetTc()しなおす必要は全くありません。
- ということで、最初の一回はgetTc()するけど、それ以降は値を覚えておいてgetTc()しないように書き換えてみたいと思います。どのくらい速くなるでしょうか?
- また最初にlexer()を使うことで狙ったトークンに固定のトークンコードを割り当てることもできるので、それも利用します。
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <time.h>
typedef unsigned char *String; // こう書くと String は unsigned char * の代用になる.
int loadText(String path, String t, int siz) → HL-4と同じなので省略
///////////////////////////////////////////////////////////////////////////////
#define MAX_TC 255 // トークンコードの最大値.
String ts[MAX_TC + 1]; // トークンの内容(文字列)を記憶.
int tl[MAX_TC + 1]; // トークンの長さ.
unsigned char tcBuf[(MAX_TC + 1) * 10]; // トークン1つ当たり平均10バイトを想定.
int tcs = 0, tcb = 0;
int var[MAX_TC + 1]; // 変数.
int getTc(String s, int len) → HL-4と同じなので省略
///////////////////////////////////////////////////////////////////////////////
int isAlphabet(unsigned char c) → HL-2と同じなので省略
int lexer(String s, int tc[]) → HL-2と同じなので省略
int tc[10000]; // トークンコード.
///////////////////////////////////////////////////////////////////////////////
int phrCmp_tc[100 * 20], phrCmp_wildCard = -1;
int phrCmp(int pid, String phr, int tc[], int pc)
{
int i, i1;
if (phrWildCard < 0) {
phrWildCard = getTc("!!*", 3);
}
if (phrCmp_tc[pid * 20 + 19] == 0) {
i1 = lexer(phr, &phrCmp_tc[pid * 20]);
phrCmp_tc[pid * 20 + 19] = i1 + 1;
}
i1 = phrCmp_tc[pid * 20 + 19] - 1;
for (i = 0; i < i1; i++) {
if (phrCmp_tc[pid * 20 + i] == phrCmp_wildCard)
continue;
if (phrCmp_tc[pid * 20 + i] != tc[pc + i])
return 0; // マッチせず.
}
return 1; // マッチした.
}
int run(String s)
{
clock_t t0 = clock();
int pc, pc1, i, tcs0 = tcs; // tcs0は、現時点での登録済みトークン数.
pc1 = lexer(s, tc);
tc[pc1++] = getTc(";", 1); // 末尾に「;」を付け忘れることが多いので、付けてあげる.
tc[pc1] = tc[pc1 + 1] = tc[pc1 + 2] = tc[pc1 + 3] = getTc(" ", 1); // エラー表示用のために末尾にスペースを登録しておく.
for (i = tcs0; i < tcs; i++) { // 定数の初期値を代入.
var[i] = strtol(ts[i], 0, 0); // 定数だった場合に初期値を設定(定数ではないときは0になる).
}
for (pc = 0; pc < pc1; pc++) { // ラベル定義命令を探して位置を登録.
if (tc[pc + 1] == getTc(":", 1)) {
var[tc[pc]] = pc + 2; // ラベル定義命令の次のpc値を記憶させておく.
}
}
int semi = getTc(";", 1);
for (pc = 0; pc < pc1; pc++) { // プログラム実行開始.
if (phrCmp( 1, "=", tc, pc + 1)) { // 2単語目が"=".
if (phrCmp( 2, ";", tc, pc + 3)) { // 単純代入.
var[tc[pc]] = var[tc[pc + 2]];
} else if (phrCmp( 3, "+ !!* ;", tc, pc + 3)) { // 加算.
var[tc[pc]] = var[tc[pc + 2]] + var[tc[pc + 4]];
} else if (phrCmp( 4, "- !!* ;", tc, pc + 3)) { // 減算.
var[tc[pc]] = var[tc[pc + 2]] - var[tc[pc + 4]];
} else
goto err;
} else if (phrCmp( 5, "print !!* ;", tc, pc)) { // print.
printf("%d\n", var[tc[pc + 1]]);
} else if (phrCmp( 6, ":", tc, pc + 1)) { // ラベル定義命令.
pc++; // 1単語だけ読み飛ばす(for文がもう1単語を読み飛ばしてくれる).
continue;
} else if (phrCmp( 7, "goto !!* ;", tc, pc)) { // goto.
pc = var[tc[pc + 1]] - 1; // for文がpc++するので、1を引いておく.
continue;
} else if (phrCmp( 8, "if ( !!* !!* !!* ) goto !!* ;", tc, pc)) { // if (...) goto.
int pc1 = var[tc[pc + 7]] - 1, v0 = var[tc[pc + 2]], v1 = var[tc[pc + 4]];
if (phrCmp( 9, "!=", tc, pc + 3) && v0 != v1) { pc = pc1; continue; }
if (phrCmp( 10, "==", tc, pc + 3) && v0 == v1) { pc = pc1; continue; }
} else if (phrCmp( 11, "time ;", tc, pc)) {
printf("time: %.3f[sec]\n", (clock() - t0) / (double) CLOCKS_PER_SEC);
} else if (tc[pc] == semi) {
// 何もしない.
} else
goto err;
while (tc[pc] != semi)
pc++;
}
return 0;
err:
printf("syntax error : %s %s %s %s\n", ts[tc[pc]], ts[tc[pc + 1]], ts[tc[pc + 2]], ts[tc[pc + 3]]);
return 1;
}
///////////////////////////////////////////////////////////////////////////////
int main(int argc, const char **argv) → HL-4と同じなので省略
(12) TL-5の簡単な説明
- 関数:
- void loadText(String path, String t, int siz)
- ファイルパスpathで指定されたソースファイルをtに読み込む。sizはtの最大サイズを表す(これを超える長さのファイルは途中で打ち切られる)。
- int isAlphabet(unsigned char c)
- 引数で渡された文字コードが、アルファベットであれば1を返す。アルファベットでなければ0を返す。
- アンダースコアもTL-3の中ではアルファベットということにしておく。そうすることで、変数の一文字目に使えるようになる。
- int getTc(String s, int len)
- トークン(単語)をsに渡すと、それに対応するトークンコード(整数)を返す。
- int lexer(String s, int tc[])
- sにプログラムのソースコードを渡す。すると、tc[]にトークンコード(単語番号)に変換させられた数列が入って返される。
- より詳しい動作は、a21_txt01_2aを参照のこと。
- int phrCmp(int pid, String phr, int tc[], int pc)
- tc[pc]からのトークンコード列がphrで指定されたトークン列と一致するかどうか調べる。
- pidはフレーズIDで、この番号を使ってphrCmp_tc[]のどこにphrのlexer結果をしまっておくかを決めている。
- なお、処理できるフレーズの最大長はこのプログラムの場合は19トークンである。
- int run(String s)
- int main(int argc, const char **argv)
- 変数:
- String ts[]
- getTc()が管理している配列変数で、トークンコードからトークン文字列を得るために使う。
- int tl[]
- getTc()が管理している配列変数で、トークンコードからトークン文字列の長さを得るために使う。
- unsigned char tcBuf[]
- getTc()が管理している変数で、トークン文字列の実体を保存しておくための場所。
- int tcs, tcb
- どちらもgetTc()が管理している変数で、tcsは今までに発行したトークンコードの個数(0~tcs-1が発行済み)。
- tcbはtcBuf[]の未使用領域を指している。
- もしtcBuf[]やtcbの役割がピンとこない場合は、a21_txt01_2bを参照。
- int phrCmp_tc[], phrCmp_wildCard
- どちらもphrCmp()が管理している変数で、phrCmp_tc[]にはフレーズのlexer()の結果を保存する。
- phrCmp_wildCardには、"!!*"のトークンコードを入れている。
- int var[], tc[]
- var[]は変数の値を保持するための変数。tc[]はプログラムのトークン列をトークンコードに変換して並べたもの。
- 要点は、run()の中の「プログラム実行開始」以降は、getTc()を一度も呼ばないようにしたことです。代わりにphrCmp()を使っています。
- これはphrase-compareのつもりなのですが、つまり複数のトークンが並んだものを一度に比較して一致しているかどうかを調べられる便利な関数です。
- 以下を比べてみてください。
[TL-4] } else if (tc[pc] == getTc("if", 2) && tc[pc + 1] == getTc("(", 1) && tc[pc + 5] == getTc(")", 1) && tc[pc + 6] == getTc("goto", 4) && tc[pc + 8] == semi) {
[TL-5] } else if (phrCmp( 8, "if ( !!* !!* !!* ) goto !!* ;", tc, pc)) {
- どちらが読みやすいでしょうか。もちろんphrCmp()のほうですよね!
- ということでphrCmp()関数について説明します。
- phrCmp()は最初に呼ばれたとき、渡されたフレーズをlexer()でトークンコード列に変換して、phrCmp_tc[]にしまっておきます。
- これは最初の一回だけしかやらないので、実行時間にはほとんど影響しません。
- そしてプログラム中のトークンコード列と、phrCmp_tc[]を比較して、一致したかどうかを調べます。
- なお、「!!*」は特別なトークンで、これがあるとその場所には何が来ても一致したとみなします。
- 今のところ、1フレーズ当たり最大19トークンとして、100フレーズを記憶できるようにしてあります。
- さてこれによってどのくらい速くなったでしょうか。
- こちらの環境で試したときには約6倍くらい高速になりました。
次回に続く
こめんと欄