* 川合のプログラミング言語自作のためのテキスト第三版#4 -(by [[K]], 2021.03.01) ** (1) HL-4 -みなさんは「REPL」という言葉を知っているでしょうか。これは「Read-Eval-Print Loop」の略で、インタプリタが起動して、プロンプトからコマンドを入力すると(Read)、直ちに評価・実行されて(Eval)、結果が表示される(Print)、というのがループになっていて、対話形式で何度でもできる機能のことです。 -これができるようになると、自作言語は見違えるほど魅力的になります。 -ということで、HL-4ではそれをやってみようと思います。 #include <stdio.h> #include <stdlib.h> #include <string.h> #include <time.h> typedef unsigned char *String; // こう書くと String は unsigned char * の代用になる. int loadText(String path, String t, int siz) // TL-1のとは違う(改造). int loadText(String path, String t, int siz) // HL-1のとは違う(改造). { FILE *fp; unsigned char s[1000]; int i = 0, j; if (path[0] == 34) { i = 1; } // ダブルクォートがあればはずす. for (j = 0; ; j++) { if (path[i + j] == 0 || path[j + i] == 34) break; // ファイル名の末尾に来たらそこで終わり. s[j] = path[i + j]; } s[j] = 0; fp = fopen(s, "rt"); // テキストモードでファイルを開く. if (fp == 0) { // ファイルを開けなかった. printf("fopen error : %s\n", path); return 1; // 失敗. } i = fread(t, 1, siz - 1, fp); fclose(fp); t[i] = 0; // 終端マークを書いておく. return 0; // 成功. } /////////////////////////////////////////////////////////////////////////////// #define MAX_TC 255 // トークンコードの最大値. String ts[MAX_TC + 1]; // トークンの内容(文字列)を記憶. int tl[MAX_TC + 1]; // トークンの長さ. unsigned char tcBuf[(MAX_TC + 1) * 10]; // トークン1つ当たり平均10バイトを想定. int tcs = 0, tcb = 0; int var[MAX_TC + 1]; // 変数. int getTc(String s, int len) → TL-2と同じなので省略 int getTc(String s, int len) → HL-2と同じなので省略 /////////////////////////////////////////////////////////////////////////////// int isAlphabet(unsigned char c) → TL-2と同じなので省略 int isAlphabet(unsigned char c) → HL-2と同じなので省略 int lexer(String s, int tc[]) → TL-2と同じなので省略 int lexer(String s, int tc[]) → HL-2と同じなので省略 int tc[10000]; // トークンコード. /////////////////////////////////////////////////////////////////////////////// int run(String s) { clock_t t0 = clock(); int pc, pc1; pc1 = lexer(s, tc); tc[pc1++] = getTc(";", 1); // 末尾に「;」を付け忘れることが多いので、付けてあげる. tc[pc1] = tc[pc1 + 1] = tc[pc1 + 2] = tc[pc1 + 3] = getTc(".", 1); // エラー表示用のために末尾にピリオドを登録しておく. int semi = getTc(";", 1); for (pc = 0; pc < pc1; pc++) { // ラベル定義命令を探して位置を登録. if (tc[pc + 1] == getTc(":", 1)) { var[tc[pc]] = pc + 2; // ラベル定義命令の次のpc値を記憶させておく. } } for (pc = 0; pc < pc1;) { // プログラム実行開始. if (tc[pc + 1] == getTc("=", 1) && tc[pc + 3] == semi) { // 単純代入. var[tc[pc]] = var[tc[pc + 2]]; } else if (tc[pc + 1] == getTc("=", 1) && tc[pc + 3] == getTc("+", 1) && tc[pc + 5] == semi) { // 加算. var[tc[pc]] = var[tc[pc + 2]] + var[tc[pc + 4]]; } else if (tc[pc + 1] == getTc("=", 1) && tc[pc + 3] == getTc("-", 1) && tc[pc + 5] == semi) { // 減算. var[tc[pc]] = var[tc[pc + 2]] - var[tc[pc + 4]]; } else if (tc[pc] == getTc("print", 5) && tc[pc + 2] == semi) { // print. printf("%d\n", var[tc[pc + 1]]); } else if (tc[pc + 1] == getTc(":", 1)) { // ラベル定義命令. pc += 2; // 何もしないで読み飛ばす. continue; } else if (tc[pc] == getTc("goto", 4) && tc[pc + 2] == semi) { // goto. pc = var[tc[pc + 1]]; continue; } else if (tc[pc] == getTc("if", 2) && tc[pc + 1] == getTc("(", 1) && tc[pc + 5] == getTc(")", 1) && tc[pc + 6] == getTc("goto", 4) && tc[pc + 8] == semi) { // if (...) goto. int gpc = var[tc[pc + 7]], v0 = var[tc[pc + 2]], v1 = var[tc[pc + 4]]; if (tc[pc + 3] == getTc("!=", 2) && v0 != v1) { pc = gpc; continue; } // 条件が成立したらgoto処理. if (tc[pc + 3] == getTc("==", 2) && v0 == v1) { pc = gpc; continue; } // 条件が成立したらgoto処理. if (tc[pc + 3] == getTc("<", 1) && v0 < v1) { pc = gpc; continue; } // 条件が成立したらgoto処理. } else if (tc[pc] == getTc("time", 4) && tc[pc + 1] == semi) { printf("time: %.3f[sec]\n", (clock() - t0) / (double) CLOCKS_PER_SEC); } else if (tc[pc] == semi) { // 何もしない. } else goto err; while (tc[pc] != semi) pc++; pc++; // セミコロンを読み飛ばす. } return 0; err: printf("syntax error : %s %s %s %s\n", ts[tc[pc]], ts[tc[pc + 1]], ts[tc[pc + 2]], ts[tc[pc + 3]]); return 1; } /////////////////////////////////////////////////////////////////////////////// int main(int argc, const char **argv) { unsigned char txt[10000]; int i; if (argc >= 2) { // コマンドライン引数あり. if (loadText((String) argv[1], txt, 10000) == 0) { run(txt); } exit(0); } for (;;) { // Read-Eval-Print Loop. printf("\n>"); fgets(txt, 10000, stdin); i = strlen(txt); if (txt[i - 1] == '\n') { // 末尾に改行コードが付いていればそれを消す. txt[i - 1] = 0; } if (strncmp(txt, "run ", 4) == 0) { // runコマンド. if (loadText(&txt[4], txt, 10000) == 0) { run(txt); } } else if (strcmp(txt, "exit") == 0) { // exitコマンド. exit(0); } else { run(txt); } } } -HL-3と比較すると、まずloadText()をコマンドライン引数以外でも使えるように改造しました。次にmain()の中にあったプログラム実行部分をrun()関数に切り出しました。その上で、main()内に Read-Eval-Print Loop を作りこんでいます。 -また「;」だけの場合に何もしないという処理も追加しました。これで余計な「;」がいくつあってもエラーにはならなくなります。 -そしてコマンド入力で、末尾の「;」をよく忘れるのでrun()の最初で「;」を付与する処理を追加しています。 -これらの改造により、実行すると以下のようになります。 C:\a21_txt01>hl4 >run hl3.txt ← HL-3用の1億回ループのプログラムを実行させました。 time: 73.984[sec] >print i ← 実行後に、変数iの値を確認してみました。 100000000 ← あっています。 >a=0; label: print a; a=a+1; if (a < 10) goto label; ← 頑張って一行で書けば、こんなのも実行できます。 0 1 2 3 4 5 6 7 8 9 >exit ← 終了コマンド。 c:\a21_txt01> -私はとても楽しいです! ** (2) HL-4の補足説明 -関数: --void loadText(String path, String t, int siz) ---ファイルパスpathで指定されたソースファイルをtに読み込む。sizはtの最大サイズを表す(これを超える長さのファイルは途中で打ち切られる)。 --int getTc(String s, int len) ---トークン(単語)をsに渡すと、それに対応するトークンコード(整数)を返す。 --int isAlphabetOrNumber(unsigned char c) ---引数で渡された文字コードが、英数字であれば1を返す。それ以外なら0を返す。 ---アンダースコアもHL-4の中ではアルファベットということにしておく。そうすることで、変数の一文字目に使えるようになる。 ---この関数は以下のlexer()の下請け。 --int lexer(String s, int tc[]) ---sにプログラムのソースコードを渡す。すると、tc[]にトークンコード(単語番号)に変換させられた数列が入って返される。 ---より詳しい動作は、[[a21_txt01_2a]]を参照のこと。 --int run(String s) ---言語処理の本体。HL-3までのmain()に相当。 --int main(int argc, const char **argv) ---REPLの処理をしている。 -変数: --String ts[] ---getTc()が管理している配列変数で、トークンコードからトークン文字列を得るために使う。 --int tl[] ---getTc()が管理している配列変数で、トークンコードからトークン文字列の長さを得るために使う。 --unsigned char tcBuf[] ---getTc()が管理している変数で、トークン文字列の実体を保存しておくための場所。 --int tcs, tcb ---どちらもgetTc()が管理している変数で、tcsは今までに発行したトークンコードの個数(0~tcs-1が発行済み)。 ---tcbはtcBuf[]の未使用領域を指している。 ---もしtcBuf[]やtcbの役割がピンとこない場合は、[[a21_txt01_2b]]を参照。 --int var[] ---変数の値を記憶しておくための変数。トークンコードをそのまま変数番号に転用している。 --int tc[] ---プログラムをトークンコード列に変換したものがここに入る。 ---- -説明するところはあまりないのですが、一応新しいloadText()の中身について説明しておきます。 --最初にしていることは、path[]からs[]を作ることです。 --もしダブルクォートが先頭についていたらそれを読み飛ばすようにします(ダブルクォートは「"」のことです。文字コードは34番です)。 --そしてダブルクォートもしくは文字コード0までをs[]にコピーします。 --この処理によって「tl3.txt」と「"tl3.txt"」のどちらの書き方でもファイルが開けるようになっています。 ** 次回に続く -次回: [[a21_txt01_5]] *こめんと欄 #comment