川合のプログラミング言語自作のためのテキスト第三版#4

  • (by K, 2021.03.01)

(1) HL-4

  • みなさんは「REPL」という言葉を知っているでしょうか。これは「Read-Eval-Print Loop」の略で、インタプリタが起動して、プロンプトからコマンドを入力すると(Read)、直ちに評価・実行されて(Eval)、結果が表示される(Print)、というのがループになっていて、対話形式で何度でもできる機能のことです。
  • これができるようになると、自作言語は見違えるほど魅力的になります。
  • ということで、HL-4ではそれをやってみようと思います。
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <time.h>

typedef unsigned char *String;	// こう書くと String は unsigned char * の代用になる.

int loadText(String path, String t, int siz) // TL-1のとは違う(改造).
{
    FILE *fp;
    unsigned char s[1000];
    int i = 0, j;
    if (path[0] == 34) { i = 1; } // ダブルフォールトがあればはずす.
    for (j = 0; ; j++) {
        if (path[i + j] == 0 || path[j + i] == 34)
            break; // ファイル名の末尾に来たらそこで終わり.
        s[j] = path[i + j];
    }
    s[j] = 0;
    fp = fopen(s, "rt"); // テキストモードでファイルを開く.
    if (fp == 0) {  // ファイルを開けなかった.
        printf("fopen error : %s\n", path);
        return 1; // 失敗.
    }
    i = fread(t, 1, siz - 1, fp);
    fclose(fp);
    t[i] = 0; // 終端マークを書いておく.
    return 0; // 成功.
}

///////////////////////////////////////////////////////////////////////////////

#define MAX_TC  255 // トークンコードの最大値.
String ts[MAX_TC + 1]; // トークンの内容(文字列)を記憶.
int tl[MAX_TC + 1]; // トークンの長さ.
unsigned char tcBuf[(MAX_TC + 1) * 10]; // トークン1つ当たり平均10バイトを想定.
int tcs = 0, tcb = 0;

int var[MAX_TC + 1];	// 変数.

int getTc(String s, int len) → TL-2と同じなので省略

///////////////////////////////////////////////////////////////////////////////

int isAlphabet(unsigned char c) → TL-2と同じなので省略

int lexer(String s, int tc[]) → TL-2と同じなので省略

int tc[10000];	// トークンコード.

///////////////////////////////////////////////////////////////////////////////

int run(String s)
{
    clock_t t0 = clock();
    int pc, pc1;
    pc1 = lexer(s, tc);
    tc[pc1++] = getTc(";", 1);	// 末尾に「;」を付け忘れることが多いので、付けてあげる.
    tc[pc1] = tc[pc1 + 1] = tc[pc1 + 2] = tc[pc1 + 3] = getTc(".", 1);	// エラー表示用のために末尾にピリオドを登録しておく.
    int semi = getTc(";", 1);
    for (pc = 0; pc < pc1; pc++) { // ラベル定義命令を探して位置を登録.
        if (tc[pc + 1] == getTc(":", 1)) {
            var[tc[pc]] = pc + 2; // ラベル定義命令の次のpc値を記憶させておく.
        }
    }
    for (pc = 0; pc < pc1;) { // プログラム実行開始.
        if (tc[pc + 1] == getTc("=", 1) && tc[pc + 3] == semi) { // 単純代入.
            var[tc[pc]] = var[tc[pc + 2]];
        } else if (tc[pc + 1] == getTc("=", 1) && tc[pc + 3] == getTc("+", 1) && tc[pc + 5] == semi) {  // 加算.
            var[tc[pc]] = var[tc[pc + 2]] + var[tc[pc + 4]];
        } else if (tc[pc + 1] == getTc("=", 1) && tc[pc + 3] == getTc("-", 1) && tc[pc + 5] == semi) {  // 減算.
            var[tc[pc]] = var[tc[pc + 2]] - var[tc[pc + 4]];
        } else if (tc[pc] == getTc("print", 5) && tc[pc + 2] == semi) { // print.
            printf("%d\n", var[tc[pc + 1]]);
        } else if (tc[pc + 1] == getTc(":", 1)) {	// ラベル定義命令.
            pc += 2; // 何もしないで読み飛ばす.
            continue;
        } else if (tc[pc] == getTc("goto", 4) && tc[pc + 2] == semi) { // goto.
            pc = var[tc[pc + 1]];
            continue;
        } else if (tc[pc] == getTc("if", 2) && tc[pc + 1] == getTc("(", 1) && tc[pc + 5] == getTc(")", 1) && tc[pc + 6] == getTc("goto", 4) && tc[pc + 8] == semi) {	// if (...) goto.
            int gpc = var[tc[pc + 7]], v0 = var[tc[pc + 2]], v1 = var[tc[pc + 4]];
            if (tc[pc + 3] == getTc("!=", 2) && v0 != v1) { pc = gpc; continue; } // 条件が成立したらgoto処理.
            if (tc[pc + 3] == getTc("==", 2) && v0 == v1) { pc = gpc; continue; } // 条件が成立したらgoto処理.
            if (tc[pc + 3] == getTc("<",  1) && v0 <  v1) { pc = gpc; continue; } // 条件が成立したらgoto処理.
        } else if (tc[pc] == getTc("time", 4) && tc[pc + 1] == semi) {
            printf("time: %.3f[sec]\n", (clock() - t0) / (double) CLOCKS_PER_SEC);
        } else if (tc[pc] == semi) {
            // 何もしない.
        } else
            goto err;
        while (tc[pc] != semi)
            pc++;
        pc++; // セミコロンを読み飛ばす.
    }
    return 0;
err:
    printf("syntax error : %s %s %s %s\n", ts[tc[pc]], ts[tc[pc + 1]], ts[tc[pc + 2]], ts[tc[pc + 3]]);
    return 1;
}

///////////////////////////////////////////////////////////////////////////////

int main(int argc, const char **argv)
{
    unsigned char txt[10000];
    int i;
    if (argc >= 2) { // コマンドライン引数あり.
        if (loadText((String) argv[1], txt, 10000) == 0) {
            run(txt);
        }
        exit(0);
    }
    for (;;) { // Read-Eval-Print Loop.
        printf("\n>");
        fgets(txt, 10000, stdin);
        i = strlen(txt);
        if (txt[i - 1] == '\n') { // 末尾に改行コードが付いていればそれを消す.
            txt[i - 1] = 0;
        }
        if (strncmp(txt, "run ", 4) == 0) {  // runコマンド.
            if (loadText(&txt[4], txt, 10000) == 0) {
                run(txt);
            }
        } else if (strcmp(txt, "exit") == 0) { // exitコマンド.
            exit(0);
        } else {
            run(txt);
        }
    }
}
  • HL-3と比較すると、まずloadText()をコマンドライン引数以外でも使えるように改造しました。次にmain()の中にあったプログラム実行部分をrun()関数に切り出しました。その上で、main()内に Read-Eval-Print Loop を作りこんでいます。
  • また「;」だけの場合に何もしないという処理も追加しました。これで余計な「;」がいくつあってもエラーにはならなくなります。
  • そしてコマンド入力で、末尾の「;」をよく忘れるのでrun()の最初で「;」を付与する処理を追加しています。
  • これらの改造により、実行すると以下のようになります。
C:\a21_txt01>hl4

>run hl3.txt                 ← HL-3用の1億回ループのプログラムを実行させました。
time: 73.984[sec]

>print i                     ← 実行後に、変数iの値を確認してみました。
100000000                    ← あっています。

>a=0; label: print a; a=a+1; if (a < 10) goto label;  ← 頑張って一行で書けば、こんなのも実行できます。
0
1
2
3
4
5
6
7
8
9

>exit                        ← 終了コマンド。

c:\a21_txt01>
  • 私はとても楽しいです!

(2) HL-4の補足説明

  • 関数:
    • void loadText(String path, String t, int siz)
      • ファイルパスpathで指定されたソースファイルをtに読み込む。sizはtの最大サイズを表す(これを超える長さのファイルは途中で打ち切られる)。
    • int getTc(String s, int len)
      • トークン(単語)をsに渡すと、それに対応するトークンコード(整数)を返す。
    • int isAlphabetOrNumber(unsigned char c)
      • 引数で渡された文字コードが、英数字であれば1を返す。それ以外なら0を返す。
      • アンダースコアもHL-4の中ではアルファベットということにしておく。そうすることで、変数の一文字目に使えるようになる。
      • この関数は以下のlexer()の下請け。
    • int lexer(String s, int tc[])
      • sにプログラムのソースコードを渡す。すると、tc[]にトークンコード(単語番号)に変換させられた数列が入って返される。
      • より詳しい動作は、a21_txt01_2aを参照のこと。
    • int run(String s)
      • 言語処理の本体。HL-3までのmain()に相当。
    • int main(int argc, const char **argv)
      • REPLの処理をしている。
  • 変数:
    • String ts[]
      • getTc()が管理している配列変数で、トークンコードからトークン文字列を得るために使う。
    • int tl[]
      • getTc()が管理している配列変数で、トークンコードからトークン文字列の長さを得るために使う。
    • unsigned char tcBuf[]
      • getTc()が管理している変数で、トークン文字列の実体を保存しておくための場所。
    • int tcs, tcb
      • どちらもgetTc()が管理している変数で、tcsは今までに発行したトークンコードの個数(0~tcs-1が発行済み)。
      • tcbはtcBuf[]の未使用領域を指している。
      • もしtcBuf[]やtcbの役割がピンとこない場合は、a21_txt01_2bを参照。
    • int var[]
      • 変数の値を記憶しておくための変数。トークンコードをそのまま変数番号に転用している。
    • int tc[]
      • プログラムをトークンコード列に変換したものがここに入る。

  • 説明するところはあまりないのですが、一応新しいloadText()の中身について説明しておきます。
    • 最初にしていることは、path[]からs[]を作ることです。
    • もしダブルクォートが先頭についていたらそれを読み飛ばすようにします(ダブルクォートは「"」のことです。文字コードは34番です)。
    • そしてダブルクォートもしくは文字コード0までをs[]にコピーします。
    • この処理によって「tl3.txt」と「"tl3.txt"」のどちらの書き方でもファイルが開けるようになっています。

次回に続く

こめんと欄


コメントお名前NameLink

トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2021-03-01 (月) 21:22:07 (5d)