川合のプログラミング言語自作のためのテキスト第三版#2

(5) TL-2

#include <stdio.h>
#include <stdlib.h>
#include <string.h>

typedef unsigned char *String;	// こう書くと String は unsigned char * の代用になる.

void loadText(int argc, const char **argv, String t, int siz) → TL-1と同じなので省略

int isAlphabet(unsigned char c)		// 変数名の一文字目に使える文字かどうか.
{
    if ('a' <= c && c <= 'z') return 1;
    if ('A' <= c && c <= 'Z') return 1;
    if (c == '_') return 1;
    return 0;
}

int lexer(String s, String b, String t[])		// プログラムを単語(トークン)に切り分ける.
{
    int i = 0, j = 0, k = 0;
    for (;;) {
        if (s[i] == ' ' || s[i] == '\t' || s[i] == '\n') {	// スペース、タブ、改行.
            i++;
            continue;
        }
        if (s[i] == 0)	// ファイル終端.
            return k;
        t[k++] = &b[j];	// 単語の先頭を登録.
        if (strchr("(){}[];,", s[i]) != 0) {	// 1文字記号.
            b[j++] = s[i++];
        } else if ('0' <= s[i] && s[i] <= '9') {  // 1文字目が数字.
            while ('0' <= s[i] && s[i] <= '9')
                b[j++] = s[i++];
        } else if (isAlphabet(s[i]) != 0) {  // 1文字目が英字.
            while (isAlphabet(s[i]) != 0 || ('0' <= s[i] && s[i] <= '9'))
                b[j++] = s[i++];
        } else if (strchr("=+-*/!%&~|<>?:.", s[i]) != 0) {  // 1文字目が普通の記号.
            while (strchr("=+-*/!%&~|<>?:.", s[i]) != 0 && s[i] != 0)
                b[j++] = s[i++];
        } else {
            printf("syntax error : %.10s\n", &s[i]);
            exit(1);
        }
        b[j++] = 0; // 単語の終端マーク.
    }
}

#define MAX_TC  255 // トークンコードの最大値.
String ts[MAX_TC + 1]; // トークンの内容(文字列)を記憶.
unsigned char tcBuf[10000];
int tcs = 0, tcb = 0;

int getTc(String s) // トークンコード(トークン番号)を得るための関数.
{
    int i;
    for (i = 0; i < tcs; i++) { // 登録済みの中から探す.
        if (strcmp(s, ts[i]) == 0)
            break;
    }
    if (i == tcs) {
        if (tcs >= MAX_TC) {
            printf("too many tokens\n");
            exit(1);
        }
        strcpy(&tcBuf[tcb], s); // 見つからなかったので新規登録.
        ts[i] = &tcBuf[tcb];
        tcb += strlen(s) + 1; // 次はここへコピーする.
        tcs++;
    }
    return i;
}

int main(int argc, const char **argv)
{
    int i, pc, pc1, var[MAX_TC + 1], tc[1000];	// 変数(var)とトークンコード(tc).
    String t[1000];	// トークン(t).
    unsigned char txt[10000], buf[10000]; // ソースコードとトークン用のバッファ.
    loadText(argc, argv, txt, 10000);
    pc1 = lexer(txt, buf, t);
    t[pc1] = t[pc1 + 1] = t[pc1 + 2] = t[pc1 + 3] = "";	// エラー表示用のために末尾にいくつか長さ0の文字列を登録しておく.
    for (pc = 0; pc < pc1; pc++) { // プログラム中で使われているすべてのトークンを調べて、tc[]の初期化.
        tc[pc] = getTc(t[pc]);
    }
    for (i = 0; i < tcs; i++) { // 定数の初期値を代入.
        var[i] = strtol(ts[i], 0, 0);	// 定数だった場合に初期値を設定(定数ではないときは0になる).
    }
    for (pc = 0; pc < pc1; pc++) { // プログラム実行開始.
        if (strcmp(t[pc + 1], "=") == 0) { // 2単語目が"=".
            if (strcmp(t[pc + 3], ";") == 0) { // 単純代入.
                var[tc[pc]] = var[tc[pc + 2]];
            } else if (strcmp(t[pc + 3], "+") == 0 && strcmp(t[pc + 5], ";") == 0) {  // 加算.
                var[tc[pc]] = var[tc[pc + 2]] + var[tc[pc + 4]];
            } else if (strcmp(t[pc + 3], "-") == 0 && strcmp(t[pc + 5], ";") == 0) {  // 減算.
                var[tc[pc]] = var[tc[pc + 2]] - var[tc[pc + 4]];
            } else
                goto err;
        } else if (strcmp(t[pc], "print") == 0 && strcmp(t[pc + 2], ";") == 0) { // print.
            printf("%d\n", var[tc[pc + 1]]);
        } else
            goto err;
        while (strcmp(t[pc], ";") != 0)
            pc++;
    }
    exit(0);
err:
    printf("syntax error : %s %s %s %s\n", t[pc], t[pc + 1], t[pc + 2], t[pc + 3]);
    exit(1);
}

(6) TL-2の簡単な説明


次回に続く

こめんと欄


コメントお名前NameLink

トップ   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS