p20250815a
の編集
https://essen.osask.jp/?p20250815a
[
トップ
] [
編集
|
差分
|
バックアップ
|
添付
|
リロード
] [
新規
|
一覧
|
単語検索
|
最終更新
|
ヘルプ
]
-- 雛形とするページ --
BracketName
EssenRev4
FormattingRules
FrontPage
Help
InterWiki
InterWikiName
InterWikiSandBox
K
MenuBar
PHP
PukiWiki
PukiWiki/1.4
PukiWiki/1.4/Manual
PukiWiki/1.4/Manual/Plugin
PukiWiki/1.4/Manual/Plugin/A-D
PukiWiki/1.4/Manual/Plugin/E-G
PukiWiki/1.4/Manual/Plugin/H-K
PukiWiki/1.4/Manual/Plugin/L-N
PukiWiki/1.4/Manual/Plugin/O-R
PukiWiki/1.4/Manual/Plugin/S-U
PukiWiki/1.4/Manual/Plugin/V-Z
RecentDeleted
SDL2_01
SandBox
WikiEngines
WikiName
WikiWikiWeb
YukiWiki
a21
a21_acl01
a21_bbs01
a21_challengers
a21_count
a21_edu01
a21_edu02
a21_edu03
a21_edu04
a21_edu05
a21_edu06
a21_edu07
a21_edu08
a21_edu09
a21_edu10
a21_edu11
a21_hlx000
a21_hlx001
a21_hlx001_1
a21_hlx001_2
a21_hlx001_3
a21_hlx002
a21_hlx002_1
a21_hlx003
a21_hlx003_1
a21_hlx004_1
a21_memo01
a21_opt
a21_opt02
a21_opt03
a21_p01
a21_special
a21_tl9a
a21_todo
a21_txt01
a21_txt01_10
a21_txt01_1a
a21_txt01_2
a21_txt01_2a
a21_txt01_2b
a21_txt01_3
a21_txt01_4
a21_txt01_5
a21_txt01_6
a21_txt01_6a
a21_txt01_7
a21_txt01_8
a21_txt01_8a
a21_txt01_9
a21_txt01_9a
a21_txt02
a21_txt02_10
a21_txt02_10a
a21_txt02_10b
a21_txt02_11
a21_txt02_11a
a21_txt02_12
a21_txt02_12a
a21_txt02_12b
a21_txt02_1a
a21_txt02_1b
a21_txt02_2
a21_txt02_2a
a21_txt02_3
a21_txt02_3a
a21_txt02_4
a21_txt02_4a
a21_txt02_5
a21_txt02_5a
a21_txt02_6
a21_txt02_6a
a21_txt02_6b
a21_txt02_6b_rev0
a21_txt02_6x
a21_txt02_7
a21_txt02_7a
a21_txt02_8
a21_txt02_8a
a21_txt02_9
a21_txt02_9a
a22_acl2_01
a22_acl2_02
a22_edu12
a22_intro01
a22_intro02
a22_intro03
a22_memman01
a22_memman02
a22_memman03
a22_memman04
a22_memman05
a22_memman06
a22_memman07
a22_memo01
a22_mingw_debug
a22_txt03
a22_txt03_1a
a22_txt03_1b
a22_txt03_2
a22_txt03_2a
a22_ufcs01
a23_bbs
a23_ec001
a23_ec002
a23_intro00
a23_intro000
a23_intro01
a23_intro02
a23_intro03
a23_intro04
a23_intro05
a23_intro06
a23_intro07
a23_intro08
a23_intro09
a23_intro10
a23_intro10wk1
a23_intro10wk2
a23_intro10wk3
a23_intro11
a23_intro12
a23_intro13
a23_intro13wk1
a23_intro14
a23_intro15
a23_intro16
a23_intro17
a23_intro17wk1
a23_intro18
a23_intro19
a23_intro90
a23_intro91
a23_neopixel1
a23_os01
a23_useSelfMade
a23_usm001
a23_usm002
a23_usm003
a23_usm004
a23_usm005
a23_usm006
a23_usm007
a23_usm008
a23_usm009
a24_AMap11
a24_AMapSim11
a24_AMemFile
a24_AMemMan
a24_aErrExit
a24_aFnv
a24_aOsFunc
a24_aQSort
a24_aXorShift32
a24_acl1T_doc01
a24_acl1Tiny
a24_acpp0
a24_buntan01
a24_cMin
a24_getTyp
a24_goodvalues
a24_idea001
a24_longdef
a24_memo01
a24_memo02
a24_osc20240310
a24_osc20241026
a24_picoLcd13
a24_picoTrain1
a24_programs
a24_raspberrypi01
a24_raspberrypi02
a24_schedule
a24_spc2tab
a24_tab2spc
a24_useSelfMade
a25_acl3
a25_buntan02
a25_buntan03
a25_buntan04
a25_buntan05
a25_kcas01
a25_kharc01
a25_kharc02
a25_kharc03
a25_kharc04
a25_kharc05
a25_kharc06
a25_kharcs1
a25_kharcs2
a25_kharcs3
a25_kharcs4
a25_kharcs5
a25_kharcs6
a25_kharcs7
a25_kharcs8
a25_kharcs9
aclib00
aclib01
aclib02
aclib03
aclib04
aclib05
aclib06
aclib07
aclib08
aclib09
aclib10
aclib11
aclib12
aclib13
aclib14
aclib15
aclib16
aclib17
aclib18
aclib19
aclib20
aclib21
aclib22
aclib23
aclib24
aclib25
aclib_bbs
arm64_01
avm0001
edu0001
edu0002
edu0003
esb02b_hrb
esb_dbg
esbasic0001
esbasic0002
esbasic0003
esbasic0004
esbasic0005
esbasic0006
esbasic0007
esbasic0008
esbasic0009
esbasic0010
esbasic0011
esbasic0012
esbasic0013
esbasic0014
esbasic0015
esbasic0016
esbasic0017
esbasic02a
esc0001
escm0001
essen_hist
esvm0001
esvm0002
esvm0003
esvm0004
esvm0005
esvm0006
esvm_i0
hh4a
idea0001
idea0002
idea0003
impressions
jck_0000
jck_0001
kawai
kbcl0_0000
kbcl0_0001
kbcl0_0002
kbcl0_0003
kbcl0_0004
kbcl0_0005
kbcl0_0006
kbcl0_0007
kclib1_0000
kclib1_0001
kclib1_0002
kclib1_0003
kclib1_0004
kclib1_0005
kclib1_0006
kclib1_0007
kclib1_0008
kclib1_0009
kclib1_0010
kpap0001
members
memo0001
osask4g
osask4g_r2
p20200311a
p20200610a
p20200610b
p20200624a
p20200711a
p20200716a
p20250813a
p20250813b
p20250813c
p20250815a
p20250903a
p20251006a
page0001
page0002
page0003
page0004
page0005
page0006
page0007
page0008
page0009
page0010
page0011
page0012
page0013
page0014
page0015
page0016
page0017
page0018
page0019
page0020
page0021
page0022
page0023
populars
seccamp
seccamp2019
sechack
sechack2019
seclang01
sh3_2020
sh3_2020_kw
sh3_2020_nk
sh3_2021_kw
sh3_2021_nk
sh3_2022_kw
sh3_2023_kw
sh3_2024_kw
sh3_2025_kw
sh3_kw_hist
termux001
termux002
text0001
text0001a
text0002
text0002a
text0003
text0004
text0005
text0006
text0006a
text0007
text0008
text0010
text0011
text0012
text0013
text0014
text0015
text0016
text0017
text0018
text0019
text0020
text0021
tl1c
tl2c
tl3c
tl3d
* スタックマシンに関する幻想について -(by [[K]], 2025.08.15) ** (0) はじめに -なんかよくわからないけど、スタックマシンはレジスタマシンよりも〇〇に優れているみたいな話を時々聞きます。 -しかしいろいろ実験してきた私としては「ん?それは本当か??」と思うのです。 -私が思うに、どこかの偉い人がもっともらしく説明したせいで、その後だれも疑わず検証もせず、妄信している内容がいくつかある気がしてなりません。 -だからそれらに疑問を提示して、私なりの実験をして、その結果を示したいと思います。 -[目次] --(1) スタックマシンでバイトコードを設計すれば、プログラムのバイト数が減る → そんなことはなさそう --(2) スタックマシンを想定してアセンブラを出力するなら、コンパイラが書きやすくなる → そんなことはなさそう --(3) 逆ポーランド記法で書かれた式をレジスタマシン向けのアセンブラ記法に直すのは結構な手間がかかる → そんなことはなさそう --(4) 余興:ポーランド記法をレジスタマシン向けのアセンブラ記法やスタックマシンの向けのアセンブラ記法に直す --(5) 余興:uckはどうやってバイトコードを短くしたか? --(6) もっと細かい余談を、Q&A形式で ---- -[Q:0-1] すみません、そもそもスタックマシンってなんですか? --[A:0-1] 普通の機械語では、どのレジスタとどのレジスタを演算して結果をどこに入れるか、というのを命令の中で指定します。たとえば「 ADD a,3; 」とすれば、aに3が加算されます。 --しかしスタックマシンでは演算命令に演算対象を書きません。「 ADD; 」だけでいいのです。じゃあどれとどれを足すんだ?ってなるわけですが、それは値を「レジスタ型スタック」にどんどんと積んでいき(PUSH命令)、ADD命令が一番上と上から二番目の値に対してADDするのです(このときにこの2つの値はスタックから消されます)。そして計算結果はどこにいくのかというと、それはスタックに積まれるのです。 --スタックマシンのこの挙動は、逆ポーランド記法と相性が良く、逆ポーランド記法がほぼそのまま機械語になるくらいに分かりやすいです。スタックマシンは一時変数をどうするかということを悩まなくていいので、これを好む人はいます。x86でもFPUの基本設計としてスタックマシンが採用されていました。 --しかしスタックマシンはアウトオブオーダ実行などに難があり、今ではほとんど採用されません。x86もSSE拡張を導入して、スタックマシンによらないFPU演算をサポートしました。 --逆ポーランド記法との相性の良さから、スタックマシンはレジスタマシン(=演算命令に演算対象を明記する、普通の機械語のことです)よりも〇〇で優れているということが先入観で言われているようなのですが、それが本当のことなのかそれを確かめるのがこのページの目的です。 ~ ** (1) スタックマシンでバイトコードを設計すれば、プログラムのバイト数が減る -私はJavaのバイトコードの説明の時に、初めてこの話を聞きました。 -Rubyの実行エンジンである RubyVMでもスタックマシンを採用していて、その理由はこれだと聞いた記憶があります。 -ではJavaのバイトコードは結果としてコンパクトになっているのかと言えば、全然そんなことはないです。でもそれはこのスタックマシン性に由来しているというよりは、他の理由の方が主のような気はしますが。 -まずは「 i = i + 3; 」で考えたいと思います。レジスタマシンで、かつiがレジスタ変数なのであれば、「 ADD i,3; 」だけで済みます。これに対して、スタックマシンであれば、「 PUSH i; PUSH 3; ADD; POP i; 」が必要になります。 -レジスタマシンの場合、「ADD」「i」「3」で3語でした。スタックマシンの場合、7語になっています。仮に「1語は少なくとも1バイトを要する」と考えるなら、この例ではスタックマシンはかなり不利です。 -スタックマシンが不利になりやすい最大の要因はレジスタ変数を全く持てないところだと思います。とにかくpushしなければ演算対象にできないわけです。 -次に「 y = a * x + b; 」で考えてみます。 -レジスタマシン:「 MUL3 tmp,a,x; ADD3 y,tmp,b; 」→ 8語 -スタックマシン:「 PUSH a; PUSH x; MUL; PUSH b; ADD; POP y; 」 → 10語 -このように式が長くなってくると、レジスタマシンでは一時変数を明示して書かなければいけない分だけ少しずつ不利になってきます。スタックマシンは一時変数を書く必要がありません。一時変数の名前をどうするか(or一時変数としてどのレジスタを使うか)なんて、全く本質的ではないどうでもいいことです。それを明示的に書かされる分だけレジスタマシンは不利です。 -次は「 y = a * x * x + b * x + c; 」でやってみます。 -レジスタマシン:「 MUL3 tmp,a,x; MUL tmp,x; MUL3 tmp2,b,x; ADD tmp,tmp2; ADD3 y,tmp,c; 」→ 18語 -スタックマシン:「 PUSH a; PUSH x; MUL; PUSH x; MUL; PUSH b; PUSH x; MUL; ADD; PUSH c; ADD; POP y; 」 → 19語 -だいぶ差が縮まってきました。 -まあここまでの考察で、「長い式がたくさん想定されるならスタックマシンは有利だけど、実際のプログラムでは短い式もたくさんあるので、スタックマシンの方が有利だとはあまり期待できない」という感じは分かっていただけたと思います。 ~ ** (2) スタックマシンを想定してアセンブラを出力するなら、コンパイラが書きやすくなる -論より証拠だと思うので書き比べてみます。 --''ルール'': 変数は1文字。定数も1桁。演算子は()*/%+-のみ。スペースを入れてはいけない。単項演算子も未対応。さらに式としておかしいものは入力しない想定。 ---レジスタマシンかスタックマシンかの違いを見るだけならこの仕様でまったく問題ない。 ---- -(2-1) ''レジスタマシン用のコンパイラ''[32行] #include <stdio.h> #include <string.h> const char *s; char a[4096], t; char compile(int pri) { char r, q, op; if (*s == '(') { s++; r = compile(99); s++; // ')'を読み飛ばす. } else { r = *s++; // 数値もしくは変数. } for (;;) { op = *s++; if (pri >= 4 && (op == '*' || op == '/' || op == '%')) { q = compile(3); sprintf(a + strlen(a), "%c %c,%c,%c\n", op, t, r, q); r = t++; } else if (pri >= 5 && (op == '+' || op == '-')) { q = compile(4); sprintf(a + strlen(a), "%c %c,%c,%c\n", op, t, r, q); r = t++; } else break; } s--; return r; } int main(int argc, const char **argv) { s = argv[1]; if (s == NULL) return 1; t = 't'; char r = compile(99); printf("%sresult=%c\n", a, r); return 0; } -このプログラムをコンパイルして、reg.exeを作りました。 >reg 1+2*3 * t,2,3 → MUL(t, 2, 3); // t=2*3; + u,1,t → ADD(u, 1, t); // u=1+t; result=u → 計算結果はuに入っています、という意味です。 tとかuは一時変数です。 >reg (1+2)*3 + t,1,2 * u,t,3 result=u >reg (X+Y-1)*(A+B) + t,X,Y - u,t,1 + v,A,B * w,u,v result=w -[追記] このプログラムがあまりわかりやすくないという指摘を受けました。実は私もちょっと心配していました。 -処理内容としては何も変わっていませんが、以下を(2-1')とします。 #include <stdio.h> #include <string.h> const char *s; char a[4096], t; void resetTmp() { t = 't'; } char newTmp() { return t++; } char compile(int pri) { char r, q, n, op; if (*s == '(') { s++; r = compile(99); s++; // ')'を読み飛ばす. } else { r = *s++; // 数値もしくは変数. } for (;;) { op = *s++; if (pri >= 4 && (op == '*' || op == '/' || op == '%')) { q = compile(3); n = newTmp(); sprintf(a + strlen(a), "%c %c,%c,%c\n", op, n, r, q); r = n; } else if (pri >= 5 && (op == '+' || op == '-')) { q = compile(4); n = newTmp(); sprintf(a + strlen(a), "%c %c,%c,%c\n", op, n, r, q); r = n; } else break; } s--; return r; } int main(int argc, const char **argv) { s = argv[1]; if (s == NULL) return 1; resetTmp(); char r = compile(99); printf("%sresult=%c\n", a, r); return 0; } -こうすれはたぶん読みやすくなります。 ---- -(2-2) ''スタックマシン用のコンパイラ''[32行] #include <stdio.h> #include <string.h> const char *s; char a[4096]; void compile(int pri) { char op; if (*s == '(') { s++; compile(99); s++; // ')'を読み飛ばす. } else { sprintf(a + strlen(a), "push %c\n", *s++); // 数値もしくは変数. } for (;;) { op = *s++; if (pri >= 4 && (op == '*' || op == '/' || op == '%')) { compile(3); sprintf(a + strlen(a), "%c\n", op); } else if (pri >= 5 && (op == '+' || op == '-')) { compile(4); sprintf(a + strlen(a), "%c\n", op); } else break; } s--; } int main(int argc, const char **argv) { s = argv[1]; if (s == NULL) return 1; compile(99); printf("%s", a); return 0; } -このプログラムをコンパイルして、stk.exeを作りました。 >stk 1+2*3 push 1 push 2 push 3 * + >stk (1+2)*3 push 1 push 2 + push 3 * >stk (X+Y-1)*(A+B) push X push Y + push 1 - push A push B + * ---- -見ての通り、どちらも問題なくコンパイルできています。コンパイラの行数は同じでした。 -確かに、レジスタマシンの方が少しコンパイラの記述量が多そうな感じです。でも、この程度の差ですよ? -このわずかな差が問題なんでしょうか? -ということで、なんか別の理由でスタックマシンを採用するならそれは全く問題ないと思うのですが、「コンパイラが作りやすくなるから」は理由としては弱い気がします。 -スタックマシンの場合、実行の際にはPUSH命令があるので、その分だけ実行速度は落ちるかもしれません(実行しなければいけない命令数が増える)。 -(まあそれはレジスタマシンがメモリ上にある変数をレジスタにロードするコストと同じなので、レジスタ変数を使わないなら実質的には同じことではあります。) - MUL(t, 2, 3); や ADD(u, 1, t); をどうやってx86のアセンブラに直せばいいの?という問い合わせがありました。それは[Q:6-3]で説明します。 ~ ** (3) 逆ポーランド記法で書かれた式をレジスタマシン向けのアセンブラ記法に直すのは結構な手間がかかる -まず、逆ポーランド記法で書かれた式をスタックマシン向けのアセンブラに直すのは、言うまでもなく非常に簡単です。定数もしくは変数の前にPUSHをつけて、演算命令はそのままにすればいいからです。 -ではレジスタマシン向けに変換するのはどのくらいの手間でしょうか? -(3-1) ''レジスタマシン用の逆ポーランド記法コンパイラ''[17行] #include <stdio.h> #include <string.h> int main(int argc, const char **argv) { const char *s = argv[1]; if (s == NULL) return 1; char t = 't', a[4096], *p = &a[4096], c; a[0] = 0; while ((c = *s++) != '\0') { if (strchr("*/%+-", c) != 0) { sprintf(a + strlen(a), "%c %c,%c,%c\n", c, t, p[1], p[0]); *++p = t++; } else { *--p = c; } } printf("%sresult=%c\n", a, *p); return 0; } >cnv 123*+ * t,2,3 + u,1,t result=u >cnv 12+3* + t,1,2 * u,t,3 result=u >cnv XY+1-AB+* + t,X,Y - u,t,1 + v,A,B * w,u,v result=w -こんな感じでうまくいきました。だからたいして大変ではないのです。 -「私の自作言語では数式を逆ポーランド記法で書くので、コンパイル先がスタックマシンの方がよい」ということは言えるかもしれないですが、それでも多分その差は10行程度でしょう。 -私はそれが配慮すべきほどの問題とは思えません。 ~ ** (4) 余興:ポーランド記法をレジスタマシン向けのアセンブラ記法やスタックマシンの向けのアセンブラ記法に直す -(4-1)''ポーランド記法→レジスタマシン''(p2r)[21行] #include <stdio.h> #include <string.h> const char *s; char a[4096], t; char val() { char op = *s++, x, y; if (strchr("*/%+-", op) != 0) { x = val(); y = val(); sprintf(a + strlen(a), "%c %c,%c,%c\n", op, t, x, y); return t++; } return op; // 数値もしくは変数. } int main(int argc, const char **argv) { s = argv[1]; if (s == NULL) return 1; t = 't'; char r = val(); printf("%sresult=%c\n", a, r); return 0; } >p2r *-+XY1+AB + t,X,Y - u,t,1 + v,A,B * w,u,v result=w ---- -(4-2)''ポーランド記法→スタックマシン''(p2s)[21行] #include <stdio.h> #include <string.h> const char *s; char a[4096]; void val() { char op = *s++; if (strchr("*/%+-", op) != 0) { val(); val(); sprintf(a + strlen(a), "%c\n", op); } else { sprintf(a + strlen(a), "push %c\n", op); // 数値もしくは変数. } } int main(int argc, const char **argv) { s = argv[1]; if (s == NULL) return 1; val(); printf("%s", a); return 0; } >p2s *-+XY1+AB push X push Y + push 1 - push A push B + * ~ ** (5) 余興:uckはどうやってバイトコードを短くしたか? -uckの前身であるOSECPU-VMの高密度バイトコードでは、(1)のような考察の上でレジスタマシンを採用していました。 -uckではスタックマシンの利点も捨てがたいと思い始めたので、どうにかできないかと試行錯誤しました。 -uckを説明するにはhh4がーみたいな話をしなければいけなくなるのですが、それを全部カットして要点だけ言えば、「バイトコードが短くなったのは、PUSH命令を1ビットにしたから」と言えると思います。 --uckでは4bit命令として0x0~0x6が使えます。このうちの0x0~0x3はPUSH命令です。0x4~0x6は演算命令でADD/SUB/MULです。 --uckでは8bit命令として0x80~0xbfが使えます。このうちの0x80~0xafはPUSH命令です。0xb0~0xbbは演算命令で、0xbc~0xbfもPUSH命令です。 --uckでは12bit命令として0xc00~0xdffが使えます。このうちの0xc00~0xd3fはPUSH命令です。0xdc0~0xdffもPUSH命令です。 --(以下略) -これらのPUSH命令には引数はなく、どんな値をPUSHするかは命令コードで決まるのです。たとえば0x88なら数値8をPUSHします。 -このように命令番号の「半分以上」を引数なしPUSH命令に割り振っているので、実質的にPUSH命令のコストは1bit未満になっています。 --もっというと、負の数のPUSHって滅多に使わないので、そのたまにしか使わない部分だけを演算命令に置き換えた感じです。 --そのせいでたとえば8bit形式では-9をPUSHできないわけですが、12bit形式なら-9はPUSHできるので実質的には問題ないのです。 --このようにより長い命令長を選んでいけばどんな数値もPUSHできるようになっているので、PUSH命令→演算命令への置き換えは問題なくできています。 -PUSH命令のコストが無視できるようになれば、スタックマシンでもデメリットはほとんどなくなり、一時変数を明記しないで済むというメリットが生きてきます。 -[Q] ということは、uckはスタックマシンなの? --[A] いやあ、そう言うときっと本当のスタックマシンに怒られてしまうと思うんですよね・・・。uckではPUSH命令が上記のようになってしまっているだけではなく、演算命令が先行するという「ポーランド記法」「Lisp語順」を採用していて、スタックマシンかどうかもあやしいです。だから(実は)そもそもPUSHしてないわけで・・・。 --ポーランド記法になっているのは、どんな演算子が先行しているのか(=この数値はどの演算のために使われるのか)という「文脈情報」を解釈に役立てるためです。 ~ ** (6) もっと細かい余談を、Q&A形式で -[Q:6-1] なんか全体的に、コードが短すぎる気がするが?(2)とか見てると、数式をコンパイルするのが32行でできるとか言っているわけだよね? --[A:6-1] いやでも、ちゃんと動いていますし・・・。構造はちゃんとしていると思うので、演算子を増やしても少ししかコード増えないはずですし、優先順位判定もちゃんとやっています。 -[Q:6-2] 単純にprintfせずに、aに対してsprintfで追記しているのはなぜ? --[A:6-2] aに追記しているのは、外部に出力する前に、最適化のためにコードを並べ替えたり、不要な命令を削ったりしたい場合もあるよなーと思って、aに追記するスタイルが癖になっているためです。今回の考察に限って言えば、ただのprintfで全く問題ないです。 --毎回strlenするのは明らかに無駄ですが、まあ今回は小規模なサンプルコードということで大目に見てください。 -[Q:6-3] (2-1)で出てきた疑似コードから、実際のx86のアセンブリにするところがわかりません。 --[A:6-3] いろいろな方法が考えられますが、できるだけ簡単な方法で考えるなら、こんな感じでしょうか。 >reg 1+2*3 [再掲] * t,2,3 → MUL(t, 2, 3); // t=2*3; + u,1,t → ADD(u, 1, t); // u=1+t; result=u → 計算結果はuに入っています、という意味です。 tとかuは一時変数です。 ;; MUL(t, 2, 3); MOV EAX,2 IMUL EAX,3 MOV [ESP+x],EAX ; xは変数tに対応するメモリオフセット. ;; ADD(u, 1, t); MOV EAX,1 ADD EAX,[ESP+x] ; xは変数tに対応するメモリオフセット. MOV [ESP+y],EAX ; yは変数uに対応するメモリオフセット. --このような方法だとレジスタをEAXしか使わないことになります(割り算などをするときは他のレジスタも使うかもしれません)。 --こういう出力をするコンパイラの実装は簡単ですが、他のレジスタをほとんど使わないので不満かもしれません(もったいない!)。どの変数をレジスタ変数にしたらいいかをコンパイラが決められるようになれば、性能は改善するでしょう。でもそれは「コンパイラを簡単に作る」話ではなくて、最適化の話です。 --[追記] buntan-pcプロジェクトのuchanさんは、スタックマシン向けだとコンパイラが作りやすくなると思っている人のうちの一人です。・・・ここで例示したようなレジスタを1~2個しか使わないという方針なら、レジスタマシンでもスタックマシンでもコンパイラ作成の難易度は大差ないと、uchanさんからも意見をもらえました。一方で、レジスタをちゃんと活用しようとするとコンパイラ作成の難易度が上がるのは間違いなくて、それを念頭に「レジスタマシンはコンパイラが作りにくい」と考えているという意見をもらいました。・・・その点は私もそう思います。コンパイラを簡単に作ってそこから最適化を好きなように追加していけばいいと考えるか(=私)、それともある程度の最適化ができなければレジスタマシンでコンパイラを作る意義はないと考えて「できない、難しい」と思うか(=uchanさん)は、意見が分かれるところです。 //-(編集中) // スタックマシンをバイトコードに採用すれば、プログラムが短くかける。 // スタックマシン・モデルを採用すれば、コンパイラが書きやすい。 // スタックマシンなCPUでも性能高く作れる。
タイムスタンプを変更しない
* スタックマシンに関する幻想について -(by [[K]], 2025.08.15) ** (0) はじめに -なんかよくわからないけど、スタックマシンはレジスタマシンよりも〇〇に優れているみたいな話を時々聞きます。 -しかしいろいろ実験してきた私としては「ん?それは本当か??」と思うのです。 -私が思うに、どこかの偉い人がもっともらしく説明したせいで、その後だれも疑わず検証もせず、妄信している内容がいくつかある気がしてなりません。 -だからそれらに疑問を提示して、私なりの実験をして、その結果を示したいと思います。 -[目次] --(1) スタックマシンでバイトコードを設計すれば、プログラムのバイト数が減る → そんなことはなさそう --(2) スタックマシンを想定してアセンブラを出力するなら、コンパイラが書きやすくなる → そんなことはなさそう --(3) 逆ポーランド記法で書かれた式をレジスタマシン向けのアセンブラ記法に直すのは結構な手間がかかる → そんなことはなさそう --(4) 余興:ポーランド記法をレジスタマシン向けのアセンブラ記法やスタックマシンの向けのアセンブラ記法に直す --(5) 余興:uckはどうやってバイトコードを短くしたか? --(6) もっと細かい余談を、Q&A形式で ---- -[Q:0-1] すみません、そもそもスタックマシンってなんですか? --[A:0-1] 普通の機械語では、どのレジスタとどのレジスタを演算して結果をどこに入れるか、というのを命令の中で指定します。たとえば「 ADD a,3; 」とすれば、aに3が加算されます。 --しかしスタックマシンでは演算命令に演算対象を書きません。「 ADD; 」だけでいいのです。じゃあどれとどれを足すんだ?ってなるわけですが、それは値を「レジスタ型スタック」にどんどんと積んでいき(PUSH命令)、ADD命令が一番上と上から二番目の値に対してADDするのです(このときにこの2つの値はスタックから消されます)。そして計算結果はどこにいくのかというと、それはスタックに積まれるのです。 --スタックマシンのこの挙動は、逆ポーランド記法と相性が良く、逆ポーランド記法がほぼそのまま機械語になるくらいに分かりやすいです。スタックマシンは一時変数をどうするかということを悩まなくていいので、これを好む人はいます。x86でもFPUの基本設計としてスタックマシンが採用されていました。 --しかしスタックマシンはアウトオブオーダ実行などに難があり、今ではほとんど採用されません。x86もSSE拡張を導入して、スタックマシンによらないFPU演算をサポートしました。 --逆ポーランド記法との相性の良さから、スタックマシンはレジスタマシン(=演算命令に演算対象を明記する、普通の機械語のことです)よりも〇〇で優れているということが先入観で言われているようなのですが、それが本当のことなのかそれを確かめるのがこのページの目的です。 ~ ** (1) スタックマシンでバイトコードを設計すれば、プログラムのバイト数が減る -私はJavaのバイトコードの説明の時に、初めてこの話を聞きました。 -Rubyの実行エンジンである RubyVMでもスタックマシンを採用していて、その理由はこれだと聞いた記憶があります。 -ではJavaのバイトコードは結果としてコンパクトになっているのかと言えば、全然そんなことはないです。でもそれはこのスタックマシン性に由来しているというよりは、他の理由の方が主のような気はしますが。 -まずは「 i = i + 3; 」で考えたいと思います。レジスタマシンで、かつiがレジスタ変数なのであれば、「 ADD i,3; 」だけで済みます。これに対して、スタックマシンであれば、「 PUSH i; PUSH 3; ADD; POP i; 」が必要になります。 -レジスタマシンの場合、「ADD」「i」「3」で3語でした。スタックマシンの場合、7語になっています。仮に「1語は少なくとも1バイトを要する」と考えるなら、この例ではスタックマシンはかなり不利です。 -スタックマシンが不利になりやすい最大の要因はレジスタ変数を全く持てないところだと思います。とにかくpushしなければ演算対象にできないわけです。 -次に「 y = a * x + b; 」で考えてみます。 -レジスタマシン:「 MUL3 tmp,a,x; ADD3 y,tmp,b; 」→ 8語 -スタックマシン:「 PUSH a; PUSH x; MUL; PUSH b; ADD; POP y; 」 → 10語 -このように式が長くなってくると、レジスタマシンでは一時変数を明示して書かなければいけない分だけ少しずつ不利になってきます。スタックマシンは一時変数を書く必要がありません。一時変数の名前をどうするか(or一時変数としてどのレジスタを使うか)なんて、全く本質的ではないどうでもいいことです。それを明示的に書かされる分だけレジスタマシンは不利です。 -次は「 y = a * x * x + b * x + c; 」でやってみます。 -レジスタマシン:「 MUL3 tmp,a,x; MUL tmp,x; MUL3 tmp2,b,x; ADD tmp,tmp2; ADD3 y,tmp,c; 」→ 18語 -スタックマシン:「 PUSH a; PUSH x; MUL; PUSH x; MUL; PUSH b; PUSH x; MUL; ADD; PUSH c; ADD; POP y; 」 → 19語 -だいぶ差が縮まってきました。 -まあここまでの考察で、「長い式がたくさん想定されるならスタックマシンは有利だけど、実際のプログラムでは短い式もたくさんあるので、スタックマシンの方が有利だとはあまり期待できない」という感じは分かっていただけたと思います。 ~ ** (2) スタックマシンを想定してアセンブラを出力するなら、コンパイラが書きやすくなる -論より証拠だと思うので書き比べてみます。 --''ルール'': 変数は1文字。定数も1桁。演算子は()*/%+-のみ。スペースを入れてはいけない。単項演算子も未対応。さらに式としておかしいものは入力しない想定。 ---レジスタマシンかスタックマシンかの違いを見るだけならこの仕様でまったく問題ない。 ---- -(2-1) ''レジスタマシン用のコンパイラ''[32行] #include <stdio.h> #include <string.h> const char *s; char a[4096], t; char compile(int pri) { char r, q, op; if (*s == '(') { s++; r = compile(99); s++; // ')'を読み飛ばす. } else { r = *s++; // 数値もしくは変数. } for (;;) { op = *s++; if (pri >= 4 && (op == '*' || op == '/' || op == '%')) { q = compile(3); sprintf(a + strlen(a), "%c %c,%c,%c\n", op, t, r, q); r = t++; } else if (pri >= 5 && (op == '+' || op == '-')) { q = compile(4); sprintf(a + strlen(a), "%c %c,%c,%c\n", op, t, r, q); r = t++; } else break; } s--; return r; } int main(int argc, const char **argv) { s = argv[1]; if (s == NULL) return 1; t = 't'; char r = compile(99); printf("%sresult=%c\n", a, r); return 0; } -このプログラムをコンパイルして、reg.exeを作りました。 >reg 1+2*3 * t,2,3 → MUL(t, 2, 3); // t=2*3; + u,1,t → ADD(u, 1, t); // u=1+t; result=u → 計算結果はuに入っています、という意味です。 tとかuは一時変数です。 >reg (1+2)*3 + t,1,2 * u,t,3 result=u >reg (X+Y-1)*(A+B) + t,X,Y - u,t,1 + v,A,B * w,u,v result=w -[追記] このプログラムがあまりわかりやすくないという指摘を受けました。実は私もちょっと心配していました。 -処理内容としては何も変わっていませんが、以下を(2-1')とします。 #include <stdio.h> #include <string.h> const char *s; char a[4096], t; void resetTmp() { t = 't'; } char newTmp() { return t++; } char compile(int pri) { char r, q, n, op; if (*s == '(') { s++; r = compile(99); s++; // ')'を読み飛ばす. } else { r = *s++; // 数値もしくは変数. } for (;;) { op = *s++; if (pri >= 4 && (op == '*' || op == '/' || op == '%')) { q = compile(3); n = newTmp(); sprintf(a + strlen(a), "%c %c,%c,%c\n", op, n, r, q); r = n; } else if (pri >= 5 && (op == '+' || op == '-')) { q = compile(4); n = newTmp(); sprintf(a + strlen(a), "%c %c,%c,%c\n", op, n, r, q); r = n; } else break; } s--; return r; } int main(int argc, const char **argv) { s = argv[1]; if (s == NULL) return 1; resetTmp(); char r = compile(99); printf("%sresult=%c\n", a, r); return 0; } -こうすれはたぶん読みやすくなります。 ---- -(2-2) ''スタックマシン用のコンパイラ''[32行] #include <stdio.h> #include <string.h> const char *s; char a[4096]; void compile(int pri) { char op; if (*s == '(') { s++; compile(99); s++; // ')'を読み飛ばす. } else { sprintf(a + strlen(a), "push %c\n", *s++); // 数値もしくは変数. } for (;;) { op = *s++; if (pri >= 4 && (op == '*' || op == '/' || op == '%')) { compile(3); sprintf(a + strlen(a), "%c\n", op); } else if (pri >= 5 && (op == '+' || op == '-')) { compile(4); sprintf(a + strlen(a), "%c\n", op); } else break; } s--; } int main(int argc, const char **argv) { s = argv[1]; if (s == NULL) return 1; compile(99); printf("%s", a); return 0; } -このプログラムをコンパイルして、stk.exeを作りました。 >stk 1+2*3 push 1 push 2 push 3 * + >stk (1+2)*3 push 1 push 2 + push 3 * >stk (X+Y-1)*(A+B) push X push Y + push 1 - push A push B + * ---- -見ての通り、どちらも問題なくコンパイルできています。コンパイラの行数は同じでした。 -確かに、レジスタマシンの方が少しコンパイラの記述量が多そうな感じです。でも、この程度の差ですよ? -このわずかな差が問題なんでしょうか? -ということで、なんか別の理由でスタックマシンを採用するならそれは全く問題ないと思うのですが、「コンパイラが作りやすくなるから」は理由としては弱い気がします。 -スタックマシンの場合、実行の際にはPUSH命令があるので、その分だけ実行速度は落ちるかもしれません(実行しなければいけない命令数が増える)。 -(まあそれはレジスタマシンがメモリ上にある変数をレジスタにロードするコストと同じなので、レジスタ変数を使わないなら実質的には同じことではあります。) - MUL(t, 2, 3); や ADD(u, 1, t); をどうやってx86のアセンブラに直せばいいの?という問い合わせがありました。それは[Q:6-3]で説明します。 ~ ** (3) 逆ポーランド記法で書かれた式をレジスタマシン向けのアセンブラ記法に直すのは結構な手間がかかる -まず、逆ポーランド記法で書かれた式をスタックマシン向けのアセンブラに直すのは、言うまでもなく非常に簡単です。定数もしくは変数の前にPUSHをつけて、演算命令はそのままにすればいいからです。 -ではレジスタマシン向けに変換するのはどのくらいの手間でしょうか? -(3-1) ''レジスタマシン用の逆ポーランド記法コンパイラ''[17行] #include <stdio.h> #include <string.h> int main(int argc, const char **argv) { const char *s = argv[1]; if (s == NULL) return 1; char t = 't', a[4096], *p = &a[4096], c; a[0] = 0; while ((c = *s++) != '\0') { if (strchr("*/%+-", c) != 0) { sprintf(a + strlen(a), "%c %c,%c,%c\n", c, t, p[1], p[0]); *++p = t++; } else { *--p = c; } } printf("%sresult=%c\n", a, *p); return 0; } >cnv 123*+ * t,2,3 + u,1,t result=u >cnv 12+3* + t,1,2 * u,t,3 result=u >cnv XY+1-AB+* + t,X,Y - u,t,1 + v,A,B * w,u,v result=w -こんな感じでうまくいきました。だからたいして大変ではないのです。 -「私の自作言語では数式を逆ポーランド記法で書くので、コンパイル先がスタックマシンの方がよい」ということは言えるかもしれないですが、それでも多分その差は10行程度でしょう。 -私はそれが配慮すべきほどの問題とは思えません。 ~ ** (4) 余興:ポーランド記法をレジスタマシン向けのアセンブラ記法やスタックマシンの向けのアセンブラ記法に直す -(4-1)''ポーランド記法→レジスタマシン''(p2r)[21行] #include <stdio.h> #include <string.h> const char *s; char a[4096], t; char val() { char op = *s++, x, y; if (strchr("*/%+-", op) != 0) { x = val(); y = val(); sprintf(a + strlen(a), "%c %c,%c,%c\n", op, t, x, y); return t++; } return op; // 数値もしくは変数. } int main(int argc, const char **argv) { s = argv[1]; if (s == NULL) return 1; t = 't'; char r = val(); printf("%sresult=%c\n", a, r); return 0; } >p2r *-+XY1+AB + t,X,Y - u,t,1 + v,A,B * w,u,v result=w ---- -(4-2)''ポーランド記法→スタックマシン''(p2s)[21行] #include <stdio.h> #include <string.h> const char *s; char a[4096]; void val() { char op = *s++; if (strchr("*/%+-", op) != 0) { val(); val(); sprintf(a + strlen(a), "%c\n", op); } else { sprintf(a + strlen(a), "push %c\n", op); // 数値もしくは変数. } } int main(int argc, const char **argv) { s = argv[1]; if (s == NULL) return 1; val(); printf("%s", a); return 0; } >p2s *-+XY1+AB push X push Y + push 1 - push A push B + * ~ ** (5) 余興:uckはどうやってバイトコードを短くしたか? -uckの前身であるOSECPU-VMの高密度バイトコードでは、(1)のような考察の上でレジスタマシンを採用していました。 -uckではスタックマシンの利点も捨てがたいと思い始めたので、どうにかできないかと試行錯誤しました。 -uckを説明するにはhh4がーみたいな話をしなければいけなくなるのですが、それを全部カットして要点だけ言えば、「バイトコードが短くなったのは、PUSH命令を1ビットにしたから」と言えると思います。 --uckでは4bit命令として0x0~0x6が使えます。このうちの0x0~0x3はPUSH命令です。0x4~0x6は演算命令でADD/SUB/MULです。 --uckでは8bit命令として0x80~0xbfが使えます。このうちの0x80~0xafはPUSH命令です。0xb0~0xbbは演算命令で、0xbc~0xbfもPUSH命令です。 --uckでは12bit命令として0xc00~0xdffが使えます。このうちの0xc00~0xd3fはPUSH命令です。0xdc0~0xdffもPUSH命令です。 --(以下略) -これらのPUSH命令には引数はなく、どんな値をPUSHするかは命令コードで決まるのです。たとえば0x88なら数値8をPUSHします。 -このように命令番号の「半分以上」を引数なしPUSH命令に割り振っているので、実質的にPUSH命令のコストは1bit未満になっています。 --もっというと、負の数のPUSHって滅多に使わないので、そのたまにしか使わない部分だけを演算命令に置き換えた感じです。 --そのせいでたとえば8bit形式では-9をPUSHできないわけですが、12bit形式なら-9はPUSHできるので実質的には問題ないのです。 --このようにより長い命令長を選んでいけばどんな数値もPUSHできるようになっているので、PUSH命令→演算命令への置き換えは問題なくできています。 -PUSH命令のコストが無視できるようになれば、スタックマシンでもデメリットはほとんどなくなり、一時変数を明記しないで済むというメリットが生きてきます。 -[Q] ということは、uckはスタックマシンなの? --[A] いやあ、そう言うときっと本当のスタックマシンに怒られてしまうと思うんですよね・・・。uckではPUSH命令が上記のようになってしまっているだけではなく、演算命令が先行するという「ポーランド記法」「Lisp語順」を採用していて、スタックマシンかどうかもあやしいです。だから(実は)そもそもPUSHしてないわけで・・・。 --ポーランド記法になっているのは、どんな演算子が先行しているのか(=この数値はどの演算のために使われるのか)という「文脈情報」を解釈に役立てるためです。 ~ ** (6) もっと細かい余談を、Q&A形式で -[Q:6-1] なんか全体的に、コードが短すぎる気がするが?(2)とか見てると、数式をコンパイルするのが32行でできるとか言っているわけだよね? --[A:6-1] いやでも、ちゃんと動いていますし・・・。構造はちゃんとしていると思うので、演算子を増やしても少ししかコード増えないはずですし、優先順位判定もちゃんとやっています。 -[Q:6-2] 単純にprintfせずに、aに対してsprintfで追記しているのはなぜ? --[A:6-2] aに追記しているのは、外部に出力する前に、最適化のためにコードを並べ替えたり、不要な命令を削ったりしたい場合もあるよなーと思って、aに追記するスタイルが癖になっているためです。今回の考察に限って言えば、ただのprintfで全く問題ないです。 --毎回strlenするのは明らかに無駄ですが、まあ今回は小規模なサンプルコードということで大目に見てください。 -[Q:6-3] (2-1)で出てきた疑似コードから、実際のx86のアセンブリにするところがわかりません。 --[A:6-3] いろいろな方法が考えられますが、できるだけ簡単な方法で考えるなら、こんな感じでしょうか。 >reg 1+2*3 [再掲] * t,2,3 → MUL(t, 2, 3); // t=2*3; + u,1,t → ADD(u, 1, t); // u=1+t; result=u → 計算結果はuに入っています、という意味です。 tとかuは一時変数です。 ;; MUL(t, 2, 3); MOV EAX,2 IMUL EAX,3 MOV [ESP+x],EAX ; xは変数tに対応するメモリオフセット. ;; ADD(u, 1, t); MOV EAX,1 ADD EAX,[ESP+x] ; xは変数tに対応するメモリオフセット. MOV [ESP+y],EAX ; yは変数uに対応するメモリオフセット. --このような方法だとレジスタをEAXしか使わないことになります(割り算などをするときは他のレジスタも使うかもしれません)。 --こういう出力をするコンパイラの実装は簡単ですが、他のレジスタをほとんど使わないので不満かもしれません(もったいない!)。どの変数をレジスタ変数にしたらいいかをコンパイラが決められるようになれば、性能は改善するでしょう。でもそれは「コンパイラを簡単に作る」話ではなくて、最適化の話です。 --[追記] buntan-pcプロジェクトのuchanさんは、スタックマシン向けだとコンパイラが作りやすくなると思っている人のうちの一人です。・・・ここで例示したようなレジスタを1~2個しか使わないという方針なら、レジスタマシンでもスタックマシンでもコンパイラ作成の難易度は大差ないと、uchanさんからも意見をもらえました。一方で、レジスタをちゃんと活用しようとするとコンパイラ作成の難易度が上がるのは間違いなくて、それを念頭に「レジスタマシンはコンパイラが作りにくい」と考えているという意見をもらいました。・・・その点は私もそう思います。コンパイラを簡単に作ってそこから最適化を好きなように追加していけばいいと考えるか(=私)、それともある程度の最適化ができなければレジスタマシンでコンパイラを作る意義はないと考えて「できない、難しい」と思うか(=uchanさん)は、意見が分かれるところです。 //-(編集中) // スタックマシンをバイトコードに採用すれば、プログラムが短くかける。 // スタックマシン・モデルを採用すれば、コンパイラが書きやすい。 // スタックマシンなCPUでも性能高く作れる。
テキスト整形のルールを表示する