a25_kharcs2
の編集
https://essen.osask.jp/?a25_kharcs2
[
トップ
] [
編集
|
差分
|
バックアップ
|
添付
|
リロード
] [
新規
|
一覧
|
単語検索
|
最終更新
|
ヘルプ
]
-- 雛形とするページ --
BracketName
EssenRev4
FormattingRules
FrontPage
Help
InterWiki
InterWikiName
InterWikiSandBox
K
MenuBar
PHP
PukiWiki
PukiWiki/1.4
PukiWiki/1.4/Manual
PukiWiki/1.4/Manual/Plugin
PukiWiki/1.4/Manual/Plugin/A-D
PukiWiki/1.4/Manual/Plugin/E-G
PukiWiki/1.4/Manual/Plugin/H-K
PukiWiki/1.4/Manual/Plugin/L-N
PukiWiki/1.4/Manual/Plugin/O-R
PukiWiki/1.4/Manual/Plugin/S-U
PukiWiki/1.4/Manual/Plugin/V-Z
RecentDeleted
SDL2_01
SandBox
WikiEngines
WikiName
WikiWikiWeb
YukiWiki
a21
a21_acl01
a21_bbs01
a21_challengers
a21_count
a21_edu01
a21_edu02
a21_edu03
a21_edu04
a21_edu05
a21_edu06
a21_edu07
a21_edu08
a21_edu09
a21_edu10
a21_edu11
a21_hlx000
a21_hlx001
a21_hlx001_1
a21_hlx001_2
a21_hlx001_3
a21_hlx002
a21_hlx002_1
a21_hlx003
a21_hlx003_1
a21_hlx004_1
a21_memo01
a21_opt
a21_opt02
a21_opt03
a21_p01
a21_special
a21_tl9a
a21_todo
a21_txt01
a21_txt01_10
a21_txt01_1a
a21_txt01_2
a21_txt01_2a
a21_txt01_2b
a21_txt01_3
a21_txt01_4
a21_txt01_5
a21_txt01_6
a21_txt01_6a
a21_txt01_7
a21_txt01_8
a21_txt01_8a
a21_txt01_9
a21_txt01_9a
a21_txt02
a21_txt02_10
a21_txt02_10a
a21_txt02_10b
a21_txt02_11
a21_txt02_11a
a21_txt02_12
a21_txt02_12a
a21_txt02_12b
a21_txt02_1a
a21_txt02_1b
a21_txt02_2
a21_txt02_2a
a21_txt02_3
a21_txt02_3a
a21_txt02_4
a21_txt02_4a
a21_txt02_5
a21_txt02_5a
a21_txt02_6
a21_txt02_6a
a21_txt02_6b
a21_txt02_6b_rev0
a21_txt02_6x
a21_txt02_7
a21_txt02_7a
a21_txt02_8
a21_txt02_8a
a21_txt02_9
a21_txt02_9a
a22_acl2_01
a22_acl2_02
a22_edu12
a22_intro01
a22_intro02
a22_intro03
a22_memman01
a22_memman02
a22_memman03
a22_memman04
a22_memman05
a22_memman06
a22_memman07
a22_memo01
a22_mingw_debug
a22_txt03
a22_txt03_1a
a22_txt03_1b
a22_txt03_2
a22_txt03_2a
a22_ufcs01
a23_bbs
a23_ec001
a23_ec002
a23_intro00
a23_intro000
a23_intro01
a23_intro02
a23_intro03
a23_intro04
a23_intro05
a23_intro06
a23_intro07
a23_intro08
a23_intro09
a23_intro10
a23_intro10wk1
a23_intro10wk2
a23_intro10wk3
a23_intro11
a23_intro12
a23_intro13
a23_intro13wk1
a23_intro14
a23_intro15
a23_intro16
a23_intro17
a23_intro17wk1
a23_intro18
a23_intro19
a23_intro90
a23_intro91
a23_neopixel1
a23_os01
a23_useSelfMade
a23_usm001
a23_usm002
a23_usm003
a23_usm004
a23_usm005
a23_usm006
a23_usm007
a23_usm008
a23_usm009
a24_AMap11
a24_AMapSim11
a24_AMemFile
a24_AMemMan
a24_aErrExit
a24_aFnv
a24_aOsFunc
a24_aQSort
a24_aXorShift32
a24_acl1T_doc01
a24_acl1Tiny
a24_acpp0
a24_buntan01
a24_cMin
a24_getTyp
a24_goodvalues
a24_idea001
a24_longdef
a24_memo01
a24_memo02
a24_osc20240310
a24_osc20241026
a24_picoLcd13
a24_picoTrain1
a24_programs
a24_raspberrypi01
a24_raspberrypi02
a24_schedule
a24_spc2tab
a24_tab2spc
a24_useSelfMade
a25_acl3
a25_buntan02
a25_buntan03
a25_buntan04
a25_buntan05
a25_kcas01
a25_kharc01
a25_kharc02
a25_kharc03
a25_kharc04
a25_kharc05
a25_kharc06
a25_kharcs1
a25_kharcs2
a25_kharcs3
a25_kharcs4
a25_kharcs5
a25_kharcs6
a25_kharcs7
a25_kharcs8
a25_kharcs9
aclib00
aclib01
aclib02
aclib03
aclib04
aclib05
aclib06
aclib07
aclib08
aclib09
aclib10
aclib11
aclib12
aclib13
aclib14
aclib15
aclib16
aclib17
aclib18
aclib19
aclib20
aclib21
aclib22
aclib23
aclib24
aclib25
aclib_bbs
arm64_01
avm0001
edu0001
edu0002
edu0003
esb02b_hrb
esb_dbg
esbasic0001
esbasic0002
esbasic0003
esbasic0004
esbasic0005
esbasic0006
esbasic0007
esbasic0008
esbasic0009
esbasic0010
esbasic0011
esbasic0012
esbasic0013
esbasic0014
esbasic0015
esbasic0016
esbasic0017
esbasic02a
esc0001
escm0001
essen_hist
esvm0001
esvm0002
esvm0003
esvm0004
esvm0005
esvm0006
esvm_i0
hh4a
idea0001
idea0002
idea0003
impressions
jck_0000
jck_0001
kawai
kbcl0_0000
kbcl0_0001
kbcl0_0002
kbcl0_0003
kbcl0_0004
kbcl0_0005
kbcl0_0006
kbcl0_0007
kclib1_0000
kclib1_0001
kclib1_0002
kclib1_0003
kclib1_0004
kclib1_0005
kclib1_0006
kclib1_0007
kclib1_0008
kclib1_0009
kclib1_0010
kpap0001
members
memo0001
osask4g
osask4g_r2
p20200311a
p20200610a
p20200610b
p20200624a
p20200711a
p20200716a
p20250813a
p20250813b
p20250813c
p20250815a
p20250903a
p20251006a
page0001
page0002
page0003
page0004
page0005
page0006
page0007
page0008
page0009
page0010
page0011
page0012
page0013
page0014
page0015
page0016
page0017
page0018
page0019
page0020
page0021
page0022
page0023
populars
seccamp
seccamp2019
sechack
sechack2019
seclang01
sh3_2020
sh3_2020_kw
sh3_2020_nk
sh3_2021_kw
sh3_2021_nk
sh3_2022_kw
sh3_2023_kw
sh3_2024_kw
sh3_2025_kw
sh3_kw_hist
termux001
termux002
text0001
text0001a
text0002
text0002a
text0003
text0004
text0005
text0006
text0006a
text0007
text0008
text0010
text0011
text0012
text0013
text0014
text0015
text0016
text0017
text0018
text0019
text0020
text0021
tl1c
tl2c
tl3c
tl3d
* kharcs #2 -(by [[K]], 2025.06.09) ** (0) これはなに? -(kharcsページは、kharc開発でわかったことを整理して説明するためのページ群です。) -今回説明したいこと: ~この順番でCコンパイラを作ったら早くできたよ!~ --[1]関数定義、インラインアセンブラ(2日目) --[2]変数宣言、インラインアセンブラ内でのラベル宣言(3日目) --[3]四則演算、return、関数呼び出し(4日目) --[4]普通のラベル宣言、条件分岐(5日目) --[5]for構文、while構文、do~while構文(6日目) --[6]ブロックif構文、アセンブラ、エミュレータ、JITコンパイラ(7日目) ** (1) 関数定義、インラインアセンブラ(2日目:6/5) -とりあえず、以下の記述くらいならできるようになりました。 int func(int i) { asm { LodRMd(R0,SP,$i); AddRI(R0,3); } // R0=i+3; } -受け取った引数に3を足すだけのヘボ関数です。コンパイルすると以下のようになります。 LbI(1); // func() SubAI(SP,8); StoAMd(RP,SP,0); // RP値を保存している(とりあえず今は無条件でやっている). LodRMd(R0,SP,8); AddRI(R0,3); // (ここはasmの中身)$iが8に置換されている. LodAMd(RP,SP,0); // RP値を復元している. AddAI(SP,8); Ret(); -引数に名前を付けて参照できるので、どこに何があるのかを人間が管理しなくてもよくなりました(前に作っていたアセンブラではすべて番号でしか管理できませんでしたので、大きな進歩です)。 ** (2) 変数宣言、インラインアセンブラ内でのラベル宣言(3日目:6/6) -ローカル変数の宣言を可能にして、スタック内がどうなっているか、コンパイラに管理してもらえるようにしました。 void main() { params(1); // このmain内で行われる関数呼び出しは、引数が最大で1つだという意味(もしインラインアセンブラ内で関数呼び出ししないなら、この記述はいらない). asm { MovRI(R0,46); StoRMd(R0,SP,0); CalII($fib,@lb0:); // R0 = fib(46); return R0; } } int fib(int i) { int tmp; params(1); asm { LodRMd(R0,SP,$i); CmpJleRII(R0,1,@skip); // if (i <= 1) goto skip; SubRI(R0,2); StoRMd(R0,SP,0); CalII($fib,@lb0:); StoRMd(R0,SP,$tmp); // tmp = fib(i-2); LodRMd(R0,SP,$i); SubRI(R0,1); StoRMd(R0,SP,0); CalII($fib,@lb1:); // R0 = fib(i-1); LodRMd(R1,SP,$tmp); AddRR(R0,R1); // R0 += tmp; LbI(@skip:); } } -このfib()部分のコンパイル結果はこうなります。 LbI(4); // fib() SubAI(SP,16); StoAMd(RP,SP,12); LodRMd(R0,SP,16); CmpJleRII(R0,1,7); // if (i <= 1) goto skip; SubRI(R0,2); StoRMd(R0,SP,0); CalII(4,5); StoRMd(R0,SP,8); // tmp = fib(i-2); LodRMd(R0,SP,16); SubRI(R0,1); StoRMd(R0,SP,0); CalII(4,6); // R0 = fib(i-1); LodRMd(R1,SP,8); AddRR(R0,R1); // R0 += tmp; LbI(7); // skip: LodAMd(RP,SP,12); AddAI(SP,16); Ret(); -変数オフセットやラベルなどがすべて無事に数値化できています。 -スタックはこんな感じになっています。 { [SP+0:引数用の領域8バイト] [SP+8:変数tmp] [SP+12:RP保存領域] } [SP+16:引数i] ** (3) 四則演算、return、関数呼び出し(4日目:6/9) -式の評価をできるようにしました。四則演算と、代入と、関数呼び出しと、returnができます。 void main() { fib(46); asm { return R0; } } int fib(int i) { asm { LodRMd(R0,SP,$i); CmpJleRII(R0,1,@skip); } i = fib(i - 2) + fib(i - 1); // ← ここがかっこいい! asm { LbI(@skip:); } return i; } -インラインアセンブラじゃないところは、すごくC言語っぽいです!かっこいい!! -上記をコンパイルするとこうなります。fib()の部分を見てみましょう。 LbI(4); // fib() SubAI(SP,24); StoAMd(RP,SP,20); LodRMd(R0,SP,24); CmpJleRII(R0,1,7); // (ここはasmの中身) LodRMd(R0,SP,24); // ムダ SubRI(R0,2); StoRMd(R0,SP,8); // ムダ LodRMd(R0,SP,8); // ムダ FreI(8); StoRMd(R0,SP,0); CalII(4,5); StoRMd(R0,SP,8); LodRMd(R0,SP,24); SubRI(R0,1); StoRMd(R0,SP,12); // ムダ LodRMd(R0,SP,12); // ムダ FreI(12); StoRMd(R0,SP,0); CalII(4,6); StoRMd(R0,SP,12); LodRMd(R0,SP,8); LodRMd(R1,SP,12); AddRR(R0,R1); StoRMd(R0,SP,16); FreI(8); FreI(12); LodRMd(R0,SP,16); StoRMd(R0,SP,24); FreI(16); LbI(7); LodRMd(R0,SP,24); // (ここはasmの中身) JmpI(8); // ムダ LbI(8); // fib().ret: LodAMd(RP,SP,20); AddAI(SP,24); Ret(); // { [SP+0:引数用の領域8バイト] [SP+8:内部生成した一時変数tmp0] [SP+12:tmp1] [SP+16:tmp2] [SP+20:RP保存領域] } [SP+24:引数i] -FreI()命令は、何もしないコメント命令ですので、ひとまず無視してください(内部生成した一時変数の解放タイミングを示しています)。 -明らかなムダ命令が6命令も入っていますが、それを除けば、なかなか頑張っている感じはします。 -ムダ命令は将来的に簡単なオプティマイザ(最適化処理)を入れてうまく消すことします。FreI()命令を入れているのは、将来オプティマイザを作りやすくするための工夫です。 ---- -最適化と言えば、定数式のコンパイル時の評価とかもやっています。 int func() { int i, j, k; i = j = k = 1 + 2 * 3; i = (j = 4) + 5; } -これをコンパイルするとこうなります。 LbI(1); // func() SubAI(SP,16); StoAMd(RP,SP,12); MovRI(R0,7); // 1+2*3 をコンパイル時に計算して 7 にしている. StoRMd(R0,SP,8); // k MovRI(R0,7); StoRMd(R0,SP,4); // j MovRI(R0,7); StoRMd(R0,SP,0); // i MovRI(R0,4); StoRMd(R0,SP,4); // j MovRI(R0,9); // 4+5 をコンパイル時に計算して 9 にしている. StoRMd(R0,SP,0); // i LbI(2); // func().ret: LodAMd(RP,SP,12); AddAI(SP,16); Ret(); -これはなかなかかしこいです。1日で作ったにしてはよくできてます。 ** (4) 普通のラベル宣言、条件分岐(5日目:6/10) -次は普通のラベル定義と比較演算子とif文を作って、インラインアセンブラを使わずに、fib()を書けるようにしました! void main() { fib(46); asm { return R0; } } int fib(int i) { if (i <= 1) goto skip; i = fib(i - 2) + fib(i - 1); skip: return i; } -ついにfib()内からはインラインアセンブラを追放できました!すごくC言語っぽいです!! -gotoがちょっとかっこ悪いので、次はブロックのifを作りたいです。 ** (5) for構文、while構文、do~while構文(6日目:6/11) -昨日の予定ではifのブロック構文を作る予定でしたが、 else if をどうやったらうまく処理できるかなーと考えているうちにループ処理を書く方が簡単そうだと思って、これを先にやることにしました。 -これでブロック処理に慣れたので、次はすぐにifのブロック構文書けそうです。 int main() { int i; for (i = 0x20; i <= 0x7e; i++) { putchar(i); } putchar(0x0a); asm { return 0; } } void putchar(int c) { asm { LodRMd(R0,SP,$c); putchar(R0); } } -++演算子もつけて、もうすっかりC言語っぽいです!(いやもちろんC言語なんだけど)。 ** (6) ブロックif構文、アセンブラ、エミュレータ、JITコンパイラ(7日目:6/12) -ブロックif構文はすぐにできました。 int main() { int i; for (i = 1; i <= 100; i++) { if (i % 15 == 0) { asm { printf("FizzBuzz\n"); } } else if (i % 3 == 0) { asm { printf("Fizz\n"); } } else if (i % 5 == 0) { asm { printf("Buzz\n"); } } else { asm { LodRMd(R0,SP,$i); printf("%d\n", R0); } } } asm { End(); } } -ちょっとインラインアセンブラが多すぎる気はしますが、とにかく無事にFizzBuzzできたので、if構文はうまくいっているようです。 -構文的には「インラインアセンブラ」ではありますが、実質的にはインラインCになっていますね(笑)。 ---- -さて、これだけで終わったら簡単すぎてつまらないので、もっとやります。ポインタとか配列とか構造体とかfloat/doubleなどが未着手の課題として残っているわけですが、それはやればできそうな気はするので、必要になったらやればいいやと先送りしましょう(え?)。 -目下の関心事としてはたくさん生成されているムダ命令の除去もやりたいところですが、最適化はやり始めると面白くなってしばらく帰ってこられない気がするので(笑)、それもいったん先送りにします。 -それで思いついたのは、kharcのエミュレータを作るのはどのくらい大変なんだろうかということです。 -kharcは[[a25_kharcs1]]の(2)にある通り、20個くらいしか命令がありません。まあ演算系の命令を増やしたので今では30個くらいにはなっていますが、それでもたかが知れている感じです。x86みたいな実在のCPUと比べたら比較にならないほどシンプルな命令セットです。 -「すごく大変そうだったら、途中でやめればいいやー。とりあえず1時間くらいでどこまでできるかやってみよー」とよく考えずに始めたところ、結局2時間でできてしまいました。それを以下で説明します。 -まずアセンブラのソースコードのままでは実行しにくいので、これをバイナリに変換します。 struct KharcBinInst { unsigned char op, prm[3]; int imm; }; -こんな感じの8バイトの構造体を考えて、これがkharcの1命令だということにしました。つまり固定長の命令セットですね。opに命令番号を入れて、prm[]にレジスタ番号を入れます。immに即値を入れます。即値を持たない命令やレジスタ指定を一切しない命令は、それらのフィールドは存在するけど参照しないということにします。 -CmpJneRII()みたいに、一部immフィールドを2つもつ命令がありますが、その場合は命令を2つつないで命令長16バイトということにして、2つ目の命令のopにはAux命令の命令番号を入れておくことにします(Aux命令っていうのは、さっき即席で考えました。命令長を伸ばすためだけの命令で、NOP命令みたいなものです)。これでimmが2つとかレジスタ指定が4個以上になっても大丈夫です。 -この仕様でアセンブラを作ったところ、85行でできてしまいました。もともとラベルとかなくて全部数値だったので、すごく簡単なのです。それに加えてMovRIとかLodRMdみたいに、みんな命令の末尾でパラメータの型を指定してくれているので、アセンブラはほとんどなにもすることがなくて、ただ淡々とバイナリ化していくだけで終わってしまいました(笑)。 -この仕様は大正解だなって思いました!(自画自賛)。 ---- -それで次はエミュレータです。switch~caseで、opの値を見て分岐すればいいですよね。適当に書いただけでしたが、68行で書けました。あの簡単すぎたアセンブラよりも簡単にできるとは! -そしてこんなものでもちゃんと動いてしまったのです。・・・これはヤバい。 -上記FizzBuzzが、kccだけで実行できて結果が出ちゃうわけです。今までは出力されたアセンブラコードの前後に少し書き足して(まあコピペだから大した手間ではないですが)、それでgccして、それでできた実行ファイルを実行、だったのに。すっごい快適です! -これで調子に乗ってfib(46)を計算すると・・・うーん、はい、さすがに遅いです。 -まあ当然ですよね、エミュレータなんだから。・・・-でもなんかくやしいわけです。 -こうなったら、JITコンパイラもやってみるしかないですよね?(笑)。 ---- -基本方針として、RxやAxを次のように実レジスタに割り当てました。なんかすごく少ないのですが、今のkccはR0,R1,SP,RPしか使ってないので(=しょぼい)、とりあえずこれでしのげます。 |R0|R1|R2||SP|RP| |EAX|ECX|EDX||EBP|EBX| -あとは機械語を調べながら作りました。・・・ https://c9x.me/x86/ にかなり助けられました(感謝!)。 -結局、60行で書けました。・・・はい、ちょっと自分でも何を言っているのかよくわかりません。60行でJITコンパイラって作れていいんでしたっけ?? -半信半疑というか、もうほとんど信じられなくて疑いしかないのですが、しかしそれでも問題なく動いて、「うおおおお!」となりました。 ---- -さすがに疲れたので、fib(46)でベンチマークを取って今日は終わりにします。 |1.kccに内蔵させた自作のエミュレータで実行|RIGHT:191.798[sec]| |2.kccに内蔵させた自作のエミュレータで実行(改良版)|RIGHT:128.766[sec]| |3.kccに内蔵させた自作のJITコンパイラで実行|RIGHT:15.246[sec]| |4.kccが出力したアセンブラをgccでコンパイルして実行|RIGHT:12.715[sec]| |5.fibのプログラムをそのままgccでコンパイルして実行|RIGHT:4.577[sec]| -やっぱりgccは速いなあ(5)。・・・ムダ命令を削ったら、これに近づけるんだろうか。 -じゃあ、4のコードからムダ命令を手動で削って、どのくらい速くなるかやってみよう。・・・7.747[sec]でした。だから5の4.577[sec]まではいけないにしても、JITコンパイラで9秒台くらいは狙えそうです。 -今回は速度を追及するための開発ではなくて、1のエミュレータ実行から少ない労力で改善できればいいっていう目的なので、それで十分かなと思います。 ** [[a25_kharcs3]]へつづく
タイムスタンプを変更しない
* kharcs #2 -(by [[K]], 2025.06.09) ** (0) これはなに? -(kharcsページは、kharc開発でわかったことを整理して説明するためのページ群です。) -今回説明したいこと: ~この順番でCコンパイラを作ったら早くできたよ!~ --[1]関数定義、インラインアセンブラ(2日目) --[2]変数宣言、インラインアセンブラ内でのラベル宣言(3日目) --[3]四則演算、return、関数呼び出し(4日目) --[4]普通のラベル宣言、条件分岐(5日目) --[5]for構文、while構文、do~while構文(6日目) --[6]ブロックif構文、アセンブラ、エミュレータ、JITコンパイラ(7日目) ** (1) 関数定義、インラインアセンブラ(2日目:6/5) -とりあえず、以下の記述くらいならできるようになりました。 int func(int i) { asm { LodRMd(R0,SP,$i); AddRI(R0,3); } // R0=i+3; } -受け取った引数に3を足すだけのヘボ関数です。コンパイルすると以下のようになります。 LbI(1); // func() SubAI(SP,8); StoAMd(RP,SP,0); // RP値を保存している(とりあえず今は無条件でやっている). LodRMd(R0,SP,8); AddRI(R0,3); // (ここはasmの中身)$iが8に置換されている. LodAMd(RP,SP,0); // RP値を復元している. AddAI(SP,8); Ret(); -引数に名前を付けて参照できるので、どこに何があるのかを人間が管理しなくてもよくなりました(前に作っていたアセンブラではすべて番号でしか管理できませんでしたので、大きな進歩です)。 ** (2) 変数宣言、インラインアセンブラ内でのラベル宣言(3日目:6/6) -ローカル変数の宣言を可能にして、スタック内がどうなっているか、コンパイラに管理してもらえるようにしました。 void main() { params(1); // このmain内で行われる関数呼び出しは、引数が最大で1つだという意味(もしインラインアセンブラ内で関数呼び出ししないなら、この記述はいらない). asm { MovRI(R0,46); StoRMd(R0,SP,0); CalII($fib,@lb0:); // R0 = fib(46); return R0; } } int fib(int i) { int tmp; params(1); asm { LodRMd(R0,SP,$i); CmpJleRII(R0,1,@skip); // if (i <= 1) goto skip; SubRI(R0,2); StoRMd(R0,SP,0); CalII($fib,@lb0:); StoRMd(R0,SP,$tmp); // tmp = fib(i-2); LodRMd(R0,SP,$i); SubRI(R0,1); StoRMd(R0,SP,0); CalII($fib,@lb1:); // R0 = fib(i-1); LodRMd(R1,SP,$tmp); AddRR(R0,R1); // R0 += tmp; LbI(@skip:); } } -このfib()部分のコンパイル結果はこうなります。 LbI(4); // fib() SubAI(SP,16); StoAMd(RP,SP,12); LodRMd(R0,SP,16); CmpJleRII(R0,1,7); // if (i <= 1) goto skip; SubRI(R0,2); StoRMd(R0,SP,0); CalII(4,5); StoRMd(R0,SP,8); // tmp = fib(i-2); LodRMd(R0,SP,16); SubRI(R0,1); StoRMd(R0,SP,0); CalII(4,6); // R0 = fib(i-1); LodRMd(R1,SP,8); AddRR(R0,R1); // R0 += tmp; LbI(7); // skip: LodAMd(RP,SP,12); AddAI(SP,16); Ret(); -変数オフセットやラベルなどがすべて無事に数値化できています。 -スタックはこんな感じになっています。 { [SP+0:引数用の領域8バイト] [SP+8:変数tmp] [SP+12:RP保存領域] } [SP+16:引数i] ** (3) 四則演算、return、関数呼び出し(4日目:6/9) -式の評価をできるようにしました。四則演算と、代入と、関数呼び出しと、returnができます。 void main() { fib(46); asm { return R0; } } int fib(int i) { asm { LodRMd(R0,SP,$i); CmpJleRII(R0,1,@skip); } i = fib(i - 2) + fib(i - 1); // ← ここがかっこいい! asm { LbI(@skip:); } return i; } -インラインアセンブラじゃないところは、すごくC言語っぽいです!かっこいい!! -上記をコンパイルするとこうなります。fib()の部分を見てみましょう。 LbI(4); // fib() SubAI(SP,24); StoAMd(RP,SP,20); LodRMd(R0,SP,24); CmpJleRII(R0,1,7); // (ここはasmの中身) LodRMd(R0,SP,24); // ムダ SubRI(R0,2); StoRMd(R0,SP,8); // ムダ LodRMd(R0,SP,8); // ムダ FreI(8); StoRMd(R0,SP,0); CalII(4,5); StoRMd(R0,SP,8); LodRMd(R0,SP,24); SubRI(R0,1); StoRMd(R0,SP,12); // ムダ LodRMd(R0,SP,12); // ムダ FreI(12); StoRMd(R0,SP,0); CalII(4,6); StoRMd(R0,SP,12); LodRMd(R0,SP,8); LodRMd(R1,SP,12); AddRR(R0,R1); StoRMd(R0,SP,16); FreI(8); FreI(12); LodRMd(R0,SP,16); StoRMd(R0,SP,24); FreI(16); LbI(7); LodRMd(R0,SP,24); // (ここはasmの中身) JmpI(8); // ムダ LbI(8); // fib().ret: LodAMd(RP,SP,20); AddAI(SP,24); Ret(); // { [SP+0:引数用の領域8バイト] [SP+8:内部生成した一時変数tmp0] [SP+12:tmp1] [SP+16:tmp2] [SP+20:RP保存領域] } [SP+24:引数i] -FreI()命令は、何もしないコメント命令ですので、ひとまず無視してください(内部生成した一時変数の解放タイミングを示しています)。 -明らかなムダ命令が6命令も入っていますが、それを除けば、なかなか頑張っている感じはします。 -ムダ命令は将来的に簡単なオプティマイザ(最適化処理)を入れてうまく消すことします。FreI()命令を入れているのは、将来オプティマイザを作りやすくするための工夫です。 ---- -最適化と言えば、定数式のコンパイル時の評価とかもやっています。 int func() { int i, j, k; i = j = k = 1 + 2 * 3; i = (j = 4) + 5; } -これをコンパイルするとこうなります。 LbI(1); // func() SubAI(SP,16); StoAMd(RP,SP,12); MovRI(R0,7); // 1+2*3 をコンパイル時に計算して 7 にしている. StoRMd(R0,SP,8); // k MovRI(R0,7); StoRMd(R0,SP,4); // j MovRI(R0,7); StoRMd(R0,SP,0); // i MovRI(R0,4); StoRMd(R0,SP,4); // j MovRI(R0,9); // 4+5 をコンパイル時に計算して 9 にしている. StoRMd(R0,SP,0); // i LbI(2); // func().ret: LodAMd(RP,SP,12); AddAI(SP,16); Ret(); -これはなかなかかしこいです。1日で作ったにしてはよくできてます。 ** (4) 普通のラベル宣言、条件分岐(5日目:6/10) -次は普通のラベル定義と比較演算子とif文を作って、インラインアセンブラを使わずに、fib()を書けるようにしました! void main() { fib(46); asm { return R0; } } int fib(int i) { if (i <= 1) goto skip; i = fib(i - 2) + fib(i - 1); skip: return i; } -ついにfib()内からはインラインアセンブラを追放できました!すごくC言語っぽいです!! -gotoがちょっとかっこ悪いので、次はブロックのifを作りたいです。 ** (5) for構文、while構文、do~while構文(6日目:6/11) -昨日の予定ではifのブロック構文を作る予定でしたが、 else if をどうやったらうまく処理できるかなーと考えているうちにループ処理を書く方が簡単そうだと思って、これを先にやることにしました。 -これでブロック処理に慣れたので、次はすぐにifのブロック構文書けそうです。 int main() { int i; for (i = 0x20; i <= 0x7e; i++) { putchar(i); } putchar(0x0a); asm { return 0; } } void putchar(int c) { asm { LodRMd(R0,SP,$c); putchar(R0); } } -++演算子もつけて、もうすっかりC言語っぽいです!(いやもちろんC言語なんだけど)。 ** (6) ブロックif構文、アセンブラ、エミュレータ、JITコンパイラ(7日目:6/12) -ブロックif構文はすぐにできました。 int main() { int i; for (i = 1; i <= 100; i++) { if (i % 15 == 0) { asm { printf("FizzBuzz\n"); } } else if (i % 3 == 0) { asm { printf("Fizz\n"); } } else if (i % 5 == 0) { asm { printf("Buzz\n"); } } else { asm { LodRMd(R0,SP,$i); printf("%d\n", R0); } } } asm { End(); } } -ちょっとインラインアセンブラが多すぎる気はしますが、とにかく無事にFizzBuzzできたので、if構文はうまくいっているようです。 -構文的には「インラインアセンブラ」ではありますが、実質的にはインラインCになっていますね(笑)。 ---- -さて、これだけで終わったら簡単すぎてつまらないので、もっとやります。ポインタとか配列とか構造体とかfloat/doubleなどが未着手の課題として残っているわけですが、それはやればできそうな気はするので、必要になったらやればいいやと先送りしましょう(え?)。 -目下の関心事としてはたくさん生成されているムダ命令の除去もやりたいところですが、最適化はやり始めると面白くなってしばらく帰ってこられない気がするので(笑)、それもいったん先送りにします。 -それで思いついたのは、kharcのエミュレータを作るのはどのくらい大変なんだろうかということです。 -kharcは[[a25_kharcs1]]の(2)にある通り、20個くらいしか命令がありません。まあ演算系の命令を増やしたので今では30個くらいにはなっていますが、それでもたかが知れている感じです。x86みたいな実在のCPUと比べたら比較にならないほどシンプルな命令セットです。 -「すごく大変そうだったら、途中でやめればいいやー。とりあえず1時間くらいでどこまでできるかやってみよー」とよく考えずに始めたところ、結局2時間でできてしまいました。それを以下で説明します。 -まずアセンブラのソースコードのままでは実行しにくいので、これをバイナリに変換します。 struct KharcBinInst { unsigned char op, prm[3]; int imm; }; -こんな感じの8バイトの構造体を考えて、これがkharcの1命令だということにしました。つまり固定長の命令セットですね。opに命令番号を入れて、prm[]にレジスタ番号を入れます。immに即値を入れます。即値を持たない命令やレジスタ指定を一切しない命令は、それらのフィールドは存在するけど参照しないということにします。 -CmpJneRII()みたいに、一部immフィールドを2つもつ命令がありますが、その場合は命令を2つつないで命令長16バイトということにして、2つ目の命令のopにはAux命令の命令番号を入れておくことにします(Aux命令っていうのは、さっき即席で考えました。命令長を伸ばすためだけの命令で、NOP命令みたいなものです)。これでimmが2つとかレジスタ指定が4個以上になっても大丈夫です。 -この仕様でアセンブラを作ったところ、85行でできてしまいました。もともとラベルとかなくて全部数値だったので、すごく簡単なのです。それに加えてMovRIとかLodRMdみたいに、みんな命令の末尾でパラメータの型を指定してくれているので、アセンブラはほとんどなにもすることがなくて、ただ淡々とバイナリ化していくだけで終わってしまいました(笑)。 -この仕様は大正解だなって思いました!(自画自賛)。 ---- -それで次はエミュレータです。switch~caseで、opの値を見て分岐すればいいですよね。適当に書いただけでしたが、68行で書けました。あの簡単すぎたアセンブラよりも簡単にできるとは! -そしてこんなものでもちゃんと動いてしまったのです。・・・これはヤバい。 -上記FizzBuzzが、kccだけで実行できて結果が出ちゃうわけです。今までは出力されたアセンブラコードの前後に少し書き足して(まあコピペだから大した手間ではないですが)、それでgccして、それでできた実行ファイルを実行、だったのに。すっごい快適です! -これで調子に乗ってfib(46)を計算すると・・・うーん、はい、さすがに遅いです。 -まあ当然ですよね、エミュレータなんだから。・・・-でもなんかくやしいわけです。 -こうなったら、JITコンパイラもやってみるしかないですよね?(笑)。 ---- -基本方針として、RxやAxを次のように実レジスタに割り当てました。なんかすごく少ないのですが、今のkccはR0,R1,SP,RPしか使ってないので(=しょぼい)、とりあえずこれでしのげます。 |R0|R1|R2||SP|RP| |EAX|ECX|EDX||EBP|EBX| -あとは機械語を調べながら作りました。・・・ https://c9x.me/x86/ にかなり助けられました(感謝!)。 -結局、60行で書けました。・・・はい、ちょっと自分でも何を言っているのかよくわかりません。60行でJITコンパイラって作れていいんでしたっけ?? -半信半疑というか、もうほとんど信じられなくて疑いしかないのですが、しかしそれでも問題なく動いて、「うおおおお!」となりました。 ---- -さすがに疲れたので、fib(46)でベンチマークを取って今日は終わりにします。 |1.kccに内蔵させた自作のエミュレータで実行|RIGHT:191.798[sec]| |2.kccに内蔵させた自作のエミュレータで実行(改良版)|RIGHT:128.766[sec]| |3.kccに内蔵させた自作のJITコンパイラで実行|RIGHT:15.246[sec]| |4.kccが出力したアセンブラをgccでコンパイルして実行|RIGHT:12.715[sec]| |5.fibのプログラムをそのままgccでコンパイルして実行|RIGHT:4.577[sec]| -やっぱりgccは速いなあ(5)。・・・ムダ命令を削ったら、これに近づけるんだろうか。 -じゃあ、4のコードからムダ命令を手動で削って、どのくらい速くなるかやってみよう。・・・7.747[sec]でした。だから5の4.577[sec]まではいけないにしても、JITコンパイラで9秒台くらいは狙えそうです。 -今回は速度を追及するための開発ではなくて、1のエミュレータ実行から少ない労力で改善できればいいっていう目的なので、それで十分かなと思います。 ** [[a25_kharcs3]]へつづく
テキスト整形のルールを表示する