言語理論とコンパイラ

第六回: 字句解析と構文解析

2009 年 5 月 22 日

http://www.sw.it.aoyama.ac.jp/2009/Compiler/lecture6.html

Martin J. Dürst

duerst@it.aoyama.ac.jp, O 棟 529 号室

今日の予定

flex の宿題について
有限オートマトンなどの限界
字句解析と構文解析の違い
文脈自由文法
プッシュダウンオートマトン

`flex` でよく出る問題

.l にエラーがあっても、flex 時にエラーは出にくい。 gcc の後でしかエラー表示されない場合が多い
flex の指示ではなく C の部分は少なくともスペース一つ字下げが必要
(二番目の %% 後は不必要)
最後の行の後に改行しないと警告がでる
int yywrap () { return 1; } を忘れず
第一部 (最初の %% の前) で正規表現の「部品」を定義できる
定義: DIGIT [0-9]
使用: {DIGIT}+

宿題のヒント

正規表現の順番は大切な場合がある
正規表現で「捕まえた」部分は変数 yytext で使える
例: printf("int(%s), ", yytext);
正規表現内の正規表現の記号は \ でエスケープするか、"" で囲む必要がある
十進数への変換は strtol 関数で (_ を取り除く準備が必要)
テスト用入力と出力

コンパイラの段階

字句解析 (lexical analysis)

構文解析 (parsing; syntax analysis)

意味解析 (semantic analysis)

最適化 (optimization)

コード生成 (code generation)

形式言語の表

文法	grammar	Type	言語	オートマトン
句構造文法	phrase structure grammar (psg)	0	句構造言語	チューリング機械
文脈依存文法	context-sensitive grammar (csg)	1	文脈依存言語	線形拘束オートマトン
文脈自由文法	context-free grammar (cfg)	2	文脈自由言語	プッシュダウンオートマトン
正規文法	regular grammar (rg)	3	正規言語	有限オートマトン

正規表現・正規文法・有限オートマトンの限界

次のような言語が正規表現などで表せるのか:

記号 a, b, c からなる左右対象の語の言語
記号 ( と ) からなる、式等のように入れ子になっている語の言語
記号 0 と 1 からなる、n 個の 0 の後 n 個の 1 の語の言語

これらは全て有限オートマトンの有限のメモリの制約によって受理不可能である。

字句解析と構文解析

	字句解析	構文解析
解析対象	定数、識別子、予約語、演算子など	式、文、関数など
要点	速さ	能力
記述方法	正規表現	文脈自由文法
(自動) 解析手段	有限オートマトン	プッシュダウンオートマトン

正規文法と文脈自由文法

正規文法 (regular grammar):

右線形文法か左線形文法

文脈自由文法 (context free grammar):

文法の導出規則の左側は全て非終端記号一つ
導出規則の右側は制限なし (非終端記号も終端記号も何個も使ってよい)
例: A → aBb, B → aaB, S → aBaAb 等
｢自由」の意味: 依存しない、左右されない、関係ない
プログラム言語の構文は周りと関係なくその場で正しいかどうか判断できる
(意味解析も含まれると文脈自由ではなくなる)

文脈自由文法の一例

S → aSa | bSb | c

生成する言語: 真ん中に c が一個、周りに a と b が 0 以上対照的に自由な順番で並ぶ

生成する語の例: c, aca, bcb, abaabcbaaba 等

こういう風な言語を受理するのはメモリがないため有限オートマトンでは不可能

オートマトンの機能拡張が必要

オートマトンにプッシュダウンスタックをつけよう

(文脈自由) 文法の書き方の拡張

被終端記号を識別子で、終端記号を文字列 (引用符内) で
→の代わりに = とか ::=
任意な部分を [] で囲む (応用正規表現の ? に相当)
任意で繰り返し可能な部分を {} で囲む (正規表現の * に相当)
複数の選択子を | で区切る

こういう風な記述は EBNF (Extended Backus Naur Form) という

様々な種類 (方言) が存在

文法と正規表現の違い

文法:

複数の規則
非終端記号、左から右へ導出
*, (), | は純粋な場合には使わない

正規表現:

一つの規則だけ
非終端記号なし、「右側」だけ
*, (), | 以外も実用的な物にはもっと機能がある

正規表現の (簡単な) 規則は文法の (複雑な) 規則一つに相当する

プッシュダウンスタック

(pushdown stack)

受理する言語の記号と別のプッシュダウン記号を記憶できる
一番上の記号しか見えない
一番下に特別な記号 (ボトムマーカ) がある

A stack of trays at the cafeteria. Only the topmost tray is visible due to a built-in spring.

プッシュダウンオートマトン

遷移は入力記号だけではなくて、スタックの上に見える記号にも依存する
遷移でのスタックについての動作: 一番上のスタック記号を取るか、スタックをそのまま残すか、スタックに記号を追加するのか
開始の時、ボトムマーカだけのスタック
受理はボトムマーカだけのスタックや受理状態の時 (複数の種類あり)

プッシュダウンオートマトンの一例

a, b, c は言語の記号
スタックは左が上で想定されている
A/BA はスタックの一番上が A の場合に BA に変わる (つまり、B を上乗せ)

三スライド前の文法に相当するプッシュダウンオートマトンの図

決定性と非決定性のプッシュダウンオートマトン

S → aSa | bSb | c の文法の場合には決定性プッシュダウンオートマトンで実現可能
S → aSa | bSb | ε の文法の場合には決定性プッシュダウンオートマトンで実現不可能。
なぜかというと語の真ん中の印がない。
有限オートマトンと違って、決定性と非決定性のプッシュダウンオートマトンの性能 (受理能力) が違う

効率よく構文解析できるには可能な限り決定性のある文法が必要

宿題 (提出不要)

C プログラム言語など知っている言語やデータ形式の文法を調べなさい。