Know-How of

  1. 文法が曖昧でないことを保証する
  2. 抽象構文木のノードに対して、フィールドやメソッドを追加する
    1. 出力されたコードを直接書き換える
    2. ノードを、フィールドやメソッドが追加されたものに差し替える
    3. メソッドの代わりにノードを引数にとるメソッドを利用する
  3. シンタックスシュガー
    1. 文法による吸収
    2. ツリーの書き換えによる除去
  4. ¬<><∪∪によるソースプログラムのフォーマット

§1 文法が曖昧でないことを保証する

¬<><∪∪は任意の曖昧でない文脈自由文法(CFG)を扱うことができますが、文法が曖昧かどうかをチェックできません(ただし、曖昧であることが文法解析時に判明した場合、AssertionErrorが発生します)。このため、文法が曖昧でないことは、ユーザによって保証されなければなりません。これを補助する機能として、¬<><∪∪は -v オプションが指定された場合 LALR(1) のコンフリクトを報告します。コンフリクトが存在しない場合、文法が曖昧でないことが保証されます。コンフリクトが存在する場合、文法は曖昧かもしれませんし、曖昧でないかもしれません。

曖昧な文法の例:

この文法は、次のコンフリクトを引き起こします。

LALR(1) は、入力されたトークンをスタックに積んでいき、可能ならばスタックのトップからいくつかを取り除き、取り除かれたノードを子とする新しいノードに置き換えることを繰り返す、構文解析アルゴリズムです。ノードの置き換えを還元と呼び、還元せずにスタックに積むことをシフトと呼びます。還元を行うかシフトを行うかは、次に入力されるトークン1つを見て決定しなければなりません。決定できないことを、コンフリクトと呼びます。これは、異なる2つ以上の還元が可能な場合(還元還元コンフリクト)か、還元もシフトも可能な場合(シフト還元コンフリクト)、それらが組み合わさったもののいずれかです。上の例では、次のシフト還元コンフリクトが報告されています。

§2 抽象構文木のノードに対して、フィールドやメソッドを追加する

次の方法があります。

(1) 出力されたJavaソースを直接書き換える

ユーザにとっては最も負担のない理想的な方法ですが、提供者の負担が大きくなります。¬<><∪∪ソースや、¬<><∪∪処理系を変更した場合に、コードの書き換えを再び行わなければなりません。

(2) ノードを、フィールドやメソッドが追加されたものに差し替える

¬<><∪∪が出力したクラス (OriginalParser) を extends します。ノードを作成するファクトリーメソッドである createNode をオーバーライドします。

public class ExtendedParser extends OriginalParser {
    public interface Expression extends OriginalParser.Expression {
        public double evaluate(); // 追加されたメソッド:式の値を計算する
    }
    private class AdditionReplacement extends implements Expression OriginalParser.Default.Addition {
        ...
        public double evaluate() {
            Expression x1 = (Expression) operand1();
                // operand1 は、OriginalParser.Expression なのでキャストが必要
            Expression x2 = (Expression) operand2();
            return x1.evaluate() + x2.evaluate();
        }
    }
    ...
    protected Node createNode(int symbolID, NodeInitializationParameters parameters) {
        // Addition の代わりに AdditionReplacement を返す etc.
        ...
    }
}

ツリーのノードを、フィールドやメソッドが追加されたバージョンに差し替えます。この方法の欠点は、(ExtendedParser.Expression) operand1() のようなキャストをユーザも行う必要があることと、多くのコードを手作業で追加しなければならないことです。

(3) メソッドの代わりにノードを引数にとるメソッドを利用する

double evaluate(Expression expression) {
    if (expression instanceof Addition) {
        Addition addition = (Addition) expression;
        Expression x1 = addition.operand1();
        Expression x2 = addition.operand2();
        return evaluate(x1) + evaluate(x2);
    }
    ...
}

Expression に evaluate メソッドを追加する代わりに、Expression を引数にとる evaluate メソッドを用意します。この方法の欠点は、Expression を直接 extends する新しいクラスを追加した場合は、必ず evaluate を更新しなければならないこと(そして、更新を忘れてもコンパイルエラーが発生しないこと)と、本来の目標であるノードに対するフィールドやメソッドの追加を達成していないことです。

フィールドを追加したい場合、HashMap等によって代替します。

§3 シンタックスシュガー

(1) 文法による吸収

引き算(Subtraction)が、足し算(Addition)と単項演算子のマイナス(Minus)を用いて表現できるシンタックスシュガーであることを次のように表現できます。

Minus    { "-" operand:expression }
Addition { operand1:expression "+" operand2:expression}

$private Subtraction -> Addition { operand1:expression "-" operand2:SubtractionRHS }
$private SubtractionRHS -> Minus { operand:expression }

Subtraction は文法上 expression "-" expression ですが、Additionをextendsしているため足し算として扱われます。その2つめのオペランド(SubtractionRHS)は、Minus をextendsしているので、単項マイナスとして扱われます。SubtractionSubtractionRHS$private 修飾されており、パーサの外部からアクセスできないため、AdditionMinus とは、わざわざ子のノードを調べない限り、区別がつきません。

(2) ツリーの書き換えによる除去

生成された抽象構文木を書き換えることで、シンタックスシュガーを除去することができます。¬<><∪∪が出力したクラスを extends し、ノードを作成するファクトリーメソッドである createNode をオーバーライドします。super.createNode が返したノードのツリーに対して、Node.acceptDefault.Node.replace 等を用いて書き換えを行うことができます。書き換えられるノードは $protected 修飾するのがよいでしょう。

§4 ¬<><∪∪によるソースプログラムのフォーマッティング

¬<><∪∪の抽象構文木は、コメントやホワイトスペースのトークンも含むため、構文木に含まれるトークンを順に出力することで、構文解析の対象になったテキストを復元することができます。抽象構文木の一部分を書き換えることで特定のコードコンベンションに合うようにプログラムを修正したり、出力時にトークンに応じて処理を変えることで、色やリンクが付加されたHTMLに変換することができます。