ANTLR4-необязательный пробел в моем языке
Я пишу синтаксический анализатор для языка программирования в ANTLR4. В основном я хочу игнорировать пробелы, однако есть некоторые случаи, когда важно использовать его для обозначения границы между маркерами.
Например, при разборе приложения оператора myvar = this + that
мой текущий парсер примет this+that
за один длинный идентификатор. Это приведет к сбою синтаксического анализатора, так как символы не допускаются в именах. В настоящее время я пропускаю все пробелы, что вызывает эту проблему, но я не могу найти решение это позволяет мне сделать пробелы необязательными, но также использовать их для обозначения этих границ.
Мой парсер находится ниже вместе с тестовым кодом, который я пытаюсь разобрать.
Синтаксический анализатор:
grammar archie;
// Parser Rules
program: line* EOF;
line: (element | COMMENT) (';' | 'n' | ';n')+;
//assignment: identifier EQ element;
element:
//Function Call
element elementList |
//Function Literal
nameList FARROW element |
//Identifier
identifier |
//CombinedID
element (DOT name)+ |
//assignment
identifier EQ element |
O_C_BRACK (element (';' | 'n' | ';n'))* C_C_BRACK |
element name element
;
elementList: O_R_BRACK element? (COMMA element )* C_R_BRACK;
identifier: (name (DOT name)*);
nameList: O_R_BRACK name? (COMMA name)* C_R_BRACK;
name: (ALPHABET | SYMBOL+) (ALPHABET | NUMERIC)*;
NUMERIC: [0-9];
ALPHABET: [a-zA-Z];
SYMBOL : [~!$^*&+#<>?|];
FARROW: '=>';
WS: [ t]+ -> skip;
SKP: [r]+ -> skip;
COMMENT: '//' (ALPHABET | SYMBOL | NUMERIC | WS)*;
DOT: '.';
COMMA: ',';
EQ: '=';
O_R_BRACK: '(';
C_R_BRACK: ')';
O_C_BRACK: '{';
C_C_BRACK: '}';
Тестовый Код:
this.that = that.this;
this.this = that.other;
that = this;
that = () => that;
a();
this + that;
2 ответа:
Насколько я могу понять, ваша главная проблема заключается в том, что ваша грамматика пытается лексически описать каждый символ отдельно, а затем разобрать их. Это не сработает, лексеры должны лексировать отдельные "слова" языка, и именно это делает вашу грамматику такой странной.
Ваша другая проблема заключается в том, что "тест+тест" разбирается как "тест" "+тест". Вместо этого я бы посоветовал следующую грамматику, которая допускает символические имена, но они не могут смешиваться с буквенно-цифровыми.
grammar archie; // Parser Rules programme: line* EOF; line : element (';' | '\n')+ | COMMENT ; //assignment: identifier EQ element; element : element elementList //Function Call | nameList FARROW element //Function Literal | identifier //Identifier | element (DOT NAME)+ //CombinedID | identifier EQ element //assignment | O_C_BRACK (element (';' | '\n' | ';\n'))* C_C_BRACK | element NAME element ; elementList: O_R_BRACK element? (COMMA element)* C_R_BRACK; identifier: NAME (DOT NAME)*; nameList: O_R_BRACK (NAME COMMA)* (NAME COMMA?)? C_R_BRACK; NAME : [A-Za-z_][A-Za-z0-9_]* | [~!$^*&+#<>?|]+ ; FARROW: '=>'; WS: [ \t]+ -> skip; SKP: [\r]+ -> skip; COMMENT: '//' ~[\n]* '\n'+; DOT: '.'; COMMA: ','; EQ: '='; O_R_BRACK: '('; C_R_BRACK: ')'; O_C_BRACK: '{'; C_C_BRACK: '}';
Это изменяет разрешенные идентификаторы, но достигает общей цели.
до:
this + that // (element (element (name this)) (name +) (element (name that))) ++that // (element (name ++that)) this+that // (element (element (name this)) (name +that) (element) and ERROR ERROR
после:
this + that // (element (element this) + (element that)) ++that // ERROR ERROR that+that // (element (element this) + (element that))
Извините, я понимаю, что @thst ответил первым, но я работал над решением грамматики, и когда я пошел его тестировать, моя установка antlr4 сломалась, и я исправлял это
Проблема в том, что ваш термин синтаксический анализ не имеет четкого определения.
myvar = this + that
Разбирается как
element -> identifier EQ element <- identifier = myvar, element = "this + that" this + that -> element name element
Это неоднозначно:
element
может быть сведен к идентификатору, который имеет минимальную длину (1):element(t) name(his) element(+that)
element
можно было бы разобрать все символы как можно больше:Проблема, на мой взгляд, заключается в том, что вы позволяете именам иметь операторы в качестве части их алфавита.element(this) name(+that) element() <- error element(this) name(+tha) element(t)