Синтаксический анализатор
Описание синтаксиса и семантики входного языка. Описание типов лексем, определение их синтаксиса. Построение диаграммы лексического анализатора, а также его таблицы, тестирование. Построение КС-грамматики входного языка. Описание промежуточного языка.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | курсовая работа |
Язык | русский |
Дата добавления | 23.01.2014 |
Размер файла | 83,0 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
- 1. Задание на курсовую работу
- В процессе выполнения курсовой работы необходимо разработать язык программирования, являющийся подмножеством заданного языка, и транслятор с этого языка в промежуточный язык, тип которого определяется вариантом индивидуального задания. Метод синтаксического анализа также определяется заданием.
- Язык должен обеспечивать операции над переменными и константами заданных базовых типов, а также над переменными и компонентами производного типа, которые определяются вариантом задания. Перечень операций должен включать как предусмотренные базовым языком, так и операции, перечисленные в варианте задания. В языке должна быть определена операция преобразования типов при структурной или именной эквивалентности типов. В языке должна быть предусмотрена возможность создания пользовательских типов.
- Язык должен допускать использование арифметических выражений, в состав которых могут входить константы и простые переменные базовых типов, компоненты структурированного типа, круглые скобки и знаки операций: сложения, вычитания, умножения, деления. Приоритет операций - обычный.
- Язык должен допускать использование логических выражений, в состав которых могут входить отношения, круглые скобки и знаки логических операций: И, ИЛИ, НЕ и, в случае наличия в языке логического типа, константы и переменные этого типа. Приоритет операций обычный.
- Операции над переменными структурированного типа определяются вариантом задания.
- Состав операторов языка:
- · оператор присваивания;
- · оператор ввода;
- · оператор вывода;
- · составной оператор;
- · оператор безусловного перехода;
- · условный оператор, условие в котором задается логическим выражением;
- · оператор цикла, условие в котором задается логическим выражением.
- Конкретный вид операторов определяется вариантом задания.
- Программа на входном языке может содержать комментарии, вид которых предусмотрен базовым языком.
Исходная постановка задачи
Базовый язык - Паскаль.
Базовые типы: целый, символьный, ограниченный.
Структурированный тип: символьная строка.
Операции над строками: определение длины строки, конкатенация строк, замена подстроки в строке, поиск подстроки в строке, доступ к элементу строки по индексу, доступ к подстроке.
Оператор цикла - с постусловием.
Перегрузка операций - не разрешается.
Эквивалентность типов - именная.
Класс грамматик - грамматики простого предшествования.
Промежуточный язык - тетрады.
2. Описание входного языка
2.1 Описание синтаксиса входного языка
синтаксис лексема анализатор язык
Разработка языка программирования начинается с определения его синтаксиса. Естественный язык мало пригоден для этой цели, поэтому для точного описания синтаксиса языка программирования нужен некоторый вспомогательный язык. Язык, предназначенный для описания другого языка, называется метаязыком.
Метаязык задает систему обозначений, понятий языка и образованных из них конструкций, позволяющих представить описываемый язык с помощью определенных ранее понятий и отношений между ними. При этом каждое понятие языка подразумевает некоторую синтаксическую единицу (конструкцию) и определяемые ею свойства программных объектов или процесса обработки данных.
Для описания синтаксиса языков программирования наибольшее распространение получила форма Бэкуса-Наура и ее различные модификации
Форма Бэкуса-Наура
Форма Бэкуса-Наура (БНФ) представляет собой очень естественный способ описания синтаксиса. В БНФ каждое определяемое понятие - это металингвистическая переменная. Значением металингвистической переменной может быть любая конструкция из некоторого фиксированного для этого понятия набора конструкций. Каждая металингвистическая форма определяет одну металингвистическую переменную и состоит из двух частей: левой и правой. В левой части записывается определяемая металингвистическая переменная, которая заключается в угловые скобки '<' и '>' (предполагается, что эти скобки являются метасимволами и не принадлежат алфавиту определяемого языка), например: <двоичное число>, <метка>, <арифметическое выраже-ние>. В правой части формы записываются все варианты определения конструкции, задаваемой этой формой. Каждый вариант представляет собой цепочку основных символов определяемого языка и металингвистических переменных. Варианты разделяются металингвистической связкой '|', имеющей смысл «или». Левая и правая части формы разделяются метасимволом ':=', означающим «по определению есть».
На практике для описания синтаксиса языков программирования часто используют расширения БНФ, позволяющие более естественно представлять альтернативные, необязательные и повторяющиеся части металингвистических формул. Так, одно из расширений БНФ (РБНФ) разрешает использовать следующие упрощения:
1. необязательные элементы синтаксической конструкции заключаются в квадратные скобки ' [' и ']';
2. альтернативные варианты могут в случае необходимости заключаться в квадратные скобки для образования многовариантного выбора;
3. элементы синтаксической конструкции, повторяющиеся нуль и более раз, заключаются в фигурные скобки ' {' и '}'.
Форма Бэкуса-Наура для задания
<программа>:=[program <идентификатор>] {<описание объектов программы>;}<раздел операторов>.
<описание объектов программы>:=<раздел меток>|<раздел описания типов>|<раздел описания переменных>|<раздел описания констант>
<раздел меток>:= label <метка> {,<метка>}
<метка>:=<идентификатор>|<целое без знака>
<раздел описания типов>:= type <определение типа> {;<определение типа>}
<определение типа>:=<имя типа>=<тип>
<имя типа>:= <идентификатор>
<тип>:=<простой тип>|<составной тип>|<имя типа>
<простой тип>:=integer|char|<диапазонный тип>
<составной тип>:=<строка>
<строка>:=string
<диапазонный тип>:=<константа>..<константа>
<раздел описания констант>:= const <определение константы> {;<определение константы>}
<определение константы>:=<имя константы>=<простое выражение>
<имя константы>:=<идентификатор>
<константа>:=<целое число>|<имя константы>
<раздел описания переменных>:= var <описание переменных>{;<описание переменных>}
<описание переменных>:= <перечень имен>: <тип>
<перечень имен>:=<идентификатор> {,<идентификатор>}
<раздел операторов>:=<составной оператор>
<составной оператор>:= begin <последовательность операторов> end
<последовательность операторов>:=<оператор>{;<оператор>}
<оператор>:= [метка:] <непомеченный оператор>
<непомеченный оператор>:= <оператор присваивания>|<оператор ввода>|<оператор вывода>|<составной оператор>|<оператор безусловного перехода>|<условный оператор>|<цикл с постусловием>|<операции над строками>
<оператор присваивания>:=<переменная>:=<простое выражение>
<оператор ввода>:= read (<перечень имен>)
<оператор вывода>:= write (<перечень выражений>)
<перечень выражений >:=<простое выражение>{,<простое выражение>}
<оператор безусловного перехода>:= goto <метка>
<условный оператор>:=if <условие> then <оператор> [else <оператор>]
<цикл с постусловием>:= repeat <последовательность операторов> until <условие>
<условие>:=<логическое выражение>
<операции над строками>:=<определение длины строки> |<конкатенация строк>|<замена подстроки в строке>|<поиск подстроки в строке>|<доступ к элементу строки по индексу>|<доступ к подстроке>|<равенство строк>
<определение длины строки>:=length (<строка>)
<конкатенация строк>:=concat (<строка>,<строка>)
<замена подстроки в строке>:=replace (<строка>,<подстрока>,<новая строка>)
<поиск подстроки в строке>:=pos (<строка>,<подстрока>)
<доступ к элементу строки по индексу>:=StrChar (<строка>,<целое без знака>)
<доступ к подстроке>:= copy (<строка>,<целое без знака>,<целое без знака>)
<равенство строк>:= Same (<строка>,<строка>)
<подстрока>:=<строка>
<новая строка>:=<строка>
<простое выражение>:= <терм 1><остаток суммы>
<остаток суммы>:=е|+<терм 1><остаток суммы>|-<терм 1><остаток суммы>
<терм 1>:=<терм 2><остаток произведения>
<остаток произведения>:=е|*<терм 2><остаток произведения>|/<терм 2><остаток произведения>
<терм 2>:=<переменная>|<константа>|(< простое выражение>)|<оператор преобразования типов>
<оператор преобразования типов>:=<тип>(<простое выражение>)
<Логическое выражение>:= <Лог_терм 1><остаток Лог_суммы>
<остаток Лог_суммы>:=е| or <Лог_терм 1><остаток суммы>
<Лог_терм 1>:=<Лог_терм 2><остаток Лог_произведения>
<остаток Лог_произведения>:=е|and <Лог_терм 2><остаток Лог_произведения>
<Лог_терм 2>:=<выражение сравнения>|(<Логическое выражение>)|<вызов функции>|not <Лог_терм 2>
<выражение сравнения>:=<простое выражение><знак сравнения><простое выражение>
<знак сравнения>:=<|>|<=|>=|<>|=
2.2 Описание семантики входного языка
Представление данных различных типов в оперативной памяти
Тип |
Размер, байт |
Диапазон значений |
|
Integer |
2 |
-32768..32767 |
|
Char |
1 |
-128…127 |
Входной язык также поддерживает ограниченный тип.
- Ограниченный тип описывает множество чисел, находящихся между двумя значениями заданных константных выражений. Это множество должно быть перечислимым, следовательно, значения константных выражений должны быть целыми числами. Все результирующие и промежуточные (полученные на каком-то шаге вычисления) значения константных выражений должны соответствовать ограничениям, накладываемым на встроенный тип Integer. В случае несоответствия компилятор вернет ошибку компиляции.
Операции входного языка и их приоритет
Операции перечислены в порядке убывания приоритета. Операции выполняются без учета переполнения.
Знак операции |
Порядок выполнения и особенности использования |
Семантический смысл |
|
- |
Слева направо,Унарный |
Унарный минус, определен для числовых переменных, возвращает переменную такого же типа, что и получает. Меняет знак числа на противоположный. |
|
* |
Слева направо,Бинарный |
Умножение, определено для числовых переменных. Результат вычисляется в наибольшем типе среди указанных операндов |
|
/ |
Слева направо,Бинарный |
Деление с отбрасыванием дробной части, определено для числовых переменных. Результат вычисляется в наибольшем типе среди указанных операндов |
|
+ |
Слева направо,Бинарный |
Сложение, определено для числовых переменных. Результат вычисляется в наибольшем типе среди указанных операндов |
|
- |
Слева направо,Бинарный |
Вычитание, определено для числовых переменных. Результат вычисляется в наибольшем типе среди указанных операндов |
|
=, <>, <, >, <=, >= |
Слева направо,Бинарный |
Операции сравнения, определены для числовых переменных. Необходимы только для формирования условия |
|
not |
Слева направо,Унарный |
Логическое НЕ, определено для операций сравнения. Необходимо только для формирования условия |
|
and |
Слева направо,Бинарный |
Логическое И, определено для операций сравнения. Необходимо только для формирования условия |
|
or |
Слева направо,Бинарный |
Логическое ИЛИ, определено для операций сравнения. Необходимо только для формирования условия |
Конструкции входного языка
Оператор цикла с постусловием repeat-until.
<цикл с постусловием>:= repeat <последовательность операторов> until <условие>
1. Выполняется оператор (Тело цикла).
2. Вычисляется условие.
3. Выполняется переход на пункт 1 в случае, если условие не выполнилось.
Оператор присваивания:=
<оператор присваивания>:=<переменная>:= <простое выражение>
1. Вычисляется выражение, стоящее справа от знака присваивания
2. В случае, если результат получился того же типа, что и переменная, в нее заносится новое значение, иначе результат преобразуется к заданному типу и заносится в переменную
Каждая переменная, используемая в программе, должна быть предварительно описана.
В программе не могут объявляться переменные с одинаковым именем.
Имя переменной не может совпадать с ключевыми словами.
Оператор безусловного перехода goto.
<оператор безусловного перехода>:=goto <метка>
Выполняется переход на метку
Метка должна быть объявлена в разделе label, и встречаться в теле программы один раз.
Условный оператор if-then-else:
<условный оператор>:=if <условие> then <оператор1> [else <оператор2>]
Вычисляется значение логического выражения и выполняется в переход на оператор2, если условие не выполнилось. Иначе выполняется оператор1 и происходит безусловный переход на конец оператора if-then-else.
Оператор ввода read.
Работа программы приостанавливается, пользователь должен ввести с клавиатуры значение, которое будет присвоено переменной в скобках. Когда значение переменной будет введено, программа продолжит работу.
Оператор вывода write.
Оператор write вычисляет значение первого выражения в строке вывода и выводит его на экран. Затем то же самое производится со всеми последующими выражениями.
3. Лексический анализатор
3.1 Описание типов лексем
Типы лексем, выделяемых лексическим анализатором из программы на входном языке, определяются входным языком. Лексический анализатор исключает из текста исходной программы комментарии, незначащие пробелы, символы табуляции и перевода строки и выделяет лексемы следующих типов:
идентификаторы;
целые беззнаковые константы;
строковые константы;
ключевые слова входного языка;
однолитерные и двулитерные разделители.
Соотношение между токенами и лексемами для различных языковых конструкций иллюстрируется следующей таблицей:
Токен |
Лексемы |
Языковая конструкция |
|
id |
count, index |
Идентификатор |
|
scon |
`Hello', `World' |
Строка |
|
nat |
0, 1, 3, 943 |
Целое число без знака |
|
program, begin, end, label, const, var, type, integer, char, string, read, readln, write, writeln, goto, if, then, else, repeat, until, length, concat, replace, pos, StrChar, copy, Same, and, or, not |
program, begin, end, label, const, var, type, integer, char, string, read, readln, write, writeln, goto, if, then, else, repeat, until, length, concat, replace, pos, StrChar, copy, Same, and, or, not |
Ключевые слова program, begin, end, label, const, var, type, integer, char, string, read, readln, write, writeln, goto, if, then, else, repeat, until, length, concat, replace, pos, StrChar, copy, Same, and, or, not |
|
:= |
:= |
Оператор присваивания |
|
= |
= |
Операция «равно» |
|
< |
< |
Операция «меньше» |
|
> |
> |
Операция «больше» |
|
<= |
<= |
Операция «меньше равно» |
|
>= |
>= |
Операция «больше равно» |
|
<> |
<> |
Операция «неравно» |
|
+ |
+, - |
Операция типа «сложение» |
|
* |
*, / |
Операция типа «умножение» |
|
( |
( |
Открывающая круглая скобка |
|
) |
) |
Закрывающая круглая скобка |
|
[ |
[ |
Открывающая квадратная скобка |
|
] |
] |
Закрывающая квадратная скобка |
|
; |
; |
Символ «;» |
|
, |
, |
Символ «,» |
|
: |
: |
Символ «:» |
|
. |
. |
Символ конца программы |
3.2 Определение синтаксиса лексем
Лексический анализ удобно выполнять на основе детерминированного конечного преобразователя, поэтому синтаксис лексем должен быть описан с помощью автоматных грамматик.
Классы литер, с помощью которых записываются программы на входном языке:
класс «буква»: a A … z Z
класс «цифра»: 0 1 2 3 4 5 6 7 8 9
класс «однолитерные разделители»:;, + - * / = () []
класс «литеры однолитерных и двулитерных разделителей»: < > =:.
Составление автоматных грамматик, описывающих синтаксис лексем
Терминальными символами грамматики являются классы литер, а начальным символом грамматики - символ S.
1) Автоматная грамматика, описывающая синтаксис лексем «идентификатор» и «ключевое слово». Здесь «Буква» - класс «буква», «Цифра» - класс «цифра», «1» - класс, включающий все литеры, за исключением букв, цифр и знака подчеркивания.
Правила грамматики
S |
Буква Id |
||
S |
_ Id |
||
Id |
Буква Id |
||
Id |
Цифра Id |
||
Id |
_ Id |
||
Id |
1 |
2) Автоматная грамматика, описывающая синтаксис лексемы «целая константа без знака». Здесь «Цифра» - класс «цифра», «3» - класс, включающий все литеры, за исключением цифр.
Правила грамматики
S |
Цифра C |
||
C |
Цифра C |
||
C |
3 |
3) Автоматная грамматика, описывающая синтаксис лексемы «строковая константа». Здесь «НE `» - любой символ, кроме'.
Правила грамматики
S |
` T |
||
T |
НЕ `T |
||
T |
` |
4) Автоматные грамматики, описывающие синтаксис лексем «однолитерный разделитель» и «двулитерный разделитель». Здесь «Знак» - классы «однолитерные разделители» и «литеры однолитерных и двулитерных разделителей», «4» - класс, включающий все литеры.
Правила грамматики
однолитерные разделители: |
S |
Знак L |
||
L |
4 |
лексема «:=» |
S |
: Next |
||
Next |
= E |
|||
E |
4 |
лексема «<=» |
S |
< Next |
||
Next |
= E |
|||
E |
4 |
лексема «>=» |
S |
> Next |
||
Next |
= E |
|||
E |
4 |
лексема «<>» |
S |
< Next |
||
Next |
> E |
|||
E |
4 |
лексема «.» |
S |
Next |
||
Next |
E |
|||
E |
4 |
3.3 Построение диаграммы лексического анализатора
Построение графов конечных автоматов для распознавания лексем
Здесь S - начальное состояние конечного автомата, F - конечное состояние, соответствующее концу разбора лексемы.
1. Граф конечного автомата для распознавания лексем «идентификатор» и «ключевое слово».
Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
2. Граф конечного автомата для распознавания лексемы «целая константа без знака».
Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
3. Граф конечного автомата для распознавания лексемы «строковая константа».
Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
4. Графы конечных автоматов для распознавания лексем «однолитерный разделитель» и «двулитерный разделитель». Здесь «Знак1» - включает литеры класса «однолитерные разделители».
Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
Диаграмма лексического анализатора
Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
Здесь «Пробел» - класс, включающий пробелы, символы табуляции и перевода строки, «Не}» - класс, включающий все литеры кроме литеры «}».
Спецификации функций лексического анализатора
1) Процедура ReadLexem(Text) - считывает лексему из входного потока и распознает ее тип.
Вход: входной поток литер текста программы.
2) Процедура GetLexem (Type, Lexem) - в зависимости от типа переданной лексемы вызывает одну из процедур:
GetId(Lexem) - для лексем «идентификатор» и «ключевое слово»;
GetNum(Lexem) - для лексем «целая константа без знака»;
GetSCon(Lexem) - для лексем «строковая константа»;
GetLet(Lexem) - для лексем «однолитерный разделитель» и «двулитерный разделитель»;
Вход: лексема и ее тип.
3) Процедура GetId(Lexem) - если переданная лексема является ключевым словом, определяет ее адрес(pos) в таблице ключевых слов и вызывает процедуру WriteToken (Key, pos); в противном случае ищет запись(pos) об этой лексеме в таблице идентификаторов, если находит, то вызывает процедуру WriteToken (Id, pos), иначе вызывает процедуру AddLexem (Id, Lexem);
Вход: лексема типа «идентификатор» или «ключевое слово».
4) Процедура GetNum(Lexem) - ищет запись(pos) о переданной лексеме в таблице констант, если находит, то вызывает процедуру WriteToken (Num, pos), иначе вызывает процедуру AddLexem (Num, Lexem);
Вход: лексема типа «целая константа без знака».
5) Процедура GetLet(Lexem) - определяет адрес(pos) лексемы в таблице разделителей и вызывает процедуру WriteToken (Let, pos);
Вход: лексема типа «однолитерный разделитель» или «двулитерный разделитель»;.
6) Процедура AddLexem (Type, Lexem) - добавляет запись(pos) о лексеме в таблицу лексем заданного класса и вызывает процедуру WriteToken (Type, pos);
Вход: лексема и ее тип.
7) Процедура WriteToken (Type, Position) - формирует токен и записывает его в выходной поток токенов.
Вход: номер лексемы в соответствующей таблице лексем.
3.4 Таблицы лексем
Таблица ключевых слов
Таблица ключевых слов |
|
имя ключевого слова |
Таблица идентификаторов
Таблица идентификаторов |
|||
имя |
Тип |
значение |
Таблица целых констант
Таблица целых констант |
|
значение |
Таблица разделителей
Таблица разделителей |
|
Разделитель |
Таблица строковых констант
Таблица строковых констант |
|
значение |
Таблица пользовательских типов. (Заполняется на этапе синтаксического анализа)
Таблица пользовательских типов |
|||
Имя |
Начало |
Конец |
Таблица меток (Заполняется на этапе синтаксического анализа)
Таблица меток |
||
Имя |
Номер тетрады |
Таблица строковых переменных. (Заполняется на этапе синтаксического анализа)
Таблица строковых переменных |
|||
Имя |
Длина |
Значение |
Таблица промежуточных значений. (Заполняется на этапе синтаксического анализа)
Таблица промежуточных значений |
||
Тип |
Значение |
3.5 Тестирование лексического анализатора
Тестовая программа |
Выходной поток токенов |
|
program Test; const C=10; type TCounter=0..C; var i:TCounter; CurEl:integer; summa:integer; begin writeln (`Hello World!!!'); i:=0; summa:=0; repeat read(CurEl); summa:=summa+CurEl; i:=i+1; until i=C; write(summa); end. |
program 1 1 id 2 1; 4 1 const 1 2 id 2 2 = 4 2 nat 3 1; 4 1 type 1 15 id 2 3 = 4 2 nat 3 2. 4 19 id 2 2; 4 1 var 1 3 id 2 4: 4 4 id 2 3; 4 1 id 2 5: 4 4 integer 1 4; 4 1 id 2 6: 4 4 integer 1 4; 4 1 begin 1 7 writeln 1 17 (4 9 scon 5 1) 4 10; 4 1 id 2 4:= 4 7 nat 3 2; 4 1 id 2 6:= 4 7 nat 3 2; 4 1 repeat 1 8 read 1 10 (4 9 id 2 5) 4 10; 4 1 id 2 6:= 4 7 id 2 6 + 4 12 id 2 5; 4 1 id 2 4:= 4 7 id 2 4 + 4 12 nat 3 3; 4 1 until 1 9 id 2 4 = 4 2 id 2 2; 4 1 write 1 11 (4 9 id 2 6) 4 10; 4 1 end 1 12. 4 13 |
Таблицы ключевых слов и разделителей - статические, таблицы идентификаторов и констант заполняются в процессе лексического и синтаксического анализа.
Статические таблицы лексем
1. Таблица ключевых слов |
4. Таблица разделителей |
||||
1 |
program |
1 |
; |
||
2 |
const |
2 |
= |
||
3 |
var |
3 |
, |
||
4 |
integer |
4 |
: |
||
5 |
char |
5 |
[ |
||
6 |
string |
6 |
] |
||
7 |
begin |
7 |
:= |
||
8 |
repeat |
8 |
<= |
||
9 |
until |
9 |
( |
||
10 |
read |
10 |
) |
||
11 |
write |
11 |
* |
||
12 |
end |
12 |
+ |
||
13 |
and |
13 |
. |
||
14 |
label |
14 |
< |
||
15 |
type |
15 |
> |
||
16 |
readln |
16 |
>= |
||
17 |
writeln |
17 |
<> |
||
18 |
goto |
18 |
/ |
||
19 |
if |
19 |
. |
||
20 |
then |
||||
21 |
else |
||||
22 |
length |
||||
23 |
concat |
||||
24 |
replace |
||||
25 |
pos |
||||
26 |
StrChar |
||||
27 |
copy |
||||
28 |
Same |
||||
29 |
or |
||||
30 |
not |
4. Синтаксический анализатор
На этапе синтаксического анализа выполняется проверка синтаксической корректности исходной программы, представленной в виде потока токенов и совокупности таблиц, и преобразование ее в некоторую внутреннюю форму, удобную в дальнейшем для генерации объектного кода.
Опишем порядок действий, выполняемых при разработке синтаксического анализатора.
4.1 Построение КС-грамматики входного языка
Для построения КС-грамматики входного языка необходимо:
1. Заменить металингвистические переменные БНФ обозначениями нетерминальных символов, используя короткие имена;
2. В качестве терминальных символов использовать токены;
3. Металингвистический символ «:=» заменить символом «»;
4. Заменить одну металингвистическую формулу с n альтернативами на n правил грамматики с одинаковым символом в левой части правила вывода;
5. Исключить металингвистические символы [] и {}, включив в правила грамматики -правила и рекурсивные правила.
Получившаяся грамматика должна быть грамматикой простого предшествования.
Грамматика простого предшествования
Синтаксический анализ, основанный на простом предшествовании, использует для выделения основы правовыводимой цепочки бвw три отношения предшествования (<), (=) и (>) следующим образом:
· если в - основа, то между всеми смежными символами цепочки б выполняется либо отношение (<), либо (=);
· между последним символом цепочки б и первым символом цепочки в выполняется отношение (<);
· между смежными символами основы выполняется отношение (=);
· между последним символом цепочки в и первым символом цепочки w выполняется отношение (>).
Очевидно, что правый конец основы правовыводимой цепочки грамматики простого предшествования можно выделить, просматривая эту цепочку слева направо до тех пор, пока впервые не встретится отношение (>). Для нахождения левого конца основы надо просмотреть ее назад, пока не встретится отношение (<). Цепочка, заключенная между отношениями (<) и (>), будет основой. Если грамматика является обратимой, т.е. не содержит правил с одинаковой правой частью, то основу можно однозначно свернуть. Этот процесс продолжается до тех пор, пока входная цепочка не свернется к начальному символу (либо пока дальнейшие свертки окажутся невозможными).
Отношения предшествования для КС-грамматики G = (N, У, Р, S) определяются на множестве (N U У U {+}) Ч (N U У U {е}) следующим образом:
· X < У, если в множестве правил грамматики Р есть правило А -> бXBв и существует вывод В =>+ Yг;
· X = Y, если в Р содержится правило вида А -> бXYв;
· X > а, если в Р есть правило вида А -> бBYв и существуют выводы В =>+ гX и Y => ад (если У=>° ад, то Y= а);
· + < X для всех X, для которых S =>+ Хб;
· Y > е для всех Y, для которых S =>* бY.
КС-грамматика G = (N, У, P, S) называется грамматикой предшествования, если она приведенная, не содержит е - правил и для любой пары символов из множества N U У выполняется не более одного отношения предшествования.
Обратимая грамматика предшествования называется грамматикой простого предшествования.
Построение грамматики по БНФ
S -> pro id; Def BOp.
S -> pro id; BOp.
S -> Def BOp.
S -> BOp.
Def -> DfL Def
Def -> DfL
Def -> DfC Def
Def -> DfC
Def -> DfT Def
Def -> DfT
Def -> DfV Def
Def -> DfV
DfL -> lab LLb
LLb -> M;
LLb -> M, LLb
DfC -> con LCn
LCn -> Cn1; LCn
LCn -> Cn1;
Cn1 -> id = Pex
DfT -> typ LTp
LTp -> Tp1; LTp
LTp -> Tp1;
Tp1 -> id = Typ
Tp1 -> id = id
Typ -> Cid. Cid
Typ -> int
Typ -> chr
Typ -> str
DfV -> var LVr
LVr -> DV1;
LVr -> DV1; LVr
Vr1 -> id
Vr1 -> Vr1, id
Vrs -> Vr1
DV1 -> Vrs: id
DV1 -> Vrs: int
DV1 -> Vrs: chr
DV1 -> Vrs: str
M -> id
M -> nat
Opl -> M: Op
Opl -> Op
Op -> BOp
Op -> O:=
Op -> OIO
Op -> OMn
BOp -> beg OPs end
OPs -> Op1
Op1 -> Opl
Op1 -> Opl; Op1
O:= -> id:= Pex
OIO -> OIn
OIO -> OOu
OIn -> rd (Vrs)
OOu -> wr (LWr)
W1 -> Pex
W1 -> Pex, W1
LWr -> W1
OMn -> ORu
OMn -> OGo
OMn -> OIf
ORu -> rpt Ops unt Lex
OGo -> got M
OIf -> if Lex thn Opl
OIf -> if Lex thn Opl els Opl
Lex -> Z1 F1
Lex -> Z1
Z1 -> Z2 F2
Z1 -> Z2
Z2 -> Z3
Z3 -> not Z3
Z3 -> Z4
Z4 -> sme (str, str)
Z4 -> Pex Sgn Pex
Z4 -> (Lex)
F1 -> or Z1 F1
F1 -> or Z1
F2 -> and Z2 F2
F2 -> and Z2
Sgn -> <
Sgn -> >
Sgn -> =
Sgn -> <=
Sgn -> >=
Sgn -> <>
Pex -> T1 E1
Pex -> T1
E1 -> + T1 E1
E1 -> + T1
E1 -> - T1 E1
E1 -> - T1
E2 -> * T2 E2
E2 -> * T2
E2 -> / T2 E2
E2 -> / T2
T1 -> T2 E2
T1 -> T2
T2 -> id
T2 -> Cid
T2 -> Scn
T2 -> Fun
T2 -> (Pex)
Fun -> int (Pex)
Fun -> str (Pex)
Fun -> lng (Pex)
Fun -> cnc (Pex, Pex)
Fun -> pos (Pex, Pex)
Fun -> sym (Pex, Pex)
Cid -> - nat
Cid -> nat
Scn -> ' Sms '
Scn -> ' '
Sms -> Sym
Sym -> Any
Sym -> Any Sym
4.2 Разбиение грамматики на подграмматики
По условиям задания полученная грамматика должна принадлежать к классу грамматик простого предшествования, либо состоит из подграмматик простого предшествования.
Так как исходная КС-грамматика не является грамматикой простого предшествования, то нужно выделить из исходной грамматики подграмматики таким образом, чтобы каждая из полученных грамматик принадлежала заданному классу.
Разбиение на подграмматики позволит использовать заданный метод синтаксического анализа, но усложнит описание и реализацию этого перевода, поскольку после разбиения перевод будет описываться с помощью нескольких взаимосвязанных атрибутных транслирующих грамматик.
При разбиении грамматики на подграмматики нужно учитывать следующее:
1. Совокупности выделенных из грамматики взаимосвязанных правил должна представлять собой КС-грамматику.
2. Основной символ подграмматики становится (специальным) терминальным символом исходной грамматики.
3. Если множества нетерминальных символов подграмматики и модифицированной исходной грамматики не пересекаются, то синтаксический анализ для каждой из них может быть реализован при помощи отдельного процессора с магазинной памятью.
1. Базовая грамматика программы GR1 (Начальный символ S)
Терминалы:
pro = program; id = идент; =;
Def = *БлокОпис; BOp = *БлокОпер; =.;
Нетерминалы:
S = НачСимвол 4;
Правила:
1) S -> pro id; Def BOp.
2) S -> pro id; BOp.
3) S -> Def BOp.
4) S -> BOp.
2. Грамматика раздела описаний GR2 (Начальный символ Def)
Терминалы:
DfL = ОписМеток; DfC = ОписКонст; DfT = ОписТипов;
DfV = ОписПерем;
Нетерминалы:
Def = *БлокОпис 8;
Правила:
1) Def -> DfL Def
2) Def -> DfL
3) Def -> DfC Def
4) Def -> DfC
5) Def -> DfT Def
6) Def -> DfT
7) Def -> DfV Def
8) Def -> DfV
3. Грамматика описания меток GR3 (Начальный символ DfL)
Терминалы:
lab = label; =;, =;
id = идент; nat = ЦелБезЗнак;
Нетерминалы:
DfL = *ОписМеток 1; M = Метка 2;
LLb = СписокМеток 2;
Правила:
1) DfL -> lab LLb
2) LLb -> M;
3) LLb -> M, LLb
4) M -> id
5) M -> nat
4. Грамматика описания констант GR4 (Начальный символ DfC)
Терминалы:
con = const; =; = = =;
id = идент; Pex = *выражение;
Нетерминалы:
DfC = *ОписКонстант 1; LCn = СписокКонстант 2;
Cn1 = ОписКонстанты 1;
Правила:
1) DfC -> con LCn
2) LCn -> Cn1; LCn
3) LCn -> Cn1;
4) Cn1 -> id = Pex
5. Грамматика описания типов GR5 (Начальный символ DfT)
Терминалы:
typ = type; =; = = =;
id = идент; Сid = *КонстИден; int = integer;
chr = char; =.; str = string;
Нетерминалы:
DfT = *ОписТипов 1; LTp = СписокТипов 2;
Tp1 = ОписТипа 2; Typ = Тип 4;
Правила:
1) DfT -> typ LTp
2) LTp -> Tp1; LTp
3) LTp -> Tp1;
4) Tp1 -> id = Typ
5) Tp1 -> id = id
6) Typ -> Cid. Cid
7) Typ -> int
8) Typ -> chr
9) Typ -> str
6. Грамматика описания переменных GR6 (Начальный символ DfV)
Терминалы:
var = var; =;, =;
: =:; id = идент; int = integer;
chr = char; str = string;
Нетерминалы:
DfV = *ОписПеременных 1; LVr = СписокОписПерем 2;
Vr1 = Перемен 2; Vrs = СписокПеременных 1;
DV1 = 1ОписПеремен 4;
Правила:
1) DfV -> var LVr
2) LVr -> DV1;
3) LVr -> DV1; LVr
4) Vr1 -> id
5) Vr1 -> Vr1, id
6) Vrs -> Vr1
7) DV1 -> Vrs: id
8) DV1 -> Vrs: int
9) DV1 -> Vrs: chr
10) DV1 -> Vrs: str
7. Грамматика меток GR7 (Начальный символ M)
Терминалы:
id = идент; nat = ЦелБезЗнак;
Нетерминалы:
M = *Метка 2;
Правила:
1) M -> id
2) M -> nat
8. Грамматика описания операторов GR8 (Начальный символ opl)
Терминалы:
M = *метка;: =:; O:= = *ОпПрисв;
OIO = *ОпВв / Выв; OMn = *ОперУправ; BOp = *БлокОпер;
Нетерминалы:
Opl = *Оператор 2; Op = НепомечОпер 4;
Правила:
1) Opl -> M: Op
2) Opl -> Op
3) Op -> BOp
4) Op -> O:=
5) Op -> OIO
6) Op -> OMn
9. Грамматика блока операторов GR9 (Начальный символ BOp)
Терминалы:
beg = begin; end = end; =;
Opl = *Оператор;
Нетерминалы:
BOp = *БлокОпер 1; OPs = Набор операторов 1;
Op1 = Оператор 2;
Правила:
1) BOp -> beg OPs end
2) OPs -> Op1
3) Op1 -> Opl
4) Op1 -> Opl; Op1
10. Грамматика оператора присваивания GR10 (Начальный символ O:=)
Терминалы:
id = идент;:= =:=; Pex = *выражение;
Нетерминалы:
O:= = *ОпПрисв 1;
Правила:
1) O:= -> id:= Pex
11. Грамматика операторов ввода / вывода GR11 (Начальный символ OIO)
Терминалы:
rd = readln; wr = writeln; (= (;
) =); Pex = *выражение;, =;
id = идент;
Нетерминалы:
OIO = *ОпВв / Выв 2; OIn = ОперВвода 1;
OOu = ОперВывода 1; W1 = Аргумент вывода 2;
LWr = СписВыраж 1; Vrs = СписПерем 1;
Vr1 = Перемен 2;
Правила:
1) OIO -> OIn
2) OIO -> OOu
3) OIn -> rd (Vrs)
4) OOu -> wr (LWr)
5) W1 -> Pex
6) W1 -> Pex, W1
7) LWr -> W1
8) Vrs -> Vr1
9) Vr1 -> id
10) Vr1 -> id, Vr1
12. Грамматика операторов управления GR12 (Начальный символ OMn)
Терминалы:
rpt = repeat; unt = until; Opl = *Оператор;
Lex = *ЛогВыраж; got = goto; if = if;
thn = then; els = else; M = *Метка;
; =;
Нетерминалы:
OMn = *ОперУправ 3; ORu = ОперЦикла 1;
OGo = ОперПерехода 1; OIf = ОперУсловия 2;
Ops = Операторы 1; Op1 = Оператор 2;
Правила:
1) OMn -> ORu
2) OMn -> OGo
3) OMn -> OIf
4) ORu -> rpt Ops unt Lex
5) OGo -> got M
6) OIf -> if Lex thn Opl
7) OIf -> if Lex thn Opl els Opl
8) Ops -> Op1
9) Op1 -> Opl;
10) Op1 -> Opl; Op1
13. Грамматика логических выражений GR13 (Начальный символ Lex)
Терминалы:
> = >; < = <; = = =;
>= = >=; <= = <=; <> = <>;
(= (;) =); or = or;
and = and; not = not; Pex = *выражение;
str = строка; sme = Same;, =;
Нетерминалы:
Lex = *ЛогВыраж 2; Z1 = 2;
Z2 = 1; Z3 = 2;
Z4 = 3; F1 = 2;
F2 = 2; Sgn = знак сравнения 6;
Правила:
1) Lex -> Z1 F1
2) Lex -> Z1
3) Z1 -> Z2 F2
4) Z1 -> Z2
5) Z2 -> Z3
6) Z3 -> not Z3
7) Z3 -> Z4
8) Z4 -> sme (str, str)
9) Z4 -> Pex Sgn Pex
10) Z4 -> (Lex)
11) F1 -> or Z1 F1
12) F1 -> or Z1
13) F2 -> and Z2 F2
14) F2 -> and Z2
15) Sgn -> <
16) Sgn -> >
17) Sgn -> =
18) Sgn -> <=
19) Sgn -> >=
20) Sgn -> <>
14. Грамматика простых выражений GR14 (Начальный символ Pex)
Терминалы:
+ = +; - = -; * = *,/;
(= (; / = /;) =);
id = идент; Cid = *КонстИден; Scn = *СтрокКонст;
Fun = *функция;
Нетерминалы:
Pex = *выражение 2; E1 = 2;
E2 = 2; T1 = 2;
T2 = 5;
Правила:
1) Pex -> T1 E1
2) Pex -> T1
3) E1 -> + T1 E1
4) E1 -> + T1
5) E1 -> - T1 E1
6) E1 -> - T1
7) E2 -> * T2 E2
8) E2 -> * T2
9) E2 -> / T2 E2
10) E2 -> / T2
11) T1 -> T2 E2
12) T1 -> T2
13) T2 -> id
14) T2 -> Cid
15) T2 -> Scn
16) T2 -> Fun
17) T2 -> (Pex)
15. Грамматика вызова фукций GR15 (Начальный символ Fun)
Терминалы:
int = integer; str = string; lng = length;
cnc = concat; pos = pos; sym = StrChar;
(= (;) =);, =;
Pex = *выражение;
Нетерминалы:
Fun = *функция 6;
Правила:
1) Fun -> int (Pex)
2) Fun -> str (Pex)
3) Fun -> lng (Pex)
4) Fun -> cnc (Pex, Pex)
5) Fun -> pos (Pex, Pex)
6) Fun -> sym (Pex, Pex)
16. Грамматика целых констант GR16 (Начальный символ Cid)
Терминалы:
nat = ЦелБезЗнак; - = -;
Нетерминалы:
Cid = *КонстИден 2;
Правила:
1) Cid -> - nat
2) Cid -> nat
17. Грамматика строковых констант GR17 (Начальный символ Scn)
Терминалы:
Any = Любой символ; ' = ';
Нетерминалы:
Scn = *СтрокКонст 2; Sms = список символов 1;
Sym = символ 2;
Правила:
1) Scn -> ' Sms '
2) Scn -> ' '
3) Sms -> Sym
4) Sym -> Any
5) Sym -> Any Sym
4.3 Описание промежуточного языка
Для бинарных операций удобной формой представления программы после синтаксического анализа являются тетрады.
Формат тетрад:
<код операции>, <операнд_1>, <операнд_2>, <результат>,
где <операнд_1> и <операнд_2> специфицируют аргументы, а <результат> - временное имя для хранения результата выполнения операции (переменная из рабочей области).
В качестве операндов тетрад наряду с переменными и константами, определенными в исходной программе, могут выступать результаты ранее выполненных тетрад. Например, выражение a* b + с* d представляется в виде последовательности следующих тетрад:
*, a, b, t1
*, c, d, t2
+, t1, t2, t3
Последовательность тетрад представляет собой программу, инструкции которой обрабатываются последовательно. Операнды одной тетрады должны быть одинакового типа. Для преобразования типа операнда можно использовать тетрады преобразования типа с кодами операций ITOS (целый - в строкоый) и STOI (строковый - в целый). Поскольку операция преобразования типа одноместная, она записывается с пустым вторым операндом, например, STOI, а, t.
Для представления унарного минуса в тетрадах также можно не использовать второй операнд. Тетрада -, а, t интерпретируется как присвоение временной переменной t значения - а.
Тетрады удобно использовать для выполнения машинно-независимой оптимизации, в частности, исключения лишних операций. Основным недостатком тетрад является большой объем памяти, необходимый для их хранения. Несмотря на то, что во многих тетрадах имеются свободные поля, результат выполнения операции всегда записывается в четвертое поле.
Внутреннее представление тетрады - запись, состоящая из четырех лексем. При этом коды операций тетрад, пустые поля, номера тетрад и временные переменные ti являются лексемами специального типа.
синтаксис лексема анализатор язык
Описание тетрад |
|||||
Синтаксис |
Семантика |
||||
Коп |
Оп1 |
Оп2 |
Рез |
||
BRL |
L |
Безусловный переход на метку L |
|||
BF |
L |
R |
Переход на метку L, если R = «Ложь» |
||
DEFL |
L |
Определение метки L |
|||
WRT |
A |
Вывод значения А на экран |
|||
RED |
A |
Запрос на ввод с клавиатуры значения переменной A |
|||
CRLF |
Возврат каретки и перевод строки |
||||
SET |
A |
R |
Назначает тип A для переменной R |
||
CHTP |
A |
B |
R |
Преобразует тип выражения A к типу B |
|
=I |
A |
B |
R |
операция «равно» для целых значений A и B |
|
=C |
A |
B |
R |
операция «равно» для символьных значений A и B |
|
<I |
A |
B |
R |
операция «меньше» для целых значений A и B |
|
>I |
A |
B |
R |
операция «больше» для целых значений A и B |
|
<=I |
A |
B |
R |
операция «меньше равно» для целых значений A и B |
|
>=I |
A |
B |
R |
операция «больше равно» для целых значений A и B |
|
<>I |
A |
B |
R |
операция «неравно» для целых значений A и B |
|
<>C |
A |
B |
R |
операция «неравно» для символьных значений A и B |
|
:= |
B |
A |
A:= B |
||
+I |
A |
B |
R |
R:= A + B |
|
-I |
A |
B |
R |
R:= A - B |
|
*I |
A |
B |
R |
R:= A * B |
|
/I |
A |
B |
R |
R:= A / B |
|
OR |
A |
B |
R |
R:= A or B |
|
AND |
A |
B |
R |
R:= A and B |
|
-I |
A |
R |
R:= - A |
||
NOT |
A |
R |
R:= not A |
||
LEN |
A |
R |
Определение длины строки |
||
CNC |
A |
B |
R |
Конкатенация строк |
|
POS |
A |
B |
R |
Поиск подстроки в строке |
|
STCH |
A |
B |
R |
Возврат из строки A символа с номером B |
|
STOI |
A |
R |
Преобразует строку A в целое число |
||
ITOS |
A |
R |
Преобразует целое число A в строку |
||
SME |
A |
B |
R |
Сравнение двух строк |
Размещено на Allbest.ru
Подобные документы
Написание программы, которая выполняет лексический и синтаксический анализ входного языка программирования, порождает таблицу лексем с указанием их типов и значений, а также строит синтаксическое дерево; текст входного языка вводится с клавиатуры.
курсовая работа [761,5 K], добавлен 23.02.2012Входная грамматика в структурированной форме. Функции переходов символьного преобразователя. Работа лексического анализатора. Структуры данных, символы действия. Описание семантики перевода. Построение и программная реализация атрибутного преобразователя.
курсовая работа [128,9 K], добавлен 03.07.2013Основные методы описания синтаксиса языков программирования: формальные грамматики, формы Бэкуса-Наура и диаграммы Вирта. Разработка алгоритма решения задачи. Лексический и синтаксический анализатор, семантический анализ. Структурная организация данных.
курсовая работа [680,1 K], добавлен 12.06.2011Проектирование программы-анализатора, состоящей из двух частей: лексического анализатора, разбивающего исходный текст программы на лексемы и заполняющего таблицу имен; синтаксического анализатора, проверяющего соответствие текста заданной грамматике.
курсовая работа [2,0 M], добавлен 14.06.2010Конструкции условных операторов if-else и простые типы языка Си. Общая схема работы компилятора. Алгоритм построения дерева разбора, строки вывода синтаксического разбора. Построение обратной польской записи как формы внутреннего представления программы.
курсовая работа [1,3 M], добавлен 01.06.2013Разработка анализирующей части компилятора для выполнения проверки исходной программы на соответствие грамматике языка, правилам семантики и построения внутреннего представления. Описание анализаторов: лексического, синтаксического и семантического.
контрольная работа [704,9 K], добавлен 01.02.2013Разработка программного приложения, производящего проверку синтаксиса простой программы: выбор метода создания синтаксического анализатора, описание требований к программному обеспечению, написание алгоритмов решения и тестирование конечного продукта.
курсовая работа [579,7 K], добавлен 03.07.2011Структура, классификация и требования к реализации компилятора. Проектирование и реализация анализирующей части компилятора языка С++. Способы реализации лексического анализа. Алгоритм работы синтаксического анализатора. Принципы программной реализации.
курсовая работа [774,2 K], добавлен 26.01.2013Организация таблицы идентификаторов, ее содержание и назначение. Метод бинарного дерева и цепочек. Проектирование лексического анализатора и схема распознавателя. Построение дерева вывода, синтаксический анализатор. Анализ результатов работы программы.
курсовая работа [1,0 M], добавлен 25.12.2014Основные теоретические положения объектно–ориентированной технологии программирования. Характеристика языка и словарь моделирования UML. Представление управления моделью. Построение диаграммы классов и описание функционирования предметной области.
курсовая работа [859,4 K], добавлен 11.05.2015