Построение лексических анализаторов (сканеров) / Системное программное обеспечение. Лабораторный практикум / Библиотека (книги, учебники и журналы) / В помощь Веб-Мастеру

Обложка
Аннотация

Алексей Молчанов i

Книги автора: Системное программное обеспечение. Лабораторный практикум

/ Издательство «Питер»i

Книги автора: Системное программное обеспечение. Лабораторный практикум Мерчандайзинг. Курс управления ассортиментом в рознице Категорийный менеджмент. Курс управления ассортиментом в рознице Дефрагментация мозга. Софтостроение изнутри Искусство управления IT-проектами Гибкое управление проектами и продуктами Лидогенерация: клиентов много не бывает Идеальный программист. Как стать профессионалом разработки ПО Реклама. Принципы и практика Интернет-маркетинг 3.0. Нет русской рулетке! Информационный удар. Как сделать, чтобы в шумном медиамире услышали именно тебя Перехват клиента. Борьба за продажи в условиях жесткой конкуренции Маркетинг для государственных и общественных организаций Запуск! Быстрый старт для вашего бизнеса Большая книга директора магазина 2.0. Новые технологии Успешная короткая презентация Цифровая фотография. Трюки и эффекты Новое оружие маркетинговых войн Продвижение порталов и интернет-магазинов Разумный маркетинг. Как продавать больше при меньших затратах Установка, настройка и восстановление Windows 7 на 100% Графология XXI века HTML, XHTML и CSS на 100% Копирайтинг: как не съесть собаку. Создаем тексты, которые продают 99 инструментов продаж. Эффективные методы получения прибыли Выжми из бизнеса всё! 200 способов повысить продажи и прибыль Генератор новых клиентов. 99 способов массового привлечения покупателей Если покупатель говорит «нет». Работа с возражениями Копирайтинг: секреты составления рекламных и PR-текстов Продвижение бизнеса в ВКонтакте. Быстро и с минимальными затратами Профессиональный поиск в Интернете Восстановление данных на 100% Инфобизнес на полную мощность. Удвоение продаж Инфобизнес за один день Как сделать свой сайт и заработать на нем. Практическое пособие для начинающих по заработку в Интернете Монетизация сайта. Секреты больших денег в Интернете Удвоение продаж в интернет-магазине Деловая e-mail переписка. Пять правил успеха Социальные сети. Источники новых клиентов для бизнеса Быстрые деньги в Интернете. 50 способов заработать, сидя дома у компьютера Интернет-маркетинг на 100% Как спроектировать современный сайт

Книга: Системное программное обеспечение. Лабораторный практикум

Построение лексических анализаторов (сканеров)

Лексический анализатор имеет дело с такими объектами, как различного рода константы и идентификаторы (к последним относятся и ключевые слова). Язык описания констант и идентификаторов в большинстве случаев является регулярным, то есть может быть описан с помощью регулярных грамматик [1–4, 7]. Распознавателями для регулярных языков являются конечные автоматы (КА). Существуют правила, с помощью которых для любой регулярной грамматики может быть построен КА, распознающий цепочки языка, заданного этой грамматикой.

Более подробно о построении КА на основе грамматик для регулярных языков можно узнать в [3, 7, 26].

Любой КА может быть задан с помощью пяти параметров: M(Q,?,?,q₀,F),

где:

Q – конечное множество состояний автомата;

? – конечное множество допустимых входных символов (входной алфавит КА);

? – заданное отображение множества Q?? во множество подмножеств P(Q)?: Q?? ? P(Q) (иногда ? называют функцией переходов автомата);

Построение лексических анализаторов (сканеров)

– начальное состояние автомата;

– множество заключительных состояний автомата.

Другим способом описания КА является граф переходов – графическое представление множества состояний и функции переходов КА. Граф переходов КА – это нагруженный однонаправленный граф, в котором вершины представляют состояния КА, дуги отображают переходы из одного состояния в другое, а символы нагрузки (пометки) дуг соответствуют функции перехода КА. Если функция перехода КА предусматривает переход из состояния q в q' по нескольким символам, то между ними строится одна дуга, которая помечается всеми символами, по которым происходит переход из q в q'.

Недетерминированный КА неудобен для анализа цепочек, так как в нем могут встречаться состояния, допускающие неоднозначность, то есть такие, из которых выходит две или более дуги, помеченные одним и тем же символом. Очевидно, что программирование работы такого КА – нетривиальная задача. Для простого программирования функционирования КА M(Q,?,?,q₀,F) он должен быть детерминированным – в каждом из возможных состояний этого КА для любого входного символа функция перехода должна содержать не более одного состояния:

Доказано, что любой недетерминированный КА может быть преобразован в детерминированный КА так, чтобы их языки совпадали [3, 7, 26] (говорят, что эти КА эквивалентны).

Кроме преобразования в детерминированный КА любой КА может быть минимизирован – для него может быть построен эквивалентный ему детерминированный КА с минимально возможным количеством состояний. Алгоритмы преобразования КА в детерминированный КА и минимизации КА подробно описаны в [3, 7, 26].

Можно написать функцию, отражающую функционирование любого детерминированного КА. Чтобы запрограммировать такую функцию, достаточно иметь переменную, которая бы отображала текущее состояние КА, а переходы из одного состояния в другое на основе символов входной цепочки могут быть построены с помощью операторов выбора. Работа функции должна продолжаться до тех пор, пока не будет достигнут конец входной цепочки. Для вычисления результата функции необходимо по ее завершении проанализировать состояние КА. Если это одно из конечных состояний, то функция выполнена успешно и входная цепочка принимается, если нет, то входная цепочка не принадлежит заданному языку.

Однако в общем случае задача лексического анализатора шире, чем просто проверка цепочки символов лексемы на соответствие ее входному языку. Он должен правильно определить конец лексемы (об этом было сказано выше) и выполнить те или иные действия по запоминанию распознанной лексемы (занесение ее в таблицу лексем). Набор выполняемых действий определяется реализацией компилятора. Обычно эти действия выполняются сразу же при обнаружении конца распознаваемой лексемы.

Во входном тексте лексемы не ограничены специальными символами. Определение границ лексем – это выделение тех строк в общем потоке входных символов, для которых надо выполнять распознавание. Если границы лексем всегда определяются (а выше было принято именно такое соглашение), то их можно определить по заданным терминальным символам и по символам начала следующей лексемы. Терминальные символы – это пробелы, знаки операций, символы комментариев, а также разделители (запятые, точки с запятой и др.). Набор таких терминальных символов может варьироваться в зависимости от входного языка. Важно отметить, что знаки операций сами также являются лексемами и необходимо не пропустить их при распознавании текста.

Таким образом, алгоритм работы простейшего сканера можно описать так:

• просматривается входной поток символов программы на исходном языке до обнаружения очередного символа, ограничивающего лексему;

• для выбранной части входного потока выполняется функция распознавания лексемы;

• при успешном распознавании информация о выделенной лексеме заносится в таблицу лексем, и алгоритм возвращается к первому этапу;

• при неуспешном распознавании выдается сообщение об ошибке, а дальнейшие действия зависят от реализации сканера: либо его выполнение прекращается, либо делается попытка распознать следующую лексему (идет возврат к первому этапу алгоритма).

Работа программы-сканера продолжается до тех пор, пока не будут просмотрены все символы программы на исходном языке из входного потока.

Оглавление книги

Оглавление статьи/книги

Похожие страницы