Книга: UNIX — универсальная среда программирования

9.3 Препроцессоры tbl и eqn

9.3 Препроцессоры tbl и eqn

Программа troff — большая и сложная, и поэтому модифицировать ее для того, чтобы она выполняла новую задачу, нелегко. Соответственно разработка программ для набора математических выражений и таблиц требует другого подхода, а именно создания специальных языков, реализованных отдельными программами eqn и tbl, действующих как процессоры для troff. Программа troff по существу представляет язык Ассемблера для наборной машины, a eqn и tbl компилируют для нее код.

Вначале появилась eqn. Это было первое применение yacc не для целей программирования[18]. Программа tbl, разработанная позднее, аналогична eqn, хотя и имеет независимый синтаксис; tbl не использует yacc, так как ее грамматика достаточно проста.

Средства программных каналов UNIX предполагают строгое разделение на отдельные программы. Кроме разбиения на части (что так или иначе необходимо, поскольку troff уже достигла максимального размера для PDP-11), программные каналы сужают круг взаимодействия между частями программы и между разрабатывающими их программистами. Последнее особенно важно: чтобы сделать препроцессор, не нужно "залезать" в исходную программу. Далее программные каналы позволяют не создавать большие промежуточные файлы при условии, что компоненты намеренно запускаются отдельно с целью отладки.

Однако организация взаимодействия программ через конвейеры связана с некоторыми проблемами. Отчасти снижается быстродействие, поскольку увеличивается объем ввода и вывода: обычно и eqn, и tbl дают расширение выходного потока по отношению к входному в отношении 8:1. Еще более существенно, что информация идет только в одном направлении. Например, нет способа определения текущего размера шрифта, что создаст неудобства в пользовании языком. И, наконец, трудно обеспечить сообщения об ошибках, так как иногда трудно связать диагностику из troff с eqn и tbl. Тем не менее преимущества разделения значительно перекрывают недостатки, поэтому было написано несколько препроцессоров, основанных на этой модели.

Таблицы

Обсудим кратко работу tbl и прежде всего таблицу операций по документации к hoc. tbl читает свои входные файлы или стандартный входной поток и преобразует текст между командами .TS (начало таблицы) и .ТЕ (конец таблицы) в команды troff, печатающие таблицу, выравнивающие столбцы и обеспечивающие все типографские атрибуты. Строки .TS и .ТЕ тоже копируются, поэтому пакет макроопределений выдает для них подходящие определения с тем, например, чтобы можно было помещать таблицу на одной странице и отделять ее от окружающего текста.

При формировании сложных таблиц вам, конечно, придется обращаться к справочному руководству по tbl. Хотя для уяснения основных принципов работы вполне достаточно приведенного ниже примера (из документации по hoc).

.TS
center, box;
с s
lfCW 1
fВТаблица 1:fP Операции по порядку уменьшения приоритета
.sp.5
^       возведение в степень (s-1FORTRANs0 **) правоассоциативна
!-     одноместные логическое и арифметическое отрицания
* /     умножение, деление
+-     сложение, вычитание
> >=    операции отношения: больше, больше или равно < <= меньше, меньше или равно
&== != равно, не равно (все отношения одинакового приоритета)
&&      логическое И (оба операнда всегда вычисляются)
||      логическое ИЛИ (оба операнда всегда вычисляются)
&=     присваивание, правоассоциативна
.ТЕ

В результате мы получаем следующую таблицу:

Таблица 1: Операции по порядку уменьшения приоритета

^ возведение в степень (FORTRAN **) правоассоциативна
! - одноместные логическое и арифметическое отрицания
* / умножение, деление
+ - сложение, вычитание
> >= операции отношения: больше, больше или равно
< <= меньше, меньше или равно
== != равно, не равно (все отношения одинакового приоритета)
&& логическое И (оба операнда всегда вычисляются)
!! логическое ИЛИ (оба операнда всегда вычисляются)
= присваивание, правоассоциативна

Слова перед точкой с запятой описывают глобальные свойства таблицы: центрировать по горизонтали на странице и заключить в рамку. Другие средства включают doublebox (сделать двойную рамку), allbox (включить каждый элемент в рамку) и expand (расширить таблицу на формат страницы).

Следующие строки до точки описывают формат различных секций таблицы. Первая спецификация служит для первой строки таблицы, вторая для второй, последняя для всех остальных строк. В табл. 1 вы видите только две строки спецификаций, поэтому вторая спецификация применяется к каждой строке таблицы посте первой. Символы формата для элементов центрированных в столбце, с, r и l для правого и левого выравнивания и n — для выравнивания чисел по десятичной точке. Символ S определяет столбец с промежутком; в нашем случае 'c s' означает центровку названия над всей таблицей путем задания размера второго столбца так же, как и первого. Для столбца можно определить шрифт. Спецификация tbl lfCW позволяет печатать выравненный по левому краю столбец шрифтом CW.

Текст таблицы следует за информацией для форматирования. Символы табуляции разделяют столбцы и некоторые команды troff, например .sp, которые уместны внутри таблиц. (Отметим пару вхождений &: незащищенный передний символ - и знак = в столбцах указывают tbl на необходимость располагать строки таблицы в этой точке.)

Программа tbl строит более широкий набор таблиц, чем показано в примере: текст может помещаться в рамки, могут вертикально выравниваться заголовки столбцов и т.д. Самый легкий способ использовать tbl для создания сложных таблиц обратиться к справочному руководству по UNIX (том 2A) и применить перечисленные в нем команды.

Математические выражения

Второй препроцессор eqn превращает язык, описывающий математические выражения, в команды troff, чтобы эти выражения печатать. Препроцессор автоматически обрабатывает смены шрифта и формата и, кроме того, предоставляет имена для стандартных математических символов. Входной текст для eqn обычно находится между строками .EQ и .EN, аналогично командам tbl .TS и .ТЕ. Например,

.EQ
x sub i
.EN

выдаёт xi. Если используется пакет ms, уравнение печатается как "отображение", а возможный аргумент .EQ определяет номер уравнения. Например, формула интеграла Коши


записывается как

.EQ (9.1)
f( zeta ) ~=~ 1 over {2 pi i} int from С
f(z) over {z - zeta} dz
.EN

В основу языка eqn и положен способ чтения вслух математических формул. Единственное различие между "разговорной" математикой и входным текстом eqn состоит в том, что скобки { } отменяют заданные по умолчанию правила предшествования языка, однако обычные скобки специального смысла не имеют. Пробелы тем не менее важны. Заметим, что первое вхождение zeta в примере, приведенном выше, окружено пробелами: ключевые слова, такие, как zeta и over, распознаются только тогда, когда они окружены пробелами или скобками, но ни те, ни другие в выходной текст не попадают. Чтобы обеспечить пробелы в выходном потоке, используйте символ ~, как показано в примере (~=~). Для получения скобок используйте "{" и "}".

Существует несколько классов ключевых слов eqn. Греческие буквы записываются прописными и строчными: lambda и LAMBDA (? и ?). Другие математические символы имеют имена, такие как sum, int, infty, grad: ?, ?, ?, ?. Есть знаки позиции, например sub, sup, from, to, and, over:

Эта формула выводится так:

sum from i=0 to infinity x sub i sup 2~?~1 over {2pi}

Существуют знаки операций типа sqrt, расширяющие скобки, фигурные скобки и т.д. Программа eqn, кроме того, позволяет создавать из объектов столбцы и матрицы. Предусмотрены команды для управления шрифтами и позициями, если те, которые установлены по умолчанию, не подходят.

Часто приходится помещать небольшие математические выражения, такие, как log10(x), в тело текста, а не в отображение. Ключевое слово eqndelim определяет пару символов для выделения подобных выстроенных выражений. Символы, задаваемые в качестве левого и правого ограничителей, обычно одинаковы: часто применяется знак доллара $. Но поскольку hoc использует $ для аргументов, в нашем примере мы употребили @. Символ % тоже удобен как ограничитель, но других символов избегайте: многие из них имеют специальные назначения в различных программах, поэтому вы можете спровоцировать непредсказуемое поведение eqn (именно так у нас и получилось с этим разделом).

Итак, после обозначения

.EQ
delim @ @
.EN

можно напечатать встроенное выражение

в виде

@ sum from i == 0 to infinity x sub i @ can be printed.

Встроенные выражения используются для вывода формул в таблице (см. пример из документации по hoc):

.TS
center,box
css
lfCWn1.
fВТаблица 3:fР Встроенные константы
.sp.5
DEG  57.29577951308232087680 @180/pi@, градусы и радианы
E     2.71828182845904523536 @e@, основание натурального логарифма
GAMMA 0.57721566490153286060 @gamma@, константа Эйлера-Масчерони
PHI   1.61803398874989484820 @(sqrt5+1)/2@, золотое сечение
PI    3.14159265358979323846 @pi@, круговое трансцендентное число
.ТЕ

Из этой таблицы, кроме того, видно, как строки tbl помещают десятичные точки в числовых (n) столбцах. Результат показан ниже.

Таблица 3: Встроенные константы

DEG 57.29577951308232087680 180/?, градусы на радианы
E 2.71828182845904523536 е, основание натуральных логарифмов
GAMMA 0.57721566490153286060 ?, константа Эйлера-Масчерони
PHI 1.61803398874989484820 (?5 + 1)/2, золотое сечение
PI 3.14159265358979323846 ?, круговое трансцендентное число

И, наконец, поскольку eqn выделяет курсивом любую строку букв, которые она не распознает, довольно просто выделять обычные слова курсивом. Последовательность @Word@ например, печатается как Word. Но будьте внимательны: eqn распознает некоторые обычные символы (такие, как from и to) и специальным образом их рассматривает: она "глотает" пробелы, поэтому указанный прием следует применять с осторожностью.

Получение выходного потока

Как только ваш документ готов, вы должны соединить все препроцессоры и troff в цепочку, чтобы получить выходной поток. Порядок команд следующий: tbl, eqn, troff. Если вы просто используете troff, то печатайте

$ troff -ms имена_файлов (или -mm)

Иначе вам придется задать аргумент имена_файлов первой команде в цепочке и дать остальным командам читать их стандартный входной поток, как показано ниже:

$ eqn имена_файлов | troff -ms

или

$ tbl имена_файлов | eqn | troff -ms

Неудобно следить за тем из препроцессоров, который действительно должен печатать какой-то отдельный документ. Мы сочли уместным написать программу doctype, обеспечивающую вывод соответствующей последовательности команд:

$ doctype ch9.*
cat ch9.1 ch9.2 ch9.3 ch9.4 | pic | tbl | eqn | troff -ms
$ doctype hoc.ms
cat hoc.ms | tbl | eqn | troff -ms
$

Программа doctype реализована с помощью инструментов, рассмотренных в гл. 4. В частности, программа awk отыскивает последовательность команд, используемую препроцессорами, и печатает строку команд, которые нужно вызвать, чтобы отформатировать документ. Она также находит команду .PP (абзац) для форматирования пакетом запросов ms.

$ cat doctype
# doctype: synthesize proper command line for troff
echo -n "cat $* | "
egrep -h (EQ|TS|[|PS|IS|PP)' $* |
sort -u |
awk '
 /^.PP/ { ms++ }
 /^.EQ/ { eqn++ }
 /^.TS/ { tbl++ }
 /^.PS/ { pic++ }
 /^.IS/ { ideal++ }
 /^.[/ { refer++ }
 END {
  if (refer > 0) printf "refer | "
  if (pic > 0) printf "pic | "
  if (ideal > 0) printf "ideal | "
  if (tbl > 0) printf "tbl | "
  if (eqn > 0) printf "eqn | "
  printf "troff "
  if (ms > 0) printf "-ms"
  printf "n"
 } '
$

(Флаг -h заставляет ее подавлять заголовки имен файлов на каждой строке: к сожалению, этот аргумент есть не во всех версиях системы.) При сканировании входного потока собирается информация о том, какие компоненты используются. После просмотра входной поток обрабатывается в требуемой последовательности для печати выходного текста. В формировании документов troff со стандартными препроцессорами есть специфика, и главная задача состоит в том, чтобы заставить "думать" об этом саму машину.

Программа doctype в нашем примере подобна bundle-программе, которая создает программу. Однако в таком виде она требует от пользователя вновь вводить строку для shell. В одном из приводимых ниже упражнений вам предлагается это исправить.

Когда дело дойдет до запуска реальных команд troff, не забывайте, что поведение программы зависит от системы: на некоторых установках она управляет наборным устройством непосредственно, в то время как на других выдает в стандартный выходной поток информацию, которая должна быть послана на наборное устройство отдельной программой.

Между прочим, в новой версии этой программы не предусмотрена программа egrep или sort;awk сама просматривает весь входной поток. Для больших документов такой вариант оказывается слишком медленным, поэтому для ускорения поиска мы добавили egrep и затем sort -u, чтобы избавиться от дублирования. При построении типичных документов накладные расходы по созданию двух дополнительных разбирающих данные процессов меньше, чем запуск awk в тех же целях с большим объемом входного текста.

В качестве иллюстрации сравним doctype с версией, только запускающей awk применительно к содержимому данной главы (около 52 000 символов):

$ time awk '... doctype without egrep ...' ch9.*
cat ch9.1 ch9.2 ch9.3 ch9.4 | pic | tbl | eqn | troff -ms
real 31.0
user 8.9
sys 2.8
$ time doctype ch9*
cat ch9.1 ch9.2 ch9.3 ch9.4 | pic | tbl | eqn | troff -ms
real 7.0
user 1.0
sys 2.3
$

Сравнение, очевидно, в пользу версии с тремя процессами. (Работа была выполнена в однопользовательском режиме; соотношение значений времени показало бы даже более значительное преимущество версии egrep и при повышенной нагрузке на систему.) Отметим, что, прежде чем начать оптимизацию, мы получили сначала простую работающую версию.

Упражнение 9.2

Как мы сформатировали эту главу?

Упражнение 9.3

Если вашим ограничителем для eqn является знак доллара, то как вы получите этот знак в выходном потоке? Подсказка: исследуйте кавычки и предопределенные слова eqn.

Упражнение 9.4

Почему команда

$ doctype имена_файлов

не выполняется? Модифицируйте doctype так, чтобы запускать команду, полученную в результате, вместо того, чтобы ее печатать.

Упражнение 9.5

Важны ли накладные расходы на добавочную команду cat в doctype? Перепишите doctype, чтобы избавиться от дополнительного процесса. Какая версия проще?

Упражнение 9.6

Что лучше: использовать doctype или писать файл shell, содержащий команды, для форматирования конкретного документа?

Упражнение 9.7

Поэкспериментируйте с различными комбинациями grep, egrep, fgrep, sed, awk и sort, чтобы повысить быстродействие doctype.

Оглавление книги


Генерация: 2.010. Запросов К БД/Cache: 3 / 1
поделиться
Вверх Вниз