Книга: Искусство программирования на языке сценариев командной оболочки
Пример 12-13. Поиск слов в словаре
Пример 12-13. Поиск слов в словаре
#!/bin/bash
# lookup: Выполняется поиск каждого слова из файла в словаре.
file=words.data # Файл с искомыми словами.
echo
while [ "$word" != end ] # Последнее слово в файле.
do
read word # Из файла, потому, что выполнено перенаправление в конце цикла.
look $word > /dev/null # Подавление вывода строк из словаря.
lookup=$? # Код возврата команды 'look'.
if [ "$lookup" -eq 0 ]
then
echo "Слово "$word" найдено."
else
echo "Слово "$word" не найдено."
fi
done <"$file" # Перенаправление ввода из файла $file, так что "чтение" производится оттуда.
echo
exit 0
# ----------------------------------------------------------------
# Строки, расположенные ниже не будут исполнены, поскольку выше стоит команда "exit".
# Stephane Chazelas предложил более короткий вариант:
while read word && [[ $word != end ]]
do if look "$word" > /dev/null
then echo "Слово "$word" найдено."
else echo "Слово "$word" не найдено."
fi
done <"$file"
exit 0
sed, awk
Скриптовые языки, специально разработанные для анализа текстовых данных.
sed
Неинтерактивный "потоковый редактор". Широко используется в сценариях на языке командной оболочки.
awk
Утилита контекстного поиска и преобразования текста, замечательный инструмент для извлечения и/или обработки полей (колонок) в структурированных текстовых файлах. Синтаксис awk напоминает язык C.
wc
wc -- "word count", счетчик слов в файле или в потоке:
bash $ wc /usr/doc/sed-3.02/README
20 127 838 /usr/doc/sed-3.02/README
[20 строк 127 слов 838 символов]
wc -w подсчитывает только слова.
wc -l подсчитывает только строки.
wc -c подсчитывает только символы.
wc -L возвращает длину наибольшей строки.
Подсчет количества .txt-файлов в текущем каталоге с помощью wc:
$ ls *.txt | wc -l
# Эта команда будет работать, если ни в одном из имен файлов "*.txt" нет символа перевода строки.
# Альтернативный вариант:
# find . -maxdepth 1 -name *.txt -print0 | grep -cz .
# (shopt -s nullglob; set -- *.txt; echo $#)
# Спасибо S.C.
Подсчет общего размера файлов, чьи имена начинаются с символов, в диапазоне d - h
bash$ wc [d-h]* | grep total | awk '{print $3}'
71832
От переводчика: в случае, если у вас локаль отлична от "C", то вышеприведенная команда может не дать результата, поскольку wc вернет не слово "total", в конце вывода, а "итого". Тогда можно попробовать несколько измененный вариант:
bash$ wc [d-h]* | grep итого | awk '{print $3}'
71832
Использование wc для подсчета количества вхождений слова "Linux" в основной исходный файл с текстом этого руководства.
bash$ grep Linux abs-book.sgml | wc -l
50
См. также Пример 12-30 и Пример 16-7.
Отдельные команды располагают функциональностью wc в виде своих ключей.
... | grep foo | wc -l
# Часто встречающаяся конструкция, которая может быть сокращена.
... | grep -c foo
# Ключ "-c" ("--count") команды grep.
# Спасибо S.C.
tr
Замена одних символов на другие.
Команда tr "A-Z" "*" <filename или tr A-Z * <filename заменяет все символы верхнего регистра в filename на звездочки (вывод производится на stdout). В некоторых системах этот вариант может оказаться неработоспособным, тогда попробуйте tr A-Z '[**]'.
Ключ -d удаляет символы из заданного диапазона.
echo "abcdef" # abcdef
echo "abcdef" | tr -d b-d # aef
tr -d 0-9 <filename
# Удалит все цифровые символы из файла "filename".
Ключ --squeeze-repeats (-s) удалит все повторяющиеся последовательности символов. Может использоваться для удаления лишних пробельных символов.
bash$ echo "XXXXX" | tr --squeeze-repeats 'X'
X
Ключ -c "complement" заменит символы в соответствии с шаблоном. Этот ключ воздействует только на те символы, которые НЕ соответствуют заданному шаблону.
bash$ echo "acfdeb123" | tr -c b-d +
+c+d+b++++
Обратите внимание: команда tr корректно распознает символьные классы POSIX[ 29 ].
bash$ echo "abcd2ef1" | tr '[:alpha:]' -
----2--1
- Пример 12-8. Частота встречаемости отдельных слов
- Пример 12-9. Какие из файлов являются сценариями?
- Пример 12-10. Генератор 10-значных случайных чисел
- Пример 12-11. Мониторинг системного журнала с помощью tail
- Пример 12-12. Сценарий-эмулятор "grep"
- Пример 12-13. Поиск слов в словаре
- Пример 12-14. toupper: Преобразование символов в верхний регистр.
- Пример 12-15. lowercase: Изменение имен всех файлов в текущем каталоге в нижний регистр.
- Пример 12-16. du: Преобразование текстового файла из формата DOS в формат UNIX.
- Пример 12-17. rot13: Сверхслабое шифрование по алгоритму rot13.
- Пример 12-18. Более "сложный" шифр
- Пример 12-20. Пример форматирования списка файлов в каталоге
- Пример 12-21. nl: Самонумерующийся сценарий.
- Пример 12-16. du: Преобразование текстового файла из формата DOS в формат UNIX.
- Пример 12-17. rot13: Сверхслабое шифрование по алгоритму rot13.
- Пример установочного скрипта
- Пример из практики
- Ключевые слова
- ПРИМЕР ПРОСТОЙ ПРОГРАММЫ НА ЯЗЫКЕ СИ
- Улучшенная стратегия вычисления предиката IN и условий, объединенных по OR
- 1.2.1. Ключевые слова и идентификаторы
- Примеры получения статистики
- Пример применения метода «пять почему»
- Новые ключевые слова
- Определение пользовательского формата числовых данных