Имитация файлов и директорий

Автор статьи: Дмитрий Лебедев ©
Сайт Автора: нет
E-mail Автора: нет
Дата публикации: 20.12.2005



 Базовый способ работы с интуитивно-понятными адресами через обработку 404-й ошибки.

Имитация файлов и директорий

Адрес вашего сайта появляется на пользовательском экране одновременно с дизайном и контентом. Поэтому адрес является полноправной частью сайта. Адрес типа www.фирма.ру (www.фирма.город.ру), естественно, гораздо лучше, чем www.geocities.com/Gonduras/San-Pedrillio/~наша_фирма, кто спорит. А вот по вопросу понятных человеку адресов внутри сайта общественность четкого консенсуса пока не нашла.

Однако пользователю приятнее было бы видеть адрес типа /services/special/ чем /content.phtml?q=e23908a234cc239b3445127.

Лирическое отступление. Помню, на Интернити-99 мне показали флэш-ролик Hewllett Packard Laser Jet 3100. Через пару недель я вспомнил про него и решил скачать его из дома. Я бы долго бродил в бесполезных поисках по сайту Лексмарк (чего вы смеетесь, это так и было!), если бы не их адреса. На HP адреса были понятные — что-то вроде "/products/printers/laserjet/3100", а на сайте Лексмарка было вот именно это непонятное "q=492898748273". Я был в сомнениях, но через день вспомнил-таки, что это был HP :).

Кстати, на этом сайте адреса выпусков, версий для печати и всех информационных страниц (ссылки, файлы и т.д.) виртуальные, файлов с такими названиями не существует.

Делается это достаточно просто. В файле .htaccess пишутся строчки, например:

ErrorDocument 404 all.php
ErrorDocument 403 all.php
ErrorDocument 401 all.php

Файл all.php обрабатывает переменную $REQUEST_URI и, если нужная информация найдена, выдет команду

header ("HTTP/1.0 200 Ok");

Это необходимо для того, чтобы броузер IE 4 считал, что страница найдена, а не подставлял вместо нее свою служебную вывеску "адрес не найден". В остальных случаях, даже если запрошен адрес "all.php", пользователю будет выдаваться сообщение о том, что файл не найден.

Если при вызове функции header сервер ругается матом "Error 500" - смотрите здесь и здесь.

Конечно же, выдать заголовок и нарисовать страницу — нехитрое дело. Отслеживание результатов запросов, проверка на ошибки — это скорее рутина. Самое ответственное дело — разбор запрашиваемого адреса.

Тут приемов много. Например, у меня версия для печати и страница отзывов ищутся по регулярным выражениям:

if (preg_match("/(d+)-comment/A", $url, $res)) ...

А потом из переменной $res[0] беру номер выпуска и проверяю наличие его в базе. Адрес из нескольких поддиректорий можно, например, при помощи взрыва :)

$dir = explode("/", $url);

и потом обрабатывать подстроки по одной (перед взрывом надо убрать из начала и конца строки слэши).

Кстати, перед тем, как писать материал, я честно отправил письмо на [email protected] с вопросом, используется ли у них такой метод обработки запроса или там действительно существуют директории. Мне не ответили. Не буду гадать, как у них сделано, напишу, как бы я делал обработку адреса.


if (preg_match("/([a-z]+)/(d{4})/(d{2})/(d{2})/([a-z]+)/A", $url, $match)) { $request = "SELECT news_id FROM news, rub WHERE news.rub_id=rub.rub_id AND rub_address='". $match[1]. "' AND news_date LIKE '". $match[2]. "-". $match[3]. "-". $match[4]. "' AND news_address='". $match[5]. "'";

Этот запрос делается просто для проверки, есть ли такая новость в базе. А потом в зависимости от результата выдается либо страница с новостью, либо какая-нибудь ругань (или главная страница рубрики/сайта).

А вот как я проверяю адреса на своем сайте:

if (preg_match("/(d+)-print/A", $url, $res)) {
// версия для печати
}
elseif (preg_match("/(d+)-comment/A", $url, $res)) {
// все отзывы
}
elseif (!preg_match("/D/", $url)) {
// полная версия выпуска
}
else {
// либо остальные рубрики, либо адрес не найден
};

Кстати, у себя я как честный человек выдаю header("HTTP/1.0 200 Ok") только если выпуск/рубрика найдены.

И еще один пример. Допустим, рубрики сайта построены как дерево, а таблица в базе выглядит так:

CREATE TABLE rubrika (
id TINYINT NOT NULL AUTO_INCREMENT,
parent_id TINYINT,
address VARCHAR(16) NOT NULL,
title VARCHAR(128) NOT NULL,
rub_text TEXT NOT NULL,
PRIMARY KEY (id),
UNIQUE address (address)
);

Что такое title и rub_text — объяснять не надо. Поле address — это адрес, по которому будет запрашиваться рубрика (новости нужно сделать рубрикой первого уровня, и в поле address будет "news"). Поле parent_id — идентификатор рубрики уровнем выше.

Теперь, если рубики заведомо не могут быть ниже второго уровня, анализ адреса не составит особого труда.

$url = $REQUEST_URI;

// убираем слэши из начала и конца адреса
$url = ereg_replace("^/", "", $url);
$url = ereg_replace("/$", "", $url);
$dir = explode("/", $url)

// случай, когда запрошена рубрика второго уровня.
if (sizeof($dir)==2) {

// составляется запрос, объединяющий таблицу rubrika саму с собой. 
//Здесь надо заметить только, что таблица first подразумевает рубрику второго уровня, 
//а second, наоборот, первого.
$request = "SELECT first.id, first.title, first.rub_text FROM 
rubrika first, rubrika second WHERE 
first.parent_id=second.id AND first.address='". $dir[1]. "' AND 
second.address='". $dir[0]. "'";

// Отправляем запрос в базу, а потом обрабатываем результат.
$result = mysql_query($request);

if (!mysql_error() && @mysql_num_rows($result)==1) {

}

// Это на случай, если запрос прошел успешно, но ничего не найдено
elseif (!mysql_error()) {

}

// ...и на случай, если произошла ошибка.
else
die ("Ошибка БД. MySQL пишет: ". mysql_error());
}

// Запрошена рубрика первого уровня. тут и делать-то нечего :)
elseif (!ereg("/", $url)) {
$request = "SELECT id, title, rub_text FROM rubrika WHERE address='$url'";
...
};

Хватит примеров? Дальше — дело фантазии. Подведем итоги, распишем положительные и отрицательные моменты.

Плюсы

  • Красивые адреса, возможность зайти в рубрику, набрав ее адрес на клавиатуре. Благодарность от фанатов клавиатуры.
  • Уменьшение количества файлов, уменьшение количества повторяющихся операций в разных файлах.
  • Централизация вывода. Сбор большинства операций в единой точке входа.
  • Скрытие некоторой технологической части сайта.

Минусы

  • Увеличение ресурсоемкости за счет проверки адреса и компиляции большого файла вместо нескольких маленьких.
  • Сложность с введением новых параметров (я, можно сказать, удачно вывернулся с версией для печати, но было бы более логично видеть адреса типа /13/print). Кое-что придется сбрасывать, например в куки.
  • Кое-что, например, поиск, так и останется вне "точки входа" (хотя... "How IT works" делает поиск в адресе, но для более-менее сложного сайта это будет неудобно или невозможно).
  • Дополнительные сложности с адресами картинок и навигации по сайту (броузер-то мерит все адреса относительно открытого документа, пусть даже из несуществующего адреса).
  • Напоследок: в этом выпуске я использовал кучу регулярных выражений, поэтому (и по просьбам читателей) обещаю в скором времени затронуть эту тему.

Имитация файлов и директорий. Часть 2

В прошлом выпуске я описал работу с ЧПУ ("человекопонятные УРЛы") через ошибку #404. Сам пользуюсь именно этой схемой. Но через день после публикации материала свой отзыв написал Константин Шевченко (aka cat) и предложил мне рассказать публике о других способах работы с адресами на сайте. Он же меня и консультировал.


В отзывы, так же написали, что это серьезно грузит систему. Да, грузит. И я об этом честно написал. И еще одна поправка: диалог в отзывах :

Посетитель: А интересно, что скажут поисковики на етот мнимый ErrorDocument?
Я: Поисковики считают такие адреса нормальными — они делят всё на 200 Ok и 404 Not Found. А остальное им по барабану.

Поисковики, конечно же, не делят все на 200 и 404. Они знают и другие коды сервера, просто никто не может проверить на уровне программ, существует ли документ, который прислал сервер или нет. Если код 200, значит существует и доступен. И ничего более.

Одна вещь, которую забыл описать в предыдущем выпуске — виртуальный файловый архив. Через ErrorDocument вполне возможно отслеживать запросы к несуществующей директории download и выдавать запрошенные файлы из базы, а администратор сайта мог бы работать с этим архивом через веб-форму. Чтобы правильно выдавать тип файла (content-type), нужно брать его тогда, когда его закачивает администратор. В таблице файлов сделать дополнительное поле, в котором хранить эти типы, и выдавать их в заголовке. Разумеется, произойдет снижение производительности сервера.

А теперь о том, что описал Костя. Перечислю способы по возрастанию сложности (порядок, впрочем, спорный).

Сервер ищет файл с тем же именем

Оказывается, достаточно прописать в установках директории (httpd.conf или .htaccess) строку Options Multiviews или, если директива Options уже есть, добавить MultiViews к ней. Тогда если пользователь набирает "<адрес директории>/foo/bar", сервер будет искать файл с именем "foo" и с любым расширением. Найденный с наибольшим совпадением (вот это для меня загадка) файл он обработает с его типом mime, то есть если есть news.php, а набран адрес news/, то сервер отдаст адрес на обработку php. Если это картинка, то сервер отдаст ее броузеру именно как картинку (послав соотвествующий заголовок content-type). А в news.php разбираем $REQUEST_URI. Например, если новости выводятся целой лентой, либо за определенную дату, разбор можно сделать таким:

/* Первый вариант — когда набран адрес типа "/news/010120", возможно с дробью на конце. 
//Символы ^ и $ здесь обозначают привязку к началу и концу строки. Подстрока [0-9]{6} 
//означает 6 цифр (если у вас новости могут быть датированы 1999-м годом и раньше, 
//используйте адреса с полным форматом года и 8 цифр вместо 6). */
if (ereg("^/news/([0-9]{6})$", $REQUEST_URI, $match) || 
ereg("^/news/([0-9]{6})/$", $REQUEST_URI, $match)) {

}

/* второй вариант — набран адрес просто "/news" или "/news/" */
elseif (ereg("^/news/$", $REQUEST_URI) || ereg("^/news$", $REQUEST_URI)) {

}

/* запросы ко всем остальным адресам (в этом файле) считаются попытками взлома сайта */
else
die ("Error 404 Not found");

То же самое можно сделать, например, с каталогом продукции фирмы — вынести все это дело в отдельный файл catalogue.php, а адреса сделать вида "/catalogue/rubrik1/rubrik2/rubrik3". При этом в файле catalogue.php начало строки будет откусываться, а дальше можно обработать по принципу, описанному в предыдущем выпуске. Остальное же можно отправить, опять же, в ErrorDocument.

Сервер разбирает запрос

Метод похожий, но на вскидку менее ресурсоемкий, потому что не приходится искать файлы по директории.

В установках директории (опять же httpd.conf или .htaccess) пишем:

<FilesMatch "^(news)$">
ForceType application/x-httpd-php
</FilesMatch>

В директории лежит файл с именем "news" (именно "news", без расширения). Когда запрашивается адрес "/news", либо "/news/bla-bla-bla", сервер выполняет файл news как php-скрипт. А внутри него производится обработка переменной $REQUEST_URI.

Чтобы не писать для каждого подобного файла свой блок FilesMatch, нужно немного изменить строку шаблона. Пусть сервер ищет файлы без расширения, то есть те, у которых в имени нет точки:

<FilesMatch "^([^\.]+)$">


Очень удобно! Когда-нибудь поставлю такое же и себе.

Сервер переписывает запросы

Очень полезная вещь mod_rewrite. Ею можно сделать все вышеописанное, и много другого.

К сожалению, моя битва с mod_rewrite не увенчалась успехом (Костя пишет, что нижеописанного достаточно для работы Rewrite Engine под Unix. У меня под win98 — ни в какую...). Поэтому описываю очевидные вещи и то, что описал Костя.

Для начала надо раскомментировать строку

LoadModule mod_rewrite <путь к модулю/имя файла>

в httpd.conf. В конфигурации директории пишем строку "RewriteEngine On". Затем — команду RewriteRule: RewriteRule <шаблон> <замена>

Например RewriteRule ^(.*).html$ /otherdir/$1.html (все без кавычек). Вот, собственно, и все. Все, что я так и не смог проверить : Я спросил у ясеня, я спросил у тополя, я спросил у форума... форум не ответил мне. (мелодично) Я спрошу у публики... На всякий случай, спрашиваю у уважаемой публики: как запустить Rewrite Engine под win98 se + apache/1.3.14 + php/4.0.4-Antonio (установлен как модуль) ?


А пока еще один пример (опять же от Шевченко):

RewriteEngine On
RewriteRule ^(.*).htm$ /portal/$1

<FilesMatch "(portal)$">
ForceType application/x-httpd-php
</FilesMatch>

Там лежит один файл с именем "portal", в который перенаправляются все запросы к html-файлам в данной директории. И получается, как будто там лежат файлы.

Напоследок вспомним Ленту.ру.

Носик говорит про ресурсоемкость их технологии: "Издательская машинка, написанная Максимом Евгеньевичем Мошковым, (который библиотека) интересна тем, что она весит около 60Kb"

Не знаю, что из себя представляет эта система (скорее всего, скомнилированный ), гадать не буду. Мне хотелось бы прикинуть, как динамическую адресацию можно реаизовать через php. Впрочем, тут не в нем дело — был бы Апач. Итак, схема адресов <рубрика>/<год>/<месяц>/<день>/<новость>. Если отрезать имя новости, получим материалы рубрики за день. Если отрезать день, месяц и год, получим последние материалы рубрики.

RewriteRule ^([a-z]+)/$ rubika_last/$1
RewriteRule ^([a-z]+)/([0-9]{4})/([0-9]{2})/([0-9]{2})/$ rubrika_date/$1/$2-$3-$4
RewriteRule ^([a-z]+)/([0-9]{4})/([0-9]{2})/([0-9]{2})/([a-z]+)/$ rubrika_news/$1/$2-$3-$4/$5

<FilesMatch "^rubrika">
ForceType application/x-httpd-php
</FilesMatch>

Преимущества этого метода по сравнению с единой точкой входа EerrorDocument очевидны: движок php интерпретирует только то, что будет выполняться. Никаких switch/case или if/elseif/else, никаких лишних строк.

Все остальное — отдаем ErrorDocument "как в предыдущей задаче"