Воспрепятствование автоматизированному миррорингу Веб-узла < Полезные советы < Web-Мастеру

Новые книги

Coders at Work: Reflections on the craft of programming

Peter Seibel

interviews 15 of the most interesting computer programmers alivetoday in

, offering a brand-new companion volume to Apress’shighly acclaimed best-seller

by Jessica Livingston. As thewords “at work” suggest, Peter Seibel focuses on how his interviewees tacklethe day-to-day work of programming, while revealing much more, like how theybecame great programmers, how they recognize programming talent in others, andwhat kinds of problems they find most interesting.

Coders at Work

Founders at Work

От идеи до прибыли. Система продаж через интернет

Эта книга – учебное пособие по созданию и ведению интернет-бизнеса. В ней рассказывается о том, что такое интернет-проект, какие существуют виды и структуры интернет-проектов. Вы ознакомитесь с новыми бизнес-моделями; узнаете, как выбрать нишу, которая будет востребованной и принесет прибыль; научитесь составлять структуру продающего сайта, работать с трафиком и запускать email-рассылку. Кроме того, книга подскажет, как создать команду и каким должен быть менеджер по продажам в вашем бизнесе. В конце книги вы найдете советы и рекомендации по масштабированию и автоматизации онлайн-бизнеса, которые помогут вам так организовать бизнес, чтобы он увеличивал оборот и отлично работал без вашего непосредственного участия.

Поэтому читайте и применяйте! И тогда мы скажем вам: «Добро пожаловать в ряды успешных интернет-предпринимателей!»

Воспрепятствование автоматизированному миррорингу Веб-узла

Версия для печати

Воспрепятствование автоматизированному зеркалированию Веб-узла

Некоторое время назад в рассылке Apache-Talk была дисскуссия, переросшая в сильнофилософские рассуждения о невозможности полной защиты узла от скачивания с доказательствами и т.п., что говорит о хорошем уровне академического образования уважаемых коллег по майл-листу...

Интересное наблюдение как-то мне поведал один из работающих у нас мужичков: "Если дать.... ну нерешаемую задачу студенту (выпускнику) МГУ (в его случае МехМат) и ФизТеха, то (с большой вероятностью) МГУ'шник начнет доказывать невозможность решить задачу, а ФизТех'овец начнет пытаться ее решить. Пусть не на всех возможных значениях параметров, но все же... ау, МехМат! И хоть сам я являюсь представителем школы МГУ (правда, не МехМат а ВМиК), попробую (хоть тут) чуток поопровергнуть такое мнение относительно родной Альма-матер.

Врочем, извините за столь длинное вступление. Итак, хочу немножко поделиться мыслями (возникшими в связи со вчерашней бессонницей) на тему "воспрепятствование автоматизированному миррорингу Веб-узла".

1. JavaScript. До чего ж люблю я Netscape... такую классную штуку придумали. А подлый Microsoft его передрал - а когда пишешь, что MS JavaScript не совместим с оригинальным - отписывают: "У нас, мол, не JavaScript, а JScript." Почувствуйте разницу.

Итак, как мы обычно описываем ссылки?

<a href='file.html'>Ссылка</a>.

А кто сказал, что это единственный способ их описания? Вот почти тоже самое:

<a href='javascript:document.location =
 "file.html"'>Ссылка</a>

Каюсь, таким образом отсекаются пользователи Lynx'а и некоторых браузеров, не поддерживающих JavaScript. Но если человеку сильно нужно посмотреть сайт, то он запустит-таки Netscape. А в связи с тем, что сайт хотят смироррить, вероятность этого "нужно" довольно высока.

Конечно, можно научить wget брать подобные ссылки. Но можно ведь пойти дальше:

<script> Link = 'file.html' </script>
...
<a href='javascript:document.location = Link'
>Ссылка</a>

Кроме того - а кто сказал, что ссылки необходимо размещать явно в теле документа:

<script> document.write(unescape('%3C') + 'a hr' +
'ef="file.html">' + 'Ссылка' + unescape('%3C') + '/a>')
 </script>

Понятное дело, этим дело далеко не ограничивается, и тут уже приходится писать wget, который занимается интерпретацией JavaScript. Причем не как статический JavaScript, а динамический (где-то в конце документа):

<script> setTimeout
('Link = "file1.html"', 1000) </script>

Пойди догадайся, что и в какой момент будет в переменной Link. Решениеи идти по всем возможным значениям переменных натыкается на такой веселый код:

<script>

function a()
{
  if (confirm('Are you stupid?')) while(1)
   do_nothing();
  location = 'file.html';
}
...
<a href='javascript:a()'>Ссылка</script>

Как думаете, чем будет заниматься такой интеллектуальный wget?

Таким образом, грамотное использование JavaScript практически решает задачу. Задача написания столь высокоинтеллектуального wget'а, на мой взгляд, настолько дорогостоящая, что никто этим заниматься не будет.

2. "Добрые ссылки". Напишем простенький CGI (поклонники Perl'а не бить! Ну не силен я в Perl'е):

// surprise.c ==> surprise.cgi
#include <stdio.h>
#include <stdlib.h>

main()
{ 
  int i = 0;

  if (getenv("QUERY_STRING")) i = atoi(getenv(
  "QUERY_STRING"));

  printf("Content-type: text/html");
  printf("\n");
  printf("<a href='surprise.cgi?%d'>%d</a>\n", i, i);
}

При вызове 'surprise.cgi' он выдает ссылку на 'surprise.cgi?1', тот в свою очередь на 'surprise.cgi?2' .... "У попа была собака". Как думаете, за сколько умный wget выкачает такую ссылку?

Только не говорите, что wget не будет качать CGI. Никаких нет проблем (с помощью аккуратной настройки Apache "ErrorDocument 404" и nph-CGI) сделать директорию, при обращении к которой последовательно выдаются ссылки на '1.html', '2.html' ...

Проблема так-же не решается ограничением глубины поиска для wget'а. Никто не мешает модифицировать предыдущий вариант так, чтоб при обращинии к файлу с любым именем в данной директории выдается HTML содержищий 10 (100) ссылок на файлы с произвольными именами в той-же директории. При глубине скачивания три (что явно недостаточно ) wget'у придется скачать с сайта 100 + 100*100 + 100*100*100 файлов. Не знаю, сколько времени ему, бедолаге, на это потребуется.

Наводните документы ссылками типа

<a href='surptise.cgi'>Don't click this link!!!</a>

или

<a href='/surprise/xmm.html'><img src='1x1.gif'
 border=0 heigth=1 width=1></a>

и wget будет бессилен... где-то в Инете я видел сайт, который генерирует N (задается пользователем через форму) килобайт почти связанного русского текста. Сгенерите такой текст, разбавив его ссылками в '/surprise/' ...

Подведу некоторые итоги. Никто не говорит о теоретическом решении этой задачи. Теоретически можно скачать все. Практически же... Теоретически можно поставить друг на дружку 10 яиц. Практически... да хоть одно поставьте! Разве что Наполеон (поправьте меня, если это не он) решил эту задачу надломом яйца :-)) Да, можно яйцо поставить на конец раскрутив его (surprise.cgi, href='javascript:location=..'), а 10 уже никак не поставишь.... хотя это и возможно теоретически.

Проблема, как мы видим, решается довольно простыми методами. Никто не говорит об абсолютном запрещении мирроринга. Но очень сильно подпортить кровь желающим это сделать можно элементарно, что делает задачу оного мирроринга практически невыполнимой и малорентабельной.

Оглавление