Книга: Интернет-разведка. Руководство к действию
Четыре типа невидимости в Интернете
Четыре типа невидимости в Интернете
Традиционно выделяют четыре типа невидимости содержимого Всемирной Паутины, сформулирванные Крисом Шерманом и Гэри Прайсом.
1. Невидимость, обусловленная настройками пауков и их естественными особенностями (так называемый, «серый Интернет»). «Серый Интернет» имеет несколько возможных вариантов.
Ограничение глубины проникновения паука на сайт, настроенное владельцами поисковой машины.
Изменения страниц, происходящие уже после посещения страницы пауком.
Ограничение максимального количества показанных в выдаче страниц.
Если, например, Яндекс в выдаче представил пять тысяч страниц, то посмотреть более одной тысячи не удастся – он их просто не покажет. Во всяком случае, так обстояло дело на момент написания книги. Исправить ситуацию можно за счет использования операторов запросов. В результате, количество страниц в выдаче уменьшится, с одновременным увеличением релевантности.
1.4.Страницы, не прописанные в форме «Добавить страницу» и не имеющие ссылок с других адресов.
В мае 2000 г. IBM провела исследования, показавшие, что количество таких страниц, неизвестных поисковым системам, достигает 20 % от общего числа адресов, которые могли бы быть проиндексированы с технической точки зрения.[5]
2. Страницы, намеренно исключенные вебмастером из индексации.
К ним как раз и относятся ресурсы, защищенные паролем или включенные в файл robots.txt либо убранные под тег <noindex>.
3. Страницы, которые требуют регистрации.
В Интернете есть ресурсы, доступные бесплатно любому человеку, который для входа на страницу должен нажать кнопку «Я согласен»: это свидетельствует о его согласии с условиями посещения сайта. Иногда вместо такого выражения согласия требуется заполнить какие-то регистрационные формы. Паук не умеет выполнять подобные действия, и потому не попадает на сайт.
4. Действительно невидимый Интернет.
Страница содержит данные в формате, недоступном поисковым машинам.
Страницы намеренно не обслуживаются поисковыми машинами по тем или иным причинам.
Информация хранится в базе данных и доступ к ней возможен лишь при условии заполнения определенной формы.
- Причины существования невидимого Интернета
- Ограничения возможностей поисковых машин
- Типы контента в невидимом Интернете
- Примеры поведения поисковой машины при посещении страницы в Интернете
- Четыре типа невидимости в Интернете
- Особенности построения адресов некоторых страниц Интернета
- Преимущества невидимого Интернета
- Когда использовать невидимый Интернет
- Плюсы и минусы директорий как способа поиска информации в Интернете
- Основные категории невидимого Интернета
- Чего вообще обычно не бывает в Интернете
- Использование CAST() с типами дата
- УПРАВЛЕНИЕ РЕПУТАЦИЕЙ В ИНТЕРНЕТЕ
- Перегрузка методов с несколькими параметрами типа
- Создание столбцов и работа с типами содержимого
- Глава 4 Реклама в Интернете
- Приложение 3 Производители компьютерного оборудования в Интернете
- Пропуск параметров типа
- Глава 6 Серфинг в Интернете
- Для работы в Интернете мне надо использовать какой-то «прокси». Как это сделать?
- Как искать информацию в Интернете?
- Я слышал, что в Интернете можно заниматься самообразованием. На каких сайтах?
- Можно ли читать книги в Интернете?