Главная / Библиотека / Интернет-разведка. Руководство к действию /
/ Как в точности сохранить информацию, найденную на сайтах в Интернете


Книга: Интернет-разведка. Руководство к действию

Как в точности сохранить информацию, найденную на сайтах в Интернете

закрыть рекламу

Как в точности сохранить информацию, найденную на сайтах в Интернете

Периодически специалист конкурентной разведки сталкивается с необходимостью сохранения информации, найденной в Интернете. Это требуется, как правило, в целом ряде случаев.

– Когда нет времени внимательно изучать собранный материал, но хотелось бы к нему вернуться позже.

Когда есть вероятность, что страница будет изменена (например, в случае размещения на ней компрометирующей информации, либо утечки данных, либо если речь идет о странице новостей компании). Тогда, чаще всего, необходимо не просто зафиксировать изображение, размещенное на ресурсе, но и заверить его нотариально. И в крупных городах уже появились нотариусы, которые могут справиться с такой задачей.

Когда вместе с данными требуется предоставить сырой материал – на случай, если понадобится объяснить, на каком основании были сделаны те или иные выводы.

Когда компания составляет архив сайтов – свой или посторонней организации – с целью мониторинга изменений на копоративном портале и хочет иметь возможность поднять этот архив за любой период.

Когда архивная копия делается «на будущее» без явной цели, но специалист конкурентной разведки считает, что нетекстовая информация с сайта может пригодиться ему в будущем.

Вот основные способы создания архивных копий внешнего вида страниц сайтов.

1. Сохранение страницы из браузера штатными средствами операционной системы.

Для этого достаточно в верхней панели браузера выбрать команды «Файл» > «Сохранить как» и задать имя файла. Как правило, страница сохраняется в виде файла и связанной с ним папки. В случае если, например, документ будет случайно переименован в неоткрытом состоянии, потеряется его связь с папкой. Нам известно также немало случаев, когда папка просто случайно стиралась, что также лишало возможности полноценно просматривать содержимое страницы.

2. Сохранение страницы с помощью текстового процессора Word.

Содержимое страницы сначала копируется в буфер (например, с помощью последовательности команд «Правка» > «Выделить все» > «Правка» > «Копировать»). Затем открывается программа Word, в нее скопированная страница вставляется из буфера с помощью команд «Правка» > «Вставить».

Такой метод при всей простоте исполнения не лишен недостатков. Во-первых, страница, снабженная гиперссылками, достаточно долго вставляется из буфера в документ Word. Во-вторых, результат довольно сильно оличается от оригинала, и в первую очередь страдает взаимное расположение текста, таблиц и изображений на странице, так как Word не вполне корректно отображает таблицы. На сленге специалистов это обычно называется «Слетели таблицы», поскольку самое сложное в создании страниц – это расположение таблиц, текста и изображений таким образом, чтобы их компоновка на странице совпадала с первоначальным замыслом.

3. Создание PDF-файла из веб-страницы.

Для того, чтобы сделать pdf-файл, требуется программа Adobe Acrobat Professional (не следует путать ее с бесплатной программой Acrobat Reader, предназначенной только для чтения pdf-файлов, а не для их создания и изменения). Сайт программы Adobe Acrobat Professional находится по адресу http://www.adobe.com/products/ acrobatpro/main.html.

Это достаточно удобный метод сохранения веб-страниц, который можно рекомендовать к практическому применению. Изображение при использовании Adobe Acrobat Professional получается корректным. Существенный минус данного решения – цена программы, достигающая нескольких сотен долларов. Кроме того, иногда случается так, что на некоторых страницах Интернета возникают проблемы с кодировкой и это делает конечный текст нечитаемым.

Избежать последней проблемы поможет следующее решение. Не следует пользоваться встроенной функцией и назначать адрес сохраняемой страницы непосредственно в меню программы Adobe Acrobat Professional, потому что именно в этом случае чаще всего и возникает проблема кодировок. Вместо этого, следует открыть страницу в браузере Internet Explorer и воспользоваться встроенным в него плагином Adobe Acrobat Professional. Тогда страница будет отображена корректно, разве что может смениться тип шрифта – например, вместо шрифта Arial, содержащегося на странице, в PDF-файле окажется Times New Roman. Официальное представительство компании Adobe пытается научить пользователей преодолевать проблему с отображением шрифтов: для этого надо попытаться изменить настройки программы, – однако сделать это максимально доступно ему пока не удалось. Даже элементарное объяснение способа занимает несколько минут, так что воплотить его в жизнь неподготовленному пользователю непросто. Именно поэтому мы применяем приведенный выше метод, а не тот, который пытаются популяризировать в официальном представительстве.

4. Сохранение всей картинки в Local WebSite Archive.

Сайт программы Local Website Archive находится по адресу http://www.aignes. com/wsarc/.

Пожалуй, это оптимальный способ сохранения интернет-страниц на персональном компьютере. Программа Local Website Archive абсолютно бесплатна, проста в обращении и сохраняет страницу в том виде, в котором вы ее видите на экране своего компьютера. Поскольку программа выпускается тем же производителем, что и WebSite Watcher, она может запускаться прямо из браузера, с кнопки WebSite Watcher. За все время пользования программой мы лишь однажды были свидетелями того, что она столкнулась с проблемой кодировки. Как раз в том случае проблема была решена с помощью встроенного в браузер плагина Adobe Acrobat Professional.

5. Воспользоваться описанным ранее сервисом FURL, который позволяет создать в Интернете копию страницы.

Как мы уже показывали, сервис FURL, расположенный по адресу http://www. furl.net/view.jsp, позволяет бесплатно создать и сохранить копию веб-страницы непосредственно в Интернете, что делает ее доступной буквально из любой точки и с любого компьютера.

6. Перенос страницы чужого сайта на свой сайт.

Для того, чтобы сохранить страницу подобным образом, достаточно вывести на экран компьютера в браузере функцию «Просмотр исходного кода страницы», а затем скопировать код на страницу своего ресурса, расположенную в недоступной для просмотра пользователями Интернета части этого ресурса. Как мы уже говорили, просмотр исходного кода возможен обычно с помощью всплывающего меню при нажатии правой кнопки мыши на свободном месте окна браузера.

Однако такой метод при его использовании на бесплатных хостингах таит в себе потенциальную опасность. Дело в том, что сайты, размещенные на narod. ru, немедленно индексируются и могут быть уже на следующий день обнаружены встроенными средствами поиска, даже если они не появляются в информационных системах, в том числе и в Яндексе. Отсюда следуют две практические рекомендации:

– не забывать пользоваться встроенным в «narod» средством поиска при запросе чужой информации, в дополнение к инструментам поисковиков;

– не сохранять на свой сайт с бесплатным хостингом страницы, которые не должны быть доступны посторонним людям.

7. Сфотографировать экран или его элементы.

Для того, чтобы сфотографировать весь экран целиком, подойдет встроенная функция Print Screen. Но этот метод не позволяет сделать снимок фрагмента экрана.

Фрагмент любого размера можно получить с помощью программы HyperSnap-DX 5, расположенной по адресу http://www.hyperionics.com/. Там же находится программа HyperCam, которая позволяет заснять все, что происходит на экране, в виде видеоролика.

Кроме того, существует большое количество сервисов, с помощью которых можно закачать сайт целиком, вместе со всеми взаимными ссылками страниц. Мы не рассматриваем здесь эти программы, поскольку нас интересует прицельное сохранение нужных источников информации, однако при необходимости читатель без труда найдет их в Интернете. Перед загрузкой себе этих программ обязательно почитайте отзывы пользоватеей, чтобы не столкнуться с типичными проблемами, поскольку некоторые из приложений по закачке сайтов делают это подчас некорректно, тогда как трафик все они расходуют исправно.

Оглавление книги

Оглавление статьи/книги
Реклама

Генерация: 0.882. Запросов К БД/Cache: 4 / 1
поделиться
Вверх Вниз