Книга: Продвижение порталов и интернет-магазинов

Автоматическое создание контента

Автоматическое создание контента

Существует несколько способов автоматической и полуавтоматической генерации контента, причем каждый из них, в свою очередь, также допускает массу подходов и решений. Выбор того или иного способа зависит от типа контента, который должен получаться на выходе, требований к его качеству, тематики портала и множества других факторов.

Агрегирование. Предполагает создание контента на основе сбора и сопоставления данных из нескольких источников. Такой способ позволяет получить очень интересный и востребованный пользователями контент, однако в подавляющем большинстве случаев не в автоматическом, а в полуавтоматическом режиме. Доля ручного труда зависит от формы представления исходных данных, требований к контенту, а также качества программной части агрегатора.

Форма представления контента зачастую от нас не зависит. Если приходится собирать данные с веб-страниц множества сайтов, мы однозначно упремся в необходимость как минимум модерировать результаты. Идеальное решение в этом смысле – договориться с создателями контента и получить доступ к их базе данных или XML, но это подход не для всех. Так, например, если вы планируете создать агрегатор предложений туроператоров или оптовых продавцов каких-либо товаров, это реально. Если же перед вами стоит задача объединить информацию о предложениях сотен мелких фирм, возможности автоматизации будут сильно ограниченны, поскольку далеко не все они пойдут на контакт и пожелают представить данные в удобном для вас виде. В этом случае выходом может стать разработка универсального парсера.

Существенно снизить требования к качеству контента также не получится – за этим будут следить пользователи, с одной стороны, и алгоритмы поисковых систем – с другой. Если ваш агрегатор будет представлять неактуальные или недостоверные данные, а сервис в целом – иметь плохой дизайн и юзабилити, этим очень быстро воспользуются ваши конкуренты (вы далеко не единственный, кто купил эту книгу). Если ваши конкуренты предъявляют слишком низкие требования к качеству агрегированного контента, воспользуйтесь этим сами.

Ну и, наконец, качество программной части агрегатора. Это как раз то, на что вы можете и должны повлиять в первую очередь. Экономить на программном продукте не стоит – сэкономив на разработке эффективного инструмента, вы потеряете на оплате ручного труда, который мог быть автоматизирован. В мире нулей и единиц практически не существует ограничений, и поэтому вы можете совершенствовать ваши агрегаторы до бесконечности. С каждым обновлением они должны становиться все качественнее, а доля ручного труда в агрегировании – все ниже.

Рейтинги. Являются вариантом агрегированного контента, но вынесены в отдельную категорию в силу их значимости. Рейтинги пользователи любят – даже те, кто в принципе не доверяет им. Бывали случаи, когда своевременно опубликованный и довольно спорный рейтинг становился причиной долгих и очень бурных обсуждений, которые велись в том числе и на исходном сайте. Таким образом, агрегированный контент стал причиной появления большого объема контента пользовательского. Ну и, конечно, источником немалого числа естественных ссылок: очень многие пожелали высказаться в стиле «вы посмотрите, что они написали на site.ru».

Еще одним интересным приемом работы с рейтингами является создание большого количества тематических срезов и, как следствие, определение большого количества победителей. Обязательно добавьте возможность устанавливать на сайт информеры с указанием позиции в рейтинге, и в скором времени десятки, если не сотни проектов разместят на своих страницах ваш код. Звание «лучшего в рейтинге производителей банкеток в Саратове» будет для них неплохой рекламой, а вы получите множество естественных ссылок, небольшой трафик и повышенный интерес к рейтингу.

Линейки, карма, репутация. Линейки являются совершенно безумной и при этом очень эффективной разновидностью пользовательских рейтингов. Существуют сообщества, в которых линеечка с большими значениями чего-либо является показателем локального социального статуса. Такие линейки размещают в блогах, подписях различных форумов, социальных сервисах и т. п. Каждое такое размещение дает вам еще одну ссылку и очень небольшой, но постоянный приток трафика.

Примером эффективного использования подобных пользовательских рейтингов можно считать портал romanticcollection.ru. Продолжительность отношений и другие показатели, отражаемые на линейках, являются для пользователей этого ресурса предметом гордости и вызывают зависть у тех, чьи показатели заметно ниже. Это может казаться очень забавным, но портал действительно посещаем, а высокий ТИЦ – во многом результат вот такого рейтинга.

Карма или репутация – аналогичные линейкам рейтинги, которые используются на форумах для определения локального социального статуса пользователей. Хорошо продуманная форма начисления очков репутации побуждает многих пользователей писать больше и лучше и способствует формированию сообщества.

Следует отметить, что сами по себе пользовательские рейтинги не имеют прямого отношения к агрегаторам и автоматическому созданию контента – скорее их можно назвать приемами, которые позволяют повысить эффективность получения контента от пользователей. Я рассматриваю их тут, поскольку они являются своеобразной разновидностью рейтингов.

Генерирование на основе синонимов. Сегодня поисковые алгоритмы легко находят тексты, полученные путем применения линейных синонимайзеров, однако несколько более тонкие методы генерации контента на основе синонимов очень эффективны. Разумеется, таким образом можно получить только однородную информацию, например отзывы об отелях, описания сходных товаров и т. п. Этот тип получения контента также является полуавтоматическим, поскольку для создания исходных описаний все же необходим контентщик, причем имеющий неплохой слог и языковое чутье. Итоговые варианты должен просматривать и править редактор, при этом степень участия редактора обратно пропорциональна уровню исходных текстов. Впрочем, даже при значительных затратах на создание исходных формул и редактирование стоимость генерированного контента все равно на порядки меньше, нежели стоимость аналогичного контента, написанного вручную. При этом качество его получается достаточным для успешной индексации ранжирования по низкочастотным низкоконкурентным запросам.

Генерирование на основе технических и потребительских характеристик. Создание формул для генерирования на основе характеристик требует больших трудозатрат и привлечения грамотных контентщиков, но позволяет получить генерированный контент, качество которого сопоставимо с качеством контента, написанного вручную. Суть такого генерирования проста: в описании объекта используются его характеристики и выводы из них. Например, на основе характеристик кровати делаются следующие выводы:

? цена 28 000 рублей – «…идеальное сочетание цены и качества…», «…кровать средней ценовой категории…»;

? изготовлена из ДСП и МДФ – «…легкая и простая в сборке и разборке…»;

? хромированные стальные трубы – «…отлично впишется в любой современный интерьер…»;

? цвет «бук» – сочетается с отделкой и аксессуарами тех или иных цветов;

? два жестких матраса в комплекте – «…не придется покупать матрасы…», «…жесткие матрасы полезны для позвоночника…»;

? входит в серию «буковая спальня» – «…при необходимости вы можете также приобрести другие предметы мебели, включая…» (список товаров).

Полученные формулы могут и должны быть подвергнуты размножению на основе синонимов, а затем результаты генерирования необходимо проверить вручную. Текст, сгенерированный таким образом, будет не только осмысленным и пригодным для чтения, но и в определенной степени полезным для пользователя. При этом трудозатраты на его производство будут на порядок ниже, чем у авторских текстов, даже с учетом обязательной ручной проверки результатов.

Рассмотрим пример автоматизации генерации контента. Необходимо сгруппировать товарные категории на сайте, объединив похожие группы между собой по схожести качеств, характеристик и области применения. Так, например, в одну группу нужно объединить гидроциклы туристические, спортивные и стоячие. Для каждой группы необходимо составить перечень качеств, характеризующих товар, впоследствии на его основании мы будем формировать описания карточек товаров. Получаем из базы данных полную информацию о характеристиках, известных для всех моделей. При генерации можем использовать информацию из базы данных, формулы и словарные базы, составленные копирайтерами. Для каждой переменной отбираем возможные варианты содержания, после чего описываем варианты формул генерации контента для каждой группы. Для примера составим формулу на основании известных нам данных:

[Модель] + [Подкатегория] + [Число мест] + [Двигатель] + [Мощность] + [Корпус] + [Багажник] + [Оборудование] + [Цвет] + [Цена].

? [Модель] = [Подкатегория] + [Товарная категория] + [Марка] + [Модель] – спортивный гидроцикл BRP SeaDoo RXT 260.

? [Подкатегория] = a1 + x1 – предназначен для агрессивного катания (a1 – словарная база, x1 – словарная база, зависит от значения подкатегории).

? [Число мест] = а2 + х2 + b2 – на нем легко могут уместиться трое взрослых людей (а2, b2 – словарная база, х2 – количество мест).

? [Двигатель] = а3 – оборудован 4-тактным двигателем (а3 – словарная генерация, зависит от типа двигателя).

? [Мощность] = с мощностью + х4 + b4 – с мощностью 260 л. с, что делает эту модель одной из самых резвых в линейке гидроциклов BRP.

? [Корпус] = а5 + х5 + b5 + с5 – при производстве корпуса использовался композитный материал, прочный и надежный

? [Багажник] = а6 + х6 + b6 – объем багажника 52 л, туда может поместиться что угодно.

? [Оборудование] = [Модель] + а7 + x7n + a7n + x7m + a7m + x7l + a7l – оборудован электрическим стартером, на нем есть информационный центр, датчик топлива, незаменимый при длинных рейдах, спидометр, помогающий не разгоняться слишком быстро (в этом случае значение n, т, 1 выбирается рандомно из списка, к нему автоматически подставляются соответствующие словарные описания).

? [Цвет] = а8 + х8 + b8 – гидроцикл выполнен в корпусе желтого цвета.

? [Цена] = а9 + b9 + х9 – относится к премиум-классу, стоимость 769 000 руб.

Все словарные генерации описывает копирайтер. Он подбирает несколько вариантов определений или целых предложений так, чтобы они гарантированно сочетались друг с другом и вписывались в общее описание. Оптимизатор составляет несколько формул на каждый раздел, формулы могут предусматривать рандом как при заполнении элементов, так и при употреблении блоков. Например, можно менять их местами или использовать иногда. Количество формул и словарных генераций рассчитывается таким образом, чтобы каждый текст оказался уникальным более чем на 70 %, если мерить по пассажам, разбиваемым на предложения. Формулы тестируются на тестовом сайте, редактируются и выкладываются на основное зеркало. Рекомендуемый объем контента – более 500 знаков.


Оглавление книги


Генерация: 1.172. Запросов К БД/Cache: 3 / 0
поделиться
Вверх Вниз