Кластеризатор запросов Яндекс директ
Как с ней работать?
-
Из любого источника (кейколлектор, словоёб, акварикс) создайте файл с запросами clasters.txt и поместите в каталог программы. Формат - текстовый файл с разделителями между полями табуляция. Первая колонка - запрос, вторая колонка - частотность. Остальные не важно. Программе не важно сколько будет слов в запросе она обработает первые 8. При таком раскладе давать запросы длиннее 8 слов не рекомендуется т.к. слова будут теряться
-
Запустите файл лемматизатор_копырина.exe При первом запуске программы будет создана словарь с леммами из файла diclemmas.txt. Файл diclemmas.txt будет переименован в diclemmas.txt-old Можете изменить файл diclemmas.txt что бы леммы были написаны по другому и запустить программу. Программа очистит словарь лемм и заполнит ее снова из файла.
-
Дождитесь окончания работы программы ( clasters.txt будет переименован в clasters.txt-old, будут созданы файлы: clasters-long.txt со всеми ключами clasters-short.txt только с вершинами групп (максимальная частотность у фразы из группы) clasters-minus.txt c ключами которые не участвуют в кластеризации. Они а) содержат минус слова б) содержат более 8 слов words.txt В нем находится список слов которые были в запросах lemmas.txt - В нем находится список лемм которые были в запросах
-
Отройте любым редактором файл words.txt (например Notepead++)
-
Откройте любым редактором файл minus.txt. В нем находятся минус слова - слова с которыми запросы не будут использованы для организации групп и будут убраны из списка запросов. Сейчас там уже находятся слова пошлой тематики. По списку из файла words.txt перенесите туда слова которые вы считаете неприемлимыми в запросах по вашей теме.
-
Выберите файл clasters-long.txt или clasters-short.txt и переименуйте его в clasters.txt
-
Еще раз запустите программу Сделайте так несколько раз пока не уберете все минус слова.
-
Выберите начиная с конца списка слова с чатотой запросов от 1 до 10. Скопируйте их в буфер Windows.
-
Откройте любым редактором файл pretext.txt. В нем находятся слова которые не участвуют в создании групп слов. В нем уже находятся названия городов, мужские и женские имена, названия областей. Из буфера обмена поместите туда малоиспользуемые слова что бы не было длинных названий групп.
-
Еще раз запустите программу Сделайте так несколько раз пока не уберете все лишние слова из названия групп.
-
Откройте файл clasters-short.txt и посмотрите результат работы. Удобно это сделать в Excel Полученный результат запросов можно поместить в Прогноз бюджета Яндекс директ и оценить стоимость каждого запроса и стоимость компании в целом. Если цена запроса не очень высока то группы можно укрупнить что позволяет сэкономить время на написании текстов объявлений.
Достоинства
- Скорость работы
- Количество обрабатываемых запросов (в базу можно поместить 2,5 миллиона запросов одновременно)
- Словарь лемм содержит ~ 3,5 млн словоформ.
- Программу не нужно устанавливать - можно просто скопировать Возможно работать с разными компаниями в разных каталогах
- Точность группировки вы выбираете сами. От 1 слова до минимального количества групп (используйте файл pretext.txt)
- Вы можете использовать минус слова сразу для рекламной компании - просто скопируйте их из файла minus.txt
Проект сделан на Visual foxPro 9.0 для работы ему необходимы следующие файлы: GdiPlus.dll vfp9r.dll VFP9RENU.DLL vfp9t.dll
Эти файлы можно взять из проекта "Энциклопедия о Высоцком В.С." https://github.com/kopyrin/Encyclopedia_of_Vysotsky Файлы *.dll можно поместить в каталог указанный в переменной PATH ОС Windows и использовать 1 копию для всех проектов