Skip to content

кластеризатор запросов Яндекс директ

Notifications You must be signed in to change notification settings

kopyrin/clustering

Repository files navigation

clustering

Кластеризатор запросов Яндекс директ

Как с ней работать?

  1. Из любого источника (кейколлектор, словоёб, акварикс) создайте файл с запросами clasters.txt и поместите в каталог программы. Формат - текстовый файл с разделителями между полями табуляция. Первая колонка - запрос, вторая колонка - частотность. Остальные не важно. Программе не важно сколько будет слов в запросе она обработает первые 8. При таком раскладе давать запросы длиннее 8 слов не рекомендуется т.к. слова будут теряться

  2. Запустите файл лемматизатор_копырина.exe При первом запуске программы будет создана словарь с леммами из файла diclemmas.txt. Файл diclemmas.txt будет переименован в diclemmas.txt-old Можете изменить файл diclemmas.txt что бы леммы были написаны по другому и запустить программу. Программа очистит словарь лемм и заполнит ее снова из файла.

  3. Дождитесь окончания работы программы ( clasters.txt будет переименован в clasters.txt-old, будут созданы файлы: clasters-long.txt со всеми ключами clasters-short.txt только с вершинами групп (максимальная частотность у фразы из группы) clasters-minus.txt c ключами которые не участвуют в кластеризации. Они а) содержат минус слова б) содержат более 8 слов words.txt В нем находится список слов которые были в запросах lemmas.txt - В нем находится список лемм которые были в запросах

  4. Отройте любым редактором файл words.txt (например Notepead++)

  5. Откройте любым редактором файл minus.txt. В нем находятся минус слова - слова с которыми запросы не будут использованы для организации групп и будут убраны из списка запросов. Сейчас там уже находятся слова пошлой тематики. По списку из файла words.txt перенесите туда слова которые вы считаете неприемлимыми в запросах по вашей теме.

  6. Выберите файл clasters-long.txt или clasters-short.txt и переименуйте его в clasters.txt

  7. Еще раз запустите программу Сделайте так несколько раз пока не уберете все минус слова.

  8. Выберите начиная с конца списка слова с чатотой запросов от 1 до 10. Скопируйте их в буфер Windows.

  9. Откройте любым редактором файл pretext.txt. В нем находятся слова которые не участвуют в создании групп слов. В нем уже находятся названия городов, мужские и женские имена, названия областей. Из буфера обмена поместите туда малоиспользуемые слова что бы не было длинных названий групп.

  10. Еще раз запустите программу Сделайте так несколько раз пока не уберете все лишние слова из названия групп.

  11. Откройте файл clasters-short.txt и посмотрите результат работы. Удобно это сделать в Excel Полученный результат запросов можно поместить в Прогноз бюджета Яндекс директ и оценить стоимость каждого запроса и стоимость компании в целом. Если цена запроса не очень высока то группы можно укрупнить что позволяет сэкономить время на написании текстов объявлений.

Достоинства

  1. Скорость работы
  2. Количество обрабатываемых запросов (в базу можно поместить 2,5 миллиона запросов одновременно)
  3. Словарь лемм содержит ~ 3,5 млн словоформ.
  4. Программу не нужно устанавливать - можно просто скопировать Возможно работать с разными компаниями в разных каталогах
  5. Точность группировки вы выбираете сами. От 1 слова до минимального количества групп (используйте файл pretext.txt)
  6. Вы можете использовать минус слова сразу для рекламной компании - просто скопируйте их из файла minus.txt

Проект сделан на Visual foxPro 9.0 для работы ему необходимы следующие файлы: GdiPlus.dll vfp9r.dll VFP9RENU.DLL vfp9t.dll

Эти файлы можно взять из проекта "Энциклопедия о Высоцком В.С." https://github.com/kopyrin/Encyclopedia_of_Vysotsky Файлы *.dll можно поместить в каталог указанный в переменной PATH ОС Windows и использовать 1 копию для всех проектов

About

кластеризатор запросов Яндекс директ

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages