clustering

Кластеризатор запросов Яндекс директ

Как с ней работать?

Из любого источника (кейколлектор, словоёб, акварикс) создайте файл с запросами clasters.txt и поместите в каталог программы. Формат - текстовый файл с разделителями между полями табуляция. Первая колонка - запрос, вторая колонка - частотность. Остальные не важно. Программе не важно сколько будет слов в запросе она обработает первые 8. При таком раскладе давать запросы длиннее 8 слов не рекомендуется т.к. слова будут теряться
Запустите файл лемматизатор_копырина.exe При первом запуске программы будет создана словарь с леммами из файла diclemmas.txt. Файл diclemmas.txt будет переименован в diclemmas.txt-old Можете изменить файл diclemmas.txt что бы леммы были написаны по другому и запустить программу. Программа очистит словарь лемм и заполнит ее снова из файла.
Дождитесь окончания работы программы ( clasters.txt будет переименован в clasters.txt-old, будут созданы файлы: clasters-long.txt со всеми ключами clasters-short.txt только с вершинами групп (максимальная частотность у фразы из группы) clasters-minus.txt c ключами которые не участвуют в кластеризации. Они а) содержат минус слова б) содержат более 8 слов words.txt В нем находится список слов которые были в запросах lemmas.txt - В нем находится список лемм которые были в запросах
Отройте любым редактором файл words.txt (например Notepead++)
Откройте любым редактором файл minus.txt. В нем находятся минус слова - слова с которыми запросы не будут использованы для организации групп и будут убраны из списка запросов. Сейчас там уже находятся слова пошлой тематики. По списку из файла words.txt перенесите туда слова которые вы считаете неприемлимыми в запросах по вашей теме.
Выберите файл clasters-long.txt или clasters-short.txt и переименуйте его в clasters.txt
Еще раз запустите программу Сделайте так несколько раз пока не уберете все минус слова.
Выберите начиная с конца списка слова с чатотой запросов от 1 до 10. Скопируйте их в буфер Windows.
Откройте любым редактором файл pretext.txt. В нем находятся слова которые не участвуют в создании групп слов. В нем уже находятся названия городов, мужские и женские имена, названия областей. Из буфера обмена поместите туда малоиспользуемые слова что бы не было длинных названий групп.
Еще раз запустите программу Сделайте так несколько раз пока не уберете все лишние слова из названия групп.
Откройте файл clasters-short.txt и посмотрите результат работы. Удобно это сделать в Excel Полученный результат запросов можно поместить в Прогноз бюджета Яндекс директ и оценить стоимость каждого запроса и стоимость компании в целом. Если цена запроса не очень высока то группы можно укрупнить что позволяет сэкономить время на написании текстов объявлений.

Достоинства

Скорость работы
Количество обрабатываемых запросов (в базу можно поместить 2,5 миллиона запросов одновременно)
Словарь лемм содержит ~ 3,5 млн словоформ.
Программу не нужно устанавливать - можно просто скопировать Возможно работать с разными компаниями в разных каталогах
Точность группировки вы выбираете сами. От 1 слова до минимального количества групп (используйте файл pretext.txt)
Вы можете использовать минус слова сразу для рекламной компании - просто скопируйте их из файла minus.txt

Проект сделан на Visual foxPro 9.0 для работы ему необходимы следующие файлы: GdiPlus.dll vfp9r.dll VFP9RENU.DLL vfp9t.dll

Эти файлы можно взять из проекта "Энциклопедия о Высоцком В.С." https://github.com/kopyrin/Encyclopedia_of_Vysotsky Файлы *.dll можно поместить в каталог указанный в переменной PATH ОС Windows и использовать 1 копию для всех проектов

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
README.md		README.md
clasters.txt		clasters.txt
diclemms.7z		diclemms.7z
main.prg		main.prg
minus.txt		minus.txt
pretext.txt		pretext.txt
txt.zip		txt.zip
кластеризатор_копырина.exe		кластеризатор_копырина.exe

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

clustering

About

Releases

Packages

Languages

kopyrin/clustering

Folders and files

Latest commit

History

Repository files navigation

clustering

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages