Построение системы рекомендаций, на основе текстов

☰ Оглавление

С помощью Python, scipy, sklearn и nltk можно легко построить волне рабочую систему рекомендаций. Даже с учётом русской морфологии.

Здесь, чтобы не быть голословным и не ходить далеко за примерами, я покажу, как работает система рекомендаций на примере этого сайта.

Приготовления

Исходные тексты сайта у меня живут в markdown-формате. То есть, уже текстовые. Поэтому я просто создал (с помощью утилиты find) список всех файлов, подлежащих анализу в файле LIST.

Какие модули нам понадобятся

Поддержка русского языка тут уже есть «из коробки».

Код и комментарии

Собственно, код на столько прост, что комментировать особо нечего. sklearn.feature_extraction.text предоставляет готовый инструмент для подсчёта количества слов в тексте — CountVectorizer. Он позволяет загрузить много документов, создаёт единый словарь из всех найденных слов и для каждого слова и документа создаёт счётчик. Таким образом, на выходе мы получаем список всех слов (их называют факторами), и матрицу из счётчиков. Вы можете раскомментирвоать два print-а и посмотреть на результат.

Хитрость тут только в том, что мы добавили преобразование слов в корни. Суть очень проста:

Мы отнаследовались от класса CountVectorizer и добавили функциональность выделения корней.

Как видите, расстояние между текстами мы считаем, как Евклидово расстояние, между соответствующими точками. (Да-да: scipy.linalg.norm считает обычный корень из суммы квадратов. Единственное, это можно было сделать эффективней. Я оставил более наглядное решение, чтобы вам легче было играться с кодом.)

Нормализация очень важна. Она позволяет сделать вклады разных факторов соразмерными. В нашем случае, она позволяет нивелировать разницу в длинах документов. Попробуйте её устранить и вы сразу увидите разницу.

Мы выбираем один документ (target). Считаем расстояния от него до остальных, сортируем по расстоянию и печатаем результат.

Результаты работы

Попробуем рассмотреть документ, посвящённый нитям в Python: «Нити в Python»:

Как и раньше, мы оставили только те документы, расстояние до которых меньше 1.2.

Думаю, достаточно, чтобы вы могли походить по страницам и оценить качество поиска.

Естественно, результаты приведены на момент выполнения скрипта. Что-то могло измениться, дополниться… Эта заметка, естественно, в анализе не участвовала.

Что можно улучшить

Хотя эта система рекомендаций выдаёт вполне вменяемый результат (я даже подумываю, не прикрутить ли эти рекомендации к каждой странице сайта), всё же, она не лишена недостатков.

Это тот минимум, который абсолютно необходим. Но в зависимости от конкретной ситуации, у вас могут быть другие дополнительные факторы, которые полезно использовать. Всегда старайтесь смотреть шире, искать дополнительные источники информации для обучения и анализа; используйте их.

Во что ещё можно поиграть с этими данными

Если ваш массив документов побольше (желательно, наз в 100 :-)), то вы можете поиграться с кластеризацией. Это очень просто. Начать можно так:

Не забывайте, что z лучше нормализовать. Нормализовать отдельные вектора можно либо, используя аргумент axis, либо через apply_along_axis:

После km.fit() вы можете получить массив с номерами групп через km.labels_. Длинна этого массива как раз равна количеству ваших файлов. Дальше zip, sort… Полный вперёд.

Кстати, тут интересно будет приглядеться к результатам и убедиться, что группировка текстов по однозначным группами — это, обычно, не самое хорошее решение. Например, на моей странице есть заметка про Байесовское машинное обучение. Её, видимо, разумно отнести к группе «машинное обучение», он ведь её хоршо бы видеть и в группе «теория вероятностей»? Очень часто, текст нельзя однозначно отнести к одной группе.

В этой связи, уместно вспомнить про LDA. По иронии судьбы, модуль sklearn.lda не имеет никакого отношения к latent Dirichlet allocation, а выполняет linear discriminant analysis. Создание тематических моделей, это отдельная история, которой я, пожалуй, не буду тут касаться.