Введение в ассоциативные правила
Впервые задача поиска ассоциативных правил (association rule mining) была предложена для нахождения типичных шаблонов покупок, совершаемых в супермаркетах, поэтому иногда ее еще называют анализом рыночной корзины (market basket analysis).
Рыночная корзина - это набор товаров, приобретенных покупателем в рамках одной отдельно взятой транзакции.
Транзакции являются достаточно характерными операциями, ими, например, могут описываться результаты посещений различных магазинов.
Транзакция - это множество событий, которые произошли одновременно.
Регистрируя все бизнес-операции в течение всего времени своей деятельности, торговые компании накапливают огромные собрания транзакций. Каждая такая транзакция представляет собой набор товаров, купленных покупателем за один визит.
Полученные в результате анализа шаблоны включают перечень товаров и число транзакций, которые содержат данные наборы.
Транзакционная или операционная база данных (Transaction database) представляет собой двумерную таблицу, которая состоит из номера транзакции (TID) и перечня покупок, приобретенных во время этой транзакции.
TID - уникальный идентификатор, определяющий каждую сделку или транзакцию.
Пример транзакционной базы данных, состоящей из покупательских транзакций, приведен в таблице 15.1. В таблице первая колонка (TID) определяет номер транзакции, во второй колонке таблицы приведены товары, приобретенные во время определенной транзакции.
100 | Хлеб, молоко, печенье |
200 | Молоко, сметана |
300 | Молоко, хлеб, сметана, печенье |
400 | Колбаса, сметана |
500 | Хлеб, молоко, печенье, сметана |
На основе имеющейся базы данных нам нужно найти закономерности между событиями, то есть покупками.