Кластери даних
- Кластери – це сукупності подібних даних
- Кластеризація – це тип неконтрольованого навчання
- Коефіцієнт кореляції описує міцність стосунків.
Що таке кластери?
Кластери – це сукупність даних на основі подібності.
Точки даних, згруповані разом на графіку, часто можна класифікувати в кластери.
На графіку нижче можна виділити 3 різні кластери:
Ідентифікація кластерів
Кластери можуть містити багато цінної інформації, але кластери бувають самих різних форм, тож як їх розпізнати?
Це два основні методи:
- Використання візуалізації
- Використання алгоритму кластеризації
Кластеризація
Кластеризація – це тип навчання без нагляду.
Кластеризація намагається:
- Збирати схожі дані в групах
- Збирати несхожі дані в інших групах
Методи кластеризації
- Метод щільності
- Метод ієрархічний
- Метод розділення
- Метод на основі сітки
Метод щільності вважає, що точки в щільних областях мають більше подібностей і відмінностей, ніж точки в менш щільних областях. Метод щільності має хорошу точність. Він також має можливість об’єднувати кластери.
Поширені два алгоритми: DBSCAN і OPTICS.
Ієрархічний метод формує кластери у структурі дерева. Нові кластери формуються з використанням попередньо сформованих кластерів.
Два поширених алгоритму: CURE та BIRCH.
Метод на основі сітки формулює дані в кінцеву кількість комірок, які утворюють структуру, подібну до сітки.
Два поширені алгоритми: CLIQUE та STING
Метод розділення поділяє об’єкти на k кластерів, і кожен розділ утворює один кластер.
Один з поширених алгоритмів — CLARANS.
Коефіцієнт кореляції
Коефіцієнт кореляції (r) описує силу та напрямок лінійної залежності та змінних x/y на діаграмі розсіювання.
Значення r завжди між -1 та +1:
-1.00 | Ідеальний спад | Негативна лінійна залежність. |
-0,70 | Сильний спад | Негативна лінійна залежність. |
-0,50 | Помірний спад | Негативна лінійна залежність. |
-0,30 | Слабкий спад | Негативна лінійна залежність. |
0 | Немає лінійної залежності. | |
+0,30 | Слабкий підйом | Позитивна лінійна залежність. |
+0,50 | Помірний підйом | Позитивна лінійна залежність. |
+0,70 | Сильний підйом | Позитивна лінійна залежність. |
+1,00 | Ідеальний підйом | Позитивна лінійна залежність. |
Ідеальний підйом +1.00:
Ідеальний спад -1.00:
Сильний підйом +0.61:
Немає залежності: