НАЙКРАЩИЙ САЙТ ДЛЯ ВЕБ-РОЗРОБНИКІВ
Штучний інтелект. Уроки для початківців

En

Кластери даних

  • Кластери – це сукупності подібних даних
  • Кластеризація – це тип неконтрольованого навчання
  • Коефіцієнт кореляції описує міцність стосунків.

Що таке кластери?

Кластери – це сукупність даних на основі подібності.

Точки даних, згруповані разом на графіку, часто можна класифікувати в кластери.

На графіку нижче можна виділити 3 різні кластери:


Ідентифікація кластерів

Кластери можуть містити багато цінної інформації, але кластери бувають самих різних форм, тож як їх розпізнати?

Це два основні методи:

  • Використання візуалізації
  • Використання алгоритму кластеризації

Кластеризація

Кластеризація – це тип навчання без нагляду.

Кластеризація намагається:

  • Збирати схожі дані в групах
  • Збирати несхожі дані в інших групах

Методи кластеризації

  • Метод щільності
  • Метод ієрархічний
  • Метод розділення
  • Метод на основі сітки

Метод щільності вважає, що точки в щільних областях мають більше подібностей і відмінностей, ніж точки в менш щільних областях. Метод щільності має хорошу точність. Він також має можливість об’єднувати кластери.
Поширені два алгоритми: DBSCAN і OPTICS.

Ієрархічний метод формує кластери у структурі дерева. Нові кластери формуються з використанням попередньо сформованих кластерів.
Два поширених алгоритму: CURE та BIRCH.

Метод на основі сітки формулює дані в кінцеву кількість комірок, які утворюють структуру, подібну до сітки.
Два поширені алгоритми: CLIQUE та STING

Метод розділення поділяє об’єкти на k кластерів, і кожен розділ утворює один кластер.
Один з поширених алгоритмів — CLARANS.


Коефіцієнт кореляції

Коефіцієнт кореляції (r) описує силу та напрямок лінійної залежності та змінних x/y на діаграмі розсіювання.

Значення r завжди між -1 та +1:

-1.00Ідеальний спадНегативна лінійна залежність.
-0,70Сильний спадНегативна лінійна залежність.
-0,50Помірний спадНегативна лінійна залежність.
-0,30Слабкий спадНегативна лінійна залежність.
0Немає лінійної залежності.
+0,30Слабкий підйомПозитивна лінійна залежність.
+0,50Помірний підйомПозитивна лінійна залежність.
+0,70Сильний підйомПозитивна лінійна залежність.
+1,00Ідеальний підйомПозитивна лінійна залежність.

Ідеальний підйом +1.00:

Ідеальний спад -1.00:

Сильний підйом +0.61:

Немає залежності: