НАЙКРАЩИЙ САЙТ ДЛЯ ВЕБ-РОЗРОБНИКІВ
Штучний інтелект. Уроки для початківців

En

Дані машинного навчання

До 80% проекту машинного навчання стосується збору даних:

  • Які дані обов’язкові?
  • Які дані доступні?
  • Як вибрати дані?
  • Як збирати дані?
  • Як очистити дані?
  • Як підготувати дані?
  • Як використовувати дані?

Що таке дані? Кому потрібні дані?

Даними може бути багато чого.

З машинним навчанням дані — це сукупність фактів:

ТипПриклади
ЧислаЦіни. Дати.
ЗаміриРозмір. Висота. Вага.
СловаНазви та місця.
СпостереженняПідрахування автомобілів.
ОписиХолодно.

Розвідці потрібні дані

Людському розуму потрібні дані:

Брокеру з нерухомості потрібні дані про продані будинки, щоб оцінити ціни.

Штучному інтелекту також потрібні дані:

Програмі машинного навчання потрібні дані, щоб оцінити ціни.

Дані можуть допомогти нам побачити та зрозуміти.

Дані можуть допомогти нам знайти нові можливості.

Дані можуть допомогти нам вирішити непорозуміння.


Охорона здоров’я

Охорона здоров’я та науки про життя збирають дані про громадське здоров’я та дані пацієнтів, щоб дізнатися, як покращити лікування пацієнтів і врятувати життя.

Бізнес

Найуспішніші компанії в багатьох секторах керуються даними. Вони використовують складну аналітику даних, щоб дізнатися, як компанія може працювати краще.

Фінанси

Банки та страхові компанії збирають і оцінюють дані про клієнтів, кредити та депозити для підтримки прийняття стратегічних рішень.


Зберігання даних

Найпоширенішими даними для збору є числа та вимірювання.

Часто дані зберігаються в масивах, що представляють зв’язок між значеннями.

Ця таблиця містить ціни на будинки в залежності від розміру:

Ціна7889991011141415
Розмір5060708090100110120130140150

Кількісне проти якісного

Кількісні дані є числовими:

  • 55 автомобілі
  • 15 метри
  • 35 дітей

Якісні дані є описовими:

  • Тепло, сухо і комфортно
  • У мене довгий, товстий і м’ясистий
  • Це було весело

Перепис або вибірка

Перепис – це коли ми збираємо дані про кожного члена групи.

Вибірка – це коли ми збираємо дані про деяких членів групи.

Якби ми хотіли знати, скільки американців курить сигарети, ми могли б запитати кожного жителя США (перепис) або ми могли б запитати 10 000 людей (вибірка).

Перепис є точним, але його важко зробити. Вибірка є неточною, але її легше зробити.


Умови вибірки

Населення – це група осіб (об’єктів), від яких ми хочемо збирати інформацію.

Перепис населення - це інформація про кожну людину в популяції.

Вибірка – це інформація про частину генеральної сукупності (щоб представити всіх).


Випадкові вибірки

Щоб вибірка представляла сукупність, її потрібно зібрати випадковим чином.

Випадкова вибірка – це вибірка, у якій кожен член сукупності має рівні шанси потрапити у вибірку.


Зміщення вибірки

Зміщення вибірки (помилка) виникає, коли вибірки збираються таким чином, що деякі особи з меншою (або більшою) ймовірністю будуть включені до вибірки.


Великі дані

Великі дані – це дані, які люди не можуть обробити без допомоги передових машин.

Великі дані не мають визначення розміру, але набори даних стають дедалі більшими, оскільки ми постійно збираємо все більше даних і зберігаємо їх за все нижчою ціною.


Видобуток даних

З великими даними постають складні структури даних.

Значною частиною обробки великих даних є уточнення даних.