The відсутність внутрішньої міри відстані чи подібності між категоріальними об’єктами даних, робить кластеризацію категоріальних даних складною проблемою.
В даний час широко використовувані методи кластеризації категоріальних даних можна розділити на наступні два типи. (1) Метод прямої кластеризації, який розробляє алгоритм кластеризації, який підходить для категоріальних даних. В даний час існує три типи алгоритмів кластеризації категоріальних даних, розглянуті в [11].
До недоліків можна віднести:
- Загалом, вам потрібно отримати досить багато вибірок, щоб переконатися, що опитування точно представляє сукупність. Це може бути дорогим.
- Оскільки категорії викладаються на початку опитування, воно не є дуже чутливим. …
- Ви не можете робити кількісний аналіз категоріальних даних!
Загальні проблеми в алгоритмах кластеризації включають визначення оптимальної кількості кластерів (K), чутливість до початкових умов, обробку викидів, масштабованість для великих наборів даних, труднощі з несферичними формами, обмежену адаптацію до категоріальних даних, суб’єктивну інтерпретацію результатів, адресування .. .
Кластеризація має такі недоліки: (1) залежність від того, що користувач вказує кількість кластерів заздалегідь, і (2) відсутність інтерпретації дескрипторів кластерів. Однак на практиці переваги та недоліки кластеризації залежать від методології кластеризації (Bhagat et al., 2016).
Це тип неконтрольованого навчання, тобто воно нам не потрібно позначені дані для алгоритмів кластеризації; це одна з найбільших переваг кластеризації перед іншими методами навчання під наглядом, наприклад класифікацією.