РОЗРОБКА МЕТРИКИ ЯКОСТІ КЛАСТЕРИЗАЦІЇ ОБ’ЄКТІВ ДЛЯ БАГАТОВИМІРНИХ ПРОСТОРІВ

##plugins.themes.bootstrap3.article.main##

Д. О. СТУПАК

Анотація

В сучасному світі нові дані генеруються в геометричній прогресії. Кластеризація є одним із методів машинного навчання, що не вимагає розмічених даних, а тому дає можливість швидко визначити структуру даних і зробити певні висновки. В статті розглянуто проблему кластеризації об’єктів в багатовимірному просторі. Ця проблема не нова. Поняття «прокляття розмірності» саме в кластеризації є критичним, оскільки алгоритм має спочатку поділити об’єкти в багатовимірному просторі на кластери, а потім застосовути метрики якості кластеризації для знаходження оптимальної структури. Існуючі метрики оцінки якості кластеризації часто залежать від розмірності простору, а тому їх використання за таких умов може бути утруднено або призводити до невірних результатів. Метою статті є розробка метрики якості кластеризації, значення якої не залежало б від розмірності простору, в якому описані об’єкти. Для дослідження кластеризації було згенеровано два набори датасетів. В першому наборі об’єкти згруповані у 5 добре розділених кластерів, в другому – кластери майже «торкаються» один одного. Кожен набір містить 6 датасетів із розмірністю простору 10, 100, 300, 1024, 2048 і 4096. Розроблена метрика якості кластеризації базується на порівнянні міжкластерної характеристики поділу об’єктів на кластери і внутрішньокластерної характеристики. В метриці враховані розмірність простору і умова пріоритету поділу об’єктів на меншу кількість кластерів. Використані методи чисельного експерименту для доведення ефективності застосування розробленої метрики якості кластеризації. Зроблена перевірка на синтетичних датасетах, що є близькими по розподілу об’єктів в існуючих датасетах в практичних задачах. Показно, що розроблена метрика якості кластеризації об’єктів дозволяє за «методом ліктя» визначити вірну оптимальну кількість кластерів, не залежить від розмірності простору і може бути застосована навіть в складних випадках, коли кластери розташовані близько обин від одного.

##plugins.themes.bootstrap3.article.details##

Розділ
КОМП'ЮТЕРНЕ МОДЕЛЮВАННЯ У ФІЗИЦІ
Біографія автора

Д. О. СТУПАК, к.т.н., доцент, старший аналітик консолідованої інформації, EPAM Digital, Черкаси, Україна

к.т.н., доцент,

старший аналітик консолідованої інформації, EPAM Digital, Черкаси, Україна

Посилання

LLM Basics: Embedding Spaces - Transformer Token Vectors Are Not Points in Space [Електронний ресурс] — Режим доступу: https://www.lesswrong.com/posts/pHPmMGEMYefk9jLeh/llm-basics-embedding-spaces-transformer-token-vectors-are.

Madhulatha TS. An overview on clustering methods. IOSR J Eng. 2012; 2(4): pp. 719–725.

Liu, Y., Li, Z., Xiong, H., Gao, X., Wu, J. and Wu, S. Understanding and enhancement of internal clustering validation measures. IEEE Transactions on Cybernetics, 2013; 43(3), pp. 982–994.

Elbow method (clustering) [Електронний ресурс] — Режим доступу: https://en.wikipedia.org/wiki/Elbow_method_(clustering).

Silhouette (clustering) [Електронний ресурс] — Режим доступу до ресурсу: https://en.wikipedia.org/wiki/Silhouette_(clustering).

Davies–Bouldin index [Електронний ресурс] — Режим доступу до ресурсу: https://en.wikipedia.org/wiki/Davies%E2%80%93Bouldin_index.

davies_bouldin_score [Електронний ресурс] — Режим доступу до ресурсу: https://scikit-learn.org/stable/modules/generated/sklearn.metrics.davies_bouldin_score.html.