ПІДХІД ДО ВИКОРИСТАННЯ RFM ТА КЛАСТЕРНОГО АНАЛІЗУ В ЗАДАЧІ ФОРМУВАННЯ НАВЧАЛЬНОЇ ВИБІРКИ ДЛЯ СЕГМЕНТАЦІЇ ОРГАНІЗАТОРІВ ТЕНДЕРІВ

25.01.2022 19:44

[1. Information systems and technologies]

Author: Старих О.Ю., студент, Західноукраїнський національний університет; Биковий П.Є., к.т.н., доцент, кафедра інформаційно-обчислювальних систем і управління, доцент кафедри, Західноукраїнський національний університет

На даний час найефективнішим інструментом конкурентної форми відбору пропозицій на поставку товарів або надання послуг на принципах загальності, справедливості та ефективності є тендери [1, 2]. Інформація про учасників тендерів розміщується у відкритому доступі на електронних майданчиках та на порталі Prozorro [3]. Для отримання ґрунтовної інформації про організатора тендеру (кількість аукціонів, скільки з них успішних та на яку суму) зазвичай потрібно проаналізувати великий обсяг інформації, що без додаткових технічних засобів може зайняти багато часу і не гарантуватиме ефективного результату. Тому автоматизація процесу вибору організаторів тендерів на основі машинного навчання є актуальною задачею.

Для ефективної роботи такої автоматизованої системи потрібно правильно сформувати навчальну вибірку, що дасть змогу навчити систему розпізнавати організаторів тендерів, без додаткових обрахунків та автоматизувати процес самої участі у тендері [4].

Одним з етапів методу формування навчальної вибірки для сегментації організаторів тендерів на основі машинного навчання є кластерний аналіз [5]. Він полягає у розбитті заданої вибірки об'єктів (ситуацій) на підмножини, які називаються кластерами, так, щоб кожен кластер складався зі схожих об'єктів, а об'єкти різних кластерів істотно відрізнялися.

Кластерний аналіз є глибшим аналізом для сегментації організаторів тендерів, тому для формування навчальної вибірки він є важливим етапом. Даний аналіз поділяється на наступні етапи: 1. Проведення дослідження. 2. Підготовка даних до кластерного аналізу. 3. Вибір методу кластерного аналізу. 4. Вибір міри відстані між об’єктами та її обчислення. 5. Вибір стратегії кластеризації. 6. Застосування обраної стратегії для утворення кластерів. 7. Перевірка результатів кластерного.

Для формування навчальної вибірки для сегментації організаторів тендерів на основі машинного навчання обрано мову Python. При цьому використано наступні бібліотеки: pandas, numpy, train_test_split, KMeans, PCA. У якості вхідних даних використано завершені угоди учасників тендерів в Україні з сайту ProZorro Продажі [3], а саме: вибірка із 92638 аукціонів, 29164 унікальних аукціонів та унікальних організаторів – 39747.

Далі проводився RFM-аналіз [6], він допоміг розділити організаторів на різні категорії або кластери, щоб визначити організаторів, які частіше проводять аукціони з найбільшими сумами. Для сфери тендерів для кожного організатора змінні RMF вони будуть мати наступні значення: Recency - дата, з якої буде проведено оцінювання, скільки днів тому була проведена остання угода; Frequency –кількість угод організатора за відповідний період. Monetary - сума всіх завершених угод з організатора а відповідний період.

Найпростіший спосіб просегментувати організаторів - це використати Quartiles, а саме присвоєння оцінок від 1 до 4, де чотири - найвище значення, а одиниця - найнижче значення. Провівши попередню сегментацію організаторів тендерів, можна оцінити кожну групу окремо та проаналізувати, як витрачаються кошти і які організатори найчастіше проводять тендери.

Для групування обрано K-means [7, 8] clustering, оскільки цей метод широко використовується для сегментації ринку, і він пропонує перевагу простоти у впровадженні. Перед кластеризацією також проводиться зменшення розмірності даних методом PCA з 2 вимірними векторами (компонентами).

На рисунку 1 представлена кластеризація K-means організаторів тендерів, де кількість кластерів рівна 5. Графік представлено відносно 2-компонентного PCA методу. До кожного кластеру віднесено наступна кількість значень: кластера під номером 0 – 494; кластера під номером 3 – 475; кластера під номером 2 – 352; кластера під номером 1 – 345; кластера під номером 4 – 155.

Рис. 1. Кластеризація K-means організаторів тендерів

При порівняні RFM оцінки та K-means групи з організаторами трендів (рис.2), які найбільше організовують тендери та на найбільшу суму грошей, збіглись та група з організаторами, які мало проводять тендерів, та не на значні суми. Інші групи організаторів тендерів, збіглись частково.

Рис. 2. Результат кластеризації RFM оцінки та K-means

Таким чином в роботі було представлено підхід до використання RFM та кластерного аналізу в задачі формування навчальної вибірки для сегментації організаторів тендерів. Це дало змогу розділити відповідну інформацію по кластерах. Порівняння результатів підтвердили доцільність використання запропонованого підходу.

До напрямів подальших наукових досліджень слід віднести розробку автоматизованої системи для вибору організаторів тендерів на основі машинного навчання, що також дасть можливість автоматизувати процес участі у тендері.

Література:

1. Кузнєцов К.В. Настільна книга постачальника і закупника: торги, тендери, конкурси. - Москва: Паблішер, 2018. - 339 с.

2. Льюїс Г. Конкурси, тендери та пропозиції. Виграйте, використовуючи кращий досвід. - Москва: Баланс Бізнес-Букс, 2019. - 314 с.

3. ProZorro Продажі - https://bi.prozorro.sale/#/

4. H. Lipyanina-Goncharenko, V. Brych, S. Sachenko, T. Lendyuk, P. Bykovyy, D. Zahorodnia. Method of Forming a Training Sample for Segmentation of Tender Organizers on Machine Learning Basis. Proceedings of the 5th International Conference on Computational Linguistics and Intelligent Systems (COLINS-2021), Ukraine. 2021, p. 1843-1852.

5. Celebi, M. E.; Kingravi, H. A.; Vela, P. A. "A comparative study of efficient initialization methods for the k-means clustering algorithm". Expert Systems with Applications. 40 (1): 200–210. 2013. doi:10.1016/j.eswa.2012.07.021. S2CID 6954668.

6. Christy, A.J., Umamakeswari, A., Priyatharsini, L., Neyaa, A.. RFM Ranking – An Effective Approach to Customer Segmentation, Journal of King Saud University - Computer and Information Sciences, Elsevier. 2018, doi: https://doi.org/10.1016/j.jksuci.2018.09.004

7. Beghdad, R. K-means for modelling and detecting anomalous profiles. International Journal of Computing, 6(1), 2014, 59-66. https://doi.org/10.47839/ijc.6.1.425.

8. Fränti, P., Sieranoja, S. K-means properties on six clustering benchmark datasets. Appl Intell, Springer, 48, 2018, 4743–4759. https://doi.org/10.1007/s10489-018-1238-7.

Ця стаття ліцензується відповідно до Creative Commons Attribution-NonCommercial 4.0 International License.

Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License

Знайшли помилку? Виділіть помилковий текст мишкою і натисніть Ctrl + Enter

Another articles in this section

Сonferences

Conference 2024

Information society: technological, economic and technical aspects of formation (issue 84) (18-19.01.2024)

Information society: technological, economic and technical aspects of formation (issue 85) (15-16.02.2024)

Information society: technological, economic and technical aspects of formation (issue 86) (12-13.03.2024)

Information society: technological, economic and technical aspects of formation (issue 87) (11-12.04.2024)

Information society: technological, economic and technical aspects of formation (issue 88) (14-15.05.2024)

Conference 2023

Information society: technological, economic and technical aspects of formation (issue 74) (06-07.02.2023)

Information society: technological, economic and technical aspects of formation (issue 75) (06-07.03.2023)

Information society: technological, economic and technical aspects of formation (issue 76) (03-04.04.2023)

Information society: technological, economic and technical aspects of formation (issue 77) (09-10.05.2023)

Information society: technological, economic and technical aspects of formation (issue 78) (08-09.06.2023)

Information society: technological, economic and technical aspects of formation (issue 79) (06-07.07.2023)

Information society: technological, economic and technical aspects of formation (issue 80) (19-20.09.2023)

Information society: technological, economic and technical aspects of formation (issue 81) (11-12.10.2023)

Information society: technological, economic and technical aspects of formation (issue 82) (9-1.11.2023)

Information society: technological, economic and technical aspects of formation (issue 83) (7-8.12.2023)

Conference 2022

Information society: technological, economic and technical aspects of formation (issue 65) (8-9.02.2022)

Information society: technological, economic and technical aspects of formation (issue 66) (6-7.04.2022)

Information society: technological, economic and technical aspects of formation (issue 67) (11-12.05.2022)

Information society: technological, economic and technical aspects of formation (issue 68) (7-8.06.2022)

Information society: technological, economic and technical aspects of formation (issue 69) (4-5.07.2022)

Information society: technological, economic and technical aspects of formation (issue 70) (22-23.09.2022)

Information society: technological, economic and technical aspects of formation (issue 71) (18-19.10.2022)

Information society: technological, economic and technical aspects of formation (issue 72) (15-16.11.2022)

Information society: technological, economic and technical aspects of formation (issue 73) (08-09.12.2022)

Conference 2021

Information society: technological, economic and technical aspects of formation (Issue 55) (09.02.2021)

Information society: technological, economic and technical aspects of formation (Issue 56) (10.03.2021)

Information society: technological, economic and technical aspects of formation (issue 57) (13.04.2021)

Information society: technological, economic and technical aspects of formation (issue 58) (12.05.2021)

Information society: technological, economic and technical aspects of formation (issue 59) (08.06.2021)

Information society: technological, economic and technical aspects of formation (issue 60) (13.07.2021)

Information society: technological, economic and technical aspects of formation (issue 61) (15.09.2021)

Information society: technological, economic and technical aspects of formation (issue 62) (12.10.2021)

Information society: technological, economic and technical aspects of formation (issue 63) (11.11.2021)

Information society: technological, economic and technical aspects of formation (issue 64) (10.12.2021)

Congratulation from Internet Conference!

Рік заснування видання - 2011

ПІДХІД ДО ВИКОРИСТАННЯ RFM ТА КЛАСТЕРНОГО АНАЛІЗУ В ЗАДАЧІ ФОРМУВАННЯ НАВЧАЛЬНОЇ ВИБІРКИ ДЛЯ СЕГМЕНТАЦІЇ ОРГАНІЗАТОРІВ ТЕНДЕРІВ

Another articles in this section