ПОРІВНЯННЯ ЛІНІЙНОЇ РЕГРЕСІЇ ТА XGBOOST МОДЕЛЕЙ ПРИ ДОСЛІДЖЕННІ ЧАСОВИХ РЯДІВ

23.09.2022 12:32

[1. Information systems and technologies]

Author: Кормиш Елеонора Едуардівна, бакалавр, кафедра комп'ютерних наук, Чернівецький національний університет, Інститут фізико-технічних і комп'ютерних наук

Часовий ряд - це впорядкована в часі сукупність вимірів однієї з характеристик об'єкта, що досліджується. Часові ряди широко використовуються в статистиці, обробці сигналів, розпізнаванні образів, економетриці, фінансовій математиці, прогнозуванні погоди, а також значною мірою в будь-якій області прикладної науки та інженерії, яка включає часові вимірювання [1]. Існує безліч методів прогнозування часових рядів, наприклад, такі як: регресійні, авторегресійні (ARIMAX, GARCH, ARDLM), моделі експоненційного згладжування (ES) та ін. Але для побудови більшості з них необхідні значні ресурси, яких досить часто бракує на практиці. У цьому дослідженні ми поставили перед собою мету мінімізувати всі обрахунки, використовуючи одні з найшвидних методів прогнозування часових рядів (лінійна регресія й XGBoost), перевірити та порівняти їхню ефективність.

Для дослідження ми використали базу даних під назвою hour_online.csv[2]. Вона описує кількість гравців у мережі у певну годину доби та містить всього 2 стовпці відповідно. У цій таблиці, крім стандартних ознак, на кшталт лагів цільової змінної, багато інформації містять у собі дата і час. Подібна ситуація нерідко трапляється під час розв’язування реальних задач, саме тому перед побудовою моделей варто було б вилучити цільові ознаки (feature extraction).

Вилучення ознак включає скорочення кількості ресурсів, необхідних для опису великого набору даних. Аналіз надмірного об’єму даних зазвичай вимагає великої кількості пам'яті та обчислювальної потужності, а також може призвести до того, що алгоритм класифікації буде перевантажений для навчальних вибірок і буде погано узагальнюватися на нові вибірки. Вилучення ознак - це загальний термін для методів побудови комбінацій змінних, що дозволяють обійти ці проблеми, але при цьому описувати дані з необхідною точністю [3].

Для вилучення ознак ми в першу чергу закодували середнім значенням цільову змінну. У нашому випадку кожен день тижня або годину можна закодувати середньою кількістю гравців, що знаходилися в цей момент онлайн. При цьому важливо стежити за тим, щоб розрахунок середнього значення проводився тільки в рамках тестового набору даних (або в рамках поточного фолду, що спостерігається при крос-валідації), інакше можна випадково врахувати в модель інформацію про майбутні виміри.

Далі ми створили новий набір даних і додали до нього годину, день тижня та вихідний як категоріальні змінні. Після усіх змін таблиця має наступний вигляд:

Таблиця 1. Частина бази даних hour_online.csv після вилучення ознак

Тепер ми можемо побудувати просту лінійну регресію. Лінійна регресія (Linear regression) — один із найбільш фундаментальних алгоритмів, що використовуються для моделювання відносин між залежною змінною та кількома незалежними змінними. Метою навчання є пошук лінії найкращої відповідності.

У процесі навчання лінійної регресії знаходиться мінімізація квадратів відстаней між точками та лінією найкращої відповідності. Цей процес відомий як мінімізація суми квадратів залишків. Залишок дорівнює різниці між передбаченим значенням та реальним [4].

Для її побудови ми брали лаги починаючи з дванадцятого, таким чином модель буде здатна будувати передбачення на 12 годин уперед, маючи фактичні спостереження за попередні півдня.

Рис.1. Прогнозування часового ряду з використанням лінійної регресії

На рис.1 ми бачимо, що модель помиляється, в середньому, на 3K користувачів за годину, і це враховуючи величезний викид у середині тестового ряду.

Для порівняння ми побудували прогноз з використанням XGBoost. В основі XGBoost лежить алгоритм градієнтного бустингу дерев рішень. Градієнтний бустинг - це техніка машинного навчання для завдань класифікації та регресії, яка будує модель передбачення у формі ансамблю слабких моделей, зазвичай дерев рішень. Навчання ансамблю проводиться послідовно [5].

На кожній ітерації ми обчислювали відхилення передбачень вже навченого ансамблю на навчальній вибірці. Кожна наступна модель, яка додавалась в ансамбль, передбачає ці відхилення. Таким чином, додавши передбачення нового дерева до передбачень навченого ансамблю, ми зменшили середнє відхилення моделі до значення 3K користувачів, як зображено на рис.2.

Рис.2. Прогнозування часового ряду з використанням XGBoost

Підсумовуючи, варто зазначити, що похибка на обох моделях була в середньому в 3К користувачів, що ≈4,6% по відношенню до усієї вибірки. До переваг лінійної регресії можна віднести швидкість та простоту отримання моделі, широку застосовність, вивченість цього підходу. Головний недолік лінійної регресії у тому, що з її допомогою можна моделювати лише прямі лінійні залежності, тоді як часто виникає необхідність створення моделей інших типів відношень між даними. Серед сильних сторін XGBoost методу є такі, як: паралельна обробка, висока гнучкість, вбудована перехресна перевірка. Проте у XGBoost, як і у інших методів на основі дерев, є вагомий мінус: схильність до перенавчання. У даному дослідженні для побудови лінійної регресії ми зробили значно менше обрахунків, оскільки для правдоподібної моделі лінійної регресії достатньо від 10 вимірів, у той час як для XGBoost потрібно не менше 40. Проте XGBoost працює швидше за конкуретну модель та при необхідній кількості даних здатний показати надвисоку точність. Отже, на невеликих базах даних (до 1000 вимірів) немає змісту застосовувати XGBoost, оскільки великої різниці в точності прогнозу ми не помітимо.

Література

1. Часовий ряд: веб-сайт. URL: https://uk.wikipedia.org/wiki/%D0%A7%D0%B0%D1%81%D0%BE% D0%B2%D0%B8%D0%B9_%D1%80%D1%8F%D0%B4 (дата звернення: 11.09.2022).

2. TimeSeriesBase: веб-сайт. URL: https://www.kaggle.com/code/lkatran/timeseriesbase (дата звернення: 09.09.2022).

3. Вилучення ознак: веб-сайт. URL: https://uk.wikipedia.org/wiki/%D0%92%D0%B8%D0%B4%D1%96% D0%BB%D1%8F%D0%BD%D0%BD%D1%8F_%D0%BE%D0%B7%D0%BD%D0%B0%D0%BA (дата звернення: 19.09.2022).

4. About linear regression: веб-сайт. URL: https://www.ibm.com/topics/linear-regression#:~:text=Resources-,What%20is%20linear%20regression%3F,is%20called %20the%20independent%20variable (дата звернення: 09.09.2022).

5. A Gentle Introduction to the Gradient Boosting: веб-сайт. URL: https://machinelearningmastery.com/gentle-introduction-gradient-boosting-algorithm-machine-learning/ (дата звернення: 05.09.2022).

6. Time Series Analysis (TSA) in Python - Linear Models to GARCH: веб-сайт. URL:http://www.blackarbs.com/blog/time-series-analysis-in-python-linear-models-to-garch/11/1/2016 (дата звернення: 09.09.2022).

______________________

Науковий керівник: Кириченко Оксана Леонідівна, Чернівецький національний університет, Інститут фізико-технічних і комп'ютерних наук

Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License

Знайшли помилку? Виділіть помилковий текст мишкою і натисніть Ctrl + Enter

Another articles in this section

Сonferences

Conference 2025

Information society: technological, economic and technical aspects of formation (issue 95) (16-17.01.2025)

Information society: technological, economic and technical aspects of formation (issue 96) (11-12.02.2025)

Information society: technological, economic and technical aspects of formation (issue 97) (13-14.03.2025)

Information society: technological, economic and technical aspects of formation (issue 98) (15-16.04.2025)

Information society: technological, economic and technical aspects of formation (issue 99) (14-15.05.2025)

Information society: technological, economic and technical aspects of formation (issue 100) (11-12.06.2025)

Information society: technological, economic and technical aspects of formation (issue 101) (09-10.07.2025)

Conference 2024

Information society: technological, economic and technical aspects of formation (issue 84) (18-19.01.2024)

Information society: technological, economic and technical aspects of formation (issue 85) (15-16.02.2024)

Information society: technological, economic and technical aspects of formation (issue 86) (12-13.03.2024)

Information society: technological, economic and technical aspects of formation (issue 87) (11-12.04.2024)

Information society: technological, economic and technical aspects of formation (issue 88) (14-15.05.2024)

Information society: technological, economic and technical aspects of formation (issue 89) (12-13.06.2024)

Information society: technological, economic and technical aspects of formation (issue 90) (9-10.07.2024)

Information society: technological, economic and technical aspects of formation (issue 91) (10-11.09.2024)

Information society: technological, economic and technical aspects of formation (issue 92) (8-9.10.2024)

Information society: technological, economic and technical aspects of formation (issue 93) (12-13.11.2024)

Information society: technological, economic and technical aspects of formation (issue 94) (11-12.12.2024)

Conference 2023

Information society: technological, economic and technical aspects of formation (issue 74) (06-07.02.2023)

Information society: technological, economic and technical aspects of formation (issue 75) (06-07.03.2023)

Information society: technological, economic and technical aspects of formation (issue 76) (03-04.04.2023)

Information society: technological, economic and technical aspects of formation (issue 77) (09-10.05.2023)

Information society: technological, economic and technical aspects of formation (issue 78) (08-09.06.2023)

Information society: technological, economic and technical aspects of formation (issue 79) (06-07.07.2023)

Information society: technological, economic and technical aspects of formation (issue 80) (19-20.09.2023)

Information society: technological, economic and technical aspects of formation (issue 81) (11-12.10.2023)

Information society: technological, economic and technical aspects of formation (issue 82) (9-1.11.2023)

Information society: technological, economic and technical aspects of formation (issue 83) (7-8.12.2023)

Conference 2022

Information society: technological, economic and technical aspects of formation (issue 65) (8-9.02.2022)

Information society: technological, economic and technical aspects of formation (issue 66) (6-7.04.2022)

Information society: technological, economic and technical aspects of formation (issue 67) (11-12.05.2022)

Information society: technological, economic and technical aspects of formation (issue 68) (7-8.06.2022)

Information society: technological, economic and technical aspects of formation (issue 69) (4-5.07.2022)

Information society: technological, economic and technical aspects of formation (issue 70) (22-23.09.2022)

Information society: technological, economic and technical aspects of formation (issue 71) (18-19.10.2022)

Information society: technological, economic and technical aspects of formation (issue 72) (15-16.11.2022)

Information society: technological, economic and technical aspects of formation (issue 73) (08-09.12.2022)

Conference 2021

Information society: technological, economic and technical aspects of formation (Issue 55) (09.02.2021)

Information society: technological, economic and technical aspects of formation (Issue 56) (10.03.2021)

Information society: technological, economic and technical aspects of formation (issue 57) (13.04.2021)

Information society: technological, economic and technical aspects of formation (issue 58) (12.05.2021)

Information society: technological, economic and technical aspects of formation (issue 59) (08.06.2021)

Information society: technological, economic and technical aspects of formation (issue 60) (13.07.2021)

Information society: technological, economic and technical aspects of formation (issue 61) (15.09.2021)

Information society: technological, economic and technical aspects of formation (issue 62) (12.10.2021)

Information society: technological, economic and technical aspects of formation (issue 63) (11.11.2021)

Information society: technological, economic and technical aspects of formation (issue 64) (10.12.2021)

Congratulation from Internet Conference!

Рік заснування видання - 2011

ПОРІВНЯННЯ ЛІНІЙНОЇ РЕГРЕСІЇ ТА XGBOOST МОДЕЛЕЙ ПРИ ДОСЛІДЖЕННІ ЧАСОВИХ РЯДІВ

Another articles in this section