АНАЛІЗ ДВОЕТАПНОГО ПІДХОДУ ДЛЯ ЗАБЕЗПЕЧЕННЯ МЕТРИКИ ЯКОСТІ PSNR ПІД ЧАС СТИСНЕННЯ ЗОБРАЖЕНЬ З ВТРАТАМИ КОДЕРОМ HEIF
12.05.2025 16:27
[1. Інформаційні системи і технології]
Автор: Дьогтєв Ігор Олександрович, аспірант, Національний аерокосмічний університет «Харківський авіаційний інститут», м. Харків, Україна; Абрамов Сергій Клавдійович, кандидат технічних наук, доцент, Національний аерокосмічний університет «Харківський авіаційний інститут», м. Харків, Україна; Лукін Володимир Васильович, доктор технічних наук, професор, Національний аерокосмічний університет «Харківський авіаційний інститут», м. Харків, Україна
Вступ. Стиснення зображень з втратами є важливою складовою більшості сучасних систем зберігання, обробки та передавання візуальних даних. Сучасні формати, зокрема JPEG, JPEG2000, AVIF та HEIF, дозволяють зменшити розмір зображень за рахунок часткового видалення візуально несуттєвої інформації. Проте, незалежно від обраного формату, користувачі стикаються з проблемою непередбачуваної якості стискання: для однакового значення параметра, що керує стисненням, різні зображення демонструють суттєво різні рівні спотворень.
Актуальною ця проблема є і для нещодавно розробленого формату HEIF (High Efficiency Image File Format), що використовується у кодеку HEVC. Попри його високу ефективність, формат не передбачає прямого способу керування метрикою якості, такою як PSNR (peak signal-to-noise ratio) або іншою. Як наслідок, забезпечення цільового рівня якості вимагає численних ітерацій компресії/декомпресії з підбором параметра QF. Це суттєво ускладнює автоматизацію та підвищує обчислювальні витрати.
Одним із перспективних рішень цієї задачі може бути двоетапний метод підбору параметра QF, який уже довів свою ефективність у попередніх роботах для кодерів SPIHT, ADCT та JPEG [1–3]. Ідея методу полягає у використанні заздалегідь побудованої усередненої залежності між QF і метрикою якості (наприклад, PSNR). На першому кроці ця крива використовується для прогнозування наближеного значення QF, а на другому — виконується уточнення параметра з використанням локальної похідної та фактично отриманого PSNR після перших компресії та декомпресії. Завдяки такому підходу зазвичай вдається досягати бажаної якості вже після двох проходів компресії — без перебору та з високою точністю. Це робить метод придатним до впровадження в реальні системи стискання, де важливі точність та швидкодія.
Мета роботи –перевірка можливості застосування двоетапного методу для стиснення зображень з втратами кодером HEIF для досягнення бажаних значень метрики PSNR та аналіз точності цього підходу.
Матеріали та методи. У цьому дослідженні використовувалися тестові зображення у форматі RAW розміром 512×512 пікселів у градаціях сірого. Зображення стискалися у форматі HEIF за допомогою кодера на основі HEVC з варіацією параметра QF у діапазоні від 2 до 100 з кроком 2. Декодування виконувалося з використанням бібліотеки Pillow-Heif. Якість стиснених зображень оцінювалася за допомогою метрики PSNR, обчисленої між оригінальним і стисненим зображеннями.
Для визначення такого значення QF, що забезпечує бажаний рівень якості (наприклад, значень PSNR, що дорівнюють 30, 35, 40 дБ), було реалізовано двоетапний підхід, який дозволяє виконувати кероване стискання з мінімальною кількістю операцій (два стиснення, одна декомпресія та дуже прості розрахунки значень QF для першого та другого етапів з урахуванням раніше отриманих даних, що зберігаються у табличному вигляді).
Рисунок 1. Залежність PSNR від QF для кожного зображення
Усі отримані для тестових зображень криві є монотонними та зростаючими, тобто зі збільшенням QF (зменшенням ступеня стискання) PSNR підвищується. Видно, що динаміка зростання для різних зображень відрізняється: для деяких зображень (наприклад, AIRFIELD, IVANOF) залежність стрімкіша, для інших — повільніша. Криві не співпадають, однак мають аналогічну форму — це дозволяє побудувати усереднену криву, за допомогою якої можна застосовувати лінійну інтерполяцію для попереднього прогнозування значення QF, яке відповідає бажаному PSNR [3, с. 5].
Другий етап алгоритму полягає в уточненні значення параметра якості QF, отриманого на основі усередненої кривої. Спочатку виконується перше стискання зображення з попередньо визначеним значенням QF, яке округлюється до найближчого допустимого — його позначимо як QF_start. Після декодування оцінюється фактичне значення якості стискання (PSNR_отр1), яке порівнюється з бажаним (цільовим) PSNRбаж.
На основі цієї різниці та нахилу усередненої кривої в околі QF_start (тобто наближеної локальної зміни PSNR при зміні QF), розраховується поправка до QF — ∆QF. Вона показує, наскільки слід збільшити або зменшити початкове значення QF для точнішого забезпечення бажаного рівня якості.
Скориговане значення QF_corr, отримане як сума QF_start і поправки ∆QF, використовується для другого (фінального) стискання. Результати свідчать, що після цього відхилення між бажаним та отриманим значеннями PSNR суттєво зменшується майже для всіх тестових зображень.
Результати та обговорення. На основі проведених експериментів було побудовано залежності PSNR від QF для кожного з тестових зображень (рис. 1), а також усереднена крива, яка є базою для першого етапу прогнозування.
Дані на рис. 1 демонструють не тільки монотонний характер залежностей, а й те, що в межах діапазону QF, типовому для стиснення з втратами (QF ∈ [20; 60]), вони є умовно паралельними, що дозволяє застосовувати лінійну інтерполяцію без значних похибок.
Рисунок 2. Усереднена залежність PSNR від QF
У межах першого етапу алгоритму на основі результатів стискання множини зображень була побудована усереднена крива залежності PSNR від QF (рис. 2). Для заданих цільових значень PSNR (наприклад, 30, 35, 40 дБ) за допомогою лінійної інтерполяції по цій кривій було визначено попередні значення параметра QFinterp, які дозволяють наближено досягти бажаної якості.
Як зазначено вище, оскільки усереднена модель не враховує індивідуальні особливості конкретного зображення (текстуру, шум, складність структури), то для підвищення точності у подальшому застосовується другий етап — уточнення QF [4]. Він базується на аналізі отриманого значення PSNR_отр1 після першого стиснення та використанні локальної похідної усередненої кривої, що дозволяє адаптивно скоригувати параметр стискання без потреби в багатьох ітераціях.
Рисунок 3. Дисперсія похибки між цільовим значенням PSNR та фактичними результатами після першого (G_вих²) та другого (G_код²) етапів визначення QF
Як можна бачити з аналізу даних на рис. 3, у всьому діапазоні бажаних значень PSNR від 25 до 60 дБ другий етап призводить да значно меншої дисперсії помилок забезпечення бажаного PSNR, що свідчить про підвищення точності. Найбільше зниження спостерігається при низьких значеннях бажаного PSNR (25–35 дБ), де похибки без уточнення можуть бути досить великими. Зменшення дисперсії до значень нижче 1 після другого кроку підтверджує ефективність та працездатність методу при керуванні якістю.
Покажемо, що метод зменшує похибку майже для всіх зображень. Нижче в табл. 1 наведені результати роботи алгоритму для конкретних зображень для цільового значення PSNR, що дорівнює 30 дБ.
Для всіх параметрів у таблиці значення було округлено до десятих (одного знака після коми). Такий підхід обрано з наступних причин:
•PSNR традиційно наводиться з точністю до 0,1 дБ, оскільки менші відмінності не є значущими для зорового сприйняття;
•Значення QF_interp та QF_corr подаються як дійсні величини, оскільки інтерполяція та уточнення не обов’язково дають цілі числа. Проте реалізація стискання зазвичай виконується з округленням до найближчого допустимого цілого значення (частіше парного).
Округлення числових значень до десятих відповідає прийнятому рівню точності в задачах аналізу ефективності стиснення зображень. Такий рівень деталізації є достатнім для візуального аналізу та порівняння результатів, водночас уникаючи надмірної точності, яка не впливає на загальні висновки.
Аналіз результатів для бажаного рівня PSNR = 30 дБ засвідчив ефективність двоетапного підходу. Після першого етапу, що базується на інтерполяції по усередненій кривій, значення PSNR_отр1 у багатьох випадках суттєво відрізнялося від бажаного (до приблизно 6 дБ). Водночас, після другого етапу — уточнення параметра QF з урахуванням локальної похідної — спостерігається істотне зменшення дисперсії похибки. Зменшення дисперсії після другого етапу демонструє, що метод адаптується до індивідуальних властивостей зображень і забезпечує узгоджене наближення до заданого PSNR.
У ряді випадків (наприклад, зображення AIRFIELD та BUILDING) після уточнення PSNR_отр2 практично збігається з бажаним значенням, що вказує на високу точність методу для зображень з регулярною структурою [6]. Натомість для складних або зашумлених зображень, таких як BIKE, початкове відхилення було значним, але уточнення дозволило ефективно його компенсувати.
Також встановлено, що у меншості випадків виконується нерівність QF_corr > QF_interp. Підкреслимо також, що в результаті корекції найбільші остаточні похибки спостерігаються для складних за структурою зображень GRASS та IVANOF (трава та мапа з багатьма деталями) [5, с. 20], але при цьому PSNR після другого етапу стиснення більше, ніж бажане. Таким чином, другий етап на основі похідної забезпечує необхідну адаптивність методу та високу точність у досягненні бажаної якості.
Висновки. У цій роботі реалізовано та експериментально досліджено двоетапний підхід до вибору параметра QF для забезпечення заданого рівня якості (PSNR) при стисненні зображень у форматі HEIF. Метод поєднує побудову усередненої кривої залежності PSNR від QF, застосування лінійної інтерполяції для первинного прогнозування значення QF, а також подальше уточнення цього параметра на основі локальної похідної.
Проведений аналіз підтвердив ефективність такого підходу: перший етап дозволяє наближено досягати цільового рівня якості, а другий — істотно зменшує дисперсію для більшості зображень. Застосування другого етапу — уточнення параметра QF — дозволяє зменшити дисперсію похибки PSNR у рази, при цьому таке покращення спостерігається в широкому діапазоні бажаних значень PSNR, що свідчить про стабільність покращення та наближення точності до бажаного рівня.
Запропонований алгоритм не потребує ітераційного підбору параметра QF, тому може бути реалізований в автоматизованих системах попереднього стискання, архівації та передавання зображень. Метод є універсальним та може бути адаптований до інших форматів, зокрема AVIF, JPEG або WebP. Подальші дослідження можуть бути спрямовані на розширення підходу для багатоканальних (кольорових) зображень, а також на інтеграцію інших метрик якості, зокрема SSIM, FSIM або VIF.
Література
1.F. Li, S. Krivenko, V. Lukin, Two-step providing of desired quality in lossy image compression by SPIHT, Radioelectronic and computer systems, Kharkiv, KhAI. – 2020. - №2(96). - pp. 22-32. DOI: 10.32620/reks.2020.2.02
2.D. Demchenko, I. Dyogtev, S. Krivenko, V. Lukin, A two-step approach to providing a desired quality of lossy compressed images, Proceedings of ICTM, Kharkiv, Ukraine. – 2020. - pp 482-491. DOI: 10.1007/978-3-030-37618-5_41
3.Li F., Lukin V., Providing a Desired Compression Ratio for Better Portable Graphics Encoder of Color Images: Design and Analysis, Digitalization and Management Innovation: Proceedings of DMI 2022, IOS Press, 2023, pp. 633-640. DOI: 10.3233/FAIA230063
4.Li F., Lukin V.V., K. Okarma, Y. Fu, J. Duan, 2021, Intelligent lossy compression method of providing a desired visual quality for images of different complexity, Proceedings of AMMCS, China, pp. 500-505.
5.Lukin V., Kryvenko S., Li F., Abramov S., Abramova V., Kovalenko B., Dohtiev I., Arkhipov O., Stojanović N., Bondžulić B. Quality of lossy compressed images and ways of its providing // Image processing: ways to improve quality. Chapter 1. 2025. DOI: 10.21303/000-0000-0000-0-0.ch1
6.Li F., Abramov S., Dohtiev I., Lukin V. Advantages and drawbacks of two-step approach to providing desired parameters in lossy image compression // Сучасні інформаційні системи. 2024. Т. 8, № 1. С. 57–61. DOI: https://doi.org/10.20998/2522-9052.2024.1.07