Еволюція методів штучного інтелекту сформувала новий клас загроз для систем управління доступом - масове застосування діпфейків. Для забезпечення надійної ідентифікації розробникам необхідно створювати власні бази синтетичних артефактів для навчання захисних алгоритмів. Генеративні моделі можуть бути використані для синтезу наборів даних облич чи райдужної оболонки для тестування систем на стійкість до атак (spoofing). Сьогодні домінують два основні підходи до генерації зображень: GAN (Generative Adversarial Networks, генеративно-змагальні мережі) [1] та Diffusion Models (дифузійні моделі) [2].
GAN запропоновані Яном Гудфеллоу у 2014 році. Суть підходу полягає у змаганні двох нейромереж: генератора та дискримінатора. Генератор намагається створити зображення з випадкового шуму так, щоб воно виглядало максимально реалістично. Його мета - "обійти" дискримінатор. Дискримінатор працює як класифікатор. Він отримує на вхід як реальні зображення з навчальної вибірки, так і згенеровані. Його мета - відрізнити фальшивку від оригіналу. Переваги GAN: швидка генерація (один прохід мережі); створюють різкі, висококонтрастні зображення. Недоліки: нестабільне тренування; проблема, коли генератор знаходить одне вдале зображення і починає генерувати тільки його, ігноруючи різноманітність датасету. В основі GAN лежить мінімаксний підхід з теорії ігор двох гравців з нульовою сумою. Є розподіл реальних даних pdata (x) та апріорний розподіл шуму pz (z) (зазвичай нормальний або рівномірний). Генератор G(z) відображає шум у простір даних, створюючи розподіл pg. Дискримінатор D(x) видає ймовірність того, що x є реальним, взятим з pdata, а не згенерованим. Мета дискримінатора - максимізувати функцію цілі, мета генератора - мінімізувати. Ян Гудфеллоу математично довів, що глобальний оптимум цієї гри досягається тоді і тільки тоді, коли розподіл генератора ідеально збігається з розподілом реальних даних: pg=pdata. У цій точці дискримінатор не може відрізнити реальне від підробки, і D(x)=0.5 для всіх x. Основні варіанти архітектур GAN: Conditional GAN, глибока згорткова GAN, StyleGAN. Conditional GAN розширюють стандартну архітектуру GAN шляхом введення додаткової інформації як у генератор, так і в дискримінатор. Замість генерації даних лише з випадкового шуму, генератор отримує як шум, так і умову, наприклад, класову мітку. Дискримінатор також отримує умову для оцінки, чи є зразок реалістичним. Глибока згорткова GAN (DCGAN) замінює повнозв'язні шари в оригінальних GAN на згорткові та транспоновані згорткові шари, що підвищує їхню ефективність для генерації зображень. Також впроваджуються архітектурні рекомендації, такі як видалення повнозв'язних шарів, використання пакетної нормалізації та застосування активацій ReLU/LeakyReLU. StyleGAN, розроблений компанією NVIDIA, впроваджує керування у генераторі. Замість прямої подачі вектора шуму до генератора, він проходить через мережу відображення, яка створює "стильові вектори", що впливають на кожен шар генератора. Це забезпечує тонке керування візуальними ознаками, такими як колір волосся, вираз обличчя чи освітлення.
Diffusion Models базуються на двох марковських ланцюгах та нерівноважній термодинаміці. Процес ділиться на два етапи: прямий та зворотний. При прямому процесі до реального зображення поступово додається гауссівський шум, поки воно не перетвориться на суцільний білий шум. Нехай x 0 - це реальне зображення. Визначається марковський ланцюг, який поступово додає гауссівський шум до зображення протягом T кроків (T близько 1000). Дисперсія шуму на кожному кроці контролюється графіком дисперсії (variance schedule). Ймовірність переходу від кроку t-1 до t визначається як:  . Цей процес фіксований і не потребує навчання. Зворотний процес. Генерація нового зображення вимагає обернення часу, тобто обчислення q(x t-1│x t ). Застосування теореми Баєса для цього неможливе через відсутність інформації про повний розподіл даних, тому цей марковський перехід апроксимують за допомогою нейронної мережі:
Зазвичай використовується архітектура типу U-Net, доповнена механізмами уваги (Attention). На вхід U-Net подається зашумлений тензор (зображення на кроці t). Додатково мережі передається текстова підказка. Прохід через мережу: зображення стискається через згорткові шари (енкодер) для виділення високорівневих ознак, а потім розгортається назад (декодер) з використанням skip-connections. На виході U-Net генерує тензор такого ж розміру, як і вхідне зображення. Але це не саме зображення, а карта шуму. Навчання моделі зводиться до максимізації логарифмічної правдоподібності даних. Оскільки точне обчислення неможливе, максимізується варіаційна нижня межа (Variational Lower Bound, ELBO), як у варіаційних автоенкодерах. У [2] показано, що метрику ELBO можна спростити до функції втрат Lsimple:
де ϵ- це справжній шум, який додано при прямому процесі, ϵθ (xt,t)- це шум, що виявлено нейромережею.
Це середньоквадратична помилка (MSE), що робить навчання дифузійних моделей стабільним у порівнянні з нестабільною мінімаксною грою GAN.
Висновок
В результаті проведеного дослідження здійснено порівняльний аналіз методів генеративного моделювання зображень, зокрема генеративно-змагальних та дифузійних мереж. Доведено їхню ефективність для формування репрезентативних тестових вибірок, необхідних для верифікації засобів захисту інформації та оцінки стійкості систем біометричної аутентифікації до атак пред'явлення. Перспективи розвитку методів генеративного моделювання зображень пов'язані із оптимізацією обчислювальної складності ітеративних процесів знешумлення, підвищенням точності керованої генерації для моделювання специфічних векторів атак, а також із розробкою комплексних ансамблевих нейромереж для автоматизованого виявлення високоякісних діпфейків у режимі реального часу.
Список використаних джерел
1. Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, Yoshua Bengio/ Generative Adversarial Networks. https://arxiv.org/pdf/1406.2661
2. Jonathan Ho, Ajay Jain, Pieter Abbeel. Denoising Diffusion Probabilistic Models. arXiv:2006.11239. https://arxiv.org/pdf/2006.11239
3. Tero Karras, Samuli Laine, Timo Aila. A Style-Based Generator Architecture for Generative Adversarial Networks. https://arxiv.org/abs/1812.04948. https://arxiv.org/pdf/1812.04948
|