Как работает технология «глубоких фейков» (deepfake)

В последние годы вокруг нас развернулся настоящий цирк цифровых чудес, и одним из самых ярких его номеров, без сомнения, стали «глубокие фейки» или, как их называют по-английски, deepfake. Это не просто фотошоп на максималках, это что-то совсем из другой лиги: синтетические медиа, будь то видео или аудио, которые выглядят до жути реалистично, но при этом полностью сгенерированы искусственным интеллектом. Мы видим, как лица знаменитостей появляются в неожиданных местах, как политики «говорят» то, чего никогда не произносили, и все это заставляет нас задаться вопросом: а как, черт возьми, это работает?

Мозг операции: нейронные сети и глубокое обучение

В основе любой технологии deepfake лежит тяжелая артиллерия современного ИИ: глубокие нейронные сети. Представьте себе компьютерную систему, которая смоделирована по образу и подобию человеческого мозга, с миллионами взаимосвязанных «нейронов». «Глубокие» они потому, что состоят из множества слоев этих нейронов, каждый из которых обрабатывает информацию на своем уровне. Чем больше слоев, тем глубже сеть может «копать» в данных, выявляя самые неочевидные закономерности. Именно эта глубина позволяет ИИ не просто менять цвет глаз, а полностью воссоздавать мимику, жесты и даже интонации.

Два главных игрока: генеративно-состязательные сети (GAN)

Самый популярный и, пожалуй, самый мощный инструмент в арсенале создателей deepfake — это генеративно-состязательные сети, или GAN (Generative Adversarial Networks). Это как игра в кошки-мышки, где есть два главных персонажа:

  • Генератор (Generator): Этот парень — художник. Его задача — создать что-то новое, например, поддельное изображение или видео, которое выглядит максимально правдоподобно. Он постоянно пытается обмануть своего соперника.
  • Дискриминатор (Discriminator): А это критик, или, если хотите, полицейский. Его работа — определить, что перед ним: настоящее изображение из обучающей выборки или подделка, созданная генератором.

Эти двое тренируются вместе, в непрерывном цикле. Генератор создает фейк, дискриминатор пытается его распознать. Если дискриминатор угадывает, генератор получает «нагоняй» и учится делать фейки лучше. Если дискриминатор ошибается, он сам «получает по шапке» и учится быть более внимательным. Этот процесс повторяется миллионы раз, пока генератор не станет настолько мастеровитым, что сможет создавать подделки, которые даже опытный дискриминатор не сможет отличить от оригинала. Это и есть та самая «кузница», где рождается потрясающий реализм deepfake.

Другой подход: автокодировщики

Помимо GAN, в мире deepfake активно используются автокодировщики (autoencoders). Их можно сравнить с умными упаковщиками и распаковщиками информации. Автокодировщик состоит из двух частей:

  • Кодировщик (Encoder): Он берет входные данные (например, лицо человека) и сжимает их до некоего «сущностного» представления, отбрасывая все лишнее, но сохраняя ключевые черты. Это как если бы вы описали человека всего парой слов, но так, чтобы его можно было легко узнать.
  • Декодировщик (Decoder): А этот, наоборот, берет «сжатую» информацию и пытается восстановить из нее исходное изображение.

Для создания deepfake с использованием автокодировщиков обычно берут две такие системы. Одна обучается на лице «источника» (того, чье лицо мы хотим использовать), другая — на лице «цели» (на кого мы хотим наложить это лицо). Когда приходит время делать фейк, кодировщик источника извлекает его уникальные черты, а декодировщик цели использует эти черты, чтобы воссоздать лицо источника на теле цели. Звучит сложно, но на практике это позволяет очень точно переносить мимику и выражение лица.

Как это выглядит на практике: пошаговая магия

Представьте, что вы хотите создать deepfake, где один человек «говорит» слова другого. Процесс выглядит примерно так:

  1. Сбор данных: Сначала ИИ нужно «скормить» огромное количество видео и фотографий обоих людей. Чем больше, тем лучше: разные ракурсы, освещение, выражения лица. Это как учебник для ИИ.
  2. Обучение: На основе этих данных GAN или автокодировщики начинают свою бесконечную игру. Они учатся понимать уникальные черты каждого лица: форму носа, изгиб губ, морщинки вокруг глаз. А главное — как все эти черты меняются при разных эмоциях и движениях рта.
  3. Генерация: Когда ИИ достаточно натренирован, ему дают «исходное» видео (например, человек А что-то говорит) и «целевое» видео (человек Б молчит). ИИ берет аудиодорожку и мимику человека А, а затем генерирует видео, где человек Б «говорит» то же самое, но со своей собственной, синтезированной мимикой, которая идеально подогнана под его лицо.

В результате мы получаем видео, которое выглядит настолько правдоподобно, что отличить его от реальности становится настоящим челленджем. И это не просто наложение маски, это глубокая перерисовка каждого пикселя, учитывающая анатомию и физику движения лица. Именно поэтому deepfake так часто шокируют и вводят в заблуждение: они не просто подделка, они — новая, тщательно сгенерированная реальность.

Алексей Сосновский

Блогер, журналист, копирайтер

Оцените автора
Познавательный портал