Как нейросети научились рисовать картины и писать музыку

Ещё совсем недавно мы и представить не могли, что какая-то железка, напичканная кодом, сможет творить. Ну, знаете, создавать что-то, что вызывает эмоции, заставляет задуматься или просто радует глаз и слух. Максимум — это генераторы случайных чисел или простенькие алгоритмы, которые могли бы рисовать абстракции, да и то со скрипом. Но сегодня, если вы не жили под камнем, вы точно видели, как нейросети жгут напалмом в мире искусства: рисуют картины, пишут музыку, сочиняют стихи, да так, что порой сбрасываешь челюсть на пол от удивления.

Как же это произошло? Как эти бездушные машины научились не просто копировать, а по-настоящему творить? Это не магия вне Хогвартса, а результат титанической работы инженеров и учёных. Давайте попробуем развеять туман и на пальцах объяснить, что же там происходит под капотом.

Нейросети: мозги на стероидах

Прежде чем копать глубже, давайте разберёмся с самой сердцевиной — что такое нейронные сети? Представьте наш мозг: это миллиарды нейронов, соединённых между собой. Когда мы учимся чему-то, эти связи меняются, усиливаются или ослабевают. Нейронная сеть — это, по сути, математическая модель, которая пытается имитировать этот процесс. Она состоит из слоёв искусственных нейронов, каждый из которых получает информацию, обрабатывает её и передаёт дальше.

Когда мы говорим о том, что нейросети рисуют или пишут музыку, речь чаще всего идёт о глубоком обучении (deep learning). Это подвид машинного обучения, где используются нейронные сети с очень большим количеством слоёв (отсюда и «глубокое»). Чем больше слоёв, тем сложнее и абстрактнее паттерны может распознавать и генерировать сеть. Это как если бы вы не просто выучили буквы, а научились писать целые романы, понимая нюансы стиля, сюжета и характеров.

Как они учатся рисовать: битва художников и критиков

Мир изобразительного искусства нейросети покоряли разными путями, но одним из самых революционных стал подход, известный как генеративно-состязательные сети, или GANs (Generative Adversarial Networks). Впервые их описал Ян Гудфеллоу с коллегами в 2014 году, и это был настоящий прорыв. Представьте себе дуэт: один нейросетевой художник (генератор) и один нейросетевой критик (дискриминатор).

  • Генератор: его задача — создавать новые изображения, пытаясь обмануть критика. Сначала он рисует что-то очень плохое, по сути, белый шум.
  • Дискриминатор: его задача — отличать настоящие изображения (из обучающей выборки) от поддельных, созданных генератором.

Они играют в бесконечные догонялки: генератор рисует, дискриминатор говорит «фу, подделка!» или «ого, похоже на правду!». Генератор учится на своих ошибках, стараясь сделать свои творения всё более и более реалистичными, чтобы обмануть дискриминатора. Дискриминатор, в свою очередь, становится всё более придирчивым. Этот процесс повторяется миллионы раз, пока генератор не научится создавать изображения, которые даже опытный человек с трудом отличит от настоящих. Это как если бы вы дали ребёнку карандаши и сказали: «Рисуй, пока твою мазню не перестанут отличать от работ Ван Гога».

Примеры таких сетей — это StyleGAN, способный генерировать нереально реалистичные лица, или BigGAN, который создаёт потрясающие пейзажи и объекты. А потом пришёл черёд диффузионных моделей (diffusion models), которые сейчас буквально правят бал. Они работают иначе: берут картинку, постепенно добавляют в неё шум, пока она не превратится в кашу из пикселей, а потом учатся обратной операции — убирать шум, восстанавливая изображение. Это как скульптор, который не лепит с нуля, а извлекает произведение искусства из глыбы хаоса. Именно на них основаны такие монстры, как DALL-E 2, Midjourney и Stable Diffusion, которые могут создавать что угодно по текстовому описанию — от «кота в скафандре на Марсе» до «футуристического города в стиле киберпанк».

Как они пишут музыку: от ноты к симфонии

С музыкой история немного другая, но не менее захватывающая. Музыка — это последовательность: ноты, аккорды, ритмы, которые следуют друг за другом. Для таких задач традиционные нейросети подходят не так хорошо, как рекуррентные нейронные сети (RNNs) и их более продвинутые версии — сети с долгой краткосрочной памятью (LSTM). Эти ребята умеют «помнить» предыдущие элементы последовательности, что критически важно для понимания музыкальной структуры.

Представьте, что вы учитесь играть на пианино. Вы не просто нажимаете случайные клавиши; вы помните, какие аккорды играли до этого, какой был ритм, чтобы сыграть следующую ноту гармонично. RNNs и LSTM работают примерно так же: они анализируют огромные объёмы существующей музыки (обучающую выборку), учатся предсказывать следующую ноту или аккорд, исходя из того, что было сыграно ранее. Они улавливают не только мелодии, но и ритмические паттерны, гармонические прогрессии и даже «настроение» музыки.

Один из ярких примеров — проект MuseNet от OpenAI, который может генерировать 4-минутные музыкальные композиции в десяти различных стилях, сочетая разные инструменты. Он использует архитектуру трансформеров (Transformers), которые стали настоящей сенсацией в области обработки естественного языка (именно на них построены такие штуки, как ChatGPT). Трансформеры отлично справляются с очень длинными последовательностями, позволяя нейросети держать в уме всю композицию, а не только ближайшие ноты. Это даёт им карт-бланш на создание более сложных и когерентных музыкальных произведений.

Ещё один впечатляющий проект от OpenAI — Jukebox, который не просто генерирует MIDI-последовательности (ноты), а создаёт полноценные аудиозаписи с вокалом и инструментами в различных жанрах и стилях исполнителей. Это уже не просто ноты, это целые песни с голосами, которые звучат так, будто их спел реальный человек, хотя на самом деле это всё сгенерировано машиной.

Что дальше?

Нейросети уже не просто «рисуют» и «пишут». Они учатся понимать контекст, эмоции, стили. Мы стоим на пороге новой эры, где инструменты искусственного интеллекта станут не просто помощниками, а полноценными соавторами в творческом процессе. Кто знает, быть может, через пару лет мы будем слушать симфонии, написанные ИИ, и рассматривать картины, созданные им, задаваясь вопросом: «А где тут грань между человеком и машиной?» Одно можно сказать точно: скучно не будет!

Алексей Сосновский

Блогер, журналист, копирайтер

Оцените автора
Познавательный портал