Как написать нейросеть генерирующую картинки

Сегодня будет не совсем обычный проект: мы не будем ничего программировать сами, а просто используем чужой код для интереса, развлечения и просто потому, что можем.

В чём суть

Разработчик Кэтрин Кроусон написала алгоритм, в котором нейросеть по текстовому описанию на английском языке пытается нарисовать подходящую картинку. Например, мы ей пишем (на английском, естественно) «программист-полуночник», а она выдаёт картинку:

Это «полуночное программирование» — очевидно, от первого лица

Или, например, «Семь грехов», а она в ответ:

Сложно сказать, что здесь изображено, но атмосфера греховная

Мы, разумеется, попросили алгоритм показать нам кадр из ещё не вышедшей игры Half-Life 3. Фанаты по всему миру ждут, когда же будет продолжение серии про Гордона Фримена и борьбу с «Комбайном». У алгоритма для нас плохие новости:

«Мистер Фримен, я что-то неважно себя чувствую»

Интересно, что в оригинальной игре у главного героя ровно такие же очки и оранжевый защитный костюм. Сложно сказать, о чём думал алгоритм, когда рисовал эту картинку, но он явно что-то знает.

Практического смысла в этих картинках пока нет, но удовольствия море. И, самое главное, вы можете получить такие же картинки по любым собственным запросам, причём даже если у вас очень простой компьютер.

Где попробовать

Для работы с алгоритмом достаточно интернета и гугловского ноутбука в облаке. Мы уже писали про jupyter-ноутбуки, но на всякий случай вот суть:

Ноутбук — это среда выполнения для кода, которая позволяет сразу видеть результат работы всех частей кода. В нашем случае это среда для Python, но бывают и ноутбуки для других языков.
Можно эту среду запустить на своём компьютере, а можно использовать облачные ноутбуки. Если запускать у себя, то ноутбук сможет использовать все системные ресурсы и работать быстрее. Если в облаке — ресурсы облачного компьютера.
Пример такого облачного ноутбука — «Гугл Колаб». Им можно делиться с кем угодно, и тот, у кого есть ссылка на ноутбук, может тоже запустить тот же самый алгоритм.

Вот ноутбук, в котором можно запустить этот алгоритм. На всякий случай мы сделали свою копию, если вдруг исходный ноутбук будет недоступен.

Куда писать свой текст?

Промотайте ноутбук до середины и найдите раздел Settings for this run. В нём будет переменная prompt — в ней и задаётся фраза, по которой алгоритм будет рисовать картинку. Что вы здесь напишете — то и получите. Ну или не совсем то, но тоже будет в тему. Или нет. Мы не знаем, это нейросеть, там всё непредсказуемо.

Как запустить

Заходите в меню и выбираете «Среда выполнения» → «Выполнить всё»:

Где увидеть результат

Пролистайте страницу до конца кода — после него будет строчка с прогрессом выполнения:

Она показывает, на сколько процентов готова ваша картинка. Каждые 10% ноутбук выдаёт промежуточный результат. Можно посмотреть, как менялась картинка на очередном этапе вычислений:

Самая последняя картинка с надписью Step 999 и будет итоговым результатом работы алгоритма.

Красивые гифки с процессом

Если собрать все промежуточные картинки, то можно увидеть, как алгоритм на каждом шаге улучшает свой результат.

Исходная фраза — man with books. Очень похоже на вырезанную сцену из фильма «Интерстеллар» 🙂

Как сгенерировать нейросетью любые картинки

А это — иллюстрация к названию фильма «Карты, деньги, два ствола» (Lock, Stock and Two Smoking Barrels). Двух стволов нет, но один точно дымится.

Что там под капотом

Внутри работают два нейросетевых алгоритма.

Первый — ImageNet из OpenAI. Он генерирует картинки 256 на 256 пикселей. Его задача — получить картинку максимального качества. Для этого он раз за разом улучшает детализацию и делает картинку чётче и подробнее.

Второй алгоритм — CLIP: он соединяет текст с картинками. Изначально CLIP создавался для того, чтобы, наоборот, распознать, что изображено на фото. Но в этом алгоритме он работает в обе стороны — говорит, что нужно сделать, а потом раз за разом проверяет, что получается.

Вместе они работают так:

CLIP говорит второму алгоритму, к какой картинке она должна стремиться.
ImageNet старательно делает первый набросок и показывает его.
CLIP оценивает, насколько это совпадает с запросом, и говорит, в каком направлении нужно двигаться дальше.
ImageNet делает второй набросок и показывает его снова.
Так продолжается до тех пор, пока CLIP не скажет «всё, хорош» или когда точность приближения, по мнению нейросети, не будет ниже той, что нужна для остановки.

Откуда нейросеть всё это знает

Чтобы алгоритм мог сопоставлять слова с картинками, нейросеть специально обучали на огромном множестве изображений с описаниями. Там было всё: и фото людей, и котят, здания, игры, машины, книги, чашки, свитеры, чугунные ванны и фарфоровые статуэтки.

Если бы не было такого набора с данными, нейронка сама бы не поняла, что кошка — это кошка, и выдавала бы просто квадрат из несвязных пикселей.

Получается, что эти два алгоритма в связке просто пытаются подражать тем изображениям, на которых они были обучены. Они не обладают собственным образным мышлением и не придумывают ничего с нуля — лишь берут огромную базу существующих впечатлений и комбинируют их по инструкции.

Похожим образом работает «Балабоба» Яндекса — это нейросетевой алгоритм, обученный на огромном корпусе текстов из интернета. Когда мы даём задание «Балабобе», алгоритм дёргает нужные фразы из корпуса и выдаёт результат.

Вёрстка:

Кирилл Климентьев

Источник

В начале 2023 года для генерации изображений активно используются две нейросети — Midjourney и Stable Diffusion. На основе этих двух алгоритмов мы и будем учиться составлять правильные запросы к нейросетям.

Помощники запросов

Первым делом — отличная новость. Если вы не хотите вручную создавать запросы или промпты (англ. prompt — подсказка, запрос), есть решение: существуют генераторы запросов. Для создания промптов вы можете воспользоваться помощниками. Они сами сформируют запрос с учётом синтаксиса выбранной вами нейросети.

Полученные запросы можно использовать как в Midjourney, так и в Stable Diffusion, а также в других нейросетях, которые поддерживают генерацию изображений по текстовым запросам.

Вот три лучших сервиса генерации промтов для Midjourney и Stable Diffusion.

Midjourney Prompt Helper

Самый простой помощник запросов. Просто выберите слова из списка и скопируйте готовый запрос. Кроме того, вы можете использовать модификаторы алгоритма и выбирать размер изображения:

Prompt builder for AI art Generators — promptoMANIA

Ещё один простой помощник запросов, который позволяет генерировать промпты для Midjourney, DreamStudio, Stable Diffusion, CF Spark, DALL-E 2, Disco Diffusion, NightCafe, wombo.art, Craiyon.

GitHub — willwulfken/MidJourney-Styles-and-Keywords-Reference

Самый сложный, но и функциональный помощник подсказок. Для его использования, как минимум, понадобится навык работы с репозиториями на GitHub.

А теперь о том, как самому составить правильный запрос к нейросети так, чтобы она сгенерировала то, что вы от нее ждете.

Продвинем ваш бизнес

В Google и «Яндексе», соцсетях, рассылках, на видеоплатформах, у блогеров

Подробнее

Stable Diffusion

Это одна из самых популярных нейросетей для генерации изображений в 2023 году. Чтобы создать изображение, требуется промпт. Мы сгенерировали более сотни различных изображений в Stable Diffusion, тестируя разные вариации одного и того же промпта.

Вот несколько факторов, которые нужно учитывать при составлении запросов в Stable Diffusion и подобным нейросетям.

Конкретика. Когда мы тестировали Stable Diffusion и пробовали разные примеры запросов стало понятно: нейросеть любит максимальную конкретику в запросах. Другими словами, вы должны как можно точнее сформулировать главный объект и указать его в промте. Например, rhino of the earth:

Комбинации. Иногда нейросеть выдаёт потрясающие результаты даже на основе промпта из одного или двух слов. В других случаях — необходимо добавлять большое количество уточняющих слов, чтобы получить приемлемый результат. Например, взгляните на эту текстовую подсказку:

realistic detailed image of a renaissance scene in the style of Francis Bacon, Surreal, Norman Rockwell and James Jean, Greg Hildebrandt, and Mark Brooks, triadic color scheme, By Greg Rutkowski, in the style of Francis Bacon and Syd Mead and Edward Hopper and Norman Rockwell and Beksinski, open ceiling, highly detailed, painted by Francis Bacon, painted by James Gilleard, surrealism, airbrush, Ilya Kuvshinov, WLOP, Stanley Artgerm, very coherent, art by Takato Yamamoto and James Jean.

А этот результат отрисовки по длиннющему промпту:

Необходимо тестировать разные комбинации слов в промпте, при этом учитывайте: некоторые слова в запросе для Stable Diffusion могут по умолчанию сильнее менять изображение или смешивать его с объектом. Чтобы избежать этого эффекта, добавляйте необходимые слова в промпт.

Стилизация. Стиль — это конкретное направление, которое применяет художник или дизайнер. Например, традиционные стили европейского искусства — барокко, ренессанс, сюрреализм. Вот, что мы получили, добавив в подсказку слово impressionism:

А еще есть супрематизм, кубизм, ампир, авангардизм, абстракционизм. Преимущество Stable Diffusion в том, что нейросеть распознаёт сотни чужих стилей, причём не только из фото и живописи, но и других форм искусства: скульптуры, архитектуры, мозаики и даже трехмерных моделей.

Допустим, вы хотите создать изображение по запросу «девушка с красными волосами в стиле кавай», но так, чтобы она была похожа на живопись. Для этого после основного запроса stunning surreal portrait acrylic on canvas art, добавьте через запятую слово acrylic paint. Результат в нашем случае был таким:

Работа в стиле конкретного художника, фотографа или дизайнера. Все запросы для нейросети Stable Diffusion можно сделать ещё более точными, если указать через запятую имя художника. В таком случае нейросеть автоматически сымитирует и стиль этого художника. Обратите внимание: для указания конкретных художников нужно использовать местоимение by. Например, хотите пейзаж в горах в стиле Энди Уорхола:

Кстати, вы можете указать сразу несколько известных живописцев, дизайнеров или фотографов, чтобы получить изображение ещё более интересного стиля.

Одно из лучших мест для поиска вдохновения — это статья 40 Famous Artists Everyone Should Know, From Michelangelo to Frida Kahlo на сайте mymodernmet.com. На нём вы найдёте очень длинный список художников, разбитых по эпохам и стилям. Просто выберите художника или стиль, затем — добавьте соответствующее слово в текстовую подсказку.

Параметры съёмки. Вы можете задать параметры камеры или объектива. Если вы хотите создать реалистичное изображение, то надо точно представлять себе, что должно быть на выходе. Например, вы хотите получить объект, снятый на 50 мм объектив? Укажите в промпте:

-50mm lens

Описание объекта и сцены, фокусное расстояние объектива, экспозиция и ISO — все эти и другие параметры настоящей камеры вы можете смело устанавливать через запятую в своем текстовом запросе для нейросети.

Самые важные параметры Stable Diffusion

Давайте разберём самые важные настройки промптов в Stable Diffusion, которыми можно управлять в интерфейсе нейросети. Отметим, что эти параметры подойдут для опытных пользователей, которые смогли установить и запустить нейросеть на своем компьютере. В интерфейсе нейросети на сайте Hugging Face, например, есть далеко не все из этих настроек.

Источник или Seed. Это стартовая точка рендера. Первоначальный рендер получился удачным? Значит сохраните использованный на старте Seed. Результат неудовлетворительный? Укажите -1 и продолжите попытки отрисовки.

Сэмплер или Sampler. Этот инструмент позволяет генерировать похожие на главное изображение варианты.

Интересные рендеры вы можете увидеть уже с 10-го кадра. Самые необычные — после 50-60-ти отрисовок.

Шаги или Steps. Это шаги, которые будут выполнены в процессе рендеринга сцены. Вы можете указать нейросети любое количество шагов. Но если деталь какого-то объекта имеет артефакт на 10-20-м рендере, то вряд ли он уйдёт в дальнейших отрисовках. В этом случае лучше подкорректировать промпт.

Разрешение или Resolution. Это просто разрешение, которое должно быть на выходе рендера. 512 пикселей — значение по умолчанию. Конечно, вы можете поэкспериментировать с его уменьшением или увеличением, но результат вряд ли будет удовлетворительным. Например, при увеличении разрешения объект просто дублируется в разных зонах сцены. Порой случайно и хаотично.

Creativeness или Точность следования запросу. Если вы хотите писать запросы для нейросети Stable Diffusion, поиграться с этим параметром определенно стоит. Хотите, чтобы нейросеть интерпретировала ваш промпт свободно или наоборот — очень строго? Воспользуйтесь Creativeness.

Укажите значение 2, если хотите предоставить нейросети полную свободу в отрисовке (ваш первоначальный промпт будет использоваться только как очень-очень далёкий, маловажный референс).

Укажите значение 16, если нужно, чтобы нейросеть дословно следовала запросу при отрисовке. Вы можете указать любые значения в этом диапазоне (от 2 до 16). Creativeness по умолчанию равно 8.

Вес объектов в Stable Diffusion: как правильно писать запрос

Необходимо также сказать о соотношении объектов внутри сцены / кадра / сюжета. Новички часто используют десятки разных ключевых слов, пытаясь сгенерировать очень сложные изображения. Или пытаются создать изображение, на котором содержится большое количество объектов. Но в итоге получается месиво или хаос:

Вес ключевого слова в Stable Diffusion добавляется через двоеточие, после ключа. Само значение веса можно указать десятичным числом, например:

monkey:0.20, dog:0.50, sky:0.90

Однако использовать числа для описания веса объекта не обязательно — вы можете повышать или уменьшать важность ключевого слова при помощи скобок. Например, нам нужно получить страшную собаку. «Собака» будет главным словом в запросе, а характеристика «страшный» — второстепенным. Вот как это промпт будет выглядеть со скобками:

«[scary],((dog))».

Ни одна нейросеть не может заменить настоящего дизайнера. Поэтому заказать дизайн сайта лучше всего у профессионалов TexTerra — сделаем качественно и учтем все ваши пожелания.

Midjourney

Для генерации изображений эта нейросеть использует модель текстовых подсказок точно так же, как и Stable Diffusion.

Нельзя сказать, что Midjourney создаёт более реалистичные изображения по сравнению с Stable Diffusion или наоборот. Но что очевидно уже после первых тестов — алгоритмы этих нейросетей по-разному отрабатывают одинаковые промпты.

Начнём с самых важных настроек нейросети.

Самые важные параметры Midjourney

Здесь мы рассмотрим самые важные настройки запросов и самой Midjourney.

Изменение размеров изображения в Midjourney. Вы можете изменить пропорции вашего изображения с помощью команды Aspect Ratio. Для этого нужно задать после запятой команду вида —ar x:y. Допустим, вы хотите создать изображение с соотношением сторон 3:4. Просто укажите:

—ar 3:4.

Или вы хотите изменить соотношение сторон на 16:9. Используйте параметр:

—ar 16:9.

Вы также можете задавать конкретные значения высоты и ширины, используя команды —h и —w. Если вы введете только —h или только —w, то сторона, которую вы не указали, сохранит текущие размеры.

Обратите внимание: лучше всего изменение соотношения сторон кадра работает, когда размер кратен 64. Например:

—h 512 или —w 384

Разработчики Midjourney рекомендуют не превышать значение в 512 пикселей, иначе отрисовка может быть выполнена некорректно.

Ранняя остановка рендеринга или Stop Render Early. Иногда нужно сгенерировать менее проработанное изображение, чем то, которое создается в конце полного цикла работы нейросети. И мы можем дать команду Midjourney остановить процесс генерации раньше времени.

Полный цикл равен 100 отрисовкам, поэтому, если вы хотите остановить рендеринг, когда он завершен на 50%, можно использовать команду stop:

—stop 50.

Это отличный способ создать мягкую композицию или сцену без фокусировки на объекте.

Повышение яркости при масштабировании или Uplight Upscale. Этот параметр автоматически увеличивает яркость композиции при повышении масштаба изображения.

Конечно, немного повысить яркость можно уже в графических редакторах после генерации изображения, но в некоторых случаях это не сработает. Поэтому, чтобы на выходе получить более яркую картинку, можно использовать параметр —uplight в конце подсказки.

Оператор —no. В предыдущих версиях Midjourney отрицание в промптах работало некорректно. Но сейчас этот параметр работает всё лучше и лучше. Она позволяет исключить из картинки те паттерны, которые вы не хотите в ней видеть. Просто введите —no и после этой подсказки — описание того, что вы не хотите видеть в готовой картинке.

Эта команда особенно полезна, если вы используете подсказку, которая имеет несколько значений. Параметр —no может быть использован для уточнения подсказки.

Подробнее о том, как зарегистрироваться в «Дискорде», где найти чат Midjourney и как указать команду — вы можете прочитать в другом нашем гайде — «Новая Midjourney — как работать бесплатно». Кстати, в нем же собрано подробное описание всех важных команд, а также алгоритм как писать запросы в Midjourney.

Как сделать запрос для Midjourney

Чтобы создать запрос к нейросети, используйте следующую команду:

/imagine prompt [текстовый запрос].

Запросы для нейросети Midjourney могут быть такими же, которые вы используете для Stable Diffusion. Промпты могут быть как простыми, так и сложными, включающими в себя десятки слов одновременно. Если вы новичок, вам может быть сложно сразу подобрать подсказки для создания желаемого изображения. При этом при создании запросов для Midjourney нет четких правил. Но есть несколько советов, которые помогут вам правильно составить промпт и получать в результате работы алгоритма ожидаемый результат:

качество и реалистичность изображения, которое генерирует нейросеть, зависит только от текстовой подсказки.
чем конкретнее подсказка, тем больше информации вы даете алгоритму Midjourney для создания задуманного вами образа.
не обязательно быть сверх-конкретными: вы можете просто подтолкнуть нейросеть и посмотреть, что она придумает.

Все способы, которые помогут составить правильный запрос для Stable Diffusion прекрасно работают и в Midjourney. Например, хорошо помогает указание стиля художника или конкретного направления в искусстве.

Настройка веса референса в Midjourney

Все по аналогии со Stable Diffusion. Хотя в Midjourney нельзя использовать исходные изображения для отрисовки сцен, вы можете показать нейросети референс — ваше собственное изображение, на которое будет ориентироваться нейросеть при создании нового кадра. Для этого используйте команду -iw.

Экспериментировать с референсами очень интересно и, порой, это единственный способ добиться того, чтобы нейросеть нарисовала нужный вам объект. Например, человека из вашего окружения, о котором алгоритм не имеет представления.

Пошаговая инструкция, как добавить референс в подсказку с настройкой веса:

Найдите нужное изображение в интернете и скопируйте его URL.
Добавьте URL в начало подсказки.
После адреса картинки в тексте промпта добавьте параметр веса изображения. 1 — это нормальный вес, от него и надо отталкиваться. Значения ниже единицы снижают влияние конкретного изображения на результат генерации, а значения выше — увеличивают.

Общие рекомендации для всех нейросетей

Вам очень пригодится английский язык. Ни одна нейросеть не понимает русский язык так же хорошо, как английский.

Используйте нестандартные запросы для нейросети, а не просто [brown cat]. Если в вашей голове уже есть какой-то образ, то постарайтесь описать его в промпте как можно подробнее — так расхождение между ожиданием и реальной генерацией будут меньше.

Просто подумайте о том, как бы вы описали нужное изображение своему другу. Представьте, что вы рассказываете ему. какую картину вы увидели в магазине.

Вот краткий чеклист, который поможет сформировать даже сложный текстовой запрос за пару минут:

Задайте размер как самого изображения, так и отдельных объектов.
Задайте тему (например, опушка леса или космос).
Используйте описание стиля (например, мозаика, реализм, мультик).
Попробуйте упомянуть художника, фотографа или дизайнера (например, Энди Уорхол).

Теперь вы точно знаете, как правильно делать запросы для нейросети и сможете сгенерировать не набор случайных объектов, а произведение, похожее на искусство, или, по крайней мере, тот образ, который вы хотели.

И напоследок пара важных фактов:

Midjourney — платная нейросеть, но зато пользоваться ей может любой человек, даже очень далёкий от разработки.
Stable Difussion — полностью бесплатная нейросеть (open-source). При этом для полноценного использования оригинального алгоритма лучше всего скачать его исходный код на свое устройство и запустить на нем. Конечно, функционалом нейросети можно пользоваться и на специальных сайтах, включая Hugging Face, однако там доступны далеко не все настройки алгоритма.

Сейчас на главной

Новости

Публикации

В очередной раз перемещаясь из точки А в точку Б по трассе, вовремя среагировал на новую камеру видеофиксации, которую ранее не видел. Радар-детектор сработал вовремя и я не получил штраф….

Сегодня я предлагаю познакомится с флагманскими полноразмерными наушниками Oneodio Monitor 80. Основной особенностью которых является открытая конструкция чашечек и использование 40 мм…

Всё быстрее приближается тот день, когда нейронные сети окончательно вытеснят глупых Homo Sapiens из классических сфер труда и навсегда изменят привычный нам мир. Однако не стоит пугаться и…

Содержание Технические характеристики Комплект поставки Характеристики Дизайн Дисплей Возможности Время работы Плюсы и минусы Итоги Сегодня электронные книги…

В 2020 году компания Dreame представила улучшенную версию хитового Mijia 1C под названием Dreame F9. Инженеры полностью сохранили старый дизайн, практически оставили без изменений функционал и в…

Если автомобиль не роскошь, а средство передвижения, то насколько доступным его можно сделать. Индийский автомобильный концерн Tata Motors Ltd показал всему миру, что полноценный серийный…

Источник

Делимся списком полезных онлайн-сервисов для генерации картинок, фотографий и иллюстраций с помощью нейросетей.

Что такое нейронная сеть и как она работает

Нейронные сети – это программы, которые имитируют нейронные связи в мозге и самообучаются, обрабатывая большие объемы данных. Иногда нейронные сети называют «искусственным интеллектом» (AI), но на самом деле никакого интеллекта нет – нейронная сеть ничего не осознает и лишь выполняет команды.

Наиболее популярные сферы применения в последние годы:

генерация контента;
обработка данных с камер;
биометрия и распознавание лиц.

Также нейросети применяют в экономике, маркетинге и медицине для анализа данных и прогнозов.

В случае с генерацией изображений результат может быть неожиданным и даже пугающим Помните: чем точнее ввести команду, тем лучше получится изображение.

Большинство нейросетей работают на английском языке. При вводе запроса на русском нейросеть сама переведет его на английский, и в этом случае могут возникнуть ошибки в расшифровке или потеряться контекст.

Нейросеть Stable Diffusion подбирает изображения исходя из запроса

Что касается нейросетей для маркетинга и SMM, то сгенерированные по описанию картинки используют в основном для создания аватарок, реже – для постов и сторис. Работа с нейросетями на данный момент носит скорее развлекательный характер, но их уже можно использовать, чтобы создавать фоновые изображения, логотипы и иллюстрации.

Нейросеть Midjourney создает из обычного логотипа арт-объект

В качестве редактора для финальной обработки картинок рекомендуем воспользоваться нашим онлайн-сервисом «Холст».

Онлайн-редактор изображений «Холст» помогает быстро обработать картинки для соцсетей

«Холст» – универсальный инструмент для редактирования и создания визуального контента в соцсетях. Работает бесплатно на любом тарифе. В нем вы сможете наложить текст, загрузить свой шрифт, поставить фильтр, добавить графику или вырезать фон. Подобрать подходящий дизайн помогут более 200 шаблонов для постов и сторис и удобные инструменты кадрирования.

Читайте также: 77 приложений и сервисов для контент-менеджера.

Midjourney

Как воспользоваться: вступить в дискорд-сервер.

Цена: бесплатно, но есть лимит на количество картинок в день.

Ввод текста: английский и русский.

На дискорд-сервере можно создать свою картинку и посмотреть, как делают изображения другие пользователи

Midjourney – одна из лучших нейросетей для создания изображений, большинство кадров, что вы видели в интернете, сгенерированы в ней.

Алгоритм Midjourney работает в режиме бета-теста и доступен только на дискорд-сервере разработчиков. Чтобы воспользоваться нейросетью, зайдите на сервер, выберите любую комнату с названием newbies и введите команду /imagen. После – добавьте текстовое описание. Алгоритм предложит 4 варианта, каждый из которых можно будет доработать.

Stable Diffusion

Как воспользоваться: на сайте нейросети.

Цена: бесплатно.

Ввод текста: английский и русский.

Варианты картинок по запросу «apple artstation»

Stable Diffusion – это онлайн-нейросеть, которая появилась относительно недавно. Ее особенность отражена в названии – алгоритм распознает формы из шумов, а потом преобразует их в определенные элементы из текстового запроса.

В отличие от Midjourney, DALL-E и других нейросетей, в Stable Diffusion практически нет ограничительных алгоритмов на поиск информации, что открывает большие возможности для творчества.

Нейросеть работает бесплатно без ограничений. Ввод на кириллице увеличивает время создания в 5-6 раз, учитывайте этот момент.

Craiyon

Как воспользоваться: на сайте, в телеграм-боте.

Цена: бесплатно.

Ввод текста: английский и русский.

У Craiyon не получается сделать хорошие лица и части тела – нейросеть часто ошибается с пропорциями

Craiyon работает на бесплатном алгоритме DALL-E Mini в режим онлайн и, наверное, хуже всех справляется с запросами, особенно когда ее просят нарисовать людей или животных.

Это можно объяснить тем, что нейросеть все еще обучается – создание изображения может занять несколько минут, что существенно больше, чем у Midjourney или Stable Diffusion.

ruDALL-E

Как воспользоваться: на сайте, в ассистенте «Салют».

Цена: бесплатно.

Ввод текста: русский, английский и еще более 100 языков.

Kandinsky 2.0 – единственная нейросеть, где есть стиль рисования «советский мультфильм»

Российское семейство нейросетей от Sber AI, в которое входит сразу несколько моделей:

Kandinsky 2.0 – авторский алгоритм Сбера, который умеет быстро создавать изображения по заранее выбранным стилям и размерам.
ruDALL-E Kandinsky и ruDALL-E Malevich – русская адаптация DALL-E, работает существенно медленнее, чем Kandinsky 2.0.
ruDALL-E Emojich – создает наборы эмодзи по текстовому запросу.

У всех нейросетей ruDALL-E наблюдаются проблемы с рисованием естественных форм – программы могут неверно указывать количество ног, смещать расположение глаз, смешивать фон и объект.

Читайте также: Как бизнесу эффективно использовать эмодзи в соцсетях.

Dream by WOMBO

Как воспользоваться: сайт, приложение на iOS, приложение на Android.

Цена: бесплатно с ограничениями, полный доступ – от 9,99 $ в месяц.

Ввод текста: английский и русский.

Бесплатные изображения от Dream всегда сохраняются в рамке с вотермаркой

Dream by WOMBO в первую очередь заточена на арт и иллюстрирование – здесь огромное количество визуальных стилей и, кроме текстовых запросов, есть возможность загрузить свою фотографию и переделать ее в абстракцию или сделать в стиле комикса. Сами картинки представлены в виде горизонтальных карточек и явно задуманы как контент для сторис.

StarryAI

Как воспользоваться: сайт, приложение на iOS, приложение на Android.

Цена: бесплатно до 5 картинок в день, сверх лимита – от 15.99 $.

Ввод текста: русский и английский.

Нейросеть крайне редко ошибается с лицами, когда генерирует картинки по запросу. Например, этот человек вполне похож на настоящего

Сервис для создания высококачественных иллюстраций на базе нейросетей Argo и Altair. Поддерживает более 30 стилей различных диджитал-художников, которые можно смешивать между собой и создавать свои картины. В настройках можно указать размер, количество вариантов, разрешения и глубину проработки.

GauGAN

Как воспользоваться: сайт, программа Canvas для Windows.

Цена: бесплатно.

Ввод текста: русский и английский.

Пример рисования по наброскам из проморолика

GauGAN и Canvas – это «умный Paint», где вы можете схематично нарисовать объекты (дом, река, лес), выбрать стиль, а дальше алгоритмы самостоятельно сделают для вас картинку. Готовую работу можно менять дальше – добавлять новые объекты, стирать неудачные моменты, менять цвет.

Нейросеть работает в формате демо-версии на сайте для всех, а для владельцев видеокарт Nvidia – как полноценный графический редактор, который можно установить на компьютер.

Читайте также: Бесплатные приложения для создания и монтажа видео на смартфонах и компьютерах.

Lexica Aperture

Как воспользоваться: сайт, вступить в дискорд-сервер.

Цена: бесплатно с ограничениям, полный доступ – от 8 $ в месяц.

Ввод текста: английский.

Результаты по запросу «стимпанк-кролик в Москве»

Нейросеть, в которой можно указать не только текстовый запрос, но и ввести слова-исключения. Работает на базе собственного алгоритма Lexica Aperture, который неплохо умеет создавать арт-иллюстрации. На сайте есть онлайн-библиотека изображений от других пользователей, которые можно взять и отредактировать под себя.

PlaygroundAI

Как воспользоваться: сайт, вступить в дискорд-сервер.

Цена: бесплатно до 1000 картинок в день, больше – от 15 $ в месяц.

Ввод текста: английский и русский.

Нейросеть умеет создавать фотореалистичные картинки и диджитал-арт

Нейросеть на базе Stable Diffusion с полноценным редактором. Сначала вы генерируете картинку, потом редактируете ее и в итоге создаете то изображение, которое было нужно. Сервис работает как соцсеть – в ленте можно подписаться на авторов, взять их дизайн на доработку или воспользоваться их текстовыми запросами.

Также есть аналогичные сервисы на базе Stable Diffusion, которые можно попробовать:

DEZGO. Можно настроить размер, качество, загрузить свою картинку. Есть нейросеть Anything, которая создает аниме-картинки.
Mage.Space. Собирает изображения по алгоритму Stable Diffusion, настроек никаких нет, работает только по текстовым запросам.
DreamStudio. Большое количество настроек, можно загружать свои фото.
DreamLike. Условно-бесплатный сервис, работает только с текстовыми командами.

Бонус: мобильные приложения для генерации картинок

Нельзя пройти мимо приложений, которые генерируют картинки по описанию или обрабатывают загруженные снимки в художественных стилях:

Lensa. В приложение встроен инструмент Magic Avatars, которые работает через Stable Diffusion. Задав стиль, можно получить пачку аватарок. Цена опции – от 4,99 $.
FaceTune. В редакторе есть кнопка Create with AI, которая создает изображения на базе ваших фото и текстовых запросов. Работает бесплатно, но на сгенерированных картинках будет ватермарка.
Draw Things. В режиме Different Models и Different Styles подключается нейросеть Stable Diffusion, которую можно настроить или указать текстом, что нужно сделать. Доступно только на iOS.

В итоге

Нейросети для генерации картинок – это удобный инструмент для обработки и стилизации готовых фотографий. Для тех, кто обладает художественными навыками и готов разбираться с тестовыми запросами, нейросети могут стать постоянным инструментом по созданию диджитал-картин и креативов для постов.

Источник

В чём суть

Где попробовать

Куда писать свой текст?

Как запустить

Где увидеть результат

Красивые гифки с процессом

Что там под капотом

Откуда нейросеть всё это знает

Помощники запросов

Stable Diffusion

Самые важные параметры Stable Diffusion

Вес объектов в Stable Diffusion: как правильно писать запрос

Midjourney

Самые важные параметры Midjourney

Как сделать запрос для Midjourney

Настройка веса референса в Midjourney

Общие рекомендации для всех нейросетей

Сейчас на главной

Новости

Публикации

Что такое нейронная сеть и как она работает

Midjourney

Stable Diffusion

Craiyon

ruDALL-E

Dream by WOMBO

StarryAI

GauGAN

Lexica Aperture

PlaygroundAI

Бонус: мобильные приложения для генерации картинок

В итоге

Не пропустите и эти статьи: