ИИ научился рисовать изображения по их текстовому описанию

Скоро андроиды будут не только мечтать об электроовцах, но даже смогут изобразить их на холсте. На днях компания OpenAI, к основанию которой в своё время приложил руку Илон Маск, сообщила, что смогла обучить нейронную сеть создавать рисунки из коротких текстовых подписей. Это первое решение, когда ИИ создаёт сложное и связное визуальное представление, используя лишь короткое текстовое пояснение. Профессия художника-иллюстратора может исчезнуть.

Источник изображения: OpenAI

Источник изображения: OpenAI

Для графических представлений подписей компанией OpenAI обучено программное обеспечение Dall-E. Для обучения через нейросеть прогнали набор данных из 12 млрд изображений и их подписей, которые были найдены в Интернете. Результат обучения впечатлил даже создателей.

«Мы обнаружили, что он [Dall-E] обладает разнообразным набором возможностей, включая создание антропоморфных версий животных и объектов, комбинирует несвязанные концепции правдоподобными способами, рендерит текст и применяет преобразования к существующим изображениям», — написала компания. Ниже на иллюстрации представлен пример изображений, которые Dall-E нарисовал на базе двух текстовых сообщений, одно о детёныше дайконе (редисе) в балетной пачке выгуливающей собаку, а второе — о кресле в форме авокадо.

Иллюстрация маленькой редиски дайкон в балетной пачке, выгуливающей собаку, автор DALL-E

Иллюстрация маленькой редиски (дайкон) в балетной пачке, выгуливающей собаку, автор DALL-E

Кресло в форме авокадо, автор DALL-E

Кресло в форме авокадо, автор DALL-E

Программа Dall-E, сочетающая в своём названии имя художника-сюрреалиста Сальвадора Дали и имя мультяшного персонажа Wall-E, имеет в своей основе текстовый генератор под названием GPT-3 (Generative Pre-Training). Генератор GPT-3 компания OpenAI представила весной прошлого года и готовится к коммерциализации API для этой разработки. Система, обученная GPT-3, оказалась способной создавать связные тексты как для чат-ботов, так и виде развёрнутых статей на любую тематику. В дополнение к GPT-3 пакет Dall-E прошёл также обучение текстом и графикой, показав тот результат, который всем нам ещё предстоит осмыслить.

Разработчики из OpenAI признают, что Dall-E обладает «потенциалом значительного и широкого общественного воздействия», добавив, что компания «планирует проанализировать потенциальное влияние подобных Dall-E решений на определенные рабочие процессы и профессии, долгосрочные этические проблемы и другие вопросы, связанные с этой технологией».

Источник:

Добавить комментарий

  • Яндекс.Метрика
  • Рейтинг@Mail.ru