Совсем недавно в наш лексикон вошло понятие "общедоступный искусственный интеллект". Несмотря на то, что этот инструмент появился не так давно, его стремительное развитие создаёт ощущение, что он с нами уже много лет.
Только мы начали восхищаться его умением отвечать на любые вопросы, как нас уже удивляет его новая способность — создание видео из текста. Есть все основания полагать, что это новшество откроет для нас революционные способы взаимодействия с покупателем.
В июне 2022 года, когда мы впервые познакомились с генератором изображений Midjourney (www.midjourney.com), казалось, что он способен заменить собой фотобанки и дизайнеров, создающих изображения на заказ. С его помощью можно было создать персонализированные изображения под любой запрос.
Однако, ИИ не смог полностью заменить ни фотографов, ни фотобанки с "живыми" фотографиями, ни дизайнеров. Вместо этого он стал незаменимым помощником в их работе. Фотографы начали использовать его для обработки снимков, а дизайнеры — для создания базовых изображений и разнообразия художественных инструментов.
В то время также предпринимались попытки создать видео из текста. Но результаты этих экспериментов вызывали лишь улыбку. Видео получалось, но оно совершенно не соответствовало реальности.
Например, если задать описание "человек ест гамбургер", то на деле получалось, что гамбургер ест человека, руки отделяются от тела, а рот разевается до размеров галактики.
Казалось, что нам никогда не удастся получить приемлемое видео из текста. Но всё изменилось 15 февраля 2024 года, когда компания OpenAI (создатели ChatGPT) представила SORA. Это решение показало, что многие технические проблемы можно преодолеть, а качество изображения поразило всех — оно не отличалось от реальной съёмки.
Sora сразу заявила, что публичного доступа к ней не будет до завершения выборов президента США в 2024 году, чтобы избежать возможного влияния на избирателей, так как мощь этого инструмента может оказать значительное воздействие. Однако, чтобы инструмент не простаивал, доступ к SORA был предоставлен нескольким избранным агентствам, которые могли бы продемонстрировать её уникальные возможности.
И действительно, через несколько месяцев появились первые результаты сгенерированных видео, которые по сюжету и качеству изображения уже больше напоминали законченные произведения, а не просто тестовые пробы ИИ.
Одним из таких произведений стал фильм-притча "Человек-воздушный шар". Этот 1,5-минутный фильм рассказывал о жизни человека с воздушным шаром вместо головы. Его жизнь полна опасностей: острые предметы и порывистый ветер угрожают его существованию, но он всё равно старается жить обычной жизнью, наслаждаясь простыми радостями, доступными каждому.
Фильм-притча передает идею хрупкости жизни и её наполненности, что отражает суть существования любого человека. С помощью ИИ удалось выразить глубокий смысл и оригинальную художественную задумку, что открыло перед творческими людьми безграничные возможности. Теперь достаточно просто изложить идею на бумаге, а всё остальное сделает ИИ.
Для бизнеса SORA открыла не менее блестящие перспективы.
Во-первых, стало возможным использовать генерацию видео из текста для создания маркетинговых материалов и рекламы продуктов. Во-вторых, появилась возможность создавать индивидуальные видео для каждого покупателя. В-третьих, генерировать видеоконтент стало проще и дешевле, что позволило интегрировать его не только в цифровую среду, но и насыщать офлайн-пространства. Например, можно создавать видео для витрин, фасадов, и digital signage внутри магазина (за кассой, в товарных категориях).
В июле 2024 года появилась первая реклама, созданная на 85% с помощью ИИ и Sora, с незамысловатым сюжетом для магазина игрушек Toys "R" Us. Этот ролик сразу же отправился на конкурс «Каннские львы», ознаменовав начало эры коммерческого использования технологии «видео из текста».
Очевидно, что видео оказывает более сильное воздействие на покупателя, чем статичные изображения. Более того, стало ясно, что мы находимся в периоде трансформации нашей цивилизации от печатного слова, которое формировалось несколько тысяч лет, к цивилизации потребителей медиаконтента: от видео и аудио до компьютерных игр. Для бизнеса такая трансформация означает необходимость генерировать всё больше видео, аудио и игр, так как люди всё меньше читают, а больше слушают и смотрят. Для бизнеса важно быть там, где его клиент.
Появление таких сервисов, как Sora, которые могут генерировать видео из текста, указывает на то, что с 2024-2025 года производство видеоконтента начнёт лавинообразно расти. Бизнесу нужно быть готовым к тому, что в компании появится специалист, обладающий навыками использования новых инструментов и способный выстраивать стратегию взаимодействия с покупателем на новом технологическом уровне.
Хотя по нынешним меркам прошло довольно долгое время — целых полгода, прежде чем у Sora появились конкуренты, всё же вскоре её одиночество завершилось. Появился китайский конкурент Kling (https://kling.kuaishou.com/), который показал, что способен создавать всё то же самое, что и Sora, а в некоторых случаях даже лучше. Они буквально повторили все сюжеты, созданные Sora, и продемонстрировали, что их технология не уступает по качеству.

Всем стало ясно, что появление аналогичных сервисов не за горами. И действительно, через месяц после выхода Sora, появился сервис Luna с проектом Dream Machine (https://lumalabs.ai/dream-machine), предоставивший доступ к генерации видео. Правда, в отличие от Sora, на бесплатном тарифе длина их роликов составляла всего 5 секунд, а на платном — 10 секунд. Качество также оставляло желать лучшего, но сервис был на стадии становления. Скорее всего, через полгода мы увидим значительный скачок в качестве, как это произошло с Midjourney, который прошел путь от генерации людей с шестью пальцами до создания невероятно реалистичных и безупречных изображений.
Следом за Dream Machine возможность генерировать видео появилась и у RunWay (https://runwayml.com/). Кажется, что через год недостатка в таких сервисах не будет — их будет много, на любой вкус и кошелек.
Помимо создания видео из текста, быстро развиваются сервисы по "оживлению" статичных фотографий, такие как Hedra (https://www.hedra.com/). Эти сервисы могут не только имитировать движения человека, но и создавать иллюзию, что ожившая фотография "понимает", о чем она говорит или поет. Создание таких иллюзий открывает возможность создания цифровых персонажей, которых можно нарисовать и затем "оживить". Такой персонаж может стать идеальным лицом бренда.
Таким образом, технологии искусственного интеллекта стремительно меняют не только творческую сферу, но и бизнес, предоставляя новые инструменты для взаимодействия с клиентами и создания контента. В ближайшие годы мы увидим еще больше революционных изменений и возможностей.
Вслед за возможностью оживления фотографий стала доступна технология создания цифровых аватаров с помощью HeyGen (https://app.heygen.com/).
Эти аватары являются точными копиями реальных людей, но полностью контролируются маркетинговой командой, создающей контент для взаимодействия с аудиторией. Цифровой аватар никогда не устает, говорит то, что нужно маркетологам, и может быть растиражирован в тысячи видеороликов — идеальный солдат в битве за продажи.
Еще один приятный сюрприз в 2024 году — это появление Suno (https://suno.com/). Наш арсенал маркетинговых инструментов расширился, теперь можно создавать индивидуальные музыкальные композиции — песни на русском языке и инструментальные произведения любого жанра. Создание песни под любой случай для любого клиента стало настолько простым, что стоимость одной композиции снизилась до примерно 40 копеек! Вслед за Suno появился сервис Udio (https://www.udio.com/), который начал конкурировать с Suno по качеству своих композиций.
Таким образом, благодаря ИИ мы можем получить видео с музыкой и сценарием, написанным искусственным интеллектом. Нарастающая конкуренция между сервисами стимулирует компании совершенствовать ИИ-инструменты и удерживать низкие цены на создание контента.
Цифровой мир стремительно наполняется видео и изображениями, сгенерированными исключительно с помощью ИИ. Пока мы до конца не знаем, как на это отреагируют покупатели и потребители, но уже сейчас на начальном этапе пугает правдоподобность этих видео и изображений.
Борис Агатов, эксперт по инновациям в ритейле, автор канала "Агатов tech Магазин 4.0
Дополнение к статье:
Примеры использования ИИ, упомянутые в статье, и тесты были опубликованы в канале «Агатов Борис Tech – Магазин 4.0»
Образцы видео, сделанного Sora (из текста в видео) пост от 16 февраля 2024 года https://t.me/agatov_tech/2640
Фильм с переводом «Человек-воздушный шар» пост от 28 марта 2024 года https://t.me/agatov_tech/2767
Китайский аналог Sora Kling подробнее в посте от 28 июня 2024 года https://t.me/agatov_tech/2999
Музыка, сделанная при помощи ИИ для бренда Baon пост от 23 апреля 2024 https://t.me/agatov_tech/2838
Образец оживления фотографии и «исполнения» известной песни Виктора Цоя «Перемен» пост от 3 июля 2024 года https://t.me/agatov_tech/3013
Создание видео из текста при помощи сервиса Dream machine пост от 9 июля 2024 года.
Реклама Toys "R" Us, почти полностью сделанная при помощи Sora, одно из первых коммерческих применений технологии из текста в видео пост от 11 июля 2024 года.