Спецпроекты
Татар-информ
©2023 ИА «Татар-информ»
Учредитель АО «Татмедиа»
Новости Татарстана и Казани
420066, Республика Татарстан, г. Казань, ул. Декабристов, д. 2
+7 843 222 0 999
info@tatar-inform.ru
«Непаханое поле»: казанские школьники создали патриотический клип целиком в нейросетях
Два школьника 12 и 13 лет под руководством специалиста по цифровому дизайну Максима Малькова освоили генерацию изображений, сочинение песен и анимацию, что позволило им взяться за создание патриотического клипа, где не сыграно ни ноты и не снято ни кадра. О том, как родилась эта идея и как шла работа над проектом, Максим рассказал «Татар-информу».
«Мы поняли, что вошли в непаханое поле патриотической видеографии»
- Максим, вы сказали в предварительном разговоре, что школьники под вашим началом создали с использованием 13 нейросетей проект, аналогов которому пока нет. Расскажите, как это происходило. Кто эти школьники?
- Это два казанских мальчика – 13-летний Матвей Новоселов, который учится в 12-й школе, и 12-летний Александр Мальков из 24-й школы. Матвей был режиссером клипа и его лицом в прямом смысле этого слова, поскольку там использованы его лицо и голос. Вообще, в клипе много лиц, все это реальные дети, но Матвей, как главный герой, появляется чаще всех. А Саша выступил как программист и промт-инженер.
- Как родилась сама идея? Вы изначально хотели получить песню, где не спето и не сыграно ни одной ноты, и клип, где не снято ни кадра?
- Да, такая задача была изначально. Просто потому, что это интересно. У меня уже был опыт работы с детьми над подобными проектами, я знал, что им тоже это интересно и что они хорошо вовлекаются.
- Что за опыт?
- Это довольно долгая история. В 2014 году, когда я еще работал в 18-й школе, мы с ребятами занимались проектной деятельностью. Как уже показывала на тот момент практика, это лучший способ работы с детьми, потому что так они видят то, что сделали, и результат достигается максимально быстро. И мы думали о том, что бы такого сделать на День Победы. Тогда нам был доступен хромакей, хороший свет, профессиональные программы, и мы реализовали проект «Лиза Чайкина. Подвиг в веках». То есть сняли детей на фоне хромакея и соединили их с фотографией, получился эффект ожившей фотографии. И хороший образ исторической личности. Потом нам еще лет пять вручали за это призы на разных фестивалях.
И мы поняли, что с этим проектом вошли в непаханое поле патриотической видеографии. Мы познакомились с федеральным движением Союз «Наследники Победы», созданным в Татарстане, через него — с ДОСААФом, с центром «Патриот» и, в том числе, с генерал-майором Александром Ильичом Бородиным, который впоследствии стал куратором всероссийского движения «Юнармия» в Татарстане. В 2020 году Юнармия начала возрождать институт юнармейских корреспондентов, создавала в регионах локальные информационные ячейки, присылала технику, причем очень серьезную — блэк-мэджики, хромак, топовые компьютеры.
Такая техника пришла и в Казань, точка была развернута на базе Дворца детского творчества имени Алиша, и встал вопрос, кто будет курировать это направление. Я туда пришел не первый, до меня были коллеги, но по каким-то причинам эта история у них не пошла, и Александр Ильич предложил ее мне. В то время я перешел из института культуры в 12-ю школу, и меня как раз поставили там, в том числе, курировать юнармейцев. Ну и поскольку в школе нет такой богатой студии, я водил ребят на практические занятия во Дворец творчества Алиша. И таким образом студия худо-бедно заработала.
Но поскольку дворец закрылся на ремонт, сейчас студия не функционирует. Мы снова вернулись в школу.
«Попытался объединить три вещи: патриотизм, нейросети и подростков»
- А что вы вообще преподаете в 12-й школе?
- Я руководитель школьной студии СМИ.
В общем, в какой-то момент пришла идея создать что-то на патриотическую тему на основе нейросетей. Я еще с 2012 года, когда нейросети только появились, пытался продвинуть их там, где работал, но люди не понимали, что это такое. Большинство и до сих пор не понимает.
В общем, я попытался объединить три вещи: патриотизм, нейросети и подростков. Дети же интересуются нейросетями, но не понимают, как пользоваться этим инструментом, чтобы достигать результатов. Я хотел показать им, что с помощью нейросетей они своими руками могут сделать что-то красивое и современное, какие-то значимые проекты.
Но для начала нужно было дать детям навыки в проработке сценария. Начинали мы с самого простого и доступного для нас на тот момент — Chat GPT, который тогда работал только с текстом. Мы пытались генерировать сценарии, развивать свои идеи, чтобы достичь более высокого потолка по сравнению с тем, что обычно доступно школьникам. «Мы» — это юнармейские корреспонденты, которые в большинстве своем являются учащимися 12-й школы.
Chat GPT выдал несколько вариантов, один из которых, оживление фотографий, показался нам интересным. Я вспомнил проект «Лиза Чайкина. Подвиг в веках», и мы начали искать нейросети, которые могут это делать. На тот момент все они были платными, большинство из них до сих пор лишь условно бесплатные, то есть дают определенное количество бесплатных попыток в день.
Дальше мы начали искать, где возможна генерация картинок. «Шедеврум» на тот момент был доступен, но давал не очень вразумительный результат. Kandinsky тоже был в зачаточном состоянии. Единственной доступной нейросетью была Stable Diffusion. Она требует достаточно серьезных мощностей компьютера, но у нас они были.
Потом мы начали упираться в то, чтобы создавать для нейросети внятные запросы на английском. Здесь нам опять помог Chat GPT, а в дальнейшем мы поступили проще: писали запрос на русском, а нейросеть DeepL, один из лучших онлайн-переводчиков, переводила на английский.
Таким образом это направление стартовало, мы на достаточно неплохом уровне создали несколько работ по генерации картинок. Но на этом остановились, поскольку, повторюсь, не было возможности оживлять их на должном уровне.
«Мы попросили Матвея и шептать, и кричать, и тянуть звуки – чтобы нейросеть обладала большой выборкой фонем»
- Некачественно получалось?
- На тот момент, да. Тогда уже вышли Runway Gen-3, Kling, но это было не то.
Зато в это время появилась возможность создания музыки, точнее песен. Те, кто занимается видеопроектами, знают, какая это проблема – сделать музыкальное сопровождение, не нарушая авторских прав. Как раз тогда стартовали нейросети Suno и Udio, которые генерируют на хорошем уровне не только музыку, но и песни (с музыкой мы уже разобрались с помощью другой сетки).
Причем обе нейросети мультиязычные, а нам как раз было важно задействовать иврит, татарский, русский, английский и так далее. Кстати, учитывая, что все нейросети работают на английском, у большинства ребят подтянулись оценки по английскому.
Короче говоря, мы научились работать с нейросетями, которые генерируют картинки и создают песни. Попытались объединить эти умения, достигли каких-то результатов в создании слайд-шоу, но это было не так интересно. И тут в прошлом году нейросеть Runway объявляет о том, что предоставляет условно бесплатный доступ к своей новейшей модели. Это давало нам возможность генерировать примерно 100 секунд видео в день.
И возник еще один момент: нам хотелось, чтобы песня озвучивалась голосами детей, которые занимаются у нас. Поэтому мы поработали еще и с нейросетью, создающей клоны голосов.
Получалась следующая ситуация. Мы генерируем звук в нейросети, разделяем его на музыку и голос, голос кидаем в другую нейросеть, которая делает мэш-ап – заменяет этот голос голосом ребенка. И опять сводим целую фонограмму. Таким образом у нас получается песня, спетая конкретным ребенком.
- Сколько слов потребовалось сказать Матвею, чтобы создать этот клон голоса? Или он просто проговорил текст песни?
- Нет, это сейчас есть возможность работать на минимальной выборке, и многие так и делают. А в нашем случае потребовался часовой объем. То есть мы собрали часовой кусок из дублей самой разной озвучки, которую делал Матвей, и на нем обучали сетку.
- То есть в сумме это час какого-то совершенно левого текста?
- Да. Главное было получить множество фонем. И Матвей не только говорил, мы попросили его и шептать, и кричать, и тянуть звуки – чтобы нейросеть обладала большой выборкой фонем, артикуляций и так далее.
Когда мы научились это делать, как раз стала условно доступной нейросеть, дающая возможность анимировать картинки. А в Suno стала доступной возможность делать каверы на существующие песни. Вот здесь мы наконец и подошли к реализации нашего проекта.
«В центральном штабе Юнармии нашли несколько несоответствий в нашем демо»
- Почему вы решили делать именно кавер песни, а не оригинал?
- Потому что когда вы делаете что-то на патриотическую тему, есть определенные рамки, в которые вы должны вписаться. Из серии не наступить на какую-то идеологическую мину. То есть лучше взять уже всеми одобренный материал. И появилась очень простая мысль: сделать кавер на гимн Юнармии «Полки идут стеной».
Первое, что мы сделали, это мэш-ап голоса Матвея. Потом мы взяли, собственно, кавер на песню, подогнали по тональности и получили «плюс». Потом попытались собрать какой-то сценарий с помощью Chat GPT (как раз тогда вышла «четверка»), чтобы понять, что мы хотим и можем делать. Из множества вариантов выбрали единственный, который могли сделать – в стиле, скажем так, старой советской школы: некую зарисовку, где один парень ведет эту линию, а все остальные стоят на его фоне.
Здесь мы, собственно, и вступили в эту непаханую среду анимирования картинок. Для пробы сил создали проект не патриотический, а на отстраненную тему, такой смешной молодежный ролик — «Пап танцует». Как раз на нем Саша набивал навык создания промтов. Ролик получился, и после этого мы поняли, как работать с промтами именно для Runway, потому что видеоформат в корне отличается от генерации картинок. Здесь уже прописывается движение камеры, можно регулировать фокус, определенную тряску. Да что далеко ходить, можно даже прописывать, какую «оптику» мы используем, от этого, соответственно, будет зависеть картинка.
Но был еще один момент. Мы не хотели показывать сгенерированных, несуществующих людей, когда у нас есть определенные ребята, которые ходят к нам в студию. А в бесплатной версии Runway невозможно было генерировать с лицами этих ребят. Поэтому пришлось поступить так: мы создавали множество итераций картинок, выбирали лучшую из них и загоняли в другую нейросетку, где делали дипфейк лица. То есть описывали фигуру ребенка – худощавый, плотный, низкий, высокий, с такими-то волосами и так далее – и потом просто заменяли лицо.
Но и это еще не все. У Юнармии есть дресс-код. Когда мы отослали демо в центральный штаб Юнармии, там нашли несколько несоответствий. Нам пришлось дорабатывать кадры еще и в фотошопе - дорисовать эмблемы, нацеплять кокарды и так далее. Это тоже заняло кучу времени.
Когда мы, наконец, выложили все эти кадры, настало время их анимировать. А проблема в том, что, как я уже сказал, нейросеть позволяет сделать лишь определенное количество бесплатных операций в день. При этом далеко не все они проходят правильно, и получаются искажения – где-то люди бегут боком, где-то самолеты летят неправильно и так далее. Процент брака очень большой. Клип длится три минуты, а видео мы нагенерировали, наверное, на час. То же самое было с картинками, в клип вошло, наверное, меньше процента от сгенерированных картинок.
Ну и после того как мы отослали ролик в Юнармию, нам пришлось заменить пять фрагментов в соответствии с их замечаниями. На все про все ушел год. И, поскольку проект сделан фактически двумя школьниками, я лишь помогал в силу возможностей, — я считаю, что аналогов у него нет.
«Матвей и сейчас продолжает работать в Центре волонтеров в качестве СМИ»
- Аналогов нет в том смысле, что вы крайне заморочились, работая над ним?
- Да, никто так глубоко не скакнул. И, конечно, есть видео, сделанные в нейросетях, но они сделаны, во-первых, не на патриотическую тематику, во-вторых, не детьми, и в-третьих, не с бюджетом «ноль». Все что-то где-то покупают — время, ресурсы и так далее. У нас таких бюджетов нет.
- Вы сказали, что когда делаешь идеологический продукт, могут быть какие-то подводные камни. Какие например?
- Все нейросети англоязычные, как, собственно, и весь интернет. В случае тех же картинок он натренирован на каких-то определенных примерах. И поскольку к армии я отношения практически не имею, я даже не заметил, например, что на одном из наших кадров американские самолеты. В другом кадре у нас загиб берета британских ВВС. В это нас прямо носом ткнули, сказали — вы что делаете-то? Вот такие нюансы можно сразу не увидеть.
- Значит, ваша роль была в том, что вы мотивировали и направляли ребят, так?
- Не то чтобы мотивировал... Я всегда их спрашиваю: что вам интересно? Что будем делать? Да, у нас, как у школьного СМИ, есть и обязательная часть работы. Бывает, что надо что-то написать или снять по заказу. Но и в этом случае мы чему-то учимся. А так, мы всегда отталкиваемся от того, что интересно детям.
Вообще, с этим клипом получился очень интересный опыт, в том числе для самих детей, которые этим прямо горели. Матвей и сейчас продолжает работать в Центре волонтеров в качестве СМИ. Работает, естественно, «за тарелку супа», но ему этот опыт нравится, он полюбил это направление.
Окончил географический факультет КГУ (2000), факультет журналистики, социологии и психологии КГУ (2004), факультет кино и ТВ КГУКИ (ныне КазГИК) (2016), магистратуру по направлению «Цифровой дизайн» КазГИК (2024). В настоящее время аспирант КазГИК по направлению «Социально-культурная деятельность».
Работает педагогом дополнительного образования казанской школы «ОРТ Мишпахтейну».
В 2017 – 2022 гг. - преподаватель КазГИК, в 2019 – 2021 гг. - руководитель «Школы кино и телевидения» КазГИК.
В 2007 – 2015 гг. - заместитель директора Казанского международного фестиваля мусульманского кино по видеоподдержке.
В 2001 – 2014 гг. - руководитель продакшн-студии «Malcolmco».
Работал видеооператором ТРК «Казань», корреспондентом телестудии «Alien», звукорежиссером радио «Настроение», ведущим эфира радио «Европа+», диктором новостей радио «Волга FM».
Следите за самым важным в Telegram-канале «Татар-информ. Главное», а также читайте нас в «Дзен»