#ТакГоворитНейросеть

- Суд постановляет, что вы должны публично извинится перед Рабиновичем и сказать, что он не козёл.

- Это Рабинович не козёл? Ну извинииите…

(из анекдота)

Преизрядно поработав с нейросетями ради иллюстрирования своих книг, я решил ознакомиться с их возможностями в создании аудиокниг.

Технологии TTS (Text To Speech) прокачиваются куда дольше, чем рисование картинок. Потому что робот-пиздабол, в отличие от робота-художника весьма понятно монетизируется. Если кто не знал, то в голосовом трафике всевозможных служб поддержки роботы составляют до 85%, а до человека сможет достучаться только воистину упертый клиент. Учитывая скорость прогресса нейросеток, стоило бы ожидать, что они все уже сплошь Левитаны, но нет.

Дело, впрочем, не в них – просто для человека речевые интонации куда более чувствительны, чем качество рисования картинок, например. В нейросетевых иллюстрациях мозг легко достраивает и «подчищает» картинку, игнорируя мелкие дефекты при поверхностном взгляде. Он это делает и с картинкой реального мира, кстати, но это отдельный большой разговор.

А вот с речью все сложнее. Речь – социальный индикатор высокой важности. Мы тысячелетиями коммуникаций обучены фиксировать тончайшие нюансы интонаций, потому что одно и то же «ах, не надо, перестань» сказанное разным тоном, может означать или что нам дадут, или что нам дадут по ипалу.

Поэтому интонационные ошибки TTS-систем, в отличие от шести пальцев на нейрокартинках, реально режут слух, и мы легко выкупаем телефонных роботов. С книжками же вообще засада – и живые-то чтецы частенько путаются в расстановках смысловых акцентов в сложных предложениях, а что взять с робота?

Тем не менее, некоторые успехи есть.

 Как и следовало ожидать, как и в случае с картиночными сетками, почти все зависит от навыка оператора. Паттерн «залил txt – скачал мр3» пока не работает. Чтобы получить сколько-нибудь приемлемый результат, надо вручную разметить текст тегами SSML (Speech Synthesis Markup Language, язык разметки синтеза речи, основанный на XML).

 «Да пошел ты <say-as stress> нахуй!         <break time="50ms"/> Мудила!» - прозвучит куда естественное, чем унылое «Да пошел ты нахуй, мудила». Кроме того приходится убирать из теста многоточия, часть необходимых по правилам пунктуации, но не нужных в качестве пауз запятых и вообще куча ручного труда. Переразметить так роман – тот еще кусок работы, я думаю.

Но пару небольших своих рассказов так озвучить я таки одолел. Можете послушать и оценить:

«Адмиральский чай»

«Идет бычок, качается»

Ах да – еще это платно. Где познаково, где поминутно. Мне это обошлось примерно в 200 р за рассказ, с учётом того, что поначалу я переозвучивал каждый фрагмент раза по три-четыре, осваивая SSML.

Стоило ли оно того - оцените сами. Как по мне, у меня пока хуже получается.

«Черные слёзы»

Продолжается публикация третьей части романа «НЕЙРОС» - «Черные слезы»

Глава 9. Принцип меньшего зла

**
Не бывает никакого Идеального Сферического Зла в вакууме. Оно невозможно, потому что не экосистемно.
**

Аудируй себя сам

Главный принцип моей жизни: «Хочешь, чтобы что-то было сделано, сделай это, блядь, сам». Не «сделано хорошо», это уж как выйдет, а вообще сделано хоть как как-нибудь.

С делегированием, аутсорсом, услугами сторонних подрядчиков и прочим таким у меня по жизни полная жопа. Об этом несложно догадаться, по тому, что я сам иллюстрирую свои книги, сам их верстаю, сам размещаю и сам печатаю. Это не потому, что все уроды, а я дартаньян, а просто карма такая.

С одной стороны, это всю жизнь делало меня негодным начальником, с другой стороны – я умею делать целую кучу всякой совершенно лишней для нормального человека хуйни. От веб-программирования до прочистки канализации. Но всё довольно средне.

Так вот, год я чешу репу вокруг вопроса «как бы мне заполучить аудиоверсии моих книг». И наконец до меня дошло, что всё равно будет как всегда. Поэтому я воткнул микрофон в ноутбук, разинул пасть и начал читать.

Заказывать начитку – дорого, аудиокниги не окупаются в принципе. Да и результат говно (то, как начитали мою для издательства – кровь из ушей, а ведь это «профи»)

Нейросети – пока не очень. Я подключился на самый свежий русскоговорящий проект SaluteSpeech, но там еще разбираться и разбираться.

Студия – есть с кем договориться, но это дико затратно по времени. Воткнуть микрофон – две секунды, доехать до города – час. Кроме того, проблема не в качестве записи а в качестве диктора.

У меня неприятный голос и отвратительная дикция. Я слишком мало разговариваю, нет практики. То, что у меня получается — полная херь. Мне совсем не нравится. Но, когда я пытаюсь слушать «хороших начитчиков» - мне тоже совсем не нравится и кажется, что это полная херь. В конце концов, пираты выкладывают мои книги, начитанные гуглоболталкой, и у файлов сотни скачиваний. Ниже этого дна не упасть даже специально.

Так что я каждый день сажусь, прошу кота заткнуться, втыкаю микрофон и читаю себя вслух. Чувствую себя при этом необычайно глупо, но есть надежда, что это тренируемый навык и однажды начнет получатся не так херово. И тогда я начитаю «Кредо мизантропа» - ради чего все это и затеяно. Никто, кроме меня не начитает его правильно.

Сейчас на сайте можно послушать аудиоверсии нескольких рассказов.

«Зомбопривод» начитал Кравец (считающийся очень крутым), остальное – мои потуги. Писать мне «какое говно!» не надо, я в курсе.

Еще немножечко обложечек

Все, что хотел написать про нейросетевое иллюстрирование, вроде уже сказал, но обложки все еще рождаются сами собой.

Писатели с АТ могли бы сделать этот мир чуть-чуть прекраснее, если бы не воровали в интернете убогие картинки сисятых аниме-тянок для обложек, а освоили нейросети.

Но нет.

#Котовестник котозагадочности

Где-то у котиков есть какая-то малина, куда они ходят оттягиваться. Даже в чертов мороз иной раз пропадают по полсуток, причем, что интересно, всегда вдвоем. Наблюдал не раз:

Коть, у двери на улицу:

- Мря. (открывай, мне надо)

Я:

- Может ну его нафиг? Минус десять так-то. В прошлый раз ты сходил посрать, так говнямба к жопе примерзла, еле оторвали…

Коть:

- Мря. Мря. (не твое дело, лысая обезьяна)

Я:

- Ну ок. (выпускаю кота)

Коть выходит, недовольно осматривается, брезгливо дергает лапками на заледенелом бетоне парковки, идет к ЗДРЖ (Зимний Дворец Рыжей Жопы). Там точит рыжая харя Рыжей Жопы.

Коть:

- Мряк. (выходи гулять)

РЖ:

- Мяяяя. (Может ну его нафиг? Минус десять так-то…)

Коть:

- Мряк-мряк. (выходи, кончай тупить)

РЖ:

- Мяяяя. Мииияуууу! (коврик греет, жопке тепло, а там ебучий мороз)

Коть:

- Мриу-мя, мудила. (непереводимый кошачий фольклор)

РЖ:

- Мяяяяммя (сам мудила. Хрен с тобой, пошли)

Коты удаляются в закат, исчезая на полсуток, потом Коть обнаруживается на окне снаружи, требуя срочно внутрь и пожрать.

Где их носит? Что они там делают в любую погоду?

Жизнь котов полна загадок.

«Черные слёзы»

Продолжается публикация третьей части романа «НЕЙРОС» - «Черные слезы»

Глава 8. Под лиловой мандой

**

Дети — лучшие солдаты, у них нет ни страха, ни сопереживания, ни понимания последствий. Если не брать в расчёт физическую силу, то десятилетки, например, идеальные призывники — уже понимают команды, но ещё не умеют думать на шаг вперёд. Жестоки, азартны, легко мотивируются, подчиняются авторитетам, имеют отличную мышечную реакцию. А главное, для их выращивания надо в два раза меньше ресурсов, чем для восемнадцатилетних, чистая выгода.

**

Здравствуйте, я ваша обложка! 4

Итак, в практической части работы с нейросетями в конце концов упираешься в «постпродакшн», то есть ручной допил картинки под свои представления о прекрасном. Увы обычная ситуация: «картинка, наконец, почти идеальна, дальше генерить – только портить, но есть лишние детали или чего-то не хватает».

Например, поза и костюм – отвал башки, а лицо прорисовалось паршиво и пальцев шесть. Можно пытаться дальше, но, набрав достаточно большой опыт, уже понимаешь, когда пора остановиться, это – предел того, что может сейчас сетка по конкретному сюжету в конкретном стиле. И тогда проще залить результат в фотошоп и прокриэейт и допилить ее вручную.

Так, при создании фигуры в полный рост, сетка обычно мудит с деталями – лицо, руки, обувь, что-то такое. В этом случае иногда есть смысл создать крупный портрет в том же стиле и взять лицо с него. «Пересадка лица» - процедура для опытного фотошопера вполне рядовая. Ну и заодно пройтись по деталям.

Вот картинка «молодая ведьма идет на фоне пламени», заказанной мне для обложки одной писательницей. В итоге она выбрала другую картинку, так что эту приведу как пример.

На сгерененной картинке хорошая динамичная поза, но лицо не проработано, руки разной длины, ботинок задвоился  и фигура анорексичная настолько, что непонятно в куда она ест. 

В итоговой картинке лицо заменено, детали поправлены.

Я уже упоминал, что проблемы с определённым оружием  у персонажа – пока она этого на может. Получается «палка-стрелялка», не более. Вот еще одна картинка, сделанная на заказ «женщина в средневековой одежде, в средневековом городе, но с двустволкой за плечом». Здесь ружье взято с другой картинки, потому что сгенерить с приемлемым качеством не получилось. Заказчик в итоге выбрал другую, так что могу показать:

Ну и еще одна не столько проблема, сколько особенность – у сетки отчего-то лучше получаются квадратные картинки, чем вертикальные. Несмотря на все операторы, статистически, при том же описании, картинка выходит лучше. Не знаю почему, это типичный «черный ящик». Так что доработка потребуется и для того, чтобы вписать результат в формат обложки.

Ну и примеры рисовок:

Здравствуйте, я ваша обложка ​3

Продолжая разговор об иллюстрировании нейросетями, расскажу о сложностях. Главная из них – нулевая повторяемость результата. Две последовательных генерации  по одному описанию дают две абсолютно разных, иногда даже ничуть не похожих картинки. Использование референса улучшает ситуацию, но не сильно – получатся две более похожих, но все равно неодинаковых картинки.

Если нужна картинка на обложку – это не очень мешает, потому что она одна. Но если надо иллюстрировать книгу – то серия «один и тот же человек в разных позах/ситуациях/одежде) не то чтобы нерешаема совсем, но очень трудоемка, потому что требует перебора сотни картинок, пока не найдется две с похожими лицами. И то они будут именно похожими, а не тем же человеком.

Та же ситуация – нельзя, получив картинку с удачным лицом/позой сказать «мне такую же, но во фраке». На ней будет уже другой человек.

Это приходится решать поспродакшеном, так что умение рисовать вам все равно пригодится. Но об этом в следующей серии, а сейчас еще три обложки, демонстрирующих разную стилистику:

«Черные слёзы»

Продолжается публикация третьей части романа «НЕЙРОС» - «Черные слезы»

Глава 7. Нам бы в небо

**
Господи, да этот город сожрал их и высрал! Если бы не ты, они бы так и воняли в низах, среди помоек! Но десяток громких слов, красивая картинка — и все бегут за него помирать !
**

#Котовестник «а я в домике»

Похоже, за время отсутствия Рыжей Жопы, молодой черно-белый котик натоптал тропу в его домик к кормушечке. Ну, не пропадать же добру, верно?

И вот картина: черно-белый кродецца. Из-под забора – шнырь! Под машину – шасть! К домику на цырлах – топ-топ-топ.

Ушки прижал, хвостик протянул, жалом водит – нюхает. Пахнет вестимо чем. Жопой пахнет. Рыжей. Но – голод не тетка. Залазит в домик.

Однако домик двухэтажный, и невидимый снаружи РЖ оказывается там, на втором этаже. У кормушечки своей культурно питаецца, и сразу сообщает, что никого к столу не приглашал. Сообщает в выражениях настолько экспрессивных, что черно-белый с перепугу застревает в дверях домика, и РЖ выносит его наружу на пинках. Клубок из двух котов вываливается с лавки на парковку.

Черно-белый теряет шерсть клочьями, обильно ссытся и с разбегу телепортируется под забор, Рыжа Жопа кричит ему вслед то-то неразборчивое, но вряд ли это приглашение заходить еще.

По причине большой дистанции и плохого света фоточек инцидента нет, извините. ЧБ пока вообще слишком ссыклив и шустр, в кадр не попал ни разу.

В общем, мне пофиг, одного кота кормить или двух. РЖ с НСХ вполне питались с кормушки вдвоем и как-то устанавливали очередность. Так что, если ЧБ сумеет как-то договориться с РЖ – вэлкам. Котиком больше, котиком меньше…  А если нет – то нет.

Рыжа Жопа себе этот домик  честно наорал, имеет право защищать ресурс.

Фоточка «А ты, глядь, куда лезешь!» - не к этому эпизоду, а просто так, шоб было.

Блог Блог

«НЕЙРОС»

Идет публикация нового романа

 

Календарь Мизантропа

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: