#ТакГоворитНейросеть

— Суд постановляет, что вы должны публично извинится перед Рабиновичем и сказать, что он не козёл.

— Это Рабинович не козёл? Ну извинииите…

(из анекдота)

Преизрядно поработав с нейросетями ради иллюстрирования своих книг, я решил ознакомиться с их возможностями в создании аудиокниг.

Технологии TTS (Text To Speech) прокачиваются куда дольше, чем рисование картинок. Потому что робот-пиздабол, в отличие от робота-художника весьма понятно монетизируется. Если кто не знал, то в голосовом трафике всевозможных служб поддержки роботы составляют до 85%, а до человека сможет достучаться только воистину упертый клиент. Учитывая скорость прогресса нейросеток, стоило бы ожидать, что они все уже сплошь Левитаны, но нет.

Дело, впрочем, не в них – просто для человека речевые интонации куда более чувствительны, чем качество рисования картинок, например. В нейросетевых иллюстрациях мозг легко достраивает и «подчищает» картинку, игнорируя мелкие дефекты при поверхностном взгляде. Он это делает и с картинкой реального мира, кстати, но это отдельный большой разговор.

А вот с речью все сложнее. Речь – социальный индикатор высокой важности. Мы тысячелетиями коммуникаций обучены фиксировать тончайшие нюансы интонаций, потому что одно и то же «ах, не надо, перестань» сказанное разным тоном, может означать или что нам дадут, или что нам дадут по ипалу.

Поэтому интонационные ошибки TTS-систем, в отличие от шести пальцев на нейрокартинках, реально режут слух, и мы легко выкупаем телефонных роботов. С книжками же вообще засада – и живые-то чтецы частенько путаются в расстановках смысловых акцентов в сложных предложениях, а что взять с робота?

Тем не менее, некоторые успехи есть.

 Как и следовало ожидать, как и в случае с картиночными сетками, почти все зависит от навыка оператора. Паттерн «залил txt – скачал мр3» пока не работает. Чтобы получить сколько-нибудь приемлемый результат, надо вручную разметить текст тегами SSML (Speech Synthesis Markup Language, язык разметки синтеза речи, основанный на XML).

 «Да пошел ты <say-as stress> нахуй!         <break time=»50ms»/> Мудила!» — прозвучит куда естественное, чем унылое «Да пошел ты нахуй, мудила». Кроме того приходится убирать из теста многоточия, часть необходимых по правилам пунктуации, но не нужных в качестве пауз запятых и вообще куча ручного труда. Переразметить так роман – тот еще кусок работы, я думаю.

Но пару небольших своих рассказов так озвучить я таки одолел. Можете послушать и оценить:

«Адмиральский чай»

«Идет бычок, качается»

Ах да – еще это платно. Где познаково, где поминутно. Мне это обошлось примерно в 200 р за рассказ, с учётом того, что поначалу я переозвучивал каждый фрагмент раза по три-четыре, осваивая SSML.

Стоило ли оно того — оцените сами. Как по мне, у меня пока хуже получается.

#ТакГоворитНейросеть

8 комментариев

  1. uaz

    Вполне, для восприятия.
    Но читаю я быстрее )))
    Для художественности — голос постарше и чуть помедленнее повествование.

  2. Александр

    Все эти синтезаторы — сразу нет. Отдельные фразы в тех же голосовых меню нормально, но в большом тексте их интонация это жесть, ад и содомия. И некоторые видеоблогеры сейчас так же разговаривают. «В этом магазине Вы можете купить.» Ну, могу купить, и что? Блогер продолжает: «Разные товары?» И окончательнно добивает: «С бесплатной доставкой. В Россию?!».
    «Адмиральский чай», 34-я секунда (фраза начинается раньше). Закрыл нафиг.

Оставить комментарий

Новая книга