#ТакГоворитНейросеть

— Суд постановляет, что вы должны публично извинится перед Рабиновичем и сказать, что он не козёл.
— Это Рабинович не козёл? Ну извинииите…
(из анекдота)

Преизрядно поработав с нейросетями ради иллюстрирования своих книг, я решил ознакомиться с их возможностями в создании аудиокниг.

Технологии TTS (Text To Speech) прокачиваются куда дольше, чем рисование картинок. Потому что робот-пиздабол, в отличие от робота-художника весьма понятно монетизируется. Если кто не знал, то в голосовом трафике всевозможных служб поддержки роботы составляют до 85%, а до человека сможет достучаться только воистину упертый клиент. Учитывая скорость прогресса нейросеток, стоило бы ожидать, что они все уже сплошь Левитаны, но нет.

Дело, впрочем, не в них – просто для человека речевые интонации куда более чувствительны, чем качество рисования картинок, например. В нейросетевых иллюстрациях мозг легко достраивает и «подчищает» картинку, игнорируя мелкие дефекты при поверхностном взгляде. Он это делает и с картинкой реального мира, кстати, но это отдельный большой разговор.

А вот с речью все сложнее. Речь – социальный индикатор высокой важности. Мы тысячелетиями коммуникаций обучены фиксировать тончайшие нюансы интонаций, потому что одно и то же «ах, не надо, перестань» сказанное разным тоном, может означать или что нам дадут, или что нам дадут по ипалу.

Поэтому интонационные ошибки TTS-систем, в отличие от шести пальцев на нейрокартинках, реально режут слух, и мы легко выкупаем телефонных роботов. С книжками же вообще засада – и живые-то чтецы частенько путаются в расстановках смысловых акцентов в сложных предложениях, а что взять с робота?

Тем не менее, некоторые успехи есть.

Как и следовало ожидать, как и в случае с картиночными сетками, почти все зависит от навыка оператора. Паттерн «залил txt – скачал мр3» пока не работает. Чтобы получить сколько-нибудь приемлемый результат, надо вручную разметить текст тегами SSML (Speech Synthesis Markup Language, язык разметки синтеза речи, основанный на XML).

«Да пошел ты <say-as stress> нахуй! <break time=»50ms»/> Мудила!» — прозвучит куда естественное, чем унылое «Да пошел ты нахуй, мудила». Кроме того приходится убирать из теста многоточия, часть необходимых по правилам пунктуации, но не нужных в качестве пауз запятых и вообще куча ручного труда. Переразметить так роман – тот еще кусок работы, я думаю.

Но пару небольших своих рассказов так озвучить я таки одолел. Можете послушать и оценить:

«Адмиральский чай»

«Идет бычок, качается»

Ах да – еще это платно. Где познаково, где поминутно. Мне это обошлось примерно в 200 р за рассказ, с учётом того, что поначалу я переозвучивал каждый фрагмент раза по три-четыре, осваивая SSML.

Стоило ли оно того — оцените сами. Как по мне, у меня пока хуже получается.

8 комментариев

citramon 02.12.2022 в 12:28

А как по мне, так пойдет…Я по, крайней мере, слушал бы.
Войдите, чтобы ответить
citramon 02.12.2022 в 12:29

И да, покажите мне человека, кому нравился бы собственный голос))))
Войдите, чтобы ответить
- Павел Иевлев 02.12.2022 в 13:06
  
  Я видел людей, которые от своего голоса млеют и кончают. 🙂
  Войдите, чтобы ответить
  - citramon 02.12.2022 в 13:14
    
    На это можно процитировать Берримора)))) Пидарасы,сэр…голосом Адабашьяна)))
    Войдите, чтобы ответить
uaz 02.12.2022 в 14:42

Вполне, для восприятия.
Но читаю я быстрее )))
Для художественности — голос постарше и чуть помедленнее повествование.
Войдите, чтобы ответить
- inkontra 04.12.2022 в 10:19
  
  Парочку читалок MP3 включал. Там регулировки есть в оперативных настройках.
  Войдите, чтобы ответить
  - inkontra 04.12.2022 в 13:58
    
    По правде сказать — фигня, конечно, полная!!!
    Войдите, чтобы ответить
Александр 02.12.2022 в 23:36

Все эти синтезаторы — сразу нет. Отдельные фразы в тех же голосовых меню нормально, но в большом тексте их интонация это жесть, ад и содомия. И некоторые видеоблогеры сейчас так же разговаривают. «В этом магазине Вы можете купить.» Ну, могу купить, и что? Блогер продолжает: «Разные товары?» И окончательнно добивает: «С бесплатной доставкой. В Россию?!».
«Адмиральский чай», 34-я секунда (фраза начинается раньше). Закрыл нафиг.
Войдите, чтобы ответить

Оставить комментарий Отменить ответ

Для отправки комментария вам необходимо авторизоваться.

#ТакГоворитНейросеть

8 комментариев

Оставить комментарий Отменить ответ

Новая книга