В РФ развиваются технологии озвучивания аудиокниг через ИИ
Российские книжные сервисы и издательства начали активно внедрять технологии искусственного интеллекта (ИИ) для озвучивания аудиокниг. В перспективе такие алгоритмы могут помочь в разы ускорить и удешевить производство в сегменте, надеются участники рынка, увеличив продажи. Но эксперты отмечают, что технология пока не может полноценно заменить диктора и подходит не для всех типов литературы.
Книжный сервис «Строки» (принадлежит МТС) в 2023 году планирует озвучить более 10 тыс. произведений с помощью искусственного интеллекта разработки подразделения MTS AI. На первом этапе в работе уже находятся 600 произведений.
Книги будут записываться с помощью платформы Audiogram, в основе которой используются нейронные сети, машинное обучение и технологии обработки естественного языка (NLP).
Она позволяет синтезировать речь, расставлять ударения и паузы, воспроизводить вопросительные, побудительные и другие интонации, уточнили в МТС. Инвестиции в проект не раскрываются.
Лидер рынка аудиокниг — ГК «ЛитРес» (сервисы «ЛитРес», MyBook, Livelib и др.) также развивает озвучивание аудиокниг с помощью ИИ, говорит директор департамента по развитию контента группы Евгений Селиванов: «Такую озвучку мы запустили еще осенью 2020 года, но активно использовать начали осенью 2022 года. Она основана на технологии распознавания и синтеза речи SpeechKit, на которой работает голосовой помощник "Алиса"». В «Яндексе» подтверждают растущий спрос на технологии ИИ в облаке для озвучивания самых разных текстов: «С помощью упомянутой технологии SpeechKit в 2022 году было озвучено более 100 тыс. часов аудиокниг».
В 2022 году «ЛитРес» записал и выпустил около 6 тыс. книг, озвученных «живыми» голосами, но «авточтецы» озвучили сразу 3 тыс. книг за два месяца. Себестоимость озвучки одной книги с помощью ИИ составляет 400–700 руб., уточнил Евгений Селиванов: «Алгоритм позволяет производить в несколько раз больше книг за период, чем распределенная команда чтецов». В отличие от стандартной роботизированной озвучки, по его словам, ИИ запоминает паузы, отмеченные редактором, расставляя их самостоятельно, что позволяет избежать искажений.
Сейчас более 90% книг на российском рынке не имеют аудиоверсии, говорят в МТС, а их трансформация в аудиоформат, по оценке компании, традиционным способом «заняла бы годы».
«На подготовку первоначальной версии аудиокниг с помощью ИИ уходит около 30–60 минут, тогда как студийная запись живым голосом занимает до нескольких дней с учетом технической обработки и монтажа»,— пояснили в МТС.
С ИИ экспериментируют и издательства. Президент «Эксмо-АСТ» Олег Новиков говорит, что группа использует ИИ в том числе для прогнозирования тиража допечаток, анализа потенциала рукописи на основе данных о прошлых продажах.
Руководитель аудиопроектов Alpina Digital (группа «Альпина») Николай Боронин рассказал, что компания озвучила 86 книг из своего портфеля с помощью ИИ: «Но нельзя сказать, что это стало регулярной практикой. Даже хороший искусственный интеллект не может полноценно заменить диктора. Такой голос несовершенен, что может негативно сказываться на продажах». Придирчивые слушатели могут избегать аудиокниг в исполнении ИИ из-за недостатка естественного интонирования, считает он.