Скажи мне что-нибудь, компьютер

Когда первая волна голосовых технологий взаимодействия пользователя с ПК захлестнула массовый рынок, разочарование не заставило себя ждать. При вводе текста голосом львиная доля времени уходила на обучение программы новым словам и особенностям личного голоса, при голосовом запуске приложений легко было запустить что угодно иное, зато программы чтения текстов доводили до гомерического хохота жуткой расстановкой ударений вкупе с потусторонне-машинным голосом, за что и были любимы.

Конечно, технологии не стоят на месте. Как обстоят дела с голосовым вводом и управлением — не знаю… Зато в области чтения текстов некоторый прогресс налицо. Сегодня программы для чтения не являются «вещью в себе», а используют в своей работе Microsoft SpeechAPI и внешние голосовые движки (text-to-speech engines). SpeechAPI — это программный интерфейс, позволяющий программам работать с голосовыми движками. Он включен в состав Windows 2000, а пользователям Windows 9x/NT4 придется его скачать и установить. Как, впрочем, и голосовые движки, «формирующие» голос и синтезирующие речь из текста. Существует масса движков, «строящих» речь на различных языках, различного характера, с разным качеством и т.д. Таким образом, чем больше у вас движков, тем шире возможности. Осталось лишь запастись толковой программой, умеющей их реализовать. Такой, например, как «Говорилка».
Не стоит пугаться сложностей с API и движками. Возможно, у вас уже они установлены (часто идут в комплекте с некоторыми пакетами, а в Windows 2000 — вообще в обязательном порядке). Если же после установки программа не заработала — придется качать. Ссылки можно найти на сайте программы. Для начала, думаю, подойдет русский вариант «Lernout&Hauspie» (2929 Кбайт), хотя лидером явно является русскоязычный Digalo text-to-speech engine. Правда, он стоит денег и пока что не работает с Govorilk'ой под Windows NT4.


Установили? Открываем «Говорилку», разворачиваем (если она не открыта) панель дополнительных настроек (F9). Выбираем голос (чем больше движков установлено, тем больше вариантов), способ воспроизведения — «звуковая плата», затем задаем громкость, скорость и высоту голоса. Как ни странно, по умолчанию скорость весьма велика, так что при первом запуске ни я, ни прочие слушатели ровным счетом ничего не могли разобрать в мешанине булькающих звуков. После ряда экспериментов оказалось, что чем медленнее — тем лучше, так что рекомендую выставить значения порядка 80-100 (единицы измерения неизвестны). Высота — на любителя, но для начала стоит установить ползунок посередине. Теперь в любое из трех доступных окон загружаем текст в одном из поддерживаемых форматов: txt, html, doc, rtf. Первый предпочтительнее, ибо скорость открытия прочих оставляет желать лучшего. Крайне желательна win-кодировка (1251), так как перекодирование из DOS программа отчего-то выполняет с ошибками.
Начинаем процесс (F5), зажмурясь и пытаясь хоть что-то разобрать. Шутка! На самом деле, чтение достаточно толковое и внятное, хотя голос движка «Lernout&Hauspie» больше смахивает на акцент японца, в отличие от великолепного голоса Digalo. Зато проблема с расстановкой ударений никуда не делась. Для борьбы с ней используются словари произношений. Создавать их можно самому, установив курсор на нужное слово и вызвав словарь. Там сразу видно, содержится ли данное слово в словаре, а если нет — позволяется задать правило его произношения (пользуясь рядом несложных правил, например: сеятель->сея тель) и тут же прослушать результат. Конечно, можно (и нужно) скачать словари в интернете, только помните, что правила составления «схемы произношения» в словарях для разных движков иногда различаются. Словари, в отличие от Lingvo, не просто подключаются, а импортируются в базу используемого голоса. Извлечь их оттуда можно только ручками, поэтому стоит сделать копию. Помимо расстановки ударений, словари позволяют задать расшифровку аббревиатур (в том числе и не русскоязычных), иностранных слов(«Engine» ->«э<нжин»), произношение числительных и т.д.
Другое дело — интонация. Компьютер-чтец до сих пор страшно далек от мастерства профессионального актера, умеющего выдерживать смысловые паузы, гибко менять интонацию и «громкость», да и вообще, что называется, читать «с чувством, с толком, с расстановкой». Движку бы, дай Бог, разлепить монотонную кашу слов в четко обособленные предложения (уже справляет­ся) и как-то организованно прочесть само предложение (здесь разве что Digalo достиг некоторого успеха — интонация повышается к концу предложения, благодаря чему создается эффект размеренного чтения, хотя одинаковые паузы между предложениями здорово портят общий эффект).
«Говорилка» умеет писать голос прямо в wav или mp3, причем и в ускоренном режиме — все равно при записи ничего не слышно. Поддерживается слежение за текстом, любопытна возможность чтения набираемого текста — словно «проверяющий» голос из-за спины!
Таким образом, при наличии толкового движка и большого желания слушать книги и прочие тексты очень даже можно (предлагает­ся даже таким образом запоминать произношение иностранных слов), а используя командный процессор Govorilka CP, можно и TheBat! свежую почту читать научить.


Рекомендуем почитать: