Распознавание речи офлайн. обзор программ, их преимущества, их отличия

Что такое распознавание речи

Распознавание речи или Speech-to-Text (STT) — технология преобразования речи в текст. Это многоуровневый процесс анализа акустических сигналов, их структурирования в слова, фразы, предложения и преобразования в текстовый формат. Технологию распознавания речи можно также называть технологией распознавания голоса. 

Технология распознавания голоса существует уже около 70 лет. Раньше это все сводилось к распознаванию простых слов и построению акустической модели. Речь представлялась статично и сравнивалась с готовыми шаблонами в словарях, что часто вело к ошибкам. Сейчас уровень точности и использование Speech-to-Text в повседневной жизни вышли на новый уровень. Благодаря машинному обучению системы распознавания постоянно совершенствуются. Каждое новое распознавание определяет точность следующего. 

Google Keep — заметки и списки

Приложение «Google Keep — заметки и списки» служит для создания заметок, которыми можно пользоваться на разных устройствах. Заметки автоматически синхронизируются.

Наряду с ручным вводом текста, в программе имеется голосовой ввод для создания голосовых заметок. Скачать приложение можно здесь.

Голосовой ввод текста проходит в несколько шагов:

  1. Откройте приложение «Google Keep — заметки и списки» на телефоне.
  2. Предоставьте необходимые разрешения для работы программы.
  3. В нижней части экрана нажмите на значок голосового ввода (микрофон).
  4. Надиктуйте голосовую заметку.
  5. После завершения, содержание заметки отобразится на экране телефона. Здесь можно прослушать запись заметки или отправить заметку адресату.

Проверка против идентификации

Есть два основных применения технологий и методологий распознавания говорящих. Если говорящий утверждает, что имеет определенную личность, и голос используется для проверки этого утверждения, это называется проверкой или аутентификацией . С другой стороны, идентификация — это задача определения личности неизвестного говорящего. В некотором смысле проверка говорящего — это совпадение 1: 1, где голос одного говорящего сопоставляется с определенным шаблоном, тогда как идентификация говорящего — это совпадение 1: N, где голос сравнивается с несколькими шаблонами.

С точки зрения безопасности идентификация отличается от проверки. Проверка динамика обычно используется в качестве «привратника» для обеспечения доступа к защищенной системе. Эти системы работают с ведома пользователей и обычно требуют их сотрудничества. Системы идентификации говорящего также могут быть реализованы скрытно без ведома пользователя, чтобы идентифицировать говорящих в дискуссии, предупреждать автоматизированные системы об изменениях говорящих, проверять, зарегистрирован ли пользователь в системе, и т. Д.

В криминалистических приложениях обычно сначала выполняют процесс идентификации говорящего для создания списка «наилучших совпадений», а затем выполняют серию процессов проверки для определения окончательного совпадения. Работа по сопоставлению образцов от выступающего со списком лучших совпадений помогает выяснить, являются ли они одним и тем же человеком, исходя из количества сходств или различий. Обвинение и защита используют это как доказательство, чтобы определить, действительно ли подозреваемый является преступником.

Особенности перевода голоса в текстовый формат

Как известно, попытки создать программы для распознавания голоса берут своё начало ещё в середине 20 века. Поначалу распознавание было довольно слабым, но использование более совершенных методов и технологий (скрытые марковские модели, нейронные сети etc.) подняло распознавание голоса на довольно высокий уровень.

Ныне мы можем встретить достаточное количество сетевых сервисов и программ, выполняющих перевод речи в текст. Практически все они хорошо распознают человеческий голос на многих языках (включая русский), и способны переводить его в текстовый формат. При этом 100% понимания речи достичь пока не удаётся, Это связано с шумами при звучании, невнятной дикцией или акцентом говорящего, помехами в работе микрофона, эмоциональным состоянием человека и другими схожими факторами.

При этом использование таких сервисов и программ позволяет существенно сэкономить время при наборе различных текстов. Вы можете быстро надиктовать нужный фрагмент после чего сохранить его в удобном текстовом формате на ваш компьютер или телефон.

Давайте разберёмся, какие сервисы и программы помогут быстро перевести речь в текст.

Сайт и программа Speechpad (Спичпэд)

Еще одна, любимая многими программа и одновременно онлайн-сервис. Голосовой блокнот Speechpad.

Можно заниматься транскрибацией прямо онлайн. На сайте. Можно установить расширение для Гугл Хром. Можно интегрировать это все в операционную систему для ввода в нужные программы. Кстати, это одна из немногих программ, которая работает в моем любимом Линукс Минт!

Вообще, функционал  сервиса SpeechPad воистину огромен. Давайте посмотрим на него внимательней:

  • Голосовой набор текста с микрофона. Кстати, этот сервис один из лидеров по правильному распознаванию речи (на мой взгляд). Ввод текста идет синхронно “говорению”. Можно по ходу сразу же править текст и вставлять знаки препинания.
  • Транскрибация с аудиофайла или прямо с ролика Ютуб. Достаточно указать путь к аудиофайлу или видеоролику, включить транскрибатор, и начнется перевод. Правда, у меня почему-то не всегда получается это с первого раза. Может, потому что стоит Линукс.
  • Есть озвучивание субтитров. Да и простого текста. Используется голос Гугл переводчика. Немного коряво, но в принципе “слушательно”
  • Можно делать проверку произношения. Это пригодится тем, кто изучает иностранный язык

Если внимательно посмотреть, то можно много чего еще найти в сервисе для перевода аудио в текст SpeechPad. Есть подробные видеоуроки по каждому пункту. Есть просто подсказки. Можно сохранить готовый текст в файлы.

И да, он тоже бесплатен! Во всяком случае, на момент написания данной статьи!

Как работать с голосовым набором в Ворде?

Помимо ранее рассмотренных расширений и сервисов, существует несколько полезных программ, которые вы можете установить на свой компьютер. Некоторые из них также поддерживаются мобильными устройствами и планшетами. В частности, это касается приложения для голосового ввода текста в Word.

Как набирать текст в Ворде голосом? Ранее мы упоминали о таком онлайн сервисе, как Dictate

Именно о нем пойдет речь в данном случае, но, что немаловажно, используя Майкрософт Офис Ворд, вы можете оцифровывать устную речь в текст без наличия доступа к интернету

Как воспользоваться этой возможностью? Для начала вам необходимо установить программу Диктейт, после чего перезагрузить Майкрософт Офис. После этого зайдите в настройки и активируйте указанное дополнение. Если все прошло успешно, то соответствующий значок появится в интерфейсе сервисов Аутлук, Павер Поинт и непосредственно в программе Ворд.

Таким образом, мы сделали обзор самых лучших и популярных на сегодняшний день сервисов, поддерживающих функцию голосового ввода. Они очень легки в использовании, к тому же работа с ними занимает намного меньше времени, чем самостоятельный набор текста на компьютере или мобильном устройстве. Разобраться с принципом функционирования конкретного дополнения или программы легко, но если вас не устроит работа того или иного сервиса, вы всегда успеете заменить его более удобным и подходящим для вас приложением.

Speechnotes (Android)

Разработчики Speechnotes утверждают, что голосовой ввод в Speechnotes работает проще и эффективнее, чем в других мобильных приложениях. Чтобы начать диктовку, нужно просто нажать на кнопку микрофона. Программа не требует официальной регистрации и входа, доступ в Интернет не нужен.

Знаки препинания в Speechnotes нужно обозначать голосом. В качестве альтернативы –  достаточно удобная клавиатура со знаками препинания. Плюс в том, что она не прерывает диктовку текста.

Одной из других положительных сторон программы является поддержка Bluetooth. Speechnotes уловит каждое слово при вводе через блютус-микрофон или гарнитуру hands free. Премиум-функция – настраиваемые клавиши для быстрой вставки текста: имя, подпись и другие шаблоны.

Google Keyboard (Android)

Gboard – альтернативная клавиатурная оболочка для Андроид, и одна из ее функций – голосовой ввод текста. Клавиатура с голосовым вводом – это удобно: во-первых, вам не нужно отдельное приложение для перевода речи текст. Во-вторых, клавиатура всегда под рукой и она действительно во многом более продуманная, чем штатная Андроид-клавиатура. 

Для того, чтобы воспользоваться голосовым вводом, сделайте следующее:

  1. Скачайте клавиатуру Gboard на телефон.
  2. Переключите стандартную клавиатуру на Gboard в настройках Андроид.
  3. Откройте любой текстовый редактор или Заметки.
  4. При появлении клавиатуры нажмите на значок микрофона и продиктуйте текст. 

К слову, в Google Keyboard используется стандартный движок распознавания, встроенный в ОС Андроид. В настройках голосового ввода доступны для скачивания языковые пакеты для распознавания речи офлайн. Откройте вкладку “Все” и скачайте необходимые языки.  

Автоматизированная транскрибация с помощью программ

В интернете есть программы для транскрибации, работающие с использованием нейросетей. Они распознают человеческую речь и в автоматическом режиме переводят услышанный звук в текстовый вариант.

Google Docs

Пользователь диктует с помощью микрофона, а программа со встроенным инструментом транскрибирует аудио. Вызвать соответствующую панель можно с помощью сочетания клавиш Ctrl+Shift+S. После необходимо указать язык, на котором говорит пользователь, и нажать на микрофон.

В работе Google Docs плохо справляется с записью, в которой речь произносится слишком тихо или громко. Диктовка должна быть четкой и производиться прямо в микрофон. Главный минус записи – программа работает только в активной вкладке. Диктовать что-то с другой вкладки или воспроизвести запись с компьютера не получится.

Чтобы добавить в текст знаки препинания, нужно помечать эти места голосом: точка, запятая, новая строчка, абзац и так далее.

Speechpad

Еще одна бесплатная программа для транскрибации аудио непосредственно с микрофона. Работает через браузер Google Chrome и мобильное приложение. При необходимости подключается к основным системным программам для обеспечения голосового ввода в любом поле. Аудио плохого качества расшифровать не сможет.

RealSpeaker

Это платный инструмент для транскрибации аудио из загруженных файлов. Перевод разговора в текст осуществляется бесплатно только первые 1,5 минуты. После этого стоимость расшифровки – 8 рублей в минуту. Максимально возможная продолжительность аудио составляет 180 минут. Программа не позволяет диктовать текст напрямую в микрофон и работает только с готовыми файлами. При загрузке видео можно скачать результат обработки с готовыми субтитрами.

Dictation

Программа находится в бесплатном доступе и работает со звуком через микрофон. Не поддерживает возможность обработки готовых файлов. В ходе работы пользователь может задавать команды, например, новый абзац, тире. Функционал этого инструмента включает простой редактор текста, чтобы изменять форматирование, создавать списки.

Лучше всего программа распознает тексты, надиктованные в тишине и с профессионально поставленным голосом. Без специального оборудования (петлички или микрофона) распознает только половину сказанного.

Voco

Это платный десктопный вариант, работающий на базе Windows. Для расшифровки не требуется доступ к интернету. Voco работает с микрофонными записями и обрабатывает аудио с уже готовых файлов. Программа способна к самостоятельному обучению. По мере обработки файлов она учится более глубокому пониманию лексики, пополняет словарный запас. Алгоритм способен воспринимать звук на расстоянии одного метра от микрофона. 

Субтитры YouTube

Алгоритмы YouTube умеют автоматически распознавать речь на видеороликах и представляют ее в виде субтитров в нижней части экрана. Это можно использовать для расшифровки роликов при отсутствии других инструментов для работы. Чтобы транскрибировать таким образом, нужно загрузить видео на канал и ограничить доступ пользователей к нему. Файл открыть в разделе «Творческая студия», далее «Субтитры». Затем указать язык для транскрибации и скачать измененный файл со встроенными субтитрами.

Субтитры загружаются вместе с тайм-кодами и разрывом текста. Это усложняет обработку готового текста, особенно если видео достаточно длинное. В результате такой обработки его придется самостоятельно собирать в связанные абзацы и предложения. 

Виды программ и сайтов набора текста голосом.

В целом можно выделить следующие виды сервисов голосового набора текста онлайн:

  • Сайт. То есть онлайн в интернете
  • Приложение для смартфона
  • Программа для скачивания на компьютер

С онлайн сервисами все понятно. Это обычно сайт, который открывается в интернете и Вы начинаете начитывать туда текст. А это сервис транскрибирует, то есть переводит голос в текст.

Есть еще отдельно приложения для смартфонов. Причем есть как для Андроида, так и для iOs, то есть для Айфона.

Ну и можно при желании найти и программы для голосового набора для компьютера. Установить их на стационарный ПК или ноутбук и пользоваться даже если нет интернета. Это плюс таких программ.

Звуковые переводчики онлайн

Готовы учиться переводить иностранные аудиозаписи? Тогда, приступим.

Топ-5: Аудио переводчики с английского на русский

  1. Использование Гугл Переводчика или Яндекс Переводчика. Этот способ хорош тем, что вы одновременно можете получить, как английский текст, так и его перевод. Настройте переводчик – над левым окном установите исходный язык аудио (английский), а над правым – язык, на который необходимо перевести (русский). Под левым окном переводчика нажмите на микрофон, разрешите использование микрофона, поднесите микрофон к колонкам, включите аудио и наслаждайтесь Подобным образом вы можете работать и с переводчиком от Яндекса:
  2. Еще один очень удобный сервис для распознавания речи и мгновенного перевода — speechlogger.appspot.com. Выставьте настройки – исходный язык, авто пунктуация, язык, далее также нужно поднести микрофон к колонкам, включить аудио и нажать на иконку “Микрофона”.
  3. С использованием speechpad.ru По работе с этим сервисом много инструкций в интернете. Особенно часто его используют для перевода речи в текст. Мы же будем использовать его для автоперевода. Перейдите на сервис speechpad, нажмите на кнопку +перевод, как показано на скриншоте ниже: Теперь выставьте настройки, как у меня на скриншоте: 1. Включите микрофон, 2. разрешите использование микрофона на сайте spechpad, 3. поднесите микрофон к колонкам, 4. Включите аудио (или видео) с иностранной речью.
  4. Второй вариант перевода английского аудио в текст – онлайн сервис dictation.io. Поднесите микрофон к колонкам, включите аудиозапись на английском языке и нажмите на сервисе кнопку “Start dictation”. После завершения записи нажмите “stop dictation”. Сохранить текст можно, нажав на кнопку “save”. Запись сохраниться в текстовом файле txt.
  5. Больше всего мне нравится третий вариант преобразования английской речи в текст. Перейти на сервис онлайн speech-to-text-demo. Он хорош тем, что не обязательно нужно проигрывать аудиофайл, хотя такая функция в сервисе тоже имеется. Благодаря этому, вы можете переводить аудио в текст в абсолютной тишине, если это требуется, например, если вы привыкли работать по ночам. Вторым вариантом является простая загрузка аудиофайла на сервис, где он автоматически распознается и будет переведен в текстовый файл. Однако не любой аудиофайл можно загрузить на сервис. Поддерживаются только расширения .wav, .flac, или .opus. Файл mp3 загрузить не получится, но и здесь есть выход – вам нужно всего лишь воспользоваться любым аудио конвертером, можно тоже онлайн. Рекомендую для конвертации аудио в другой формат сервис — online-audio-converter.com.Итак, теперь рассмотрим поэтапно процесс преобразования английской речи в текст при помощи указанного сервиса. Предположим, что у вас файл mp3. Значит, вам сначала нужно сконвертировать файл при помощи сервиса online-audio-converter.com. Вам нужно открыть аудиофайл, выбрать расширение, в которое необходимо сконвертировать (wav) и нажать кнопку “Конвертировать”. после завершения конвертации скачайте файл: Второй шаг – собственно перевод английского аудио в текст на сервисе speech-to-text-demo. Перейдите на этот сервис, нажмите на кнопку “Upload audio file” (загрузить аудио файл) и выберите из папки вашего компьютера сконвертированный в wav, flac или opus аудио файл. Через некоторое время в окне появится текст аудио. Пример:

Технология

Распознавание говорящего — это проблема распознавания образов . Различные технологии , используемые для обработки и хранение голосовых отпечатков включают оценку частоты , скрытые марковские модели , гауссовые смеси , соответсвующую модель алгоритмы, нейронные сети , матричное представление , векторное квантование и дерева решений . Для сравнения высказываний с голосовыми отпечатками традиционно используются более простые методы, такие как косинусное сходство , из-за их простоты и производительности. Некоторые системы также используют методы «анти-говорящего», такие как модели когорт и модели мира. Спектральные характеристики преимущественно используются для представления характеристик громкоговорителей. Кодирование с линейным предсказанием (LPC) — это метод кодирования речи, используемый для распознавания говорящего и проверки речи .

Уровни окружающего шума могут препятствовать сбору как исходных, так и последующих голосовых выборок. Алгоритмы шумоподавления могут использоваться для повышения точности, но неправильное применение может иметь противоположный эффект. Снижение производительности может быть результатом изменений поведенческих атрибутов голоса и регистрации с использованием одного телефона и проверки на другом телефоне. Ожидается рост интеграции с продуктами двухфакторной аутентификации . Изменения голоса из-за старения могут со временем повлиять на производительность системы. Некоторые системы адаптируют модели динамиков после каждой успешной проверки, чтобы фиксировать такие долгосрочные изменения голоса, хотя ведутся споры относительно общего воздействия на безопасность, вызванного автоматической адаптацией.

Мобильные устройства и смартфоны

Многие мобильные телефоны, включая функциональные телефоны и смартфоны, такие как iPhone и BlackBerrys , имеют встроенные базовые функции голосового набора. Многие сторонние приложения реализовали поддержку распознавания речи на естественном языке, в том числе:

Имя приложения Описание Открытый источник Лицензия Цена Примечание
Assistant.ai Ассистент для Android, iOS и Windows Phone Нет Проприетарное , бесплатное ПО Бесплатно Снято с производства
Диктовка дракона Нет Проприетарное , бесплатное ПО Бесплатно
Google сейчас Голосовой поиск Android Нет Проприетарное , бесплатное ПО Бесплатно
Google Voice Search Нет Проприетарное , бесплатное ПО Бесплатно
Microsoft Cortana Голосовой поиск Microsoft Нет Проприетарное , бесплатное ПО Бесплатно
Персональный помощник Siri Виртуальный персональный помощник Apple Нет Проприетарное , бесплатное ПО Бесплатно
Алекса — Amazon Echo Личный помощник Amazon Нет Проприетарный
СИЛЬВИЯ Android и iOS Нет
Влинго

Помощник Microsoft a.k.a Кортана (Cortana)

Чтобы оправдать ожидания пользователей и продемонстрировать конкурентоспособность в сравнении с такими компаниями, как Apple, Google или Amazon, Microsoft представила собственного умного помощника Кортана.

Встроенный виртуальный помощник Кортана для Windows 10

На ранних этапах он считался одним из лучших искусственных помощников, но утратил свой статус после проигрыша мобильной версии Microsoft в битве с Android и iOS. Тем не менее здесь мы имеем в виду Windows 10, поэтому Кортана и сейчас вполне жизнеспособный инструмент.

Надеемся, что со временем он улучшится. Кортана пригодится в том случае, если вы хотите запускать свой компьютер без каких-либо голосовых команд.

Вот как включить и настроить ее для последующего использования в Windows 10:

  1. Нажмите «Пуск» и откройте «Все приложения».

  2. Найдите Кортану и откройте ее.

  3. Снимите переключатель на «Использовать Кортану». Нажмите «Да» или «Нет, спасибо», в зависимости от того, хотите ли вы, чтобы голосовой помощник отслеживал ваши данные (так он лучше вас узнает) или нет.

  4. Теперь, когда вы включили Кортану, нажмите «Windows+S» или щелкните по шестеренке, находящейся слева.
  5. Включите «Эй, Кортана» и настройте свой микрофон. Вы можете разрешить помощнику реагировать, когда кто-нибудь скажет «Эй, Кортана» или заставить его отвечать только на ваши голосовые команды.

  6. Выйдите из настроек и попросите о чем-нибудь своего цифрового помощника.

  7. Поищите в Интернете список доступных команд и задач, которые может выполнять Кортана.

Распознавание речи офлайн. Какие программы можно использовать?

Распознавание речи офлайн, на самом деле, представлено небольшим количеством программ. Они есть как в бесплатном, так и в платном доступе. А некоторые из них взаимодействуют даже с русским языком, поэтому актуальны и для нас. Ниже мы приведем небольшой список из нескольких популярных программ распознавания голоса офлайн.

Dragon Naturally Speaking

Это, скорее всего, самое старое из подобных приложений, умеющих распознавать голос офлайн. Может распознать как речь, произносимую «под диктовку», так и аудиофайлы. «Фишка» этой программы в том, что она поддерживает обучение. А это значит, что со временем качество распознавания голоса офлайн и полученный в результате текст только улучшаются. Вначале, конечно, придется повозиться с корректировкой текстов «руками», но со временем программа будет это выполнять самостоятельно.

Для корректного функционирования данный софт требует чистую дикторскую речь или четкие аудиофайлы.

История

Впервые устройство, распознававшее речь, появилось в 1952, и было способно распознавать цифры, произнесённые человеком. В 1962 году на ярмарке компьютерных технологий в Нью-Йорке было представлено устройство IBM Shoebox.
Коммерческие программы по распознаванию речи появились в начале девяностых годов. Обычно их используют люди, которые из-за травмы руки не в состоянии набирать большое количество текста. Эти программы (например, Dragon NaturallySpeaking, VoiceNavigator (англ.)) переводят голос пользователя в текст, таким образом, разгружая его руки. Надёжность перевода у таких программ не очень высока, но с годами она постепенно улучшается.
Увеличение вычислительных мощностей мобильных устройств позволило и для них создать программы с функцией распознавания речи. Среди таких программ стоит отметить приложение Microsoft Voice Command, которое позволяет работать со многими приложениями при помощи голоса. Например, можно включить воспроизведение музыки в плеере или создать новый документ.
Все большую популярность применение распознавания речи находит в различных сферах бизнеса, например, врач в поликлинике может проговаривать диагнозы, которые тут же будут внесены в электронную карточку. Или другой пример. Наверняка каждый хоть раз в жизни мечтал с помощью голоса выключить свет или открыть окно. В последнее время в телефонных интерактивных приложениях все чаще стали использоваться системы автоматического распознавания и синтеза речи. В этом случае общение с голосовым порталом становится более естественным, так как выбор в нём может быть осуществлен не только с помощью тонового набора, но и с помощью голосовых команд. При этом системы распознавания являются независимыми от дикторов, то есть распознают голос любого человека.
Следующим шагом технологий распознавания речи можно считать развитие так называемых интерфейсов безмолвного доступа (silent speech interfaces, SSI). Эти системы обработки речи базируются на получении и обработке речевых сигналов на ранней стадии артикулирования. Данный этап развития распознавания речи вызван двумя существенными недостатками современных систем распознавания: чрезмерная чувствительность к шумам, а также необходимость четкой и ясной речи при обращении к системе распознавания. Подход, основанный на SSI, заключается в том, чтобы использовать новые сенсоры, не подверженные влиянию шумов в качестве дополнения к обработанным акустическим сигналам.

Заключение

Информация, представленная в этой статье, должна дать вам возможность сразу же приступить к работе, если вы хотите исследовать синтез и распознавание речи в .NET-приложениях. Освоение самой технологии не составляет особого труда, как только вы минуете ухабы начального обучения и установки компонентов. Настоящая проблема в синтезе и распознавании речи — понимание того, когда это действительно полезно.

В случае консольных программ вы можете создавать интересные взаимные диалоги, где пользователь задает вопрос, а программа отвечает, в результате чего вы, по сути, получаете среду, подобную Cortana

Вы должны соблюдать некоторую осторожность, потому что, когда речь исходит из динамиков вашего компьютера, она будет подхвачена микрофоном и может быть распознана снова. Я сам попадал в довольно забавные ситуации, где задавал вопрос, приложение распознавало его и отвечало, но произносимый ответ инициировал следующее событие распознавания, и в итоге я получал смешной бесконечный речевой цикл

Другое возможное применение речи в консольной программе — распознавание команд вроде «Launch Notepad» и «Launch Word». Иначе говоря, такая консольная программа может использоваться на вашем компьютере для выполнения действий, которые в ином случае потребовали бы множества манипуляций с клавиатурой и мышью.

Джеймс Маккафри (Dr. James McCaffrey) работает на Microsoft Research в Редмонде (штат Вашингтон). Принимал участие в создании нескольких продуктов Microsoft, в том числе Internet Explorer и Bing. С ним можно связаться по адресу jammc@microsoft.com.

Выражаю благодарность за рецензирование статьи экспертам Microsoft Research Робу Грюну (Rob Gruen), Марку Маррону (Mark Marron) и Кертису фон Ве (Curtis von Veh).

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Adblock
detector