Тестирование сервиса yandex speechkit cloud api
Содержание:
- Аналитика по телефонным звонкам для бизнеса
- Условия и ограничения
- Веб-сервисы и приложения для голосового ввода
- Подготовимся. Настройка профиля CLI
- Бесплатный GPS-трекинг Промо
- Анализ затрат
- Регистрация в «Облаке»
- Какие доработки потребуются в «1С:Управление торговлей»
- Installation
- Командная строка Яндекса
- Настраиваем доступ
- Java
- Звоним из «1С». Универсальный софтфон для стандартных конфигураций «1С» с открытым кодом для платформ 8.2, 8.3 для Asterisk и не только.
- Управляйте смартфоном своим голосом
Аналитика по телефонным звонкам для бизнеса
Что может принести бизнесу распознавание телефонных звонков?
-
Во-первых, это увеличение закрытых сделок. Если разработать скрипт разговора совместно с продажниками, с HR-менеджерами, с руководством, и контролировать, как менеджер по этому скрипту разговаривают, это поможет увеличить количество закрытых сделок.
-
Во-вторых, можно искать вхождение слов. Допустим, менеджер при разговоре с клиентом произносит несколько раз слово «Заказ», «Сделка», «Доставка» – потом по этим словам можно сделать отбор, найти в справочнике все звонки, где эти слова встречались, и, допустим, перезвонить клиенту еще раз, либо передать в доставку. Это позволит не потерять эту сделку.
-
В-третьих, в конце месяца можно посмотреть количество минут, проговоренных каждым из менеджеров, и скоррелировать это с зарплатой – это еще один KPI для менеджеров.
-
В-четвертых, это проверка ошибок. Руководство может посмотреть, кто первый предложил предоставить скидку – это сделал менеджер либо это попросил клиент. Также можно делать разбор конфликтов. Я считаю, что для бизнеса это нужно и позволяет увеличить прибыль.
Условия и ограничения
Распознавание речи — платная услуга, но Яндекс даёт 60 дней и 3000 ₽ для тестирования. За эти деньги можно распознать 83 часа аудио — больше трёх суток непрерывного разговора. Это очень много: за время подготовки этой статьи и тестирования технологии мы потратили 4 рубля за 3 дня.
Если отправлять файлы с записью больше минуты, то одна секунда аудио стоит одну копейку. Чтобы распознать запись длиной в час, нужно 36 рублей. Это примерно в 20 раз дешевле, чем берут транскрибаторы — люди, которые сами набирают текст на слух, прослушивая запись.
Нейросеть часто понимает, когда текст нужно разбить на абзацы, но делает это не всегда правильно. Ещё она не ставит запятые, тире и двоеточия. Максимум, что она делает — ставит точку в конце предложения и начинает новое с большой буквы. Но при этом почти все слова распознаются правильно, и отредактировать такой текст намного проще, чем набирать его с нуля.
Последнее — из-за особенностей нашей речи и произношения SpeechKit может путать слова, которые звучат одинаково (код — кот) или ставить неправильное окончание («слава обрушилось на него неожиданно»). Решение простое: прогоняем такой текст через орфонейрокорректор и всё в порядке. Одна нейронка исправляет другую — реальность XXI века
Всё, приступаем.
Иногда результат получается вот таким, но на понимание текста это не сильно влияет.
Веб-сервисы и приложения для голосового ввода
Для использования голосового ввода от случая к случаю можно обойтись без установки на компьютер специальных программ. Скорее всего, вам будет достаточно возможностей веб-сервисов и расширений для браузера.
Google Docs
Простой инструмент голосового ввода есть в Google Docs — сервисе для работы с текстовыми документами. Для его использования достаточно иметь аккаунт почты Gmail.
Как пользоваться голосовым вводом в Google Docs:
- Откройте сайт поисковой системы Google.
- Авторизуйтесь под своей учётной записью Google или зарегистрируйте новый профиль.
- Кликните по квадрату из точек, чтобы раскрыть меню с сервисами.
- Нажмите «Ещё», чтобы увидеть полный список.
- Перейдите в «Документы».
- В поле «Создать документ» нажмите «Пустой файл».
На экране появится текстовый редактор Google. Чтобы включить голосовой ввод, раскройте меню «Инструменты» и выберите соответствующую опцию. Слева появится виджет с микрофоном. Выберите в нём язык, на котором вы будете говорить, а затем нажмите на иконку микрофона, чтобы включить распознавание. Значок должен стать красным. Если браузер запросит разрешение на использование микрофона, дайте его.
Запуск голосового ввода доступен также с помощью сочетания клавиш Ctrl+Shift+S. Функция запускается с языком, установленным по умолчанию.
После настройки начинайте говорить — Google Docs будет распознавать речь и превращать её в текст. Знаки препинания и новую строку проговаривайте словами, чётко произносите окончания слов — в противном случае исправлять текст придётся очень долго.
Speechpad
Speechpad — бесплатный сервис, который работает только в браузере Chrome. Выше мы рассказали, как настроить его интеграцию с Windows. Однако для набора небольшого фрагмента текста в этом нет необходимости — с задачей отлично справится веб-интерфейс голосового блокнота.
- Откройте сайт Speechpad.ru.
- Пролистните главную страницу до окна редактора.
- Выберите язык ввода.
- Нажмите на кнопку «Включить запись» и разрешите использование микрофона.
- Диктуйте текст.
Возле кнопки «Включить запись» вы увидите поле предварительного показа. В нём отображается то, что будет добавлено в документ.
Расставлять знаки препинания и переходить на новую строку можно голосом или кнопками, которые находятся между полем предварительного просмотра и редактором. При наведении на каждую кнопку появляется текст голосовой команды, к которой она применяется — например, «вопросительный знак» или «открыть скобку».
Итоговый документ доступен для скачивания в формате TXT.
VoiceNote
VoiceNote — ещё один сервис для преобразования голоса в текст, который работает только в Google Chrome. При попытке запустить его в другом браузере появляется сообщение об ошибке.
Для голосового ввода через VoiceNote можно использовать Live Demo или отдельное приложение для Chrome.
Как пользоваться VoiceNote:
- Откройте редактор.
- Нажмите на значок в виде земного шара и выберите язык ввода.
- Кликните по иконке микрофона.
- Разрешите использование записывающего устройства.
- Диктуйте текст.
Правила ввода здесь стандартные: знаки препинания можно проговаривать словами, а также голосом отправлять текст на новую строчку.
Полученный документ доступен для сохранения в формате TXT.
TalkTyper
TalkTyper — онлайн-редактор для голосового ввода. Главное его достоинство — поддержка 37 языков. Однако TalkTyper, как и предыдущие сервисы, работает только в Google Chrome.
Принцип ввода текста в этом редакторе не отличается от других: вы указываете язык, нажимаете на значок микрофона и разрешаете его использование. Знаки препинания и новая строка проговариваются словами.
Результат обработки текста в TalkTyper можно сохранить в виде документа в формате TXT, скопировать в буфер обмена, распечатать, отправить по почте, твитнуть и перевести на другой язык.
Voice Notepad
Voice Notepad — ещё один сервис для преобразования голоса в текст, работающий только в Chrome. Он поддерживает больше 120 языков ввода. В остальном функциональность у него такая же, как у сервисов, перечисленных выше: расстановка знаков препинания голосом, сохранение документа в формате TXT, копирование в буфер обмена, отправка по почте или на печать и т.д.
Особенность онлайн-сервисов заключается в том, что все они работают только в Google Chrome. Это связано с тем, что в их основе лежит лицензионная гугловская технология распознавания речи. Другие браузеры её не поддерживают или поддерживают с ограничениями. Например, Speechpad можно запускать в Яндекс.Браузере, однако в чужеродной среде он часто работает с ошибками. Так что если вы не пользуетесь Google Chrome, проще всего установить одну из программ для голосового ввода на компьютер и забыть про неудобства.
Подготовимся. Настройка профиля CLI
Активация аккаунта на облаке
Для использования сервиса YSK у вас должна быть почта на Yandex. Если у вас её нет, то самое время завести.
Будьте готовы к тому, что вам потребуется еще подтвердить свой номер мобильного телефона. Без этого, увы, сервисы будут недоступны.
Почта есть. Теперь самое время перейти на cloud.yandex.ru. Перейдя в консоль надо активировать пробный период пользования сервисом. Для этого надо привязать платежную карту. Как только вы это сделаете вам будет доступен грант на 60 дней.
В облака – через командную строку
Для понимания, как работает распознавание и синтез, мы потренируемся в командной строке. Например, в iTerm.
Для отправки запросов на API через командную строку установим утилиту cURL. Перед установкой проверьте, возможно, она у вас уже есть ($ curl —version):
Теперь настроим Интерфейс Яндекс.Облака для командной строки (CLI). Запустим скрипт:
Перезапустите командную оболочку. В переменную окружения PATH добавится путь к исполняемому файлу – install.sh.
Теперь нам нужно, чтобы в CLI заработало автодополнение команд в bash:
Если у вас еще нет менеджера пакетов Homebrew, установите его. Он вам не раз пригодится, обещаю.
Затем ставим пакет bash-completion:
и посмотрим, что изменилось в файле ~/.bash_profile:
Примечание: ~/.bash_profile используется для пользовательских настроек, в частности – для определения переменных окружения.
Видим, что в конце bash_profile добавились новые строчки:
Выше новых строк вставьте эту:
Набираем команду:
и получаем приветственное сообщение:
Вам предложат выбрать облако (скорее всего у вас оно единственное):
Далее по желанию выберете Compute zone. Пока пользователь один – этим можно пренебречь.
Посмотрим, как выглядят настройки профиля CLI:
Мы в шаге от старта. Осталось добыть второй ключ (в настройках профиля он не будет отображаться):
Полетели!
Бесплатный GPS-трекинг Промо
Современные технологии и возможности становятся все более доступными для широких масс и повсеместно используемыми, как для частного лица, так и для мелкого и среднего бизнеса.
Так и GPS-трекинг (отслеживание в реальном времени на карте местоположения водителей, курьеров, монтажных бригад, торговых представителей, детей, собак и т.п., а также просмотр статистики по их передвижениям и остановкам), становится сейчас все более востребованным сервисом, как для домашних условий, так и для предприятия.
И, если крупные фирмы (например, транспортные предприятия) подписав договора с коммерческими сервисами, оплачивая своевременно счета за устройства и абонплату, эту проблему для себя решили, то это скорее подходит для крупных корпоративных клиентов.
Что делать нам, простым смертным или небольшой фирме с несколькими водителями, например? Какие есть простые, надежные и недорогие решения?
Анализ затрат
Итак, переходим к важному важному – сколько же все это стоит. Распознавание длинных аудио в 15 раз стоит одну копейку за один такт. Единица тарификации – это 15 секунд
Единица тарификации – это 15 секунд
Распознавание длинных аудио в 15 раз стоит одну копейку за один такт. Единица тарификации – это 15 секунд.
Короткие аудио распознаются дороже – 15 копеек за один такт.
Затраты в месяц – на графике показаны реальные затраты в марте 2020 года – всего за месяц уходит в районе 2 200 – 2 500 (это около шестидесяти трех часов).
В день это занимает там 250 рублей – кружка дорогого кофе.
На что в Яндексе больше всего уходит денег? На слайде я привел расшифровку по сервисам:
-
сразу видно, что самое дорогое – это именно распознавание аудиозаписей, оно съедает максимальный бюджет;
-
хранение на Yandex Object Storage стоит копейки. Это связано с тем, что файл на нем хранится несколько минут – мы отправляем файл на Yandex Object Storage, распознаем его и сразу удаляем.
Соответственно, весь бюджет съедает распознавание аудиозаписи.
Регистрация в «Облаке»
Для этого нам понадобится Яндекс-аккаунт: заведите новый, если его у вас нет, или войдите в него под своим логином.
Если аккаунт уже есть — переходим на страницу сервиса cloud.yandex.ru и нажимаем «Подключиться»:
На следующем шаге подтверждаем согласие с условиями, и мы у цели:
На главной странице «Облака» активируем пробный период, чтобы бесплатно использовать все возможности сервиса, в том числе и SpeechKit:
Единственное, что нам осталось из формальностей, — заполнить данные о себе и привязать банковскую карту. С неё спишут два рубля и сразу вернут их, чтобы убедиться, что карта активна. Она нужна для того, чтобы пользоваться сервисами после окончания пробного периода. Если вам это будет не нужно — просто удалите карту, когда закончите проект.
Когда подключите карту — нажмите «Активировать».
Когда всё будет готово, вы попадёте на главную страницу сервиса, где увидите что-то подобное:
Вместо статуса Active вы увидите статус «Пробный период» и баланс в 3000 ₽ без кредитного лимита.
Какие доработки потребуются в «1С:Управление торговлей»
После того ка мы зарегистрировались в Яндексе, настроили все доступы, какие изменения нам нужно произвести в 1С?
У нас используется 1С:Управление торговлей 10.3 – старая конфигурация на обычных формах.
-
Мы добавили справочник «Звонки». В нем хранятся все данные по звонку, ссылка на файл – этот звонок можно прямо из справочника прослушать.
-
У менеджеров разграничены права доступа, чтобы они видели только свои звонки, руководство видит звонки своих подчиненных, а генеральный директор видит все.
-
Далее мы добавили перечисление «Категории звонков», чтобы разделять звонки личные, звонки по заказам, либо звонки по доставке. Автоматически в программе заданы определенные правила, по которым звонок относится к нужной категории.
-
У меня используется аналоговая АТС Samsung, SPRecord считывает данные с аналоговой АТС и хранит все это в своей базе данных на Microsoft SQL. Соответственно, база на 1С может прочитать информацию о звонках с внешнего источника данных и получить эти данные
-
Обработка этих звонков автоматизирована, стартует при запуске системе – сейчас я об этом расскажу подробнее.
Вот так выглядит элемент справочника «Звонки» – там фиксируется:
-
кто звонил;
-
кому;
-
подтягивается контрагент, если в контактной информации контрагента сохранен этот телефонный номер;
-
контактное лицо контрагента;
-
телефон и конкретная линия, куда звонили;
-
служебные строки ошибок;
-
из данного элемента можно сразу же прослушать этот звонок;
-
и здесь же сохраняется текстовая расшифровка звонка.
На слайде показаны значения перечисления «Категории звонков». С помощью расшифровки по приоритету количества упоминаний ключевых слов я присваивал звонку определенную категорию. Этот приоритет устанавливали менеджеры.
В базе использовался внешний источник, который подключался к MSSQL-базе SPRecord. В этой базе есть служебная таблица, из которой мы можем получить определенные данные. Там достаточно много параметров, я использовал только несколько.
Вот так настроена автоматизация обработки звонков.
Поскольку при перезапуске сервера база 1С должна стартовать автоматически, в автозагрузку вешается задание, которое запускает базу под определенным пользователем.
А в базе 1С в обработчике ПриНачалеРаботыСистемы() для этого пользователя стартует обработчик загрузки звонков.
Installation
There are several ways to add SpeechKit to a project.
Installing with CocoaPods
$ gem install cocoapods
Podfile
To integrate SpeechKit into your project using CocoaPods, create a file in the project directory:
source 'https://github.com/CocoaPods/Specs.git' platform :ios, '8.0' target 'TargetName' do pod 'YandexSpeechKit', '~> 3.12.2' end
Then run the command:
$ pod install
Adding SpeechKit directly
You can add SpeechKit directly to a project as a static library, without using a dependency manager.
In the Xcode project settings, choose -> , then click -> and choose SpeechKit. Also add all the frameworks and libraries required by SpeechKit in the same section. For a complete list, see .
In -> , add the bundle with the resources, which is located in the directory.
In -> -> , set the path to the directory that contains SpeechKit.
Командная строка Яндекса
С её помощью мы сможем получать нужные ключи доступа, чтобы отправлять файлы с записями на сервер для обработки.
Весь процесс установки мы опишем для Windows. Если у вас Mac OS или Linux, то всё будет то же самое, но с поправкой на операционную систему. Поэтому если что — .
Для установки и дальнейшей работы нам понадобится PowerShell — это программа для работы с командной строкой, но с расширенными возможностями. Запускаем PowerShell и пишем там такую команду:
iex (New-Object System.Net.WebClient).DownloadString(‘https://storage.yandexcloud.net/yandexcloud-yc/install.ps1’)
Она скачает и запустит установщик командной строки Яндекса. В середине скрипт спросит нас, добавить ли путь в системную переменную PATH, — в ответ пишем Y и нажимаем Enter:
Командная строка Яндекса установлена в системе, закрываем PowerShell и запускаем его заново. Теперь нам нужно получить токен авторизации — это такая последовательность символов, которая покажет «Облаку», что мы — это мы, а не кто-то другой.
Переходим по специальной ссылке, которая даст нам нужный токен. Сервис спросит у нас, разрешаем ли мы доступ «Облака» к нашим данным на Яндексе — нажимаем «Разрешить». В итоге видим страницу с токеном:
Теперь нужно закончить настройку командной строки Яндекса, чтобы можно было с ней полноценно работать. Для этого в PowerShell пишем команду:
yc init
Когда скрипт попросит — вводим токен, который мы только что получили:
Сначала отвечаем «1», затем «Y» и «4».
Настраиваем доступ
Есть два способа работать с сервисом SpeechKit: через IAM-токен, который нужно запрашивать заново каждые 12 часов, или через API-ключ, который постоянный и менять его не нужно. Мы будем работать через ключ, потому что так удобнее.
Чтобы его получить, нам нужен сервисный аккаунт в «Облаке». Создадим его так.
1. Заходим в консоль управления и нажимаем на единственную папку в нашем облаке:
2. Выбираем «Сервисные аккаунты» → «Создать»:
3. Вводим имя (какое понравится), затем нажимаем «Добавить роль» и выбираем «editor»:
4. Заходим в сервисный аккаунт, который только что создали:
5. Нажимаем на кнопку «Создать новый ключ» и выбираем пункт «Создать API-ключ»:
Сервис спросит про описание — можно ничего не заполнять.
6. Сохраняем отдельно секретный ключ — он выдаётся только один раз и восстановить его нельзя. Выделяем, копируем и сохраняем в безопасное место:
Java
Есть стандарт Java Speech API (JSAPI) и JSR 113: JavaTM Speech API 2.0 но с его реализацией похоже туго.
No reference implementation exists for JSAPI. Вот мне всегда было непонятно зачем тогда создавать стандарт.
Насколько я понял, синтезатор голоса был изначально во первой версии Java от Sun, но потом его вырезали в FreeTTS, и у IBM тоже была какая-то своя приблуда для этого IBM Speech.
Вот их FAQ можно найти ответы на другие вопросы и посмотреть древний список реализаций этого апи.
jsapi.sourceforge.net
Java Speech API
Wrapper for vendors to simplify usage of the Java Speech API (JSR 113). Note that the spec is an untested early access and that there may be changes in the API. Demo implementations support FreeTTS, Sphinx 4, Microsoft Speech API 5.4 and the Mac OSX speech synthesizer.
Т.е. это просто биндинг к другим сервисам.
FreeTTS
FreeTTS выглядит заброшенным но вполне рабочий. Я его уже использовал для озвучивания логов как Log4J Appender где он справлялся хорошо.
Изначально разрабатывался в лаборатории компании Sun. Поддерживает JSAPI 1.0 (а уже есть 2.0) но только по синтезу (), не по распознаванию.
Поддерживает три голоса английского, но вроде как можно импортировать MBROLA голоса но русского и украинского там нет.
Вообщем рекомендую для базового синтеза простых текстов.
FreeTTS is a speech synthesis system written entirely in the JavaTM programming language. It is based upon Flite: a small run-time speech synthesis engine developed at Carnegie Mellon University. Flite is derived from the Festival Speech Synthesis System from the University of Edinburgh and the FestVox project from Carnegie Mellon University.
Т.е. корнями FreeTTS уходит в плюсовые программы описанные тут ниже.
Как я уже говорил, проект заброшенный, но есть форк на Гитхабе который делается одним пацаном для софта для больных Афазией.
Вот пример кода с использованием: FreeTTS Hello World Java Maven.
MARY Text-to-Speech System (MaryTTS)
Более серьёзный синтезатор разработанный в немецком университете и имеющий коммерческое применение. Разработка поддерживается, последний комит был пять дней назад.
Поддерживаются американский и британский английский, мужской русский, немецкий, итальянский, шведский, турецкий, французский, телугу (язык юго-восточноо штата в Индии) и была попытка сделать тибетский и арабский (статья). Украинского нету.Список языков и голосов и если что можно сделать самому поддержку языка.
MARY is an open-source, multilingual Text-to-Speech Synthesis platform written in Java. It was originally developed as a collaborative project of DFKI’s Language Technology lab and the Institute of Phonetics at Saarland University and is now being maintained by DFKI. As of version 4.3, MARY TTS supports German, British and American English, Telugu, Turkish, and Russian; more languages are in preparation. MARY TTS comes with toolkits for quickly adding support for new languages and for building unit selection and HMM-based synthesis voices.
Я не пробовал в работе, но мне кажется что его вполне можно использовать в продакшене.
Звоним из «1С». Универсальный софтфон для стандартных конфигураций «1С» с открытым кодом для платформ 8.2, 8.3 для Asterisk и не только.
Уважаемые господа, представляю Вашему вниманию внешнюю обработку — софтфон для стандартных конфигураций «1С» с открытым кодом. Это две реализации с претензией на универсальность для обычных и управляемых приложений. Универсальность имеет свои минусы (на них укажу позже, если кто сам не увидит), которые легко «побеждаются» интеграцией в необходимую конфигурацию с внесением в последнюю соответствующих небольших изменений. Хотя, и с минусами, как мне кажется, как-то можно жить. Мне не удалось найти оператора или PBX, с которыми звонилка не работала бы (разве что Skipe) . Некоторые коллеги почему-то отдельно отмечали факт успешного взаимодействия с Mango, хотя, по правде сказать, я не очень понимаю, почему могут возникать сложности с этим оператором при использовании других инструментов. Вообще, этап тестирования был очень сжатым, и могу предположить, что будет найдено, какое-то количество негативных моментов (всегда хочется, чтобы их было немного.)., которые надо будет поправить. Буду рад любым вашим замечаниям и благодарен за здравую критику. Я думаю, что для нее в данном случае будет достаточно места. Этап тестирования, хоть и был сжатым, но все же был. Прежде всего, проверил на Asterisk, мне это показалось наиболее актуальным. MasterTel любезно предоставил для тестирования свои ресурсы, включая городской номер, Callobok.ru создал для меня экаунт на своем сервере, четвертым был провайдер sipnet. Во всех четырех случаях был положительный результат, больше нигде проверять не стал, т.к. все используют один и тот же протокол (кроме skype). Ах, ну да! Конечно же, на собственном сервере проверял, похоже тоже «жужжит».
Что касается конфигураций, проверил работоспособность обычного приложения на «Бухгалтерии предприятия 2.0», «Управление торговлей 10.3», «Комплексная автоматизация», «Розница 1.0», управляемое приложение — «Управление торговлей 11», «Бухгалтерия предприятия 3.0», «Управление небольшой фирмой 1.4» (1.5 тоже должна работать), «Розница 2.0».
4 стартмани
Управляйте смартфоном своим голосом
Сегодня читал новости от Яндекса и был удивлён, оказывается, полгода назад Яндекс запустил новую технологию speechkit — технологию распознавания речи.
Многие, наверное помнят, как по телевизору показывали возможности гаджетов от Google, в которых использовалась технология распознавания речи. Например, Вы говорите своему смартфону: «Как попасть на улицу Ленина» и получаете от встроенного навигатора четкий ответ. Но, то Google, а то Яндекс.
Надо отдать должное специалистам Яндекса, которые стараются сильно не отставать от старшего брата. На мой взгляд, то, что сделал Яндекс, нужно протестировать и использовать, по этой причине я и решил сегодня поделиться этой новостью с читателями блога. Думаю, есть достаточно много людей, которые и не слышали о разработках Яндекса в области технологии распознавания речи для мобильных устройств.
Итак, постараюсь коротко поделиться полученной информацией и изложить её так, как я понял её сам. Система Яндекс speechkit имеет как бы два сервиса, один сервис предназначен для работы с мобильными телефонами и работает с Android, iOS Windows Phone.
Технология позволяет запускать голосовой ввод, то есть Вы диктуете голосом, а текст пишется автоматически. Такое сообщение Вы можете отправить в социальные сети, положить в качестве заметки или отправить текст по электронной почте. Думаю, таким же путем можно делать и комментарии на блогах.
Можно голосом редактировать текст, например, «Добавить смайл», убрать последнее слово из предложения. Как пишут разработчики, количество команд не ограничено, система понимает смысл предложения.
При диктовке текста, приложение способно воспринимать интонацию и паузы и автоматически расставляет знаки препинания. Можно использовать обратную функцию, нажав кнопку «Прочитать всё» смартфон Вам прочитает любой текст голосом. Можно выбрать мужской или женский голос, а также выбрать добрый голос, злой или нейтральный.
Настолько я понял, система использует два языка – русский и турецкий, почему выбран турецкий непонятно. Качество распознавания речи достаточно высокое, при запросах – 88%, при навигационных запросах – 95%, при текстовых запросах – 82%. Вы можете давать голосовые команды навигатору.
Использовать данное приложение могут все желающие, оно бесплатное, при условии, что количество запросов не будет превышать 10 000 запросов в сутки. Правда, надо выяснить, что подразумевается под одним запросом.
Второй сервис SpeechKit Cloud позволяет использовать данные технологии, в том числе и технологию распознавания речи через облако, это реализация многих проектов, так сказать, по-взрослому. Вы можете оборудовать голосовым интерфейсом систему «Умный дом», организовать голосовое управление всей бытовой техникой и роботами, если они у Вас есть.
Можно построить голосовое управление в салоне автомобиля, настроить голосовой ввод данных в компьютер, в том числе и в играх, можно использовать голосовое управление в промышленности, медицине и так далее. Здесь уже будет работать фантазия. Использование технологии SpeechKit Cloud платное, первый месяц даётся бесплатно.
В этой статье я не ставил задачу рассказать о всех технических моментах данных сервисов от Яндека, хотел только познакомить читателей с ними. Если Вы захотите узнать подробности, Вы можете просто набрать в поисковой строке Яндека «Яндекс speechkit» и сами все прочитать, материалов там много.
Есть и лицензионные условия, есть инструкции на тему, как установить такое приложение к себе на телефон и многое другое. Если Вам нужны такие функции, то заходите на сервис, читайте, устанавливайте и используйте. Удачи Вам!
Просмотров: 497