Тестирование сервиса yandex speechkit cloud api

Аналитика по телефонным звонкам для бизнеса

Что может принести бизнесу распознавание телефонных звонков?

  • Во-первых, это увеличение закрытых сделок. Если разработать скрипт разговора совместно с продажниками, с HR-менеджерами, с руководством, и контролировать, как менеджер по этому скрипту разговаривают, это поможет увеличить количество закрытых сделок.

  • Во-вторых, можно искать вхождение слов. Допустим, менеджер при разговоре с клиентом произносит несколько раз слово «Заказ», «Сделка», «Доставка» – потом по этим словам можно сделать отбор, найти в справочнике все звонки, где эти слова встречались, и, допустим, перезвонить клиенту еще раз, либо передать в доставку. Это позволит не потерять эту сделку.

  • В-третьих, в конце месяца можно посмотреть количество минут, проговоренных каждым из менеджеров, и скоррелировать это с зарплатой – это еще один KPI для менеджеров.

  • В-четвертых, это проверка ошибок. Руководство может посмотреть, кто первый предложил предоставить скидку – это сделал менеджер либо это попросил клиент. Также можно делать разбор конфликтов. Я считаю, что для бизнеса это нужно и позволяет увеличить прибыль.

Условия и ограничения

Рас­по­зна­ва­ние речи — плат­ная услу­га, но Яндекс даёт 60 дней и 3000 ₽ для тести­ро­ва­ния. За эти день­ги мож­но рас­по­знать 83 часа аудио — боль­ше трёх суток непре­рыв­но­го раз­го­во­ра. Это очень мно­го: за вре­мя под­го­тов­ки этой ста­тьи и тести­ро­ва­ния тех­но­ло­гии мы потра­ти­ли 4 руб­ля за 3 дня.

Если отправ­лять фай­лы с запи­сью боль­ше мину­ты, то одна секун­да аудио сто­ит одну копей­ку. Что­бы рас­по­знать запись дли­ной в час, нуж­но 36 руб­лей. Это при­мер­но в 20 раз дешев­ле, чем берут транс­кри­ба­то­ры — люди, кото­рые сами наби­ра­ют текст на слух, про­слу­ши­вая запись.

Ней­ро­сеть часто пони­ма­ет, когда текст нуж­но раз­бить на абза­цы, но дела­ет это не все­гда правильно. Ещё она не ста­вит запя­тые, тире и двое­то­чия. Мак­си­мум, что она дела­ет — ста­вит точ­ку в кон­це пред­ло­же­ния и начи­на­ет новое с боль­шой бук­вы. Но при этом почти все сло­ва рас­по­зна­ют­ся пра­виль­но, и отре­дак­ти­ро­вать такой текст намно­го про­ще, чем наби­рать его с нуля.

Послед­нее — из-за осо­бен­но­стей нашей речи и про­из­но­ше­ния SpeechKit может путать сло­ва, кото­рые зву­чат оди­на­ко­во (код — кот) или ста­вить непра­виль­ное окон­ча­ние («сла­ва обру­ши­лось на него неожи­дан­но»). Реше­ние про­стое: про­го­ня­ем такой текст через орфо­ней­ро­кор­рек­тор и всё в поряд­ке. Одна ней­рон­ка исправ­ля­ет дру­гую — реаль­ность XXI века 

Всё, при­сту­па­ем.

Ино­гда резуль­тат полу­ча­ет­ся вот таким, но на пони­ма­ние тек­ста это не силь­но влияет. 

Веб-сервисы и приложения для голосового ввода

Для использования голосового ввода от случая к случаю можно обойтись без  установки на компьютер специальных программ. Скорее всего, вам будет достаточно возможностей веб-сервисов и расширений для браузера.

Google Docs

Простой инструмент голосового ввода есть в Google Docs — сервисе для работы с текстовыми документами. Для его использования достаточно иметь аккаунт почты Gmail.

Как пользоваться голосовым вводом в Google Docs:

  1. Откройте сайт поисковой системы Google.
  2. Авторизуйтесь под своей учётной записью Google или зарегистрируйте новый профиль.
  3. Кликните по квадрату из точек, чтобы раскрыть меню с сервисами.
  4. Нажмите «Ещё», чтобы увидеть полный список.
  5. Перейдите в «Документы».
  6. В поле «Создать документ» нажмите «Пустой файл».

На экране появится текстовый редактор Google. Чтобы включить голосовой ввод, раскройте меню «Инструменты» и выберите соответствующую опцию. Слева появится виджет с микрофоном. Выберите в нём язык, на котором вы будете говорить, а затем нажмите на иконку микрофона, чтобы включить распознавание. Значок должен стать красным. Если браузер запросит разрешение на использование микрофона, дайте его.

Запуск голосового ввода доступен также с помощью сочетания клавиш Ctrl+Shift+S. Функция запускается с языком, установленным по умолчанию.

После настройки начинайте говорить — Google Docs будет распознавать речь и превращать её в текст. Знаки препинания и новую строку проговаривайте словами, чётко произносите окончания слов — в противном случае исправлять текст придётся очень долго.

Speechpad

Speechpad — бесплатный сервис, который работает только в браузере Chrome. Выше мы рассказали, как настроить его интеграцию с Windows. Однако для набора небольшого фрагмента текста в этом нет необходимости — с задачей отлично справится веб-интерфейс голосового блокнота.

  1. Откройте сайт Speechpad.ru.
  2. Пролистните главную страницу до окна редактора.
  3. Выберите язык ввода.
  4. Нажмите на кнопку «Включить запись» и разрешите использование микрофона.
  5. Диктуйте текст.

Возле кнопки «Включить запись» вы увидите поле предварительного показа. В нём отображается то, что будет добавлено в документ.

Расставлять знаки препинания и переходить на новую строку можно голосом или кнопками, которые находятся между полем предварительного просмотра и редактором. При наведении на каждую кнопку появляется текст голосовой команды, к которой она применяется — например, «вопросительный знак» или «открыть скобку».

Итоговый документ доступен для скачивания в формате TXT.

VoiceNote

VoiceNote — ещё один сервис для преобразования голоса в текст, который работает только в Google Chrome. При попытке запустить его в другом браузере появляется сообщение об ошибке.

Для голосового ввода через VoiceNote можно использовать Live Demo или отдельное приложение для Chrome.

Как пользоваться VoiceNote:

  1. Откройте редактор.
  2. Нажмите на значок в виде земного шара и выберите язык ввода.
  3. Кликните по иконке микрофона.
  4. Разрешите использование записывающего устройства.
  5. Диктуйте текст.

Правила ввода здесь стандартные: знаки препинания можно проговаривать словами, а также голосом отправлять текст на новую строчку.

Полученный документ доступен для сохранения в формате TXT.

TalkTyper

TalkTyper — онлайн-редактор для голосового ввода. Главное его достоинство — поддержка 37 языков. Однако TalkTyper, как и предыдущие сервисы, работает только в Google Chrome.

Принцип ввода текста в этом редакторе не отличается от других: вы указываете язык, нажимаете на значок микрофона и разрешаете его использование. Знаки препинания и новая строка проговариваются словами.

Результат обработки текста в TalkTyper можно сохранить в виде документа в формате TXT, скопировать в буфер обмена, распечатать, отправить по почте, твитнуть и перевести на другой язык.

Voice Notepad

Voice Notepad — ещё один сервис для преобразования голоса в текст, работающий только в Chrome. Он поддерживает больше 120 языков ввода. В остальном функциональность у него такая же, как у сервисов, перечисленных выше: расстановка знаков препинания голосом, сохранение документа в формате TXT, копирование в буфер обмена, отправка по почте или на печать и т.д.

Особенность онлайн-сервисов заключается в том, что все они работают только в Google Chrome. Это связано с тем, что в их основе лежит лицензионная гугловская технология распознавания речи. Другие браузеры её не поддерживают или поддерживают с ограничениями. Например, Speechpad можно запускать в Яндекс.Браузере, однако в чужеродной среде он часто работает с ошибками. Так что если вы не пользуетесь Google Chrome, проще всего установить одну из программ для голосового ввода на компьютер и забыть про неудобства.

Подготовимся. Настройка профиля CLI

Активация аккаунта на облаке

Для использования сервиса YSK у вас должна быть почта на Yandex. Если у вас её нет, то самое время завести.

Будьте готовы к тому, что вам потребуется еще подтвердить свой номер мобильного телефона. Без этого, увы, сервисы будут недоступны.

Почта есть. Теперь самое время перейти на cloud.yandex.ru. Перейдя в консоль надо активировать пробный период пользования сервисом. Для этого надо привязать платежную карту. Как только вы это сделаете вам будет доступен грант на 60 дней.

В облака – через командную строку

Для понимания, как работает распознавание и синтез, мы потренируемся в командной строке. Например, в iTerm.

Для отправки запросов на API через командную строку установим утилиту cURL. Перед установкой проверьте, возможно, она у вас уже есть ($ curl —version):

Теперь настроим Интерфейс Яндекс.Облака для командной строки (CLI). Запустим скрипт:

Перезапустите командную оболочку. В переменную окружения PATH добавится путь к исполняемому файлу – install.sh.

Теперь нам нужно, чтобы в CLI заработало автодополнение команд в bash:

Если у вас еще нет менеджера пакетов Homebrew, установите его. Он вам не раз пригодится, обещаю.

Затем ставим пакет bash-completion:

и посмотрим, что изменилось в файле ~/.bash_profile:

Примечание: ~/.bash_profile используется для пользовательских настроек, в частности – для определения переменных окружения.

Видим, что в конце bash_profile добавились новые строчки:

Выше новых строк вставьте эту:

Набираем команду:

 и получаем приветственное сообщение:

 Вам предложат выбрать облако (скорее всего у вас оно единственное):

Далее по желанию выберете Compute zone. Пока пользователь один – этим можно пренебречь.

Посмотрим, как выглядят настройки профиля CLI:

Мы в шаге от старта. Осталось добыть второй ключ (в настройках профиля он не будет отображаться): 

Полетели!

Бесплатный GPS-трекинг Промо

Современные технологии и возможности становятся все более доступными для широких масс и повсеместно используемыми, как для частного лица, так и для мелкого и среднего бизнеса.
Так и GPS-трекинг (отслеживание в реальном времени на карте местоположения водителей, курьеров, монтажных бригад, торговых представителей, детей, собак и т.п., а также просмотр статистики по их передвижениям и остановкам), становится сейчас все более востребованным сервисом, как для домашних условий, так и для предприятия.
И, если крупные фирмы (например, транспортные предприятия) подписав договора с коммерческими сервисами, оплачивая своевременно счета за устройства и абонплату, эту проблему для себя решили, то это скорее подходит для крупных корпоративных клиентов.
Что делать нам, простым смертным или небольшой фирме с несколькими водителями, например? Какие есть простые, надежные и недорогие решения?

Анализ затрат

Итак, переходим к важному важному – сколько же все это стоит. Распознавание длинных аудио в 15 раз стоит одну копейку за один такт. Единица тарификации – это 15 секунд

Единица тарификации – это 15 секунд

Распознавание длинных аудио в 15 раз стоит одну копейку за один такт. Единица тарификации – это 15 секунд.

Короткие аудио распознаются дороже – 15 копеек за один такт.

Затраты в месяц – на графике показаны реальные затраты в марте 2020 года – всего за месяц уходит в районе 2 200 – 2 500 (это около шестидесяти трех часов).

В день это занимает там 250 рублей – кружка дорогого кофе.

На что в Яндексе больше всего уходит денег? На слайде я привел расшифровку по сервисам:

  • сразу видно, что самое дорогое – это именно распознавание аудиозаписей, оно съедает максимальный бюджет;

  • хранение на Yandex Object Storage стоит копейки. Это связано с тем, что файл на нем хранится несколько минут – мы отправляем файл на Yandex Object Storage, распознаем его и сразу удаляем.

Соответственно, весь бюджет съедает распознавание аудиозаписи.

Регистрация в «Облаке»

Для это­го нам пона­до­бит­ся Яндекс-аккаунт: заве­ди­те новый, если его у вас нет, или вой­ди­те в него под сво­им логином.

Если акка­унт уже есть — пере­хо­дим на стра­ни­цу сер­ви­са cloud.yandex.ru и нажи­ма­ем «Под­клю­чить­ся»:

На сле­ду­ю­щем шаге под­твер­жда­ем согла­сие с усло­ви­я­ми, и мы у цели:

На глав­ной стра­ни­це «Обла­ка» акти­ви­ру­ем проб­ный пери­од, что­бы бес­плат­но исполь­зо­вать все воз­мож­но­сти сер­ви­са, в том чис­ле и SpeechKit:

Един­ствен­ное, что нам оста­лось из фор­маль­но­стей, — запол­нить дан­ные о себе и при­вя­зать бан­ков­скую кар­ту. С неё спи­шут два руб­ля и сра­зу вер­нут их, что­бы убе­дить­ся, что кар­та актив­на. Она нуж­на для того, что­бы поль­зо­вать­ся сер­ви­са­ми после окон­ча­ния проб­но­го пери­о­да. Если вам это будет не нуж­но — про­сто уда­ли­те кар­ту, когда закон­чи­те проект.

Когда под­клю­чи­те кар­ту — нажми­те «Акти­ви­ро­вать».

Когда всё будет гото­во, вы попа­дё­те на глав­ную стра­ни­цу сер­ви­са, где уви­ди­те что-то подобное:

Вме­сто ста­ту­са Active вы уви­ди­те ста­тус «Проб­ный пери­од» и баланс в 3000 ₽ без кре­дит­но­го лимита. 

Какие доработки потребуются в «1С:Управление торговлей»

После того ка мы зарегистрировались в Яндексе, настроили все доступы, какие изменения нам нужно произвести в 1С?

У нас используется 1С:Управление торговлей 10.3 – старая конфигурация на обычных формах.

  • Мы добавили справочник «Звонки». В нем хранятся все данные по звонку, ссылка на файл – этот звонок можно прямо из справочника прослушать.

  • У менеджеров разграничены права доступа, чтобы они видели только свои звонки, руководство видит звонки своих подчиненных, а генеральный директор видит все.

  • Далее мы добавили перечисление «Категории звонков», чтобы разделять звонки личные, звонки по заказам, либо звонки по доставке. Автоматически в программе заданы определенные правила, по которым звонок относится к нужной категории.

  • У меня используется аналоговая АТС Samsung, SPRecord считывает данные с аналоговой АТС и хранит все это в своей базе данных на Microsoft SQL. Соответственно, база на 1С может прочитать информацию о звонках с внешнего источника данных и получить эти данные

  • Обработка этих звонков автоматизирована, стартует при запуске системе – сейчас я об этом расскажу подробнее.

Вот так выглядит элемент справочника «Звонки» – там фиксируется:

  • кто звонил;

  • кому;

  • подтягивается контрагент, если в контактной информации контрагента сохранен этот телефонный номер;

  • контактное лицо контрагента;

  • телефон и конкретная линия, куда звонили;

  • служебные строки ошибок;

  • из данного элемента можно сразу же прослушать этот звонок;

  • и здесь же сохраняется текстовая расшифровка звонка.

На слайде показаны значения перечисления «Категории звонков». С помощью расшифровки по приоритету количества упоминаний ключевых слов я присваивал звонку определенную категорию. Этот приоритет устанавливали менеджеры.

В базе использовался внешний источник, который подключался к MSSQL-базе SPRecord. В этой базе есть служебная таблица, из которой мы можем получить определенные данные. Там достаточно много параметров, я использовал только несколько.

Вот так настроена автоматизация обработки звонков.

Поскольку при перезапуске сервера база 1С должна стартовать автоматически, в автозагрузку вешается задание, которое запускает базу под определенным пользователем.

А в базе 1С в обработчике ПриНачалеРаботыСистемы() для этого пользователя стартует обработчик загрузки звонков.

Installation

There are several ways to add SpeechKit to a project.

Installing with CocoaPods

$ gem install cocoapods

Podfile

To integrate SpeechKit into your project using CocoaPods, create a file in the project directory:

source 'https://github.com/CocoaPods/Specs.git'
platform :ios, '8.0'

target 'TargetName' do
pod 'YandexSpeechKit', '~> 3.12.2'
end

Then run the command:

$ pod install

Adding SpeechKit directly

You can add SpeechKit directly to a project as a static library, without using a dependency manager.

In the Xcode project settings, choose -> , then click -> and choose SpeechKit. Also add all the frameworks and libraries required by SpeechKit in the same section. For a complete list, see .

In -> , add the bundle with the resources, which is located in the directory.

In -> -> , set the path to the directory that contains SpeechKit.

Командная строка Яндекса

С её помо­щью мы смо­жем полу­чать нуж­ные клю­чи досту­па, что­бы отправ­лять фай­лы с запи­ся­ми на сер­вер для обработки.

Весь про­цесс уста­нов­ки мы опи­шем для Windows. Если у вас Mac OS или Linux, то всё будет то же самое, но с поправ­кой на опе­ра­ци­он­ную систе­му. Поэто­му если что — .

Для уста­нов­ки и даль­ней­шей рабо­ты нам пона­до­бит­ся PowerShell — это про­грам­ма для рабо­ты с команд­ной стро­кой, но с рас­ши­рен­ны­ми воз­мож­но­стя­ми. Запус­ка­ем PowerShell и пишем там такую команду:

iex (New-Object System.Net.WebClient).DownloadString(‘https://storage.yandexcloud.net/yandexcloud-yc/install.ps1’)

Она ска­ча­ет и запу­стит уста­нов­щик команд­ной стро­ки Яндек­са. В сере­дине скрипт спро­сит нас, доба­вить ли путь в систем­ную пере­мен­ную PATH, — в ответ пишем Y и нажи­ма­ем Enter:

Команд­ная стро­ка Яндек­са уста­нов­ле­на в систе­ме, закры­ва­ем PowerShell и запус­ка­ем его зано­во. Теперь нам нуж­но полу­чить токен авто­ри­за­ции — это такая после­до­ва­тель­ность сим­во­лов, кото­рая пока­жет «Обла­ку», что мы — это мы, а не кто-то другой.

Пере­хо­дим по спе­ци­аль­ной ссыл­ке, кото­рая даст нам нуж­ный токен. Сер­вис спро­сит у нас, раз­ре­ша­ем ли мы доступ «Обла­ка» к нашим дан­ным на Яндек­се — нажи­ма­ем «Раз­ре­шить». В ито­ге видим стра­ни­цу с токеном:

Теперь нуж­но закон­чить настрой­ку команд­ной стро­ки Яндек­са, что­бы мож­но было с ней пол­но­цен­но рабо­тать. Для это­го в PowerShell пишем команду:

yc init

Когда скрипт попро­сит — вво­дим токен, кото­рый мы толь­ко что получили:

Сна­ча­ла отве­ча­ем «1», затем «Y» и «4».

Настраиваем доступ

Есть два спо­со­ба рабо­тать с сер­ви­сом SpeechKit: через IAM-токен, кото­рый нуж­но запра­ши­вать зано­во каж­дые 12 часов, или через API-ключ, кото­рый посто­ян­ный и менять его не нуж­но. Мы будем рабо­тать через ключ, пото­му что так удобнее.

Что­бы его полу­чить, нам нужен сер­вис­ный акка­унт в «Обла­ке». Созда­дим его так.

1. Захо­дим в кон­соль управ­ле­ния и нажи­ма­ем на един­ствен­ную пап­ку в нашем облаке:

2. Выби­ра­ем «Сер­вис­ные акка­ун­ты» → «Создать»:

3. Вво­дим имя (какое понра­вит­ся), затем нажи­ма­ем «Доба­вить роль» и выби­ра­ем «editor»:

4. Захо­дим в сер­вис­ный акка­унт, кото­рый толь­ко что создали:

5. Нажи­ма­ем на кноп­ку «Создать новый ключ» и выби­ра­ем пункт «Создать API-ключ»:

Сер­вис спро­сит про опи­са­ние — мож­но ниче­го не заполнять.

6. Сохра­ня­ем отдель­но сек­рет­ный ключ — он выда­ёт­ся толь­ко один раз и вос­ста­но­вить его нель­зя. Выде­ля­ем, копи­ру­ем и сохра­ня­ем в без­опас­ное место:

Java

Есть стандарт Java Speech API (JSAPI) и JSR 113: JavaTM Speech API 2.0 но с его реализацией похоже туго.
No reference implementation exists for JSAPI. Вот мне всегда было непонятно зачем тогда создавать стандарт.
Насколько я понял, синтезатор голоса был изначально во первой версии Java от Sun, но потом его вырезали в FreeTTS, и у IBM тоже была какая-то своя приблуда для этого IBM Speech.
Вот их FAQ можно найти ответы на другие вопросы и посмотреть древний список реализаций этого апи.

jsapi.sourceforge.net

Java Speech API
Wrapper for vendors to simplify usage of the Java Speech API (JSR 113). Note that the spec is an untested early access and that there may be changes in the API. Demo implementations support FreeTTS, Sphinx 4, Microsoft Speech API 5.4 and the Mac OSX speech synthesizer.
Т.е. это просто биндинг к другим сервисам.

FreeTTS

FreeTTS выглядит заброшенным но вполне рабочий. Я его уже использовал для озвучивания логов как Log4J Appender где он справлялся хорошо.
Изначально разрабатывался в лаборатории компании Sun. Поддерживает JSAPI 1.0 (а уже есть 2.0) но только по синтезу (), не по распознаванию.
Поддерживает три голоса английского, но вроде как можно импортировать MBROLA голоса но русского и украинского там нет.
Вообщем рекомендую для базового синтеза простых текстов.

FreeTTS is a speech synthesis system written entirely in the JavaTM programming language. It is based upon Flite: a small run-time speech synthesis engine developed at Carnegie Mellon University. Flite is derived from the Festival Speech Synthesis System from the University of Edinburgh and the FestVox project from Carnegie Mellon University.
Т.е. корнями FreeTTS уходит в плюсовые программы описанные тут ниже.

Как я уже говорил, проект заброшенный, но есть форк на Гитхабе который делается одним пацаном для софта для больных Афазией.

Вот пример кода с использованием: FreeTTS Hello World Java Maven.

MARY Text-to-Speech System (MaryTTS)

Более серьёзный синтезатор разработанный в немецком университете и имеющий коммерческое применение. Разработка поддерживается, последний комит был пять дней назад.
Поддерживаются американский и британский английский, мужской русский, немецкий, итальянский, шведский, турецкий, французский, телугу (язык юго-восточноо штата в Индии) и была попытка сделать тибетский и арабский (статья). Украинского нету.Список языков и голосов и если что можно сделать самому поддержку языка.

MARY is an open-source, multilingual Text-to-Speech Synthesis platform written in Java. It was originally developed as a collaborative project of DFKI’s Language Technology lab and the Institute of Phonetics at Saarland University and is now being maintained by DFKI. As of version 4.3, MARY TTS supports German, British and American English, Telugu, Turkish, and Russian; more languages are in preparation. MARY TTS comes with toolkits for quickly adding support for new languages and for building unit selection and HMM-based synthesis voices.

Я не пробовал в работе, но мне кажется что его вполне можно использовать в продакшене.

Звоним из «1С». Универсальный софтфон для стандартных конфигураций «1С» с открытым кодом для платформ 8.2, 8.3 для Asterisk и не только.

Уважаемые господа, представляю Вашему вниманию внешнюю обработку — софтфон для стандартных конфигураций «1С» с открытым кодом. Это две реализации с претензией на универсальность для обычных и управляемых приложений. Универсальность имеет свои минусы (на них укажу позже, если кто сам не увидит), которые легко «побеждаются» интеграцией в необходимую конфигурацию с внесением в последнюю соответствующих небольших изменений. Хотя, и с минусами, как мне кажется, как-то можно жить. Мне не удалось найти оператора или PBX, с которыми звонилка не работала бы (разве что Skipe) . Некоторые коллеги почему-то отдельно отмечали факт успешного взаимодействия с Mango, хотя, по правде сказать, я не очень понимаю, почему могут возникать сложности с этим оператором при использовании других инструментов. Вообще, этап тестирования был очень сжатым, и могу предположить, что будет найдено, какое-то количество негативных моментов (всегда хочется, чтобы их было немного.)., которые надо будет поправить. Буду рад любым вашим замечаниям и благодарен за здравую критику. Я думаю, что для нее в данном случае будет достаточно места. Этап тестирования, хоть и был сжатым, но все же был. Прежде всего, проверил на Asterisk, мне это показалось наиболее актуальным. MasterTel любезно предоставил для тестирования свои ресурсы, включая городской номер, Callobok.ru создал для меня экаунт на своем сервере, четвертым был провайдер sipnet. Во всех четырех случаях был положительный результат, больше нигде проверять не стал, т.к. все используют один и тот же протокол (кроме skype). Ах, ну да! Конечно же, на собственном сервере проверял, похоже тоже «жужжит».
Что касается конфигураций, проверил работоспособность обычного приложения на «Бухгалтерии предприятия 2.0», «Управление торговлей 10.3», «Комплексная автоматизация», «Розница 1.0», управляемое приложение — «Управление торговлей 11», «Бухгалтерия предприятия 3.0», «Управление небольшой фирмой 1.4» (1.5 тоже должна работать), «Розница 2.0».

4 стартмани

Управляйте смартфоном своим голосом

Сегодня читал новости от Яндекса и был удивлён, оказывается, полгода назад Яндекс запустил новую технологию speechkit — технологию распознавания речи.

Многие, наверное помнят, как по телевизору показывали возможности гаджетов от Google, в которых использовалась технология распознавания речи. Например, Вы говорите своему смартфону: «Как попасть на улицу Ленина» и получаете от встроенного навигатора четкий ответ. Но, то Google, а то Яндекс.

Надо отдать должное специалистам Яндекса, которые стараются сильно не отставать от старшего брата. На мой взгляд, то, что сделал Яндекс, нужно протестировать и использовать, по этой причине я и решил сегодня поделиться этой новостью с читателями блога. Думаю, есть достаточно много людей, которые и не слышали о разработках Яндекса в области технологии распознавания речи для мобильных устройств.

Итак, постараюсь коротко поделиться полученной информацией и изложить её так, как я понял её сам. Система Яндекс speechkit имеет как бы два сервиса, один сервис предназначен для работы с мобильными телефонами и работает с Android, iOS Windows Phone.

Технология позволяет запускать голосовой ввод, то есть Вы диктуете голосом, а текст пишется автоматически. Такое сообщение Вы можете отправить в социальные сети, положить в качестве заметки или отправить текст по электронной почте. Думаю, таким же путем можно делать и комментарии на блогах.

Можно голосом редактировать текст, например, «Добавить смайл», убрать последнее слово из предложения. Как пишут разработчики, количество команд не ограничено, система понимает смысл предложения.

При диктовке текста, приложение способно воспринимать интонацию и паузы и автоматически расставляет знаки препинания. Можно использовать обратную функцию, нажав кнопку «Прочитать всё» смартфон Вам прочитает любой текст голосом. Можно выбрать мужской или женский голос, а также выбрать добрый голос, злой или нейтральный.

Настолько я понял, система использует два языка – русский и турецкий, почему выбран турецкий непонятно. Качество распознавания речи достаточно высокое, при запросах – 88%, при навигационных запросах – 95%, при текстовых запросах – 82%. Вы можете давать голосовые команды навигатору.

Использовать данное приложение могут все желающие, оно бесплатное, при условии, что количество запросов не будет превышать 10 000 запросов в сутки. Правда, надо выяснить, что подразумевается под одним запросом.

Второй сервис SpeechKit Cloud позволяет использовать данные технологии, в том числе и технологию распознавания речи через облако, это реализация многих проектов, так сказать, по-взрослому. Вы можете оборудовать голосовым интерфейсом систему «Умный дом», организовать голосовое управление всей бытовой техникой и роботами, если они у Вас есть.

Можно построить голосовое управление в салоне автомобиля, настроить голосовой ввод данных в компьютер, в том числе и в играх, можно использовать голосовое управление в промышленности, медицине и так далее. Здесь уже будет работать фантазия. Использование технологии SpeechKit Cloud платное, первый месяц даётся бесплатно.

В этой статье я не ставил задачу рассказать о всех технических моментах данных сервисов от Яндека, хотел только познакомить читателей с ними. Если Вы захотите узнать подробности, Вы можете просто набрать в поисковой строке Яндека «Яндекс speechkit» и сами все прочитать, материалов там много.

Есть и лицензионные условия, есть инструкции на тему, как установить такое приложение к себе на телефон и многое другое. Если Вам нужны такие функции, то заходите на сервис, читайте, устанавливайте и используйте. Удачи Вам!

Просмотров: 497

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Adblock
detector