Транскрибация аудио в текст
Содержание:
- «Dragon Professional» — расшифровка аудиозаписей в текст
- Как увеличить доход от расшифровки аудио
- Dragon Dictate
- 2 лучших плеера для транскрибатора
- Какой заработок на расшифровке аудиозаписей можно получать?
- Если вам нужно перевести аудио-файл в текст.
- Особенности перевода голоса в текстовый формат
- Программа Express Scribe (Экспресс Скрайб)
- Sonix
- Прямая расшифровка от Google
- Автоматизированная транскрибация с помощью программ
«Dragon Professional» — расшифровка аудиозаписей в текст
На момент написания данного материала цифровой англоязычный продукт Dragon Professional Individual» является одним из мировых лидеров по качеству распознаваемых текстов. Программа понимает семь языков (с русским пока работает лишь мобильное приложение «Dragon Anywhere» на Android и iOS), обладает высоким качеством распознавания голоса, умеет выполнять ряд голосовых команд. При этом данный продукт имеет исключительно платный характер (цена за основную программу составляет 300 долларов США, а за «домашнюю» версия продукта «Dragon Home» покупателю придётся выложить 75 американских долларов).
Для своей работы данный продукт от «Nuance Communications» требует создания своего профиля, который призван адаптировать возможности программы под специфику вашего голоса. Кроме непосредственной диктовки текста, вы можете обучить программу выполнять ряд команд, тем самым делая своё взаимодействие с компьютером ещё более конгруэнтным и удобным.
Как увеличить доход от расшифровки аудио
Как я уже писал, базовый заработок на транскрибации аудио в текст не очень высок. Однако, его можно значительно увеличить. Первый способ я уже писал. Это увеличить свой рейтинг на биржах фриланса и наработать базу постоянных клиентов.
А второй способ – это брать более дорогие заказы на расшифровку аудио. Что влияет на стоимость заказов?
- Некачественная запись звука. В помещении шумно, плохой микрофон или спикер далеко от микрофона.
- Нужно сделать работу очень срочно. Обычно заказчика на Воркзилле или Кворке дают на транскрибацию около суток. Если просят быстрее, то смело увеличивайте цену работы.
- Если разговаривает несколько человек. Обычно это полный пипец! Особенно, если эти люди говорят одновременно! Это очень сложная работа!
- Если Заказчик хочет, чтобы Вы не просто дали ему расшифровку в виде текста, а еще и “причесали” документ. То есть, чтобы сделали форматирование текста, грамотно расставили знаки препинания и т.п.
- Если спикер с дефектами речи. Заикание, невнятная дикция, переизбыток слов-паразитов и т.п.
- Спикер разговаривает на специфическом научном сленге. Вы просто можете не знать этих слов!
- Ну и конечно же, если запись на иностранном языке. Тут даже без комментариев. Все понятно, что гораздо сложнее.
Короче, если есть такие засады, смело увеличивайте стоимость (и время) транскрибации аудио в видео в несколько раз!
Еще немного фишек для поиска заказов на транскрибацию биржах фриланса:
- Первое время соглашайтесь на низкие цены. Главное – быстро нарастить свой рейтинг.
- Делайте работу качественно. Заказчики смотрят отзывы Исполнителя. Один негативный отзыв может перечеркнуть хорошую работу нескольких месяцев
- Не работайте с проблемными заказчиками!
- Обязательно детально уточняйте задание ПЕРЕД тем, как взять его!
- Сделайте себе небольшое портфолио по выполненной транскрибации и покажите его заказчикам.
Все это позволит Вам стать профессиональным транскрибатором и зарабатывать себе не только на хлеб, но и на масло с икрой 🙂
Dragon Dictate
Увеличить
Эта программа от американских разработчиков применяется для распознавания английской речи и дальнейшего перевода ее в текст. Также с ее помощью можно управлять компьютером с помощью голосовых команд.
Именно на основе данной программы были созданы такие популярные русскоязычные версии, как «Диктограф», «Диктант», «Горыныч» и «Комбат». Отечественные программы не могут похвастаться точной работой – для корректной работы необходимо провести предварительные настройки, чтобы софт мог правильно распознавать тембр голоса. Незнакомые слова, англицизмы и неологизмы необходимо будет вручную занести в словарь.
Для одноразовой транскрибации рекомендовать такие программы не стоит, а вот те, кто занимается такой деятельностью регулярно, могут потратить время на тонкую настройку, чтобы упростить этот процесс. Но необходимо учитывать, что даже тщательно настроенные, эти программы не можно назвать полноценным софтом для транскрибации – они выдают слишком много ошибок.
2 лучших плеера для транскрибатора
Если не брать в расчет сервисы распознавания речи, у которых пока скорее больше минусов, чем плюсов для специалиста-транскрибатора, можно значительно оптимизировать свою работу, используя удобные программы.
При переводе голоса в текстовый формат нужны удобный плеер и текстовый редактор.
Если с текстовыми редакторами все более-менее очевидно – Word и его бесплатные аналоги пока вне конкуренции, то с плеерами вопрос открыт.
Бесплатные плееры можно скачать в сети и опытным путем решить, с каким работать удобнее. Остановимся на функциях плеера, которые значительно упростят работу транскрибатора.
- Поддержка разнообразных видео- и аудиоформатов. Заказчики присылают файлы во всех возможных существующих форматах. Удобно, когда не нужно колдовать над ними, переводя в тот, который поддерживает ваш плеер.
- Эквалайзер. Может пригодиться для выделения того звукового сигнала, с которым вы работаете, ослабляя шумы, посторонние звуки и проч.
- Регулировка скорости воспроизведения. Очень полезная функция. Если качество исходного материала хорошее, а ваша скорость печати высокая, то уменьшив скорость воспроизведения, можно набирать текст практически синхронно с говорящим.
- Настройка глобальных горячих клавиш. Это незаменимая функция для транскрибатора. Такие клавиши работают независимо от того, какое приложение активно, вам не нужно переключаться между текстовым редактором и плеером, чтобы нажать паузу, отмотать назад или сделать погромче.
Среди дешифровщиков популярен плеер, созданный русскоговорящими транскрибаторами для своей работы. Автор этого продукта – Дмитрий Дворкин. Очень рекомендую его сайт dvorkin.by, на котором можно узнать много полезных примочек профессионального транскрибатора.
LossPlay
Плеер для расшифровки голоса. Удобный инструмент, в котором собраны все нужные функции для транскрибации, он обладает уникальной и очень полезной фишкой – автоматической вставкой тайм-кода (цифрового сигнала с указанием точного времени записи).
Среди преимуществ этого плеера целый ряд возможностей:
- поддержка многих форматов аудио- и видеозаписей;
- возможность индивидуальной настройки глобальных горячих клавиш;
- 4 отдельных плейлиста с закладками и возможностью переключения между ними;
- замедление и ускорение записи, при этом звук не ухудшается;
- управление плеером без выхода из текстового редактора;
- плеер создавался под работу в текстовом редакторе Word, поэтому корректно работает с ним в связке.
Конечно, это не все преимущества программы – она мало весит, быстро запускается на компьютере и при всех своих достоинствах еще и бесплатна. Авторы предусмотрели возможность добровольного пожертвования, но это на усмотрение пользователя.
Бесплатно скачать плеер LossPlay можно на сайте автора https://dvorkin.by/LossPlay/
Программа популярна, поэтому по работе в ней много уроков, инструкций и мастер-классов в интернете.
Express Scribe
Еще одна программа, наиболее часто используемая транскрибаторами.
Это плеер, совмещенный с текстовым редактором Word, так авторы решили проблему лишних движений при переключении между программами, раскрытыми в разных окнах. Правда, проверка грамотности здесь не работает.
Если вам необходима эта функция, то придется скопировать текст в полноценный Word и там уже использовать привычный инструмент.
Внимание! Если вы случайно удалите текст в плеере, то он нигде не сохранится. Это может стать причиной сильного нервного потрясения
Будьте бдительны!
Плеер создан иностранными специалистами и не имеет русскоязычного интерфейса, но разобраться в настройках легко, рабочее пространство программы интуитивно понятно даже новичку.
Преимущества Express Scribe:
- возможность набирать текст непосредственно в плеере;
- настройка горячих клавиш воспроизведения, перемотки и остановки записи, по умолчанию работают клавиши:
- возможность проставлять закладки в нужных местах аудиофайла;
- мини-формат Scribe Mini, с которым можно работать прямо в Word;
- помощь в улучшении качества звука – снижение фонового шума, увеличение громкости голоса, фильтрация высоких частот;
- для решивших профессионально заниматься транскрибацией программа совместима со специальным оборудованием – ножной педалью.
Из-за популярности программы к ней составлена масса инструкций и видеоуроков, которые легко найти в интернете.
Сам плеер можно бесплатно скачать на сайте разработчика https://www.nch.com.au/scribe/
Бесплатная версия не поддерживает видеофайлы. Перед работой вам придется извлечь звуковую дорожку с помощью специальных программ, например Freemake Video Converter.
Какой заработок на расшифровке аудиозаписей можно получать?
На биржах фриланса расшифровка аудио оплачивается чаще всего поминутно. Но случается, что стоимость работы по расшифровке аудиозаписей может зависеть от объема полученного текстового документа. Это происходит в случаях внесения изменений в текст путем изменения литературной речи в разговорную либо наоборот, исключив непонятные термины, доступность статьи для рядового читателя намного увеличится.
Скоростной набор является самым главным навыком для достижения успешных результатов в данной области. Скорость, с которой вы набираете текст, прямо пропорциональна вашему заработку. У опытных наборщиков скорость транскрибации текста может совпадать со скоростью произношения диктора. По расшифровке аудиозаписей в текст работа способна принести приличный доход, если подходить к делу с умом и использовать специализированные программы, способные облегчить транскрибацию.
По расшифровке аудио в текст вакансии чаще всего встречаются на биржах фриланса, где такая работа в среднем оценивается в 5-10 рублей за минуту или 500-1000 рублей за проект.
Если вам нужно перевести аудио-файл в текст.
Идея лежит на поверхности и наверняка программы для этого должны были присутствовать. Так -же как сделано в Gogle translate.
Как реализовать, казалось бы, простую идею: пустить в качестве сигнала микрофона — аудио файл.
УСТАНОВКА: Извлеките все файлы из ZIP и запустите программу установки в режиме администратора (перезагрузите компьютер после установки )
Настройте микрофонный вход в системе, на этот драйвер.
Со звуковыми картами Realtek устанавливать драйвер не нужно, достаточно включить «Стерео микшер» в приложении «Звук», в разделе «Запись».
Как записать аудио-файл в текст он-лайн
Есть способ без ограничений на количество символов. — это Google Docs.
Гугл Документы имеют встроенный инструмент для диктовки речи, который называется Голосовой ввод. Расшифровка голоса происходит автоматически. Когда вы говорите, этот инструмент понимает вашу речь и переводит ее в текст, который сразу печатается в Гугл Документах.
Во время транскрибации, не переходите на другие вкладки в браузере. Если вы перейдете на другой сайт, то инструмент прекратит транскрибацию.
Следите чтобы запись не прерывалась. Если данный инструмент перестал переводить запись в текст, следует снова нажать на кнопку с микрофоном чтобы он вначале отключился, а затем еще раз нажать, чтобы включить его.
Google блокирует постоянные подключения с одних IP. Поэтому ценность этого способа — в том, что все IP не заблокируешь и соответственно, этот способ более работоспособен.
Запись аудио в текст с переводом на другой язык он-лайн
Точность распознавания 85-95 %. Но, есть ограничение — 5 тыс. символов, что немало. Приходиться останавливать запись, копировать текст и продолжать далее.
Заодно происходит перевод на второй выбранный язык.
Ну и на последок, если вам не подошли данные версии, рекомендуем Онлайн блокнот, которые позволяет переводить в текст аудио, видео и речь с микрофона.
Перевод в текст он-лайн.
Голосовой блокнот позволяет вводить текст, используя микрофон, а также переводить речь из аудио и видео в печатный текст. В настоящее время голосовой ввод возможен только в браузере Chrome для OS Windows, Mac и Linux (для пользователей Андроид и iOS разработаны специальные Android, iOS приложения).
А если нужно перевести текст в звук
VoxWorker — это онлайн сервис для озвучки текста, который может переводить текст в аудиозапись.
Для перевода текста в речь, нужно написать необходимый фрагмент текста и нажать кнопку, дальше сервис все сделает сам.
Сервис не сохраняет тексты для озвучивания. Все голосовые файлы удаляются с сервера через один час. При необходимости Вы можете указать сервису хранить озвученные файлы постоянно, это удобно если вы планируете поделиться файлом с друзьями или коллегами.
Особенности перевода голоса в текстовый формат
Как известно, попытки создать программы для распознавания голоса берут своё начало ещё в середине 20 века. Поначалу распознавание было довольно слабым, но использование более совершенных методов и технологий (скрытые марковские модели, нейронные сети etc.) подняло распознавание голоса на довольно высокий уровень.
Ныне мы можем встретить достаточное количество сетевых сервисов и программ, выполняющих перевод речи в текст. Практически все они хорошо распознают человеческий голос на многих языках (включая русский), и способны переводить его в текстовый формат. При этом 100% понимания речи достичь пока не удаётся, Это связано с шумами при звучании, невнятной дикцией или акцентом говорящего, помехами в работе микрофона, эмоциональным состоянием человека и другими схожими факторами.
При этом использование таких сервисов и программ позволяет существенно сэкономить время при наборе различных текстов. Вы можете быстро надиктовать нужный фрагмент после чего сохранить его в удобном текстовом формате на ваш компьютер или телефон.
Давайте разберёмся, какие сервисы и программы помогут быстро перевести речь в текст.
Программа Express Scribe (Экспресс Скрайб)
Это наверное, одна из самых популярных программ для транскрибации
Программа на английском языку, но она интуитивно понятна. Кроме того, есть масса инструкций на Ютубе, как работать в ней.
В этой программе можно переводить аудиофайлы в текст. Эта программа позволяет удобно корректировать текст, изменять скорость прокрутки аудио. Можно поставить медленную скорость для того, чтобы писать под диктовку. Есть горячие клавиши для ускорения, пауз, перемотки и т.п. Можно делать метки тайм-кодов.
Express Scribe поддерживает все известные мне (и не известные 🙂 ) аудиофайлы… Без проблем интегрируется с Вордом. Короче, работать с программой очень приятно и удобно.
Но… она ограниченно бесплатная. То есть, некоторое время ей можно пользоваться, а потом она перестает работать. Нужно покупать. Или удалять и ставить заново. Если Вы собираетесь профессионально зарабатывать, то можно и потратиться на пробретение Экспресс Скрайб.
Sonix
Приложение Sonix
Sonix — это инструмент для транскрипции, основанный на веб-интерфейсах, который работал, достаточно хорошо. для нас. Мы попробовали сервис с четырьмя различными аудиоклипами и результаты были очень хорошими. Sonix поддерживает несколько языков, но кроме английского, маловероятно, что любой из них будет полезен. Sonix поддерживает американский, британский и австралийский акценты английского языка и имеет возможности, для всех других английских акцентов.
Мы загрузили четыре аудиоклипа на сайт, для тестирования Sonix. Первым клипом, было интервью, с Томом Тейлором из Amazon, у которого был американский акцент. У этого клипа была самая лучшая скорость успешной транскрипции. Это было 30-минутное интервью, которое транскрибировалось, менее чем за 10 минут и текст, в целом, был неплохой.
Вторым клипом, было интервью, с основателем стартапа, в шумной обстановке и результаты были довольно плохими. Справедливости ради следует отметить, что Sonix упоминает, что для хорошего результата, требуется звук без фонового шума, но даже, без него, результаты были очень плохими.
Третий клип был четкой записью речи женщины, говорящей об инфраструктурной проблеме. Эта запись была переведена достаточно хорошо, за исключением некоторых слов, которые были неверными.
Заключительным клипом была запись телефонного разговора между двумя людьми, говорящими по-английски. Здесь не так много фонового шума и, первоначально, Sonix, полностью, перепутала транскрипцию. Мы предупредили компанию об этой проблеме и они ответили обновленной транскрипцией, которая была почти такой же точной, как и в третьем случае. Sonix заявляет, что это связано с несколькими системами транскрипции, которые у них есть и они использовали другую модель, для этой записи, когда мы предупреждали их о проблеме.
В нашем тестировании, Sonix оказался неплохим приложением, с высококачественными аудиофайлами, где оратор говорит в умеренных темпах. Когда в аудиозаписях говорят быстро, результаты Sonix были не такими уж хорошими. Тем не менее, приложение имеет несколько функций, которые позволяют проверить качество.
- Как восстановить данные с разбитого телефона с помощью приложения TeamViewer
- LG G7 Plus ThinQ — полный и честный обзор
Плата за приложение Sonix
Нам очень понравился тот факт, что приложение имеет встроенный текстовый редактор, который позволяет быстро редактировать транскрипцию, во время прослушивания клипа. Скорость транскрипции, также, очень быстрая и наравне. с другими сервисами.
Если вы платите за услугу, приложение может различать два разных динамика и отмечать их. Лучшей особенностью, однако, является уверенный маркер, где приложение показывает, сколько слов, оно правильно расшифровало.
Sonix предлагает все эти функции и многое другое, за 6 долл. США в час, за записанные аудиофайлы, за исключением абонентской платы за подписку, в размере 15 долларов США, в месяц. Годовой план уменьшает цену, до 10 долл. США, в месяц. Цены не самые дешевые на рынке, но результаты с высококачественными записями достаточно хорошие, чтобы рассмотреть эту услугу.
Есть 30-минутная бесплатная, пробная версия, которую вы должны попробовать и увидеть результаты собственными глазами.
Прямая расшифровка от Google
Приложение «Прямая расшифровка от Google» разработано для людей с ограниченными возможностями, в частности с нарушениями слуха. Программа автоматически распознает голос и звуки, выводит разговор на экран в виде текста.
Распознавание голоса на телефоне нам поможет перевести голос в текст, а результатом этого можно воспользоваться по своему усмотрению. Вы самостоятельно можете надиктовать текст в приложении, или получить в текстовом виде разговор со своим собеседником. Отвечать собеседнику можно с помощью клавиатуры или голосом.
Основные возможности приложения «прямая расшифровка от Google»:
- программа работает на мобильных устройствах, начиная с версии Android 5.0 (Lollipop);
- поддержка более 70 языков;
- поддержка внешних микрофонов;
- возможность ответа собеседнику с помощью экранной клавиатуры;
- виброотклик при начале разговора;
- расшифровка текста доступна только на вашем устройстве.
Установите программу из магазина Google Play по этой ссылке. После установки приложения, его необходимо активировать в настройках мобильного устройства.
На телефоне, работающем под управлением операционной системы Android 9 (Pie) это можно сделать следующим образом («чистый» Android):
- Войдите в настройки телефона.
- Выберите «Спец. возможности», нажмите на опцию «Прямая расшифровка».
- Предоставьте необходимые разрешения для этого приложения.
- В параметре «Use service» передвиньте кнопку переключателя в положение «Включено».
В нижнем правом углу экрана появится кнопка приложения в виде человечка с расставленными руками. Этот значок используется для запуска приложения «Прямая расшифровка» в любой программе на вашем мобильном устройстве.
Запустите приложение, войдите в настройки. Здесь можно выбрать подходящие параметры для работы приложения:
- размер шрифта;
- возможность для сохранения расшифровки в течение 3 дней;
- включить темную тему;
- выбрать основной и дополнительный язык;
- очистить историю;
- включить вибрацию при возобновлении речи;
- отмечать звуки, отличные от речи;
- скрывать непристойную лексику с помощью символов;
- показывать кнопку приостановки расшифровки.
Преобразование голоса в текст в приложении «Прямая расшифровка от Google» происходит следующим образом:
- Для запуска расшифровки голоса, нажмите на кнопку в нижней части экрана.
- Откроется окно приложения, в котором написано: «Готово к расшифровке».
- Начните говорить, речь отобразится в виде текста на экране смартфона.
Расстановка знаков пунктуации в русском языке не поддерживаются.
Распознанный текст можно скопировать в окно любой текстовой программы для дальнейшего редактирования или сохранить на устройстве в течении 3 дней, при условии, что включена данная опция. Отредактированный текст сохраните в файл на телефоне или отправьте адресату в мессенджер, в облачное хранилище, по электронной почте и т. д.
В приложении можно записывать телефонные разговоры.
Автоматизированная транскрибация с помощью программ
В интернете есть программы для транскрибации, работающие с использованием нейросетей. Они распознают человеческую речь и в автоматическом режиме переводят услышанный звук в текстовый вариант.
Google Docs
Пользователь диктует с помощью микрофона, а программа со встроенным инструментом транскрибирует аудио. Вызвать соответствующую панель можно с помощью сочетания клавиш Ctrl+Shift+S. После необходимо указать язык, на котором говорит пользователь, и нажать на микрофон.
В работе Google Docs плохо справляется с записью, в которой речь произносится слишком тихо или громко. Диктовка должна быть четкой и производиться прямо в микрофон. Главный минус записи – программа работает только в активной вкладке. Диктовать что-то с другой вкладки или воспроизвести запись с компьютера не получится.
Чтобы добавить в текст знаки препинания, нужно помечать эти места голосом: точка, запятая, новая строчка, абзац и так далее.
Speechpad
Еще одна бесплатная программа для транскрибации аудио непосредственно с микрофона. Работает через браузер Google Chrome и мобильное приложение. При необходимости подключается к основным системным программам для обеспечения голосового ввода в любом поле. Аудио плохого качества расшифровать не сможет.
RealSpeaker
Это платный инструмент для транскрибации аудио из загруженных файлов. Перевод разговора в текст осуществляется бесплатно только первые 1,5 минуты. После этого стоимость расшифровки – 8 рублей в минуту. Максимально возможная продолжительность аудио составляет 180 минут. Программа не позволяет диктовать текст напрямую в микрофон и работает только с готовыми файлами. При загрузке видео можно скачать результат обработки с готовыми субтитрами.
Dictation
Программа находится в бесплатном доступе и работает со звуком через микрофон. Не поддерживает возможность обработки готовых файлов. В ходе работы пользователь может задавать команды, например, новый абзац, тире. Функционал этого инструмента включает простой редактор текста, чтобы изменять форматирование, создавать списки.
Лучше всего программа распознает тексты, надиктованные в тишине и с профессионально поставленным голосом. Без специального оборудования (петлички или микрофона) распознает только половину сказанного.
Voco
Это платный десктопный вариант, работающий на базе Windows. Для расшифровки не требуется доступ к интернету. Voco работает с микрофонными записями и обрабатывает аудио с уже готовых файлов. Программа способна к самостоятельному обучению. По мере обработки файлов она учится более глубокому пониманию лексики, пополняет словарный запас. Алгоритм способен воспринимать звук на расстоянии одного метра от микрофона.
Субтитры YouTube
Алгоритмы YouTube умеют автоматически распознавать речь на видеороликах и представляют ее в виде субтитров в нижней части экрана. Это можно использовать для расшифровки роликов при отсутствии других инструментов для работы. Чтобы транскрибировать таким образом, нужно загрузить видео на канал и ограничить доступ пользователей к нему. Файл открыть в разделе «Творческая студия», далее «Субтитры». Затем указать язык для транскрибации и скачать измененный файл со встроенными субтитрами.
Субтитры загружаются вместе с тайм-кодами и разрывом текста. Это усложняет обработку готового текста, особенно если видео достаточно длинное. В результате такой обработки его придется самостоятельно собирать в связанные абзацы и предложения.