Узнайте совместимость по знаку зодиака
Лучшие инструменты автоматической транскрипции для журналистов
Технологии И Инструменты

Сири только что исполнилось шесть лет. Алексе только что исполнилось три года. Если мы можем запросить у телефонов прогноз погоды в Альбукерке и заставить пластиковый цилиндр в гостиной читать вслух «Вашингтон пост», почему мы до сих пор записываем интервью от руки?
Ну, оказывается, нам это и не нужно. Инструменты автоматической транскрипции уже давно присутствуют на рынке, и они, наконец, становятся лучше. Теперь требуется всего несколько минут и несколько долларов, чтобы загрузить аудио или видео на сайт и получить довольно полную стенограмму.
Но, как и все инструменты, некоторые лучше других. Мы протестировали (или пытались протестировать — об этом позже) восемь самых популярных инструментов транскрипции, предназначенных для журналистов, в том числе Диктант дракона , Счастливый писец , oТранскрибировать , рекордно , Преподобный , Соникс , Тринт и YouTube. Мы протестировали каждый инструмент в различных реальных сценариях, экспериментируя с тем, как каждый из них справляется с типичным использованием журналиста.
Хотя ни один из инструментов не был идеальным, один из них стал лучшим в своей категории.
Наш выбор
Сочетание точности, функций и простоты использования делает Trint лучшим выбором для автоматической транскрипции для журналистов. Хотя это был не самый точный, многофункциональный или самый дешевый инструмент, который мы пробовали, его инструменты редактирования расшифровки стенограммы и возможность более органично вписаться в рабочий процесс журналиста помогают ему обойти конкурентов. Читайте дальше, чтобы понять, почему.
Эксперимент
Как вы увидите, показатели точности этих инструментов низкие. Это потому, что мы изо всех сил старались их запутать.
Во-первых, чтобы отразить широкий спектр людей, голосов и акцентов, мы записали наш образец аудио с четырьмя участниками. Они включали:
- Алексиос Манцарлис , преподаватель Пойнтера и директор Международной сети проверки фактов, который родом из Рима и описал себя как шепелявого и «некоторые забавные слова, в которых смешаны британский, итальянский и странный американский акценты».
- сладкие букеты , руководитель программы Международной сети проверки фактов, приехавший в Пойнтер из Мехико в сентябре.
- Кристен Хэйр , репортер Poynter, которая думает, что она звучит «слегка по-девичьи», когда слушает себя на записях.
- Я, и хотя Кристен сказала, что у меня «бизоний акцент», я думаю, что моя склонность бормотать, говорить слишком быстро и пропускать части слов, вероятно, оказывается более сложной для транскрипции (запись себя в ожидании расшифровки явно приводит к небольшому самоанализу). отражение.)
Кристен присоединилась к нам через Google Hangouts/YouTube Live ( раскрытие информации: грант от Google News Lab частично финансирует мою должность ), против которых открыто предостерегают большинство автоматических инструментов транскрипции. Звук с телефона или видеочата кажется им сложным для обработки.
Чтобы еще больше мучить алгоритмы, мы также читали отрывки в гораздо более быстром темпе, чем обычно говорим, Дульсе и Алексиос говорили на множестве иностранных языков (итальянском, испанском, французском и греческом), мы произносили как можно больше имен собственных (Apalachicola , Михаил Орескес и различные греческие острова, и это лишь некоторые из них), проявил творческий подход к городскому словарю ( чемодан Пола Манафорта и грубое слово, описывающее состояние его правовой ситуации) и довольно часто переговаривались друг с другом.
Мы записали наш 14-минутный тест в студии для вебинаров Пойнтера и были прерваны звуком как минимум одного громкого самолета над головой (в нескольких кварталах отсюда есть аэропорт), машины скорой помощи и звоном телефона Кристен.
Мы записывали звук тремя способами:
- С Зум H4nPro ручной микрофон, расположенный между нами
- На моем iPhone 6S Plus я использую для записи приложение Recordly, расположенное рядом с Zoom.
- С частной трансляцией на YouTube, как к нам присоединилась Кристен.
Затем мы загрузили аудио в каждый инструмент и отслеживали, сколько времени ушло на расшифровку каждого из них. Мы нормализовали полученные стенограммы с помощью Microsoft Word, удалив временные метки и убедившись, что имена говорящих совпадают. В качестве контроля я сам расшифровал аудио (используя oTranscribe), а затем прослушал несколько раз, чтобы проверить его полную точность. Мы также попробовали Rev, платный сервис, который использует человеческие транскрибаторы, а не алгоритмы, чтобы посмотреть, как он работает.
Мы протестировали различные инструменты сравнения документов, чтобы определить, какой из них работает лучше всего, и остановились на Копискейп как самый добротный вариант. Мы сравнили стенограммы, созданные инструментами и сервисами, со стопроцентно правильными стенограммами, которые я создал с помощью oTranscribe.
Несколько дополнительных замечаний:
- Звук от Zoom оказался наилучшего качества, поэтому мы использовали его для большинства наших тестов. Приложение Recordly, похоже, не принимает звук, записанный из других источников, так что это одно исключение из этого процесса. Мы также не загружали звук Zoom на YouTube, вместо этого полагаясь на звук из записи YouTube Live. Сравнение яблок и апельсинов делает этот эксперимент не столько научным, сколько более соответствующим тому, как журналисты на самом деле использовали бы эти инструменты в реальном мире.
- Хотя это популярный инструмент, мы не смогли протестировать Dragon Dictation, так как он не работает на iOS 11. Мы обновим этот обзор, когда и если его разработчик исправит эту проблему.
- Мы не связывались ни с одной из этих компаний до того, как провели тестирование, поэтому не было никакого специального обращения или финального сбора расшифровок стенограмм. Trint, Sonix и Recordly предлагают ограниченное количество бесплатных минут для новых пользователей, поэтому мы воспользовались ими для эксперимента. Мы использовали кредитную карту коллеги, не являющегося репортером, для Happy Scribe и не упоминали Poynter, поскольку я переписывался с его основателями в прошлом. И мы заплатили полную цену за человеческую транскрипцию Рева. Служба субтитров YouTube и oTranscribe всегда бесплатны.
- Есть много, много других инструментов автоматической транскрипции, которые мы не включили в этот обзор. Мы постарались сосредоточиться на тех, о которых нас спрашивали журналисты. Если вы считаете, что мы несправедливо пропустили один из них, сообщите нам об этом, и мы обновим обзор.
Качество стенограммы (победитель: Happy Scribe)
Похоже, что у людей, обеспокоенных восстанием искусственного интеллекта, есть как минимум еще несколько лет на подготовку, поскольку один протестированный нами сервис транскрипции с большим отрывом превзошел автоматические транскрипции.
Rev заработал 82-процентную оценку точности, при этом переводчик-человек в основном не улавливал иностранные языки (что, честно говоря, является отдельной услугой), несколько имен собственных, некоторые перекрестные помехи, несколько сленговых слов и куски бормотания. Хотя другие инструменты в основном тоже пропускали эти вещи, расшифровщики Rev, по крайней мере, отметили такие вещи, как «[неразборчиво]», «[перекрестные помехи]» и «[иностранный язык]», которые были полезными заполнителями для последующих исправлений.
Даже с отсутствующими битами стенограмма Rev полностью удобочитаема и связна. Если вас не было рядом во время первоначального разговора, вы могли понять суть того, о чем мы говорили, просто прочитав его.
Следующей по точности транскрипцией был YouTube. Сайт видеохостинга автоматически создал субтитры для нашего живого видео на YouTube, точность которых составила 72%. Но даже при 10-процентном снижении общего качества стенограмма значительно хуже читается, чем у Rev, потому что YouTube не обеспечивает пунктуацию или сегментацию говорящих. Подписи существуют в виде массивного блока текста. Без сопряжения со звуком было бы почти невозможно, чтобы кто-то, кто не участвовал в разговоре, понял наш разговор.
У предложений YouTube есть и другие недостатки, но мы поговорим о них, когда перейдем к функциям.
Happy Scribe оказался самым точным специализированным инструментом для транскрипции, отличной от человека, с точностью 62% в нашем эксперименте. Инструмент предупреждает на своей странице загрузки, чтобы «избегайте сильного фонового шума», «избегайте сильных акцентов», «избегайте Skype и телефонных интервью» и «держите микрофон близко к говорящему», и все это мы добросовестно проигнорировали.
Расшифровка близка к точной в тех местах, где я говорил, особенно когда не было никаких перекрестных помех и я не использовал имена собственные, но немного потрудился с расшифровкой Дульсе, Кристен и Алексиоса. В одних местах он разбил разных ораторов на новые абзацы, а в других — не удалось. Общая стенограмма варьируется от полностью связной в некоторых местах до причудливо бессвязной в других, например, когда Алексиос сказал: «Позвольте мне открыть Urban Dictionary, и мы можем просмотреть некоторые из них» как «Я имею в виду, что даже в городском словаре девушки близки». ».
Тринт предложил аналогичные результаты с точностью 61%. Он запутался во многих одних и тех же местах, возясь с акцентами, звуком с YouTube и разделами с перекрестными помехами или тихой речью. Однако он не ошибался точно так же, как Happy Scribe. Предложение городского словаря сверху выглядело так: «Я имею в виду, что даже в городском словаре мы можем просмотреть их».
В целом стенограмму Тринта читается немного легче, чем расшифровку Happy Scribe, потому что она лучше различает говорящих и разбивает их на новые абзацы. Это не идеально, но добавляет ясности, когда работает.
Sonix оказался следующим по точности с показателем 50 процентов. Sonix работал немного лучше, чем Happy Scribe и Trint, когда один динамик говорил громко. Но любое количество перекрестных помех, фонового шума или даже смеха — все, что, вероятно, появится при любом реальном использовании инструмента, — казалось, сбивало с толку его больше, чем другие. Он зафиксировал предложение Urban Dictionary как «Открыть в городском словаре, и мы можем просмотреть некоторые из них».
Как и другие инструменты, Sonix пытался разбивать выступающих на разные абзацы, но у него это получалось чуть хуже.
Recordly был наименее точным из инструментов автоматической транскрипции с точностью 48 процентов. Он зафиксировал предложение Urban Dictionary как «позвольте мне открыть этот городской словарь, и мы сможем. Просмотрите некоторые из них», что неплохо, но этот фрагмент текста не является репрезентативным для остальной части стенограммы. Как и YouTube, стенограмма Recordly представляет собой один гигантский блок текста. В отличие от YouTube, он добавляет знаки препинания, хотя и реже и с меньшей точностью, чем другие инструменты.
Стенограмма Recordly наименее полезна вне контекста.
В целом, лучшая стенограмма была написана мной лично с помощью oTranscribe. Rev получился лучший расшифровщик, который мне не пришлось расшифровывать самому. Но это обзор инструментов автоматической транскрипции, и в этой категории Happy Scribe едва обошла Trint и вышла на первое место.
Особенности (Победитель: Sonix)
Некоторые вещи кажутся отраслевыми стандартами инструментов автоматической транскрипции. Возможность воспроизведения загруженного аудио очевидна. Все инструменты позволяют пользователям экспортировать стенограммы в различных форматах.
Инструменты на основе браузера (то есть все, кроме Recordly) также предлагают общий набор. Все они позволяют пользователям щелкать различные точки в тексте и переходить непосредственно к этой части записи. Все они имеют возможность воспроизводить аудио на более низкой скорости (с помощью сочетаний клавиш или путем изменения настроек), редактировать расшифровки вручную, загружать видео в дополнение к аудио и сохранять расшифровки для последующего использования.
Trint делает шаг вперед и показывает визуализированную форму звука в нижней части стенограммы, которую пользователи могут пропустить по своему желанию. Он также имеет встроенные инструменты для поиска и замены, выделения или зачеркивания текста. Пользователи могут добавить в инструмент список выступающих и прикрепить свое имя к каждому абзацу. Он также имеет удобную функцию отправки стенограммы по электронной почте одним щелчком мыши.
В Sonix есть все эти инструменты (кроме интерактивной формы сигнала) и некоторые другие. Наиболее полезными являются «цвета уверенности», которые назначают разные цвета словам, в которых Sonix менее уверен; оценщик качества звука, который говорит вам, насколько Sonix уверен в своей транскрипции; и автоматическая идентификация говорящего, бета-функция, которая пытается идентифицировать различных говорящих и присваивать им идентификаторы.
В нашем тесте Sonix идентифицировал только два разных динамика, поэтому этот инструмент требует некоторой доработки, но он по-прежнему чрезвычайно полезен.
Известно, что единственное приложение (только для iOS) из этой группы предлагает наименьшее количество функций. Это в значительной степени опыт записи и ожидания. Стенограмма предоставляется в формате, аналогичном встроенному приложению Apple для заметок, с ограниченными функциями редактирования. Это также позволяет пользователям экспортировать аудио или текст в другое приложение.
Хотя функции поиска и замены Trint и формы волны полезны при исправлении расшифровок, функции Sonix обеспечивают жизненно важную прозрачность процесса расшифровки. И хотя бета-версия идентификации говорящего не совсем надежна, это амбициозный инструмент, который с этого момента должен стать только лучше.
Время (Победитель: Happy Scribe, Тринт а также рекордно)
Вот где сияет автоматическая транскрипция. Все инструменты предоставили стенограмму за меньшее количество минут, чем длина аудиофайла, который мы отправили. Разница между Happy Scribe (пять минут), Trint (шесть минут) и Recordly (шесть минут) была незначительной, но Sonix потребовалось немного больше времени (11 минут). (Обновление: представитель Sonix сообщил, что его скорость соответствует другим инструментам, когда функция идентификации говорящего отключена.) В реальных условиях это может иметь решающее значение, особенно при более длинных транскрипциях.
YouTube здесь немного загадка. Для этой расшифровки потребовалось всего несколько минут, чтобы появились автоматические подписи. В прошлом опыте мы обнаружили, что время, необходимое для их появления, может сильно различаться. Поскольку YouTube на самом деле не предназначен для такого использования, мы не уверены, сколько времени это обычно занимает.
Людям-расшифровщикам Rev потребовалось около четырех часов и 15 минут, чтобы закончить расшифровку. Мне потребовалось примерно половину этого, чтобы сделать это самому с oTranscribe, но не без нескольких перерывов, Spotify’s Глубокий фокус плейлист и два галлона кофе.
Цена (Победитель: рекордно)
Вы не можете превзойти бесплатные (YouTube, oTranscribe), но когда дело доходит до специальных инструментов автоматической транскрипции, стоимость сильно различается. Чтобы определить лучшую цену, вы должны учитывать, как часто вы будете использовать инструмент.
Sonix — самый дорогой, его базовый план начинается с 15 долларов в месяц плюс 8 долларов за каждый час расшифрованного аудио. Но инструмент предлагает изрядную 33-процентную скидку при оплате ежегодно, а не ежемесячно.
Trint также предлагает планы, начинающиеся с 15 долларов в час за транскрипцию с оплатой по мере загрузки или 40 долларов в месяц за расшифрованное аудио на срок до трех часов. Дополнительные транскрипции стоят чуть севернее 13 долларов в час.
Happy Scribe стоит 10 центов за минуту загруженного аудио. Для менее склонных к математике типов это 6 долларов в час.
При скудных 2 долларах в час, с бесплатным первым часом, Recordly, безусловно, является самым дешевым вариантом автоматической транскрипции.
Неудивительно, что расшифровщики-люди в Rev стоят дороже, чем другие инструменты. Расшифровка нашего 13-минутного клипа стоила 14 долларов, а за метки времени мы заплатили еще 3,50 доллара. Тем не менее, дешевая относительная стоимость затраченных часов работы заставляет нас задаться вопросом, где в мире находятся расшифровщики Rev и насколько хорошо они получают компенсацию.
Простота использования (Победитель: Тринт)
Ни один из этих инструментов не сложен в использовании. Вы загружаете файл в каждый из них (или записываете с ним аудио, в случае с Recordly), и через некоторое время он отправляет вам ссылку на редактируемую стенограмму.
Trint делает большой шаг вперед по сравнению с загрузкой файлов и принимает аудио или видео из различных источников, включая Dropbox, Google Drive и FTP, и даже позволяет пользователям просто ввести ссылку. Это уникально среди протестированных нами инструментов. Тринт также задает несколько полезных вопросов о фоновом шуме, перекрестных помехах и многом другом перед началом загрузки. Это не исправит запись, но является полезным UX-данью, которое учит пользователей, как записывать больше транскрибируемого звука в будущем.
Happy Scribe, Rev, Sonix и Trint отправляют электронные письма, когда транскрипция готова, поэтому нет необходимости сидеть и смотреть на экран.
Суть
Это не самый дешевый и не самый точный из доступных вариантов транскрипции, но Тринт одержал победу как лучший универсальный инструмент из тех, что мы тестировали.
Компания, которой чуть больше года и которая получила финансирование от Knight Foundation (отказ от ответственности: Пойнтер также получает финансирование от Найта) и Инициатива цифровых новостей Google, предлагает наилучшее сочетание функциональности, точности и простоты использования.
Только функция автоматического создания субтитров на YouTube, точность которой составляет 72%, показала себя значительно лучше, чем Trint в алгоритмической транскрипции. Но YouTube не предназначен для того типа расшифровки, который необходим журналистам в повседневной жизни, и не предлагает никаких функций редактирования.
Хотя молодой стартап Happy Scribe показал несколько лучшие результаты в наших тестах на точность с показателем 62% и стоит примерно треть цены Trint, ему не хватает многих дополнительных функций, которые делают Trint полезным. Возможность загрузки из многих источников, поиск и замена текста и идентификация говорящего — небольшие, но важные инструменты рабочего процесса. Если вы просто ищете быструю и грязную стенограмму, Happy Scribe может быть подходящим вариантом.
И хотя это правда, что его 61 процент далек от совершенства, наши тесты были немного сложнее, чем большинство реальных применений.
Мы также протестировали Rev, сервис человеческого перевода, и oTranscribe, который предлагает журналистам удобные инструменты для самостоятельной расшифровки аудио. Мы обнаружили, что Rev стоит 1 доллар в минуту за расшифровку аудио. Это слишком дорого для обычного журналиста, чтобы использовать его на регулярной основе. И хотя oTranscribe был удобен, он не избавляет от утомительной и нудной расшифровки.
Учитывая типичное использование, Trint является лучшим универсальным инструментом автоматической транскрипции для журналистов.
Исправление: ранее мы сообщали, что Sonix не предложение найти и заменить инструмент, но это действительно так. Приносим свои извинения за отсутствие.
Узнайте больше об инструментах для журналистов с помощью Try This! — Инструменты журналистики. Попробуй это! питается от Лаборатория новостей Google . Он также поддерживается Американский институт прессы и Фонд Джона С. и Джеймса Л. Найта