Google выпускает новое облачное преобразование речи в текст для улучшения телефонных и видеозвонков
В прошлом месяце Google представила новую технологию, которая упрощает для бизнеса добавление естественной звучащей речи в свои приложения и услуги. Название этой услуги Преобразование речи в текст в облаке. И сегодня мы собираемся обсудить эту недавно выпущенную технологию Google Cloud Speech-to-Text.
Дополнительная информация о Google Cloud Speech to Text
Google недавно объявил самый большой сервис Преобразование речи в текст в облаке, который ранее известный как Cloud Speech API так как он был представлен два года назад. Во-первых, Cloud Speech API был открыт в 2016 году. Теперь разработчики могут преобразовывать аудио в текст, применяя мощные модели нейронных сетей в API. Этот API умеет распознавать 120 языков & варианты для поддержки вашей глобальной базы пользователей. Вы также можете включить голосовое управление и контроль, расшифровка звука из колл-центров и многое другое. Cloud Speech-to-Text может обрабатывать потоковая передача в реальном времени или предварительно записанный звук, используя Google машинное обучение технологии.
Новый механизм преобразования речи в текст Google Cloud теперь поддерживает
Согласно Google, новый и обновленный движок Cloud Speech to Text теперь поддерживает:
1. Набор готовых моделей для повышения точности транскрипции телефонных звонков и видео.
2. Автоматическая пунктуация для улучшения читаемости записанного длинного аудио.
3. Новый механизм пометки и группировки ваших рабочих нагрузок по транскрипции, а также предоставление обратной связи команде Google.
4. Стандартное соглашение об уровне обслуживания, то есть SLA с лояльностью к доступности 99,9%.
Особенности преобразования речи в текст Google Cloud
- Глобальный словарь
API нейронной сети Cloud Speech to Text распознает 120 языков и вариантов с обширным словарным запасом.
- Распознавание речи автоматически
Автоматическое распознавание речи обеспечивается нейронной сетью глубокого обучения для работы таких приложений, как голосовой поиск, транскрипция речи и т. Д.
- Предложение слова
Распознавание речи можно настроить для определенного текста, предоставив набор слов и фраз, которые, вероятно, будут произнесены. В частности, это полезно для добавления пользовательских слов и имен в словарь. - Устойчивость к шуму
Он может обрабатывать шумный звук из самых разных сред, не требуя дополнительного шумоподавления. - Автоматическая пунктуация
Он может предоставлять точные расшифровки знаков препинания, такие как запятые, вопросительные знаки и точки, с помощью машинного обучения.
- Возможность фильтровать неправильный контент
В Google Cloud Speech to Text есть возможность фильтровать неприемлемый контент в текстовых результатах для некоторых языков. - Выбор модели
Функция выбора модели предлагает на выбор четыре готовые модели: по умолчанию, телефонные звонки, транскрипция видео, голосовые команды и поиск.
- Потоковая передача в реальном времени
Потоковая передача в реальном времени означает, что она поддерживает предварительно записанный звук, а аудиовход может транслироваться через микрофон приложения или отправляться из предварительно записанного аудиофайла. Поддерживаются несколько кодировок аудио, включая FLAC, AMR, PCMU и Linear-16.
Новые модели транскрипции видео и телефонных звонков
Есть много разных способов использования службы распознавания речи, как и все, от взаимодействия человека с компьютером. Например, голосовые команды или IVR для анализа речи. Кроме того, в версию Google Cloud Speech to Text мы добавили модели, адаптированные для конкретных случаев использования. Большинство крупных поставщиков облачных услуг используют речевые данные из входящих запросов для улучшения своих продуктов и услуг.
Подведение итогов
В последнее время наши речевые продукты Cloud AI идут полным ходом. Поскольку облачное преобразование речи в текст было представлено два года назад, но в прошлом месяце Google выпускает новое облачное преобразование речи в текст с некоторыми расширенными функциями, которые обсуждаются в этом блоге.