- Регистрация
- 15 Февраль 2018
- Сообщения
- 15 660
- Лучшие ответы
- 0
- Реакции
- 0
- Баллы
- 1 295
Offline
Разработчики ВКонтакте улучшили алгоритм распознавания голосовых сообщений, существенно ускорив его — теперь он превращает записи продолжительностью до 2 минут в текст всего за секунду. Этого удалось добиться благодаря технологии Voice Activity Detection и весьма интересному подходу.
Для ускорения расшифровки голосовых сообщений алгоритмы ВКонтакте разбивают аудиозапись на короткие блоки, расшифровывают их параллельно, а затем «склеивают» обратно. Voice Activity Detection применяется для того, чтобы границы этих блоков не обрывали слова, тем самым искажая смысл записи. Такой метод ускорения расшифровки голосовых сообщений применяется только в том случае, если их продолжительность не превышает 2 минут. Впрочем, этого лимита более чем достаточно — по официальным данным, аудио короче 2 минут составляют 99% от всех, отправляемых в социальной сети.
Как отмечают разработчики, голосовые сообщения — наиболее популярный тип вложений в диалогах социальной сети, которые обгоняет фотографии и файлы. Сейчас отправляют аудиосообщения 33 млн человек в месяц, а в среднем каждый из них читает 8 расшифровок в сутки.
Старший разработчик команды Core Infrastructure ВКонтакте: отметил:
Новость дополняется...
Для ускорения расшифровки голосовых сообщений алгоритмы ВКонтакте разбивают аудиозапись на короткие блоки, расшифровывают их параллельно, а затем «склеивают» обратно. Voice Activity Detection применяется для того, чтобы границы этих блоков не обрывали слова, тем самым искажая смысл записи. Такой метод ускорения расшифровки голосовых сообщений применяется только в том случае, если их продолжительность не превышает 2 минут. Впрочем, этого лимита более чем достаточно — по официальным данным, аудио короче 2 минут составляют 99% от всех, отправляемых в социальной сети.
Как отмечают разработчики, голосовые сообщения — наиболее популярный тип вложений в диалогах социальной сети, которые обгоняет фотографии и файлы. Сейчас отправляют аудиосообщения 33 млн человек в месяц, а в среднем каждый из них читает 8 расшифровок в сутки.
Старший разработчик команды Core Infrastructure ВКонтакте: отметил:
«Наше решение состоит из нескольких нейросетей, выдерживает высокую нагрузку, понимает русскоязычный сленг и показывает хорошие результаты даже при сложных условиях записи — например, посторонних шумах или скомканной речи».
Новость дополняется...