Исторические факты и предпосылки развития голосового бота Keycall Salesbot

История развития и будущее технологии распознавания речи

Оригинал: Clark Boyd
Будущее однозначно за голосовым поиском. Компания ComScore сделала прогноз, по которому к 2020 году примерно половина всех запросов будет осуществляться голосом.
Давайте отправимся в путешествие по истории возникновения и развития технологии и узнаем, как быть к будущему, в котором управление голосом станет обыденной вещью.

Как это было

В нашу жизнь технология распознавания речи пришла совсем недавно — благодаря умным помощникам в наших смартфонах и колонках. И получила ряд восторженных откликов от того, что машина может не просто понять, о чем мы говорим, но и ответить нам — по делу, иногда с юмором и иронией.
Мы говорим примерно в четыре-пять раз быстрее, чем пишем. Логичный вопрос: почему же технологические компании только сейчас начали предоставлять возможности голосового управления?
На самом деле идея создания некой машины для распознания речи возникла примерно в XVIII веке. Тогда-то и произошли первые сдвиги в направлении развития технологии.
Именно в этот период произошло главное достижение — создание Говорящей машины Фабера, которая базировалась на человеческой анатомии воспроизведения звука и является первым синтезатором речи. Конечно, темпы технологического развития той эпохи не позволяли изобретателям пойти дальше, чем механическая машина. Но, их наработки стали незаменимыми для открытий, которым суждено было появиться намного позже.
В конце 19 века Томас Эдисон создал диктофон, который позволил делать записи голоса, но пока не распознавания. Он полюбился врачам, секретарям и другим профессиям, в которых необходимо было много записывать.

Первые технологии распознавания

Хронология развития технологии распознавания голоса
Технология распознавания впервые стала реальностью только в 1952 году. Команда изобретателей компании Bell Labs создала машину Audrey, которая распознавала цифры от 0 до 9 с точностью до 90%, когда говорил изобретатель, и от 70% до 80%, когда цифры называли другие участники эксперимента.
Это определило главные проблемы распознавания — тембр голоса, скорость речи, произношение, диалекты, акценты и непоследовательность разговорного языка. Эти факторы стали основными препятствиями для масштабирования использования системы.
В 1971 году на базе Университета Карнеги Мелон изобретатель Александр Вейбель создал Гарпи — машину, которая понимала 1011 слов. Вот его слова по этому поводу:
“Например, у вас есть слово “euthanasia”, которое машина может также распознать как “youth in Asia”. Или же вы говорите “Give me a new display”, а машина может понять это как “give me a nudist play”.
Все машины изобретенные до 1990-х годов, даже самые инновационные, работали, сравнивая между собой сохраненные шаблоны, в которых звуковые волны переводились в числовые наборы. И если звуки были идентичными, машина определяла их. Это срабатывало только в случае четкой, медленной речи без фоновых шумов.
Но в 1986 году произошел серьезный прорыв в технологии. Компания IBM, используя скрытые модели Маркова, создала машину Tangora, которая могла распознавать и печатать до 20 тысяч слов на английском языке. На то время она была самой быстрой машинисткой, но ей необходимо было около 20 минут, чтобы приспособиться к голосу диктора. Эта машина стала знаковой для развития технологии распознавания речи.
В 1997 году был создана компьютерная программа, Dragon's NaturallySpeaking. Она отличалась тем, что могла непрерывно распознавать до 100 слов в минуту. То есть, диктору не было необходимости делать паузы между словами.
Система машинного обучения совершила прорыв в технологии распознавания. Благодаря машинному обучению в 2008 году Google запустил приложение Google Voice Search для iPhone. Большой объем данных, позволил приложению обучиться и сделать большой скачок в результатах, если сравнивать с предыдущими технологиями распознавания. В конце ХХ столетия машины научились распознавать речь с точностью выше 90%.

Новый этап распознавания речи: голосовые боты

Это привело нас к новой главе распознавания речи: голосовым ботам, которые стали фундаментом для создания полноценных голосовых помощников: Google Assistant, Siri, Cortana, Alexa и других. И если изначально функции голосовых помощников были “заточены” под смартфоны, то за последние несколько лет концепция приложений, которые активируются голосом, поменялась. Теперь местом обитания голосовых помощников стали практически все домашние приборы, а в сфере технологий появился термин “Интернет вещей”. Исследование Google показало, что более 50% пользователей готовы перейти к системе “умного дома”, в котором приборы поддерживаются голосовыми командами.
Технология распознавания речи Speech-to-Text от Google
Бизнес также быстро нашел применение голосовым ботам. Появились электронные секретари, которые всегда на связи, все успевают и ничего не забывают, боты, которые информируют клиентов о новинках, скидках и акциях на товары, проводят опросы и обрабатывают входящие звонки. А благодаря технологии Google Speech-to-Text, которая включает в себя не только голосовую транскрипцию и автоматическую пунктуацию, голосовые боты готовы заменить собой операторов колл-центров.

Голосовой бот Keycall Salesbot

Используя сервис Cloud Speech-to-Text, ранее известный как API Cloud Speech, наша компания, Keycall Salesbot, создала инструмент, позволяющий использовать технологию распознавания для умного автоматического обзвона. В зависимости от ответов собеседника наш голосовой бот, как и живой человек, строит дальнейший диалог. Уникальность распознавания Keycall Salesbot в том, что мы самостоятельно адаптировали его под диалекты разных регионов Украины и суржик. Мы распознаем любые ответы с точностью до 98%, независимо от того, на каком они языке — русском, украинском или их смеси.
Технологии распознавания речи продолжают развиваться огромными темпами. Согласно исследованию Oracle, более 50% клиентов считают, что любой бизнес и поддержка должны быть доступны 24/7. Естественно, только боты, в том числе и голосовые, могут справиться с такой глобальной задачей.
Именно поэтому, наша компания сейчас работает над разработкой, которая позволит голосовому боту не только совершать звонки, но и принимать входящие, озвучивать цифры и адреса. Это поможет бизнесам всегда быть на связи и оказывать поддержку клиентам.

Рекомендуем почитать

Рамка раздела контакты

Наши контакты

Зарегистрируйтесь и получите бесплатную
консультацию по улучшению вашего бизнеса
это поле необходимо заполнить
это поле необходимо заполнить
это поле заполнено некорректно
это поле необходимо заполнить
это поле заполнено некорректно