Історичні факти та передумови розвитку голосового бота Keycall

Історія розвитку та майбутнє технології розпізнавання мови

Оригінал: Clark Boyd
Майбутнє однозначно за голосовим пошуком. Компанія ComScore зробила прогноз, за ​​яким до 2020 року приблизно половина всіх запитів здійснюватиметься голосом.
Давайте відправимося в подорож з історії виникнення та розвитку технології та дізнаємося, як сприймати майбутнє, в якому управління голосом стане повсякденною справою.

Як це було

У наше життя технологія розпізнавання мови прийшла зовсім недавно завдяки розумним помічникам у наших смартфонах і колонках. І отримала низку захоплених відгуків від того, що машина може не просто зрозуміти, про що ми говоримо, а й відповісти нам — на питання, іноді з гумором та іронією.
Ми говоримо приблизно вчетверо-п'ять разів швидше, ніж пишемо. Логічне питання: чому ж технологічні компанії лише зараз почали надавати можливості голосового управління?
Насправді ідея створення машини для розпізнання мови виникла приблизно у XVIII столітті. Тоді й відбулися перші зрушення у напрямі розвитку технології.
Саме в цей період відбулося головне досягнення - створення машини Фабера, що говорить, яка базувалася на людській анатомії відтворення звуку і є першим синтезатором мови. Звичайно, темпи технологічного розвитку тієї епохи не дозволяли винахідникам піти далі за механічну машину. Проте, їх напрацювання стали незамінними для відкриттів, яким судилося з'явитися набагато пізніше.
Наприкінці 19 століття Томас Едісон створив диктофон, який дозволив робити записи голосу, але поки що не розпізнавання. Він сподобався лікарям, секретарям та іншим професіям, у яких потрібно було багато записувати.

Перші технології розпізнавання

Хронологія розвитку технології розпізнавання голосу
Технологія розпізнавання вперше стала реальністю лише у 1952 році. Команда винахідників компанії Bell Labs створила машину Audrey, яка розпізнавала цифри від 0 до 9 з точністю до 90%, коли говорив винахідник, та від 70% до 80%, коли цифри називали інші учасники експерименту.
Це визначило головні проблеми розпізнавання – тембр голосу, швидкість мови, вимова, діалекти, акценти та непослідовність розмовної мови. Ці чинники стали основними перешкодами масштабування використання системи.
У 1971 році на базі Університету Карнегі Мелон винахідник Олександр Вейбель створив Гарпі - машину, яка розуміла 1011 слів. Ось його слова з цього приводу:
“Наприклад, ви маєте слово “euthanasia”, яке машина може також розпізнати як “youth in Asia”. Або ж ви кажете "Give me a new display", а машина може зрозуміти це як "give me a nudist play”.
Всі машини винайдені до 1990-х років, навіть найінноваційніші, працювали, порівнюючи між собою збережені шаблони, в яких звукові хвилі переводилися в числові набори. І якщо звуки були ідентичними, машина визначала їх. Це спрацьовувало лише у разі чіткого, повільного мовлення без фонових шумів.
Але 1986 року стався серйозний прорив у технології. Компанія IBM, використовуючи приховані моделі Маркова, створила машину Tangora, яка могла розпізнавати та друкувати до 20 тисяч слів англійською мовою. На той час вона була найшвидшою друкаркою, але їй потрібно було близько 20 хвилин, щоб пристосуватися до голосу диктора. Ця машина стала знаковою у розвиток технології розпізнавання мови.
У 1997 році була створена комп'ютерна програма, Dragon's NaturallySpeaking. Вона відрізнялася тим, що могла безперервно розпізнавати до 100 слів за хвилину. Тобто дикторові не було потреби робити паузи між словами.
Система машинного навчання зробила прорив у технології розпізнавання. Завдяки машинному навчанню в 2008 році Google запустив програму Google Voice Search для iPhone. Великий обсяг даних дозволив додатку навчитися і зробити великий стрибок у результатах, якщо порівнювати з попередніми технологіями розпізнавання. Наприкінці ХХ століття машини навчилися розпізнавати мову з точністю понад 90%.

Новий етап розпізнавання мови: голосові боти

Це привело нас до нового етапу розпізнавання мови: голосових ботів, які стали фундаментом для створення повноцінних голосових помічників: Google Assistant, Siri, Cortana, Alexa та інших. І якщо спочатку функції голосових помічників були “заточені” під смартфони, то останні кілька років концепція додатків, які активуються голосом, змінилася. Тепер місцем проживання голосових помічників стали майже всі домашні прилади, а сфері технологій з'явився термін “Інтернет речей”. Дослідження Google показало, що понад 50% користувачів готові перейти до системи "розумного дому", в якому прилади підтримуються голосовими командами.
Технологія розпізнавання мови Speech-to-Text від Google
Бізнес також швидко знайшов застосування голосовим ботам. З'явилися електронні секретарі, які завжди на зв'язку, все встигають і нічого не забувають, боти, які інформують клієнтів про новинки, знижки та акції на товари, проводять опитування та обробляють вхідні дзвінки. А завдяки технології Google Speech-to-Text, яка включає не тільки голосову транскрипцію і автоматичну пунктуацію, голосові боти готові замінити собою операторів кол-центрів.

Голосовий бот Keycall

Використовуючи сервіс Cloud Speech-to-Text, раніше відомий як API Cloud Speech, наша компанія Keycall створила інструмент, що дозволяє використовувати технологію розпізнавання для розумного автоматичного обдзвону. Залежно від відповідей співрозмовника, наш голосовий бот, як і жива людина, будує подальший діалог. Унікальність розпізнавання Keycall у тому, що ми самостійно адаптували його під діалекти різних регіонів України та суржика. Ми розпізнаємо будь-які відповіді з точністю до 98%, незалежно від того, якою вони мовою — російською, українською або їх суміші.
Технології розпізнавання мови продовжують розвиватись величезними темпами. Згідно з дослідженням Oracle, більше 50% клієнтів вважають, що будь-який бізнес і підтримка мають бути доступні 24/7. Звісно, ​​лише боти, зокрема й голосові, можуть упоратися з таким глобальним завданням.
Саме тому наша компанія зараз працює над розробкою, яка дозволить голосовому боту не тільки здійснювати дзвінки, але й приймати вхідні, озвучувати цифри та адреси. Це допоможе бізнесам завжди бути на зв'язку та надавати підтримку клієнтам.

Рекомендуємо почитати

Рамка раздела контакты