Ученые ТУСУРа пытаются приблизить чудо к реальности

Статей на сайте: 16219

«На данном этапе развития науки и техники это, скорее, похоже на чудо», – констатируют ученые. Речь идет о полностью автоматическом переводе устного текста любого объема в письменный, с высокой точностью и без искажений. Сегодня над этой задачей бьются разработчики всего мира. Не остаются в стороне и томские ученые. Специалисты кафедры комплексной информационной безопасности электронно-вычислительных систем (КИБЭВС) ТУСУРа занялись изучением шепота с помощью уникального, разработанного в стенах вуза математического аппарата. Перспективное исследование позволит создать алгоритмы по распознаванию речи человека с высокой точностью.

Когда «Окей, Гугл» не в помощь

Чтобы машина (читай – компьютер) могла перевести устную речь непосредственно в текст, она прежде должна ее понять. Первые прогнозы насчет того, когда же это долгожданное событие произойдет, появились в 1950-х годах. Тогда специалисты уверенно говорили: «Через 20 лет компьютер научится понимать человека и распознавать речь». Шли годы. Потом те же разработчики дали на технический переворот еще 20 лет. Снова прогноз не оправдался. Сегодня вновь звучат те же «два десятка лет – и техника нового поколения выйдет на рынок».

Почему речевые технологии развиваются более полувека, а глобальных подвижек по сей день нет? Для доцента ТУСУРа Антона Конева причина очевидна. Все дело в вероятностном подходе, используемом при составлении программ распознавания речи. Самая известная из них – «Окей, Гугл» – не исключение.

– Да, это приложение дает возможность, не прикасаясь к электронным устройствам, с помощью голосовой команды выполнить поиск незнакомого слова, узнать прогноз погоды или найти интересующее место на карте. Но его распознаваемый максимум – это отдельные словосочетания и слова, которые чаще всего употребляются в голосовых запросах, – поясняет Антон Конев. – Поэтому, как только человек начинает произносить не самые употребляемые слова, аббревиатуры, редкие имена, сокращения, распознавание ухудшается и система часто ошибается.

Добавьте к этому еще и особенности устной речи. Например, «съедание» большого процента звуков, когда человек говорит в привычном быстром темпе. Машина от такого общения впадает в ступор и не может воспроизвести услышанное.

Но главная проблема – это… богатство великого и могучего.

– Помните знаменитый монолог Задорнова? «Ай лав ю» – это передача информации. Потому что вы не можете поменять местами слова и сказать, например, «лав ай ю» или «ю ай лав». А у нас как угодно меняй, в зависимости от того, как я ее лав. В этой шутке – ответ на вопрос, почему автоматический перевод устной речи в письменную по-прежнему остается мечтой, – отмечает молодой ученый. – Английский язык (а именно США и Великобритания являются передовиками в финансировании данных разработок) четко структурирован. И предложения строятся по единой схеме: здесь – сказуемое, здесь – подлежащее, здесь – остальные слова. Без вариантов. Чего не скажешь про русский язык. Сами знаете, каким красноречивым порой может быть говорящий. Поэтому для англоязычных систем вероятностный поход очень даже уместен, для нас – не вариант.

А еще существующие системы не учитывают вариативность окончаний. Такая вот непростая задачка вырисовывается перед разработчиками…

А теперь, пожалуйста, шепотом

Томский ученый Антон Конев обозначил свой фронт работы – определение параметров, характеризующих конкретные звуки речи. Начал эти исследования еще в 1970-х годах профессор Владимир Бондаренко. Он проработал основную математическую часть данной задачи. Сотрудники кафедры КИБЭВС пошли дальше – создали уникальный аппарат для проведения исследований по распознаванию речи на уровне речевого сигнала.

– Проводимые исследования направлены на попытку вычленить параметры звуков спонтанной речи, – поясняет кандидат технических наук. – Теоретически машина может из полученных наборов звуков составлять слова, предложения. Но эта задача заставить машину думать граничит с искусственным интеллектом. Я за нее не берусь. Моя цель – на уровне слуховой системы получить параметры, на основе которых можно определять, какие слова были произнесены.

Все, что нужно Антону Коневу для своего исследования – компьютер с загруженной в него специальной программой, микрофон и несколько дикторов. Они записывают фразы, с помощью которых можно будет определять параметры звуков. Чем больше дикторов прочтет одну и ту же фразу, тем точнее будет результат. Для чистоты эксперимента их нужно минимум 10, как мужчин так и женщин. Фразы тоже берутся не с потолка. Их набор должен включать хотя бы по одной реализации каждого звука: твердый – мягкий, ударный – безударный и т. д. Их составляют лингвистические вузы. В России такие по пальцам можно пересчитать.

Сейчас Антон Конев разбирает фразу «Эти жирные сазаны ушли под палубу». Уже не одно десятилетие эта классическая фраза у связистов служит для проверки связи благодаря обилию букв «ж», «с», «т», «б». Именно они чаще всего глушатся и плохо воспринимаются при передаче по рации, если качество связи оставляет желать лучшего.

По просьбе ученого дикторы наговорили фразу про сазанов шепотом. В такой подаче текста есть свой смысл. Шепот – один из способов проверить систему распознавания речи на устойчивость к шумам. Если при шепоте можно выделить параметры с той же точностью, что и при обычной речи, значит, устойчивость к шумам у такой системы будет высокая.

Я вам спою

Исследования ученых ТУСУРа нацелены на выявление цепочки: звук – параметры – буква.

У каждого звука есть свои характеристики. Речь идет об амплитуде интенсивности (силы) на определенных частотах. Показатель интенсивности зависит от целого ряда причин. Например, от того, мужчина говорит или женщина. У последних голосовые складки меньше по размеру, быстрее колеблются при произнесении звуков, отсюда более высокая частота основного тона. Влияет положение языка при произнесении гласных звуков. Свою лепту вносят и законы фонетики. Простой пример. В русском языке шесть основных гласных фонем – а, о, э, ы, у, и. А гласных звуков при этом в разы больше: ударные, безударные, «смягченные» предстоящей или последующей буквой… В словах «лёд» и «год» «о» звучит по-разному.

Получается, что у одного и того же звука на разных фазах могут быть разные параметры. Суть исследования томичей – определить эту амплитуду с помощью компьютерной программы. И таким образом вывести полный набор параметров для данного конкретного звука, соответствующего конкретной букве. Работа намечается долгая и кропотливая.

В рамках своих экспериментов Антон Конев наметил еще одну любопытную тему. Он попробовал с помощью компьютерной программы перевести напеваемые мелодии в ноты. Обработка этих параметров происходит в десять раз медленнее реального времени. Но в будущем можно создать музыкальную компьютерную программу, работа которой будет основана на распознавании нот.

– Первое ее возможное применение скорее развлекательное. Она поможет композиторам-самоучкам, не имеющим должного музыкального образования и не знающим партитур, писать музыку. Напел мелодию, и она автоматически преобразовалась в ноты. Ну или другой вариант. Композитор может быть очень даже профессиональным, но в данный конкретный момент у него под рукой нет бумаги. Та же история: напел мелодию, получил автоматически партитуру и дальше уже начинаешь с ней работать, редактировать, – объясняет Антон Конев. – Второе применение более реальное и оправданное: обучение вокалу. Это не значит, что не нужны будут педагоги. Напротив, только профессиональный педагог определит и подберет методики для обучения каждого конкретного вокалиста. Я говорю про программу, позволяющую ученику самостоятельно оттачивать мастерство. Если очень упрощенно, то будет запись эталонного звучания конкретной песни. Человек запускает программу, пытается воспроизвести композицию, и в режиме реального времени она указывает, где ты ошибся. Какую конкретно ноту нужно брать выше или ниже.

В планах доцента кафедры ТУСУРа – встречи с представителями музыкальных школ города. Если они будут заинтересованы в появлении такой программы, ученые возьмутся за ее разработку.

Автор: Елена Смирнова
Фото: Валентина Половникова

RSS статьи.  Cсылка на статью: 
Теги:
Вы можете пропустить до конца и оставить ответ. Pinging в настоящее время не допускается.

Модератор сайта оставляет за собой право удалять высказывания, нарушающие правила корректного общения и ведения дискуссий..

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

7 + 1 =