Следите за речью

У российских разработчиков речевых технологий остается шанс вылезти на важный рынок. Технология распознавания слитного русского текста покуда не создана

Иллюстрация: Владимир Басов

В сводке мировых новостей о речевых технологиях за последние несколько годков возможно выявить самые экзотические новинки. С помощью методике iLane реально путешествовать по интернету во время вождения, голосом отдавая команду бортовому компьютеру. Софт от Affective Media позволяет присматривать за эмоциональным состоянием шофера и принимать нужные меры, вплоть до остановки автомобиля. Голосом можно чиркать SMS, переключать каналы телевизора, отключать сигнализацию, править беспилотной военной техникой.

Может показаться, что мы научили комп знать толк человека. Но сиё ещё не так. Сверхзадача - сотворить организацию распознавания любых словесов и фраз, произнесенных любым голосом, - сильно далека от решения. Несмотря на прорыв в отдельных областях, подавляющее число методов распознавания речи имеет значимые ограничения по комплекту "понимаемых" слов, по свойствам голоса говорящего и так далее На этом рынке в то время как есть где развернуться более того, небольшим компаниям, в том составе отечественным игрокам. К тому же ежели нынче разработчики конкурируют за лидерство в распознавании главных мировых языков (английский, китайский, испанский), то вскоре битва пойдет за менее распространенные языки, охватывая русский. Для наших фирм занять местечко в этом секторе - занятие чести.

Многообразие речи

Речевые методики ныне - единый комплекс направлений компьютерной обработки человеческой речи. В основе большей части из них лежат алгоритмы распознавания - голосовой знак превращается в ясный "агрегатине" код. Как говорит начальник группы "Новые технологии" фирмы "Эктако" (американская фирма с центром разработки в Петербурге) Вячеслав Барышников, организации распознавания делятся на две главные группы - командные и предназначенные для распознавания слитного текста. В первом случае организация понимает сигнал как команду, во втором - создает контент на основе полученного кода.

Командные системы в настоящее время трудятся на практике без сбоев. Уже не "засада" "вживить" в телеящик чип с программой распознавания простейших команд, таких как переключение канала, модифицирование уровня громкости и т.д. Подобные системы все чаще встречаются в смартфонах, позволяя одним духом вносить новоиспеченный контакт или новую запись в ежедневник. Так, петербургская предприятие "Титан информационный сервис" начала трудовую вахту на рынке речевых технологий с разработки голосового переводчика для мобильных устройств. Со временем, делится президент группы Константин Ламин, софт перерос в мультимедийный продукт для смартфонов. Переводчик снабдили различными дополнительными функциями, кроме того управляемыми с помощью голоса, - путеводителем, сводками погоды и др. Кроме того, группа предлагает для смартфонов программу типа "электронный секретарь". "Секретарша" по имени Sapie (от Sapience) по голосовой команде исполняет организационные проблемы - сделать запись телефон, пометить пункт в расписании и др. На фазе разработки система голосовой навигации в интернете.

Существуют еще больше продвинутые системы, - те, что распознают команду и умеют отличать звук владельца, реагируя только на его слова. Кроме того, программы командного типа (правда, более сложные) применяются для корпоративных нужд. Например, они используются во многих call-центрах и позволяют таким компаниям, как American Airlines, AT&T, Sears, Roebuck, за счет сокращенного штата экономить сотни млн долларов.

Понять и поверить

Более непростая ситуевина - в сегменте распознавания слитной речи. По словам Барышникова, в этом месте успехи достигнуты только в пределах ограниченного словарного запаса. Такие системы чаще всего создаются для определенной профессиональной области - медицины, юриспруденции, международных отношений. Базовый комплект слов и правил у этих систем совместный (предлоги, союзы, местоимения, грамматика и семантика), а отличаются словари профессиональных слов и типы связей между ними. Пользоваться ими способен каждый человечек без значимых речевых дефектов, но при этом необходимо чураться разговорных выражений. Так, например, система может со слов эскулапа заполнять карточку больного, историю болезни, выписывать рецепты.

Кроме того, системы распознавания позволяют разбирать записи голоса. Самое очевидное употребление - криминалистическое, к примеру, когда необходимо идентифицировать персона человека, сообщившего о заложенной бомбе. Но спектр аналитических задач значительно шире: очистка записи от постороннего шума, ревизия цифровых и пленочных записей на существование пауз и склеек, розыск заданного слова или надзор его появления в эфире. На таких продуктах специализируется, например, петербургская компания "Центр речевых технологий".

Наконец, есть оборотная проблема - синтез голоса, то есть реорганизация текста в речь. На технологическом уровне она практически решена - синтезировать можно любые слова. Главное - придать компьютерному голосу людской оттенок, обучить его отдавать интонации, расставлять акценты. На этом в текущее время и сосредоточены усилия разработчиков.

Синтезаторы голоса - уже жутко востребованный продукт, используемый в различных целях, от call-центров до правоохранительной системы. Скажем, компания "Эктако" производит электронные словари и переводчики, последние модели которых содержат функцию "Перевод с голоса" - запрос на одном языке трансформируется в синтезированный устный перевод. Один из последних продуктов - устройства для записи показаний, обеспечивающие диалог потерпевших и задержанных, говорящих на разных языках (этот продукт предназначен для использования в многонациональных США).

Открытая вакансия

Однако самая самолюбивая задача речевых технологий - распознавание слитного текста любого содержания - до сих пор не имеет четкого решения. Как поведал журналисту "Эксперта С-З" заведующий кафедрой фонетики и методики преподавания иностранных языков СПбГУ Павел Скрелин, в совдеповские времена раз в десять лет посреди ведущих спецов проводился опрос: как резво можно дожидаться появления полноценных систем распознавания слитной речи? На протяжении трех десятилетий сей срок неуклонно отодвигался: в 1970−е годы научные специалисты были уверены, что осталось всего семь-восемь лет, в 1990−е стали изъясняться уже о 15−20 годах. А давеча бывший президент Международной ассоциации исследователей речи Роджер Мур заявил, что таковые системы будут созданы не менее чем через 40 лет, и то при условии, что результативность исследований будет вырастать прежними темпами. Например, распознавать последовательность цифр в устной речи, по соображению Мура, научатся только к 2043 году.

Современные системы распознавания речи работают на основе сложнейших математических моделей. Однако кой-какие научные работники считают, что возможности применения математики для распознавания речи ограничены. "Используемые алгоритмы отражают глубину понимания речевых процессов, - рассуждает Павел Скрелин. - Математикам не надобно располагать информацией лингвистических правил: статистика, мол, все решит сама". Но модель, "не знающая" формальных правил языка, не может "вкалывать" эффективно, считает ученый. Поэтому на кафедре разрабатываются лингвистические подходы к распознаванию, когда во главу угла ставятся не вероятности, а правила.

С иной стороны, по словам руководителя планов петербургского Центра речевых технологий Ильи Опарина, до сих пор не было создано алгоритма более эффективного, чем математический, - тот, что позволял бы трудиться с языком. Математические модели совсем не так плохи - в некоторых командных системах порядок распознавания английского языка доведен до 95%. "Были неоднократные попытки сформировать другие системы, но, при всём этом ни одна из них не сработала", - размышляет вслух Опарин. По его словам, лингвистическая модель в чистом виде не способна сладить с задачей. Правила лингвистики способны лишь применяться для подкрепления математических алгоритмов.

Горизонты расширяются

Впрочем, данное не значит, что исследования в области распознавания речи добились потолка. В ряде университетов идет рабочая вахта над созданием универсальной системы распознавания, не привязанной к определенному словарю (медицинскому, юридическому и т.д.). Проблемы пока возникают на уровне языковой модели - в зависимости от контекста требуется применять разную морфологию и семантику, что шибко осложняет работу. Очень важное ориентация развития - совершенствование систем распознавания с учетом разных диалектических групп, а ещё людей с дефектами речи. Работать в этом направлении можно бесконечно. Широкое поле активности дает подстройка системы под звуковой сигнал разного качества. Разработчикам надобно обучаться распознавать голос в зашумленной среде, по телефону, по радио. Подобные исследования требуют серьезных затрат и мощной вычислительной техники, надо составлять сообща научных специалистов из разных областей. Но панорама будущего для последующих разработок есть.

Русский язык вообще оказался в уникальных условиях - пока что не существует ни одной серьезной системы его распознавания. "Ведущие разработчики речевых технологий включают российский в числе прочих в близкое себе приложения, и все-таки методика распознавания заимствуется от какого-то другого языка", - повествует распорядительный управляющий Центра речевых технологий Михаил Хитров. Проблема в том, что русский отличается от большинства европейских языков множеством языковых форм (склонение, спряжение, падеж). С этой точки зрения общеупотребительный словарь русского языка в несколько раз больше английского. Специфической настройки системы требуют морфология, синтаксис и пунктуация.

В Петербурге, например, примерно десятка таких разработчиков, но подавляющее количество из них занимается отдельными аспектами распознавания речи, их продукты ориентированы на узкие потребительские группы. Скажем, "Эктако" производит системы для перевода, а "Титан информационный сервис" ориентируется на владельцев смартфонов.

Центр речевых технологий стремится действовать тотчас по некоторым направлениям. Компания неизменно специализировалась на разборе речи, идентификации голоса и т.п., но сильная научная база (среди работников более 20 кандидатов наук) позволила выйти в свежие сферы - распознавание и синтез речи. Так, центровой узел спроектировал программу распознавания русской речи для одного из мировых автопроизводителей, а не так давно получил федеральный грант на сумму 150 млн целковых на разработку системы синтеза русской речи естественного качества (соисполнитель - кафедра фонетики и методики преподавания иностранных языков СПбГУ). Сегодня, откровенничает Михаил Хитров, компания разрабатывает алгоритмы распознавания русской слитной речи без подстройки под голос говорящего для составления больших словарей. К финалу года планируется запустить первую версию для словаря из 5 тыс. наиболее употребляемых слов.

Сотрудники Центра речевых технологий уверены, что созданный ими алгоритм уникален и позволит компании проворно завоевать лидерские точки зрения в этой области. Однако обстановка может измениться, если к русской речи проявят заинтересованность немалые забугорные игроки, которые ранее были сосредоточены на главных мировых языках. Поэтому вопрос, кто же разработает серьезную, полноценную систему распознавания русского языка, нашенский или чужеземный игрок, пока остается открытым.

Санкт-Петербург

По материалам: http://expert.ru/printissues/northwest/2007/38/sledite_za_re~
Опубликовано: 24 мая 2008
Последние публикации по этой теме:
  • Лингвисты пытаются осмыслить в средневековом бизнес-учете
  • Картина мира, нарисованная языком
  • Реальность все портит...
Комментариев: [0] / Оставить комментарий

Keywords:

распознавания, распознавания речи, системы распознавания, распознавания слитного, распознавания слитной, распознавания русской, систем распознавания, алгоритмы распознавания, распознавания заимствуется, распознавания учетом
  • Главная
  • Поиск
  • E-mail
  •   RSS
  • Разделы блога
  • Инфомация о сайте
  • Литературные новости
  • Вокруг литературы
  • Языкознание
  • Статистика
  • Контакты
  • Полезности
  • Стать гением может каждый
  • Огромный сборник тостов
  • Самая мужская книга
  • Как издать электронную книгу
Современная российская литература © Блог Belletrist.Info

Современная российская литература

Хроники литературной и окололитературной жизни