Командный тон
Почему порой так сложно договориться со своим гаджетом
Мода на «яблочные» гаджеты подогрела интерес общественности к управлению смартфонами и планшетами голосом. Хотя Apple в этой сфере никак нельзя назвать первопроходцем: набирать номер телефона, называя его цифры, или находить нужное имя в телефонной книжке — все это было вполне возможно уже несколько лет назад. А голосовой поиск, реализованный Google, успешно работает на всех современных Android-устройствах, причем он понимает русский язык, чего не скажешь о последней модной новинке — технологии распознавания голоса Apple Siri. Сегодня речь идет о том, что разговор с гаджетом станет интереснее. Но вот намного ли?
Надо сказать, что распознавание речи — это сложнейший продукт исследовательской мысли, за которым стоят серьезные научные школы. Во всем мире около дюжины компаний с собственными голосовыми технологиями. А исходных научных школ вообще, по сути, две: одну представляет американская компания Nuance Communications, вторую — питерская команда «Центра речевых технологий» (ЦРТ). Внимание наших разработчиков традиционно было сосредоточено на проектах для госструктур, правоохранительных органов и т. п. — там, где востребованы их технологии очистки голоса от посторонних шумов, точная идентификация говорящего человека и т. д. А вот до массового рынка быстрее дошли технологии Nuance. Именно они, как рассказывает Мартин Веселка, директор по продажам Nuance Communications в Центральной и Восточной Европе, работают в гаджетах Samsung, Nokia, HTC, Motorola и других. И Apple также. " Причем она ведет себя весьма агрессивно, — отмечает Игорь Ашманов, генеральный директор «Наносемантики», — скупает менее крупные компании и практически сразу после покупки закрывает их, явно стремясь к монополизму на этом рынке«.
На фоне этого глобального роста ЦРТ выглядит субтильно. Однако с точки зрения собственно механизмов распознавания голоса оба источника технологий находятся приблизительно на равных позициях. Кажется лишь, что Apple умудрилась затолкать в компактный корпус смартфона огромную вычислительную мощь, необходимую для работы голосовых алгоритмов. Но это не совсем так, поясняет Алексей Калачев, руководитель отдела продаж компании «МакЦентр»: «Голосовое управление серьезно ограничено аппаратными и программными возможностями смартфонов. Поэтому Apple использует для обработки команд мощный удаленный сервер: iPhone записывает фразу, произнесенную пользователем, и отправляет полученный файл на этот сервер, где фраза распознается и возвращается назад в iPhone в виде текстовой команды для смартфона». Решение действительно простое и к тому же позволяет голосовому движку распознавания быть независимым от конкретной платформы смартфона, будь то iOS, Android или Windows Phone 7. Одно условие — для его работы требуется подключение к Интернету по сети 3G или Wi-Fi.
Кстати, по такому же принципу работает голосовой поиск Google Voice Search на Android-гаджетах, а также слушают команды современные умные телевизоры SmartTV с доступом в Интернет. "Современные технологии облачного распознавания решают проблему качества и подключения новых языков, не затрагивая конечное пользовательское устройство«,— поясняет Виталий Свистунов, менеджер LG Electronics RUS по развитию SmartTV.
Иными словами, все, что мы говорим нашему гаджету, не только проходит через серверы Apple, Google или других вендоров, но и сохраняется там в виде голоса и текста. Желающие могут развить конспирологическую версию происходящего. Но вендорам эти записи нужны для собственных целей. Как рассказали в ЦРТ, таким образом вендоры автоматически пополняют свои речевые базы и с их помощью совершенствуют голосовые модели. Интересующиеся пользователи могли заметить, что голосовой поиск Google на русском языке сегодня работает во много раз лучше, чем два с небольшим года назад, когда компания только вывела эту услугу на рынок. Дело в том, что каждый новый голосовой запрос — это очередная тренировка, маленький шаг системы вперед. В этом плане потрясающие возможности открывает функция диктовки текстов (с автоматическим превращением голоса в документ) — она, напомним, в семействе технологий Nuance является одной из базовых. (Правда, «Войну и мир» за один сеанс нынешние системы вряд ли потянут, но с текстами SMS и прочими малыми литературными формами справляются вполне достойно.)
Если с этой точки зрения посмотреть на партнерское соглашение Google и Sprint, одного из крупнейших операторов связи США, которое предполагает предустановку в брендированных мобильных телефонах приложения Google Voice, становится понятно, что тем самым интернет-гигант получил доступ к голосовому трафику, который производят десятки миллионов абонентов Sprint, — к «речевой руде», из которой выплавляются все более совершенные голосовые модели. Это необходимо для перехода к естественному стилю общения с компьютерным устройством.
"У всех современных технологий распознавания голоса общий недостаток — необходимость строго следовать синтаксису голосовой командной строки«,— отмечает Михаил Чернышов, коммерческий директор «Вобис Компьютер». Объясниться с гаджетом до сих пор можно, лишь отчетливо произнося слова в определенной последовательности, с паузами в нужных местах. К тому же распознавать слитную речь роботу мешает зашумленность, поясняет Михаил Хитров, генеральный директор ЦРТ: «Надо объяснить ему, что есть ценная информация, а что — помехи».
Но цель оправдывает средства — речь идет о захвате сферы интернет-поиска, с которой пока ничто не может сравниться по эффективности монетизации интернет-сервисов за счет контекстной рекламы. А голосовой трафик способен не только дать информацию о предмете поиска, но и обогатить ее эмоциями — это также можно продавать рекламодателям. Компания Apple, правда, ввиду отсутствия собственного поисковика пока рассчитывает на эксперименты с речевыми образцами с помощью базы знаний Wolfram Alpha.
Но на этот же кусок поискового пирога нацелились также производители умных телевизоров с доступом в Интернет. «Пока функционал телевизоров ограничен — есть набор команд, на которые телевизор реагирует. В будущем, возможно, появится функция добавления собственных команд и т. д., — говорит Арсений Ишин, менеджер по маркетингу компании Samsung Electronics.— Управление голосом и жестами, возможность беспроводной связи между телевизором, фотокамерой, ноутбуком, планшетом — уже реальность». «Технологии, применяемые в телевизорах LG, справляются с распознаванием адресов и поисковых запросов, — добавляет Виталий Свистунов из LG Electronics. — Одновременно с просмотром телепередачи есть возможность „голосом“ разместить комментарий в соцсети». Кроме того, свои технологии распознавания речи LG разрешает встраивать в приложения сторонних разработчиков: производителей игр, владельцев видеосервисов, встроенных в телевизор, и т. д.
А еще на этом поле играет компания Microsoft, у которой есть свой набор козырей: поисковик Bing с поддержкой голоса, управление жестами Kinect, а также амбиции занять центральное место в мультимедийной гостиной. Она уже заявила, что работает над новой системой распознавания голоса, нечувствительной к посторонним шумам и не требующей предварительной настройки на конкретного диктора.
Все крупнейшие IT-вендоры выстраиваются в боевые порядки для марш-броска за «голосами» пользователей. До новой технологической вершины уже рукой подать? Есть одна загвоздка: распознать произнесенный текст и понять, о чем он, — две большие разницы. Вполне возможно, что у того американского пенсионера, который подал в суд на Apple за то, что его айфон плохо понимает речи владельца, проблемы были не с качеством произношения, а с формулированием поискового запроса. Действительно, какого взаимопонимания можно ожидать от бесчувственного гаджета, если даже люди частенько не могут друг друга понять? Записать сбивчивую речь владельца в формате документа он точно сможет, а вот понять, что тот хочет получить в результате, — не факт. Есть вещи, в которых даже мощная математика оказывается бессильной. И командный стиль управления гаджетами будет доминировать до тех пор, пока свое слово не скажут поставщики интеллектуальных технологий распознавания смысла наших высказываний.
Елена Покатаева
Скоро ли наши смартфоны будут нас понимать с полуслова?
Мартин Веселка, директор по продажам в Центральной и Восточной Европе Nuance Communications:
Общение со смартфоном на естественном языке — это не только обещания. Сегодня множество приложений, предназначенных для специфических задач, например, перевода, поиска и т. п., используют элементы таких технологий общения. Более широкое использование естественного языка в мобильных приложениях и сервисах существенно зависит от готовности крупных предприятий внедрять такие услуги для своих клиентов, продвигать их на рынке.
Алексей Калачев, руководитель отдела продаж «МакЦентра»:
Такое время может наступить довольно скоро. Но при обязательном условии, что пользователь научится говорить связно. В особенности это касается носителей «великого и могучего». Как администратор одного популярного компьютерного форума могу сказать, что довольно часто понять, какой смысл отечественный пользователь вкладывает в написанную им фразу, практически невозможно. Здесь никакая технология не поможет, надо сначала привести мысли в порядок.
Михаил Хитров, генеральный директор «Центра речевых технологий»:
С распознаванием слитной речи все очень непросто: речь человека непредсказуема и спонтанна. Чтобы робот понимал нас в любой ситуации, надо все эти ситуации предусмотреть и роботу их объяснить. Но невозможно предсказать, в какой ситуации окажется робот, с какой ошибкой человека ему придется столкнуться. Нет идеальных людей, как нет и идеальных роботов. И даже если мы создадим идеального робота, сможет ли он тогда понимать неидеальных людей?
Технологии
Право голоса
Труднее всего «машинному разуму» дается «великий и могучий». Скажем, именно для русской речи характерна необычайно сильная редукция гласных безударных слогов. Вместе с достаточно низкой артикуляторной напряженностью языка это приводит к «размазыванию» акустических свойств речи, особенно разговорной.
Если ставится задача создать систему, независимую от голоса диктора, обычно применяется статистический подход. То есть требуются обширные базы с образцами речи разных людей для накопления параметров вероятностных моделей. Тогда становится возможным создать такую модель речевого процесса, которая отражает всю палитру речи естественной. Вот только единую модель языка такими методами вряд ли построишь. Но это и не нужно — обычно конкретная система распознавания голоса применяется в определенных ситуациях, что подразумевает конкретную стилистику речи. Вот почему рынок принял на ура специализированные системы для медучреждений, создающие тексты под диктовку врача, — они и докторам позарез нужны, и хорошо адаптированы под профессиональную лексику. Особенно широко они используются в США. Но и в нашей стране есть проекты в этой нише.
Умные вещи
А был ли прорыв?
Игорь Ашманов, генеральный директор "Наносемантика":
Голосовое управление в гаджетах применяется достаточно давно. И ту функциональность, которую компания Apple реализовала в своем последнем айфоне на базе технологии Siri, я не считаю революционным прорывом.
В ней ведь используется та же самая технология, что и в голосовом поиске Google, то есть на базе технологий распознавания, разработанных компанией Nuance Communications. В отличие от Google, которая добавила к технологии Nuance солидную статистику запросов пользователей (я имею в виду многообразие их формулировок людьми), Apple вручную прописала четкие сценарии, в рамках которых Siri распознает запросы. Плюс, конечно, качественный интерфейс. Тем не менее шаг в сторону от сценариев или статистики — и нет распознавания голоса как такового.
В целом для реализации голосового распознавания в телевизоре и смартфоне нужно обучить машину узнавать ограниченное количество фраз по определенному сценарию. Это могут сделать многие инженерные команды. Потолок их сегодняшних возможностей точно известен: машина не сможет распознавать речь произвольного диктора, произносящего любые фразы. Понятно, что работоспособны два варианта распознавания: либо один диктор с любыми фразами (машину можно настроить на распознавание определенного голоса), либо любой диктор, но говорящий в рамках четко прописанного сценария. Связную быструю человеческую речь машины пока не понимают, а, кроме того, разнообразие входных ситуаций очень велико.
Apple намерена выйти за сегодняшние рамки с помощью базы знаний Wolfram Alpha. Иногда это намерение ошибочно принимают за обещание свободного общения с телевизором или смартфоном на естественном языке. Это не так. Apple не обещает свободного общения с Siri, она лишь четко очерчивает круг ее возможностей, ограничиваемый возможностями Wolfram. В свете сказанного скоро ли наступят времена, когда наши смартфоны будут прекрасно нас понимать и беспрекословно выполнять наши пожелания?
Нужно понимать, что распознавание речи — это процесс перевода аудиопотока в текст. А вот дальше требуется следующий этап — распознавание этих текстов для извлечения смысла обращения пользователя к гаджету: что делать с этим текстом дальше, как реагировать? Но этим занимаются совсем другие технологии и другие компании. И работы там непочатый край.
Оставить комментарий
Ваш комментарий будет опубликован после модерации.