Svoboda | Graniru | BBC Russia | Golosameriki | Facebook

Для установки нажмите кнопочку Установить расширение. И это всё.

Исходный код расширения WIKI 2 регулярно проверяется специалистами Mozilla Foundation, Google и Apple. Вы также можете это сделать в любой момент.

4,5
Келли Слэйтон
Мои поздравления с отличным проектом... что за великолепная идея!
Александр Григорьевский
Я использую WIKI 2 каждый день
и почти забыл как выглядит оригинальная Википедия.
Статистика
На русском, статей
Улучшено за 24 ч.
Добавлено за 24 ч.
Альтернативы
Недавние
Show all languages
Что мы делаем. Каждая страница проходит через несколько сотен совершенствующих техник. Совершенно та же Википедия. Только лучше.
.
Лео
Ньютон
Яркие
Мягкие

Из Википедии — свободной энциклопедии

Speech Application Programming Interface (SAPI) — интерфейс программирования приложений, основанный на технологии COM, предназначенный для распознавания и синтеза речи.

Распознавание речи

Распознавание речи — процесс преобразования произнесённых слов в печатный текст. Распознавание речи включает в себя:

  • захват и оцифровку звука, произнесённого в микрофон;
  • преобразование оцифрованного звука в фонемы;
  • конструирование из фонем слов;
  • анализ контекста, в котором было произнесено слово, и, при необходимости, замена слов на похожие по звучанию.

Распознающая программа (движок распознавания текста) итерационно сравнивает распознанный текст с правилами грамматики приложения и при совпадении текста с серией правил формирует выходной поток XML с использованием языка разметки семантики (англ. Semantic Markup Language, SML). Выходной поток содержит распознанный текст, значения вероятностей правильного распознания и может содержать семантические значения, присвоенные при помощи разметки интерпретации семантики. Распознанный текст обычно используется для ввода данных при помощи диктовки и для управления приложениями при помощи речевых команд.

Размер правил грамматики ограничивает возможности распознавания текста. Большинство программ, поддерживающих диктовку, для обеспечения наиболее точного распознавания настраиваются на речевые обороты конкретного пользователя. Режим управления речевыми командами более прост для реализации, поскольку содержание правил грамматики ограничено имеющимися командами[1].

Синтез речи

Синтез речи — процесс преобразования текста в произносимые слова. Синтез речи включает в себя:

  • разделение слов на фонемы;
  • нахождение текста, требующего преобразование в символы, такого как числа, количество валюты и пунктуация;
  • генерация цифрового звука для воспроизведения.

Движки преобразования текста в речь могут использовать один из двух способов синтеза голоса:

  • генерировать звуки, подобные издаваемым голосовыми связками и использовать различные фильтры для моделирования длины горла, форму ротовой полости, расположение губ и языка;
  • собирать его из многочисленных кусков речи, записанных диктором.

Примечания

Ссылки

Introducing Computer Speech Technology (англ.). MSDN Library. Microsoft (2012). Дата обращения: 24 июля 2012. Архивировано из оригинала 29 сентября 2012 года.

Эта страница в последний раз была отредактирована 13 мая 2022 в 20:45.
Как только страница обновилась в Википедии она обновляется в Вики 2.
Обычно почти сразу, изредка в течении часа.
Основа этой страницы находится в Википедии. Текст доступен по лицензии CC BY-SA 3.0 Unported License. Нетекстовые медиаданные доступны под собственными лицензиями. Wikipedia® — зарегистрированный товарный знак организации Wikimedia Foundation, Inc. WIKI 2 является независимой компанией и не аффилирована с Фондом Викимедиа (Wikimedia Foundation).