Svoboda | Graniru | BBC Russia | Golosameriki | Facebook

Для установки нажмите кнопочку Установить расширение. И это всё.

Исходный код расширения WIKI 2 регулярно проверяется специалистами Mozilla Foundation, Google и Apple. Вы также можете это сделать в любой момент.

4,5
Келли Слэйтон
Мои поздравления с отличным проектом... что за великолепная идея!
Александр Григорьевский
Я использую WIKI 2 каждый день
и почти забыл как выглядит оригинальная Википедия.
Статистика
На русском, статей
Улучшено за 24 ч.
Добавлено за 24 ч.
Что мы делаем. Каждая страница проходит через несколько сотен совершенствующих техник. Совершенно та же Википедия. Только лучше.
.
Лео
Ньютон
Яркие
Мягкие

Из Википедии — свободной энциклопедии

Идентификация языка (англ. language identification), в методике обработки естественного языка — определение языка. Проблема идентификации языка является особым случаем категоризации текста и решается с использованием статистических методов.

Обзор

Для идентификации языка реализуется архитектура PPRLM (parallel phonemes recognition + language model) с параллельным подключением фонетических распознавателей, обученных на нескольких языках. Фонетическое распознавание производится на основе скрытых марковских моделей (СММ) с помощью алгоритма Витерби.

Для принятия решения о принадлежности речевого сообщения к тому или иному целевому языку реализуется подход с классификатором на основе метода опорных векторов (SVM — support vector machines).

Принцип работы системы, построенной на основе классического PPRLM заключается в следующем:

  1. в системе присутствуют несколько фонетических распознавателей;
  2. каждый входной звуковой файл распознаётся фонетическими распознавателями;
  3. по результирующей последовательности фонем каждого фонетического распознавателя считаются меры близости к модели n-gramm того или иного целевого языка;
  4. победившим считается язык с максимальной мерой близости модели n-gramm.

В усовершенствованных системах PPRLM идентификация языка реализуется в виде открытой задачи: производится проверка «принадлежит» / «не принадлежит» обработанный файл целевому языку, решение принимается автоматически с учётом порога установленного пользователем.

К базовому алгоритму добавляются следующие шаги:

  1. на результирующую последовательность фонем каждого фонетического распознавателя накладывается модель n-gramm того или иного «опорного» языка и считаются меры близости модели n-gramm к последовательности фонем;
  2. полный набор мер близости моделей n-gramm к последовательностям фонем является входным вектором для классификатора SVM;
  3. по результату классификации SVM-классификатором принимается решение о принадлежности к целевому языку с помощью сравнения с установленным порогом для каждого целевого языка в отдельности.

Звуковой файл произнесён на целевом языке, если оценка, данная SVM-классификатором, больше порога. При этом звуковой файл может быть отнесён к одному или нескольким языкам одновременно или не отнесён ни к одному из них.

См. также

Литература

Ссылки

Библиотеки

Web-сервисы

Эта страница в последний раз была отредактирована 23 июля 2022 в 09:20.
Как только страница обновилась в Википедии она обновляется в Вики 2.
Обычно почти сразу, изредка в течении часа.
Основа этой страницы находится в Википедии. Текст доступен по лицензии CC BY-SA 3.0 Unported License. Нетекстовые медиаданные доступны под собственными лицензиями. Wikipedia® — зарегистрированный товарный знак организации Wikimedia Foundation, Inc. WIKI 2 является независимой компанией и не аффилирована с Фондом Викимедиа (Wikimedia Foundation).