Svoboda | Graniru | BBC Russia | Golosameriki | Facebook

Для установки нажмите кнопочку Установить расширение. И это всё.

Исходный код расширения WIKI 2 регулярно проверяется специалистами Mozilla Foundation, Google и Apple. Вы также можете это сделать в любой момент.

4,5
Келли Слэйтон
Мои поздравления с отличным проектом... что за великолепная идея!
Александр Григорьевский
Я использую WIKI 2 каждый день
и почти забыл как выглядит оригинальная Википедия.
Статистика
На русском, статей
Улучшено за 24 ч.
Добавлено за 24 ч.
Что мы делаем. Каждая страница проходит через несколько сотен совершенствующих техник. Совершенно та же Википедия. Только лучше.
.
Лео
Ньютон
Яркие
Мягкие

Статистический машинный перевод

Из Википедии — свободной энциклопедии

Уровни обработки языковых данных

Статистический машинный перевод (англ. Statistical machine translation — SMT) — разновидность машинного перевода, где перевод генерируется на основе статистических моделей, параметры которых являются производными от анализа двуязычных корпусов текста (text corpora).

Статистический машинный перевод противопоставляют системам машинного перевода, основанным на правилах Rule-Based Machine Translation (RBMT) и на примерах Example-Based MT (EBMT).

Первые идеи статистического машинного перевода были опубликованы Уорреном Уивером (Warren Weaver), в 1949 году. «Вторая волна» — начало 1990-х, IBM. «Третья волна» — Google, Microsoft, Language Weaver, Яндекс.

Разработчики систем машинного перевода для улучшения качества вводят некоторые «сквозные» правила, тем самым превращая чисто статистические системы в Гибридный машинный перевод. Добавление некоторых правил, то есть создание гибридных систем, несколько улучшает качество переводов, особенно при недостаточном объёме входных данных, используемых при построении индекса машинного переводчика.

Основы

Преимущества SMT

  • Быстрая настройка
  • Легко добавлять новые направления перевода
  • Гладкость перевода

Недостатки SMT

  • «Дефицит» параллельных корпусов
  • Многочисленные грамматические ошибки
  • Нестабильность перевода

Языковые модели

В качестве языковой модели в системах статистического перевода используются преимущественно различные модификации n-граммной модели, утверждающей, что «грамматичность» выбора очередного слова при формировании текста определяется только тем, какие (n-1) слов идут перед ним[1].

  • n-граммы.
    • Достоинства: — высокое качество перевода для фраз, которые целиком помещаются в n-граммную модель.
    • Недостатки: — качественный перевод возможен только для фраз, которые целиком помещаются в n-граммную модель.

Статистические модели перевода

  • по словам (Word-based translation — WBT)[2]
  • по фразам (Phrase-based translation — PBT)[3][4]
  • по синтаксису (Syntax-based translation — SBT)[5]
  • по иерархическим фразам (Hierarchical phrase-based translation — HPBT)[6]

См. также

Источники

  1. Статистическая система машинного перевода (Distributed statistical machine translation system) | Ilya (w-495) Nikitin - Academia.edu. Дата обращения: 19 марта 2013. Архивировано 22 марта 2013 года.
  2. Архивированная копия. Дата обращения: 17 марта 2013. Архивировано из оригинала 3 ноября 2013 года.
  3. Источник. Дата обращения: 17 марта 2013. Архивировано 3 ноября 2013 года.
  4. Источник. Дата обращения: 17 марта 2013. Архивировано 26 мая 2013 года.
  5. Архивированная копия. Дата обращения: 17 марта 2013. Архивировано из оригинала 3 февраля 2013 года.
  6. Архивированная копия. Дата обращения: 17 марта 2013. Архивировано из оригинала 26 мая 2013 года.
Эта страница в последний раз была отредактирована 12 июня 2024 в 08:30.
Как только страница обновилась в Википедии она обновляется в Вики 2.
Обычно почти сразу, изредка в течении часа.
Основа этой страницы находится в Википедии. Текст доступен по лицензии CC BY-SA 3.0 Unported License. Нетекстовые медиаданные доступны под собственными лицензиями. Wikipedia® — зарегистрированный товарный знак организации Wikimedia Foundation, Inc. WIKI 2 является независимой компанией и не аффилирована с Фондом Викимедиа (Wikimedia Foundation).