Svoboda | Graniru | BBC Russia | Golosameriki | Facebook

Для установки нажмите кнопочку Установить расширение. И это всё.

Исходный код расширения WIKI 2 регулярно проверяется специалистами Mozilla Foundation, Google и Apple. Вы также можете это сделать в любой момент.

4,5
Келли Слэйтон
Мои поздравления с отличным проектом... что за великолепная идея!
Александр Григорьевский
Я использую WIKI 2 каждый день
и почти забыл как выглядит оригинальная Википедия.
Статистика
На русском, статей
Улучшено за 24 ч.
Добавлено за 24 ч.
Что мы делаем. Каждая страница проходит через несколько сотен совершенствующих техник. Совершенно та же Википедия. Только лучше.
.
Лео
Ньютон
Яркие
Мягкие

Локальный уровень выброса

Из Википедии — свободной энциклопедии

Локальный уровень выброса — алгоритм[уточнить] нахождения аномальных точек данных путём измерения локального отклонения данной точки с учётом её соседей[1].

Имеет общие концепции с DBSCAN и OPTICS, такие как понятия «основное расстояние» и «достижимое расстояние»[2], которые используются для оценки локальной плотности[3].

Базовая идея

Базовая идея метода «Локального уровня выброса» — сравнение локальной плотности точки с плотностями её соседей. Точка A имеет меньшую плотность по сравнению с соседями

Локальный уровень выброса основывается на концепции локальной плотности, где локальность задаётся ближайшими соседями, расстояния до которых используются для оценки плотности. Путём сравнения локальной плотности объекта с локальной плотностью его соседей можно выделить области с аналогичной плотностью и точки, которые имеют существенно меньшую плотность, чем её соседи. Эти точки считаются выбросами.

Локальная плотность оценивается типичным расстоянием, с которым точка может быть «достигнута» от соседних точек. Определение «расстояния достижимости», используемого в алгоритме, является дополнительной мерой для получения более устойчивых результатов внутри кластеров.

Формальное описание

Пусть является расстоянием от объекта до k-ого ближайшего соседа. Заметим, что множество k ближайших соседей включает все объекты на этом расстоянии и в случае «узла» может содержать более k объектов. Мы обозначаем множество k ближайших соседей как .

Это расстояние используется для определения достижимого расстояния (англ. reachability-distance):

Иллюстрация расстояния достижимости. Объекты B и C имеют одно и то же расстояние достижимости (k=3), в то время как D не является k-ближайшим соседом

Говоря словами, достижимое расстояние объекта из является истинным расстоянием двух объектов. Объекты, которые принадлежат к k ближайшим соседям точки («основные точки» точки , см. DBSCAN), считаются находящимися на одинаковом расстоянии для получения более стабильных результатов. Заметим, что это расстояние не является расстоянием в математическом смысле, поскольку оно не симметрично. (Общей ошибкой является применение всегда, так что это даёт слегка другой метод, называемый упрощённым методом локального уровня выброса[4])

Локальная плотность достижимости объекта определяется как

,

которая является обратным значением среднему расстоянию достижимости объекта из его соседей. Заметим, что это не является средним расстоянием достижимости соседей из точки (которое по определению должно было бы быть ), а является расстоянием, на котором A может быть «достигнуто» из его соседей. С дубликатами точек это значение может стать бесконечным.

Локальные плотности достижимости затем сравниваются с локальными плотностями достижимости соседей

что есть средняя локальная плотность достижимости соседей, делённая на локальную плотность достижимости самого объекта. Значение, примерно равное , означает, что объект сравним с его соседями (а тогда он не является выбросом). Значение меньше означает плотную область (которая может быть внутренностью), а значения, существенно большие , свидетельствуют о выбросах.

Преимущества

Оценки алгоритма «Локальный уровень выброса», визуализированные ELKI[en]. В то время как верхний правый кластер имеет сравнимую плотность с выбросом, близком к левому нижнему кластеру, они определяются корректно.

Вследствие локальности подхода алгоритм локального уровня выброса способен выявить выбросы в наборе данных, которые могли бы не быть выбросами в других областях набора данных. Например, точка на «малом» расстоянии до любого плотного кластера является выбросом, в то время как точка внутри редкого кластера может иметь похожие расстояния с её соседями.

В то время как геометрическая интуиция алгоритма применима только к векторным пространствам низкой размерности, алгоритм может быть применён в любом контексте, где функция непохожести может быть определена. Экспериментально было показано, что алгоритм хорошо работает в большом числе ситуаций, часто превосходя соперников, например в системах обнаружения вторжений[5] и на обработанных классификационных данных [6].

Семейство методов локального уровня выброса может быть легко обобщено и затем применено к различным другим задачам, таким как выявление выбросов в географических данных, видеопотоках или сетях ссылок на авторство[4].

Недостатки и расширения

Получающиеся значения трудно интерпретировать. Значение 1 или даже меньше единицы говорит, что точка чисто внутренняя, но нет никакого ясного правила, по которому точка будет выбросом. В одном наборе данных значение 1,1 может уже означать выбросом, в другом наборе данных и параметризации (с сильными локальными флуктуациями) значение 2 может ещё означать внутренность. Эти различия могут случаться внутри одного набора данных ввиду локальности метода. Существуют расширения метода, которые пытаются улучшить алгоритм:

  • Бэггинг признаков для обнаружения обособленностей[7] выполняет алгоритм локального уровня выброса на нескольких проекциях и комбинирует результаты для улучшенного качества обнаружения в высоких размерностях. Это первый подход на основе ансамблевого обучения для обнаружения обособления[8].
  • Локальная вероятность выброса (ЛВВ, англ. Local Outlier Probability, LoOP)[9] является методом, полученным из метода локального уровня выброса, но использующий экономную локальную статистику, чтобы сделать метод менее чувствительным к выбору параметра k. Кроме того, результирующие значения масштабируются к значению .
  • Интерпретация и Унификация Степени Выброса (англ. Interpreting and Unifying Outlier Scores)[10] предполагает нормализацию оценки выброса к интервалу с помощью статистического масштабирования с целью увеличения удобства использования и можно рассматривать алгоритм как улучшенную версию идеи локальной вероятности выброса.
  • Оценка распределения выбросов и степени выброса (англ. On Evaluation of Outlier Rankings and Outlier Scores)[11] предлагает средства измерения похожести и отличия методов для построения продвинутого ансамбля методов выявления выбросов с помощью вариантов алгоритма локального уровня выброса и других алгоритмов и улучшения подхода бэггинга признаков.
  • Пересмотренное локальное выявление выбросов: обобщённый взгляд на локальность с приложениями в пространственное выявление выбросов, в выявлении выбросов в видео и сетях[4] обсуждает общую схему в различных методах локального выявления выбросов (включая алгоритм локального уровня выброса, его упрощённую версию и ЛЛВ) и переводит рассмотрение в общие принципы. Эти принципы применяются затем, например, к выявлению выбросов в географических данных, видеопотоках и сети ссылок на авторство.

Примечания

Литература

Эта страница в последний раз была отредактирована 3 февраля 2023 в 02:34.
Как только страница обновилась в Википедии она обновляется в Вики 2.
Обычно почти сразу, изредка в течении часа.
Основа этой страницы находится в Википедии. Текст доступен по лицензии CC BY-SA 3.0 Unported License. Нетекстовые медиаданные доступны под собственными лицензиями. Wikipedia® — зарегистрированный товарный знак организации Wikimedia Foundation, Inc. WIKI 2 является независимой компанией и не аффилирована с Фондом Викимедиа (Wikimedia Foundation).