Locality-sensitive hashing

Материал из Поле цифровой дидактики
Версия от 12:32, 11 сентября 2022; ru_wikipedia>Fifis (стилевые правки, пунктуация)
(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)

Locality-sensitive hashing (LSH<ref>Шаблон:Статья</ref>) — вероятностный метод понижения размерности многомерных данных. Основная идея состоит в таком подборе хеш-функций для некоторых измерений, чтобы похожие объекты с высокой степенью вероятности попадали в одну корзину<ref>Шаблон:Cite web</ref>. Один из способов борьбы с «проклятием размерности» при поиске и анализе многомерных данных, которое заключается в том, что при росте размерности исходных данных поиск по индексу ведёт себя хуже, чем последовательный просмотр. Метод позволяет строить структуру для быстрого приближённого (вероятностного) поиска n-мерных векторов, «похожих» на искомый шаблон.

LSH является одним из наиболее популярных на сегодняшний день приближённых алгоритмов поиска ближайших соседей (Approximate Nearest Neighbor, ANN). LSH в этом подходе отображает множество точек в высокоразмерном пространстве в множество ячеек, т. е. в хеш-таблицу. В отличие от традиционных хешей, LSH обладает свойством чувствительности к местоположению (locality-sensitive hash), благодаря чему способен помещать соседние точки в одну и ту же ячейку.

Преимуществами LSH являются: 1) простота использования; 2) строгая теория, подтверждающая хорошую производительность алгоритма; 3) LSH совместим с любой нормой [math]\displaystyle{ L_p }[/math] при [math]\displaystyle{ 0 \lt p \leq 2 }[/math]. LSH можно использовать с евклидовой метрикой и с манхэттенским расстоянием. Существуют также варианты для расстояния Хэмминга и косинусного коэффициента<ref>Шаблон:Статья</ref>.

Примечания

Шаблон:Примечания

Ссылки


Шаблон:Перевести Шаблон:Math-stub