Пирамида изображений: различия между версиями

Текущая версия от 11:46, 19 октября 2022

Пирамида изображений — класс кратномасштабных иерархических структур данных, разработанных для применения в прикладных задачах машинного зрения, сжатия информации, анализа текстур растровых изображений и т. п. Такие структуры содержат на каждом своём уровне иерархии уменьшенную версию предыдущего изображения, каждая из которых рекурсивно вычисляется на базе предыдущих слоёв посредством применения однотипной операции

Краткая история

Возникновение интереса специалистов по математической обработке изображений к иерархическим пирамидам связано с необходимостью решать некоторые прикладные задачи в условиях априори неизвестного масштаба искомых свойств или признаков. Так как этот характерный размер не определён, то возможным путём к решению является декомпозиция исходного изображения на иерархическую систему в которой каждый слой представлен своим собственным масштабом, артикулирующим отдельный диапазон признаков.

Описание

По своей сути пирамида изображений может рассматриваться как набор представлений, упорядоченный в форме вертикальной иерархии по мере уменьшения некоего масштаба. Обычно в основании пирамиды располагается оригинальное изображение высокого разрешения, а по мере движения вверх масштаб и разрешение уменьшаются.

Аноним

Поиск

Пирамида изображений: различия между версиями

Пространства имён

Ещё

Действия на странице

Текущая версия от 11:46, 19 октября 2022

Краткая история

Описание

Навигация

Навигация

Вики-инструменты

Вики-инструменты

@@ Строка 1: / Строка 1: @@
-[[Файл:Pyramide Image exemple.png|мини|Пирамида изображений]]
+'''Пирамида изображений''' — класс кратномасштабных иерархических [[структура данных|структур данных]], разработанных для применения в прикладных задачах [[машинное зрение|машинного зрения]], [[Сжатие данных|сжатия информации]], [[анализ текстур|анализа текстур]] растровых изображений и т. п. Такие структуры содержат на каждом своём уровне иерархии уменьшенную версию предыдущего изображения, каждая из которых рекурсивно вычисляется на базе предыдущих слоёв посредством применения однотипной операции
-'''Пирамида изображений''' — класс кратномасштабных иерархических [[структура данных|структур данных]], разработанных для применения в прикладных задачах [[машинное зрение|машинного зрения]], [[Сжатие данных|сжатия информации]], [[анализ текстур|анализа текстур]] растровых изображений и т. п. Такие структуры содержат на каждом своём уровне иерархии уменьшенную версию предыдущего изображения, каждая из которых рекурсивно вычисляется на базе предыдущих слоёв посредством применения однотипной операции (например — [[Сглаживающий оператор|сглаживания]]){{sfn|Dictionary of Computer Vision and Image Processing|2014|loc=Image pyramid| p=132}}. При этом всякому уровню иерархии ставится в соответствие актуальный для решаемой задачи параметр масштаба, который описывает интересующие свойства изображения{{sfn|Szeliski| 2011| loc = Pyramids and wavelets| p=127}}.
 == Краткая история ==
-Возникновение интереса специалистов по математической [[обработка изображений|обработке изображений]] к [[иерархия|иерархическим]] пирамидам связано с необходимостью решать некоторые прикладные задачи в условиях априори неизвестного масштаба искомых свойств или признаков. Так как этот характерный размер не определён, то возможным путём к решению является декомпозиция исходного изображения на иерархическую систему в которой каждый слой представлен своим собственным масштабом, артикулирующим отдельный диапазон признаков. Аналогичным образом устроена система обработки видеоинформации у биологических объектов{{sfn|Szeliski| 2011| loc = Pyramids and wavelets| p=127}}.
+Возникновение интереса специалистов по математической [[обработка изображений|обработке изображений]] к [[иерархия|иерархическим]] пирамидам связано с необходимостью решать некоторые прикладные задачи в условиях априори неизвестного масштаба искомых свойств или признаков. Так как этот характерный размер не определён, то возможным путём к решению является декомпозиция исходного изображения на иерархическую систему в которой каждый слой представлен своим собственным масштабом, артикулирующим отдельный диапазон признаков.
-Появление первых иерархических пирамид датируется концом 1970-х годов{{sfn|Szeliski| 2011| loc = A rough timeline of some of the most active topics of research in computer vision| p=10}}, выбор их названия был продиктован чисто внешней зрительной ассоциацией{{sfn|Форсайт, Понс|2004|loc = Метод: масштаб и пирамиды изображений| с=240}}. В 1980-х началось активное использование иерархических пирамид в задачах смешивания изображений и поиска на них соответствия между разномасштабными элементами и структурами. В это же самое время завершилось создание непрерывных версий пирамидальных структур для пространственно-масштабной обработки. Однако в конце 1980-х годов традиционным пирамидам пришлось потесниться из-за активного внедрения [[вейвлет]]-преобразований{{sfn|Szeliski| 2011| loc = A brief history| p=10}}.
 == Описание ==
-По своей сути пирамида изображений может рассматриваться как набор представлений, упорядоченный в форме вертикальной иерархии по мере уменьшения некоего масштаба. Обычно в основании пирамиды располагается оригинальное изображение высокого разрешения, а по мере движения вверх масштаб и разрешение уменьшаются. В результате, на вершине оказывается самое грубое приближение с низким качеством и информативностью{{sfn|Гонсалес, Вудс|2005|loc = Пирамиды изображений| с=514}}{{sfn|Jayaraman|2009| loc = Image Pyramid| p=650}}.
+По своей сути пирамида изображений может рассматриваться как набор представлений, упорядоченный в форме вертикальной иерархии по мере уменьшения некоего масштаба. Обычно в основании пирамиды располагается оригинальное изображение высокого разрешения, а по мере движения вверх масштаб и разрешение уменьшаются.
-Как правило, в целях генерирования пирамиды для удобства её представления изначальное изображение пересчитывается в размерности, кратные степени числа 2{{sfn|Dictionary of Computer Vision and Image Processing|2014|loc=Image pyramid| p=132}}. Если исходные данные имели вид массива пикселов <math>N \times N</math>, то эта запись эквивалентна <math>2^n \times 2^n</math>, где <math>n = log_2 N</math>{{sfn|Гонсалес, Вудс|2005|loc = Пирамиды изображений| с=514}}. В таком виде параметр <math>n</math> играет роль высоты пирамиды, выраженной в количестве представлений исходного изображения (слоёв){{sfn|Montanvert|1990| loc = Introduction | p = 28}}.
-Первый слой (приближение) пирамиды можно получить последовательным усреднением соседних пикселей, результатом которого станет массив <math>\frac{N}{2} \times \frac{N}{2}</math>. Применяя эту процедуру рекурсивно получается набор изображений с экспоненциально уменьшающимися размерами. При этом, пикселы промежуточных изображений содержат в себе информацию о квадратных блоках пикселов нижележащих слоёв с более высоким разрешением{{sfn|Rosenfeld|1984|loc=Some Varieties of Pyramids|p=2—3}}. Тогда произвольно выбранный промежуточный слой будет содержать в себе <math>2^j \times 2^j</math> пикселов, где ''0 ≤ j < n'', а полное количество пикселов в пирамиде, содержащей <math>k</math> слоёв{{sfn|Гонсалес, Вудс|2005|loc = Пирамиды изображений| с=514}}:
-<center> <math> N^2 \left ( 1 + \frac{1}{4^1} + \frac{1}{4^2} + \frac{1}{4^3} + ... + \frac{1}{4^k} \right ) \leq \frac{4}{3} N^2 </math> </center>
-Стоит отметить, что промежуточные узлы пирамиды не обязательно должны представлять из себя взвешенное среднее по [[Интенсивность (физика)|интенсивности]] из нижних слоёв. Вместо интенсивности в них могут храниться другие виды информации, например — дескрипторы [[Текстура (изображение)|текстур]] или параметры геометрических элементов (линий, кривых и т. п.){{sfn|Rosenfeld|1984|loc=Some Varieties of Pyramids|p=3}}
-== Применение пирамид ==
-Наиболее очевидным полезным свойством кратномасштабных пирамид является возможность снижения вычислительных затрат различных алгоритмов за счёт применения принципа «[[Разделяй и властвуй (информатика)|разделяй и властвуй]]». Также к преимуществам представления двумерного изображения в виде пирамиды считается соотнесение его локальных элементов и свойств с глобальными. Это позволяет конструировать древовидные структуры данных для многофакторного анализа, включающего в себя локальную и глобальную информацию. Например, связывая значения отдельных пикселов со свойствами окружающих их регионов{{sfn|Rosenfeld|1984|loc=Some Useful Properties of Pyramids|p=2}}.
-== Разновидности ==
-Классическими видами пирамидальных иерархий считаются [[Нормальное распределение|гауссовы]] пирамиды и пирамиды [[лапласиан]]ов. Благодаря своим хорошо изученным свойствам они получили широкое распространение в целом ряде практических приложений{{sfn|Szeliski| 2011| loc = Multi-resolution representations| p=135}}.
-Гауссова пирамида состоит из слоёв, каждый из которой получается из предыдущего с помощью сглаживания симметричной [[гауссоида|гауссоидой]] ([[Фильтр нижних частот|низкочастотная фильтрация]]) и последующей за этим дискретизацией. Совокупность этих слоёв называется грубой шкалой изображения. Областью применения гауссовых пирамид обычно являются задачи поиска изображений по масштабу и пространственного сопоставления различных изображений{{sfn|Форсайт, Понс|2004|loc = Метод: масштаб и пирамиды изображений| с=241—242}}{{sfn|Jayaraman|2009| loc = Gaussian Pyramid| p=650}}.
-Пирамиды лапласианов вычисляются последовательным сглаживанием и [[Децимация (обработка сигналов)|децимацией]] начальных данных. При этом, каждый уровень пирамиды является уточнением предыдущих и соответствует отдельной полосе частот ([[Полосовой фильтр|полосовая фильтрация]]). В отличие от гауссовых пирамид, этот тип данных допускает более высокую степень сжатия информации{{sfn|Jayaraman|2009| loc = Laplacian Pyramid| p=650}}{{sfn|Гонсалес, Вудс|2005|loc = Пирамиды изображений| с=517}}. В дополнение к этому исходное изображение может быть легко восстановлено на основе суперпозиции промежуточных слоёв, что позволяет не хранить его в памяти{{sfn|Jähne|2002|loc=Laplacian pyramid|p=140}}.
-== Примечания ==
-{{примечания}}
-== Источники ==
-* {{публикация|книга |автор= Гонсалес
-|автор имя= Р.
-|автор линк=
-|автор2= Вудс
-|автор2 имя= Р.
-|автор2 линк=
-|заглавие= Цифровая обработка изображений
-|подзаголовок=
-|ссылка=
-|архив=
-|архив дата=
-|ответственный=
-|издание=
-|место= {{М.}}
-|издательство= «Техносфера»
-|год= 2005
-|страницы=
-|страниц= 1072
-|удк=
-|ббк=
-|isbn= 5-94836-028-8
-|ref= Гонсалес, Вудс
-}}
-* {{публикация|книга |автор= Форсайт
-|автор имя= Д.
-|автор линк=
-|автор2= Понс
-|автор2 имя= Ж.
-|автор2 линк=
-|заглавие= Компьютерное зрение. Современный подход
-|подзаголовок=
-|ссылка=
-|архив=
-|архив дата=
-|ответственный=
-|издание=
-|место= {{М.}}
-|издательство= «Вильямс»
-|год= 2004
-|страницы=
-|страниц= 928
-|удк= 681.3.07
-|ббк= 32.973.26-018.2.75
-|isbn= 5-8459-0542-7
-|ref= Форсайт, Понс
-}}
-* {{публикация|книга |язык= en
-|автор= Jähne
-|автор имя= B.
-|автор линк=
-|автор2=
-|автор2 имя=
-|автор2 линк=
-|заглавие= Digital Image processing
-|подзаголовок=
-|ссылка=
-|архив=
-|архив дата=
-|ответственный=
-|издание= 5th ed
-|место=
-|издательство= Springer-Verlag
-|год= 2002
-|pages=
-|allpages=
-|isbn= 3-540-67754-2
-|oclc=
-|ref= Jähne
-}}
-* {{публикация|книга |автор= Jayaraman
-|автор имя= S.
-|автор линк=
-|автор2=
-|автор2 имя=
-|автор2 линк=
-|заглавие= Digital Image Processing
-|подзаголовок=
-|ссылка=
-|архив=
-|архив дата=
-|ответственный=
-|издание=
-|место=
-|издательство= Tata McGraw Hill
-|год= 2009
-|страницы=
-|страниц=
-|удк=
-|ббк=
-|isbn= 978-0-07-014479-8
-|ref= Jayaraman
-}}
-* {{публикация|книга |язык= en
-|автор= Montanvert
-|автор имя= A.
-|автор линк=
-|автор2=
-|автор2 имя=
-|автор2 линк=
-|заглавие= Hierarchical Image Analysis Using Irregular Tesselations
-|подзаголовок=
-|ссылка=
-|архив=
-|архив дата=
-|ответственный= G. Goos, J. Hartmanis
-|издание= Computer Vision - ECCV 90
-|место=
-|издательство= Springer-Verlag
-|год= 1990
-|pages=
-|allpages=
-|isbn= 3-540-52522-X
-|oclc=
-|ref= Montanvert
-}}
-* {{публикация|книга |язык= en
-|автор= Szeliski
-|автор имя= R.
-|автор линк=
-|автор2=
-|автор2 имя=
-|автор2 линк=
-|заглавие= Computer Vision Algorithms and Applications
-|подзаголовок=
-|ссылка=
-|архив=
-|архив дата=
-|ответственный=
-|издание=
-|место=
-|издательство= Springer
-|год= 2011
-|doi= 10.1007/978-1-84882-935-0
-|pages=
-|allpages=
-|isbn= 978-1-84882-934-3
-|oclc=
-|ref= Szeliski
-}}
-* {{публикация|книга |язык= en
-|автор=
-|автор имя=
-|автор линк=
-|автор2=
-|автор2 имя=
-|автор2 линк=
-|заглавие= Dictionary of Computer Vision and Image Processing
-|подзаголовок=
-|ссылка=
-|архив=
-|архив дата=
-|ответственный=
-|издание= 2th ed
-|место=
-|издательство= John Wiley & Sons Ltd
-|год= 2014
-|pages=
-|allpages=
-|isbn= 978-1-119-94186-6
-|oclc=
-|ref= Dictionary of Computer Vision and Image Processing
-}}
-* {{публикация|книга |язык= en
-|автор=
-|автор имя=
-|автор линк=
-|автор2=
-|автор2 имя=
-|автор2 линк=
-|заглавие= Multiresolution Image Processing and Analysis
-|подзаголовок=
-|ссылка=
-|архив=
-|архив дата=
-|ответственный= A. Rosenfeld
-|издание=
-|место=
-|издательство= Springer-Verlag
-|год= 1984
-|doi= 10.1007/978-3-642-51590-3
-|pages=
-|allpages=
-|isbn= 978-3-642-51592-7
-|oclc=
-|ref= Rosenfeld
-}}
-[[Категория:Цифровая обработка изображений]]
-[[Категория:Хранение данных]]
 [[Категория:Структуры данных]]
-[[Категория:Компьютерное зрение]]
-{{Добротная статья|Теория информации и криптография}}

Аноним

Поиск

Пирамида изображений: различия между версиями

Текущая версия от 11:46, 19 октября 2022

Краткая история

Описание

Навигация

Вики-инструменты

Инструменты для страниц

Категории