RU2276407C2 - Method and device for background segmentation on basis of movement localization - Google Patents
Method and device for background segmentation on basis of movement localization Download PDFInfo
- Publication number
- RU2276407C2 RU2276407C2 RU2004115026/09A RU2004115026A RU2276407C2 RU 2276407 C2 RU2276407 C2 RU 2276407C2 RU 2004115026/09 A RU2004115026/09 A RU 2004115026/09A RU 2004115026 A RU2004115026 A RU 2004115026A RU 2276407 C2 RU2276407 C2 RU 2276407C2
- Authority
- RU
- Russia
- Prior art keywords
- moving object
- background
- processor
- frames
- video sequence
- Prior art date
Links
- 230000033001 locomotion Effects 0.000 title claims abstract description 49
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000004807 localization Effects 0.000 title claims abstract description 16
- 230000011218 segmentation Effects 0.000 title description 10
- 238000001514 detection method Methods 0.000 claims abstract description 34
- 230000003068 static effect Effects 0.000 claims abstract description 21
- 230000008859 change Effects 0.000 claims description 33
- 238000012549 training Methods 0.000 claims description 24
- 238000010276 construction Methods 0.000 claims description 4
- 230000006399 behavior Effects 0.000 claims description 3
- 238000013461 design Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims 2
- 238000012512 characterization method Methods 0.000 claims 1
- 238000012545 processing Methods 0.000 abstract description 11
- 230000000694 effects Effects 0.000 abstract 1
- 238000000605 extraction Methods 0.000 abstract 1
- 239000000126 substance Substances 0.000 abstract 1
- 238000004422 calculation algorithm Methods 0.000 description 18
- 238000005516 engineering process Methods 0.000 description 11
- 230000003287 optical effect Effects 0.000 description 6
- 238000013459 approach Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 238000009826 distribution Methods 0.000 description 5
- 230000007704 transition Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000011410 subtraction method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/28—Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
Description
Область техникиTechnical field
Данное изобретение относится к области детекторов движения или систем обнаружения движения и, в частности, касается способа и устройства для сегментации фона на основе локализации движения.This invention relates to the field of motion detectors or motion detection systems, and in particular, relates to a method and apparatus for background segmentation based on motion localization.
Уровень техникиState of the art
Видеоконференции и автоматическое видеонаблюдение являются быстро развивающимися областями техники, росту которых способствует увеличивающаяся доступность систем с низкой стоимостью и прогрессом в области техники обнаружения движения. Техника видеоизображения обеспечивает отображение последовательно изображений с помощью устройства, обеспечивающего отображение изображений, например, такого как дисплей компьютера. Последовательность изображений изменяется во времени, так что она может адекватно представлять движение в сцене.Video conferencing and automatic video surveillance are rapidly developing areas of technology, the growth of which is facilitated by the increasing availability of systems with low cost and progress in the field of motion detection technology. The video image technique provides for displaying sequentially images using a device for displaying images, such as, for example, a computer display. The sequence of images varies over time, so that it can adequately represent movement in the scene.
Кадр является единичным изображением в последовательности изображений, которая передается в монитор для отображения. Каждый кадр состоит из элементов изображения (пэлов или пикселей), которые являются основными единицами программируемого цвета в изображении или в кадре. Пиксель является наименьшей зоной экрана монитора, которую можно включать и выключать для создания изображения, при этом физический размер пикселя зависит от разрешения дисплея компьютера. Пиксели могут формироваться в строки и столбцы дисплея компьютера с целью визуализации кадра. Если кадр содержит цветное изображение, то каждый пиксель можно включать с конкретным цветом для визуализации кадра. Конкретный цвет, который выдает пиксель, является смесью компонентов цветного спектра, обычно таких, как красный, зеленый и синий.A frame is a single image in a sequence of images that is transmitted to a monitor for display. Each frame consists of image elements (pels or pixels), which are the basic units of programmable color in the image or in the frame. A pixel is the smallest area of a monitor screen that can be turned on and off to create an image, and the physical size of the pixel depends on the resolution of the computer display. Pixels can be formed into rows and columns of a computer display to render a frame. If the frame contains a color image, then each pixel can be included with a specific color to render the frame. The specific color that a pixel produces is a mixture of color spectrum components, usually red, green, and blue.
Видеопоследовательности могут содержать как неподвижные объекты, так и движущиеся объекты. Неподвижные объекты являются объектами, которые остаются неподвижными из одного кадра в другой. Таким образом, пиксели, используемые для визуализации цветов неподвижного объекта, остаются по существу одинаковыми в последовательных кадрах. Зоны кадра, содержащие объекты с неизменным цветом, называются фоном. Движущиеся объекты являются объектами, которые изменяют положение в кадре относительно предыдущего положения внутри прежнего кадра в последовательности изображений. Если объект изменяет свою позицию в следующем кадре относительно его позиции в предшествующем кадре, то пиксели, используемые для визуализации изображения объекта, также изменяют цвет в последовательных кадрах. Такие зоны кадра называются передним планом.Video sequences can contain both stationary objects and moving objects. Fixed objects are objects that remain motionless from one frame to another. Thus, the pixels used to visualize the colors of a stationary object remain essentially the same in successive frames. Frame zones containing objects with the same color are called the background. Moving objects are objects that change the position in the frame relative to the previous position inside the previous frame in the sequence of images. If an object changes its position in the next frame relative to its position in the previous frame, then the pixels used to render the image of the object also change color in successive frames. Such areas of the frame are called foreground.
Некоторые варианты применения, такие как техника видеоизображения, часто основываются на обнаружении движения объектов в видеопоследовательностях. Во многих системах это обнаружение движения основывается на вычитании фона. Вычитание фона является простым и эффективным способом идентификации объектов и событий, представляющих интерес, в видеопоследовательности. Существенной стадией вычитания фона является обучение модели фона способности изучать частное окружение. В большинстве случаев это подразумевает получение изображений фона для последующего сравнения с тестируемыми изображениями, где могут иметься объекты переднего плана. Однако этот подход сталкивается с проблемами при применениях, где фон не присутствует или быстро меняется.Some applications, such as the video technique, are often based on detecting the movement of objects in video sequences. In many systems, this motion detection is based on subtracting the background. Subtracting a background is a simple and effective way of identifying objects and events of interest in a video sequence. An essential stage in background subtraction is the training of the background model for the ability to study the private environment. In most cases, this implies obtaining background images for subsequent comparison with the tested images, where there may be foreground objects. However, this approach encounters problems in applications where the background is not present or changes rapidly.
Некоторые способы, согласно уровню техники, которые направлены на решение этих проблем, часто называются сегментацией фона. Подходы к задаче сегментации фона можно грубо разделить на две стадии: сегментацию движения и обучение фону. Сегментацию движения используют для нахождения в каждом кадре видеопоследовательности зон, которые соответствуют движущимся объектам. Сегментацию движения начинают с поля движения, полученного из оптического потока, вычисленного в двух последовательных кадрах. Поле движения разделяют на два кластера с использованием k-средств. Наибольшую группу принимают за фон.Some methods, according to the prior art, which are aimed at solving these problems, are often called background segmentation. The approaches to the problem of background segmentation can be roughly divided into two stages: movement segmentation and background training. Segmentation of movement is used to find in each frame a video sequence of zones that correspond to moving objects. Segmentation of movement begins with the field of motion obtained from the optical stream, calculated in two consecutive frames. The motion field is divided into two clusters using k-means. The largest group is taken as the background.
Обучение фону состоит в обучении модели фона на остатке изображения. Основанное на модели вычитание фона состоит в вычитании фона из "музейных" цветных изображений на основе предположений о свойствах изображения. Это включает небольшое число объектов в фоне, который является относительно гладким с изменениями цвета в пространстве и легкими текстурами.Background training consists in training the background model on the remainder of the image. Model-based background subtraction consists in subtracting the background from the “museum” color images based on assumptions about the image properties. This includes a small number of objects in the background, which is relatively smooth with color changes in space and light textures.
Недостатком этих решений сегментации фона, согласно уровню техники, является то, что они предлагают основанный на пикселях подход к сегментации движения. При основанном на пикселях подходе анализируют каждый пиксель для принятия решения, относится ли он к фону или нет. Поэтому время Т обработки каждого пикселя является суммой времени Т1 обнаружения движения и времени Т2 обучения фону. Если кадр состоит из N пикселей, то время обработки одного кадра составляет T*N. Такой подход может быть достаточно надежным, но требует очень много времени.The disadvantage of these background segmentation solutions, according to the prior art, is that they offer a pixel-based approach to motion segmentation. In a pixel-based approach, each pixel is analyzed to decide whether it relates to the background or not. Therefore, the processing time T of each pixel is the sum of the motion detection time T1 and the background learning time T2. If the frame consists of N pixels, then the processing time of one frame is T * N. This approach can be quite reliable, but it takes a lot of time.
Краткое описание чертежейBrief Description of the Drawings
Ниже приводится описание изобретения с использованием конкретного примера со ссылками на прилагаемые фигуры чертежей, которые не ограничивают существо изобретения, при этом на фигурах чертежей изображено следующее:The following is a description of the invention using a specific example with reference to the accompanying figures of the drawings, which do not limit the essence of the invention, while the figures of the drawings depict the following:
фиг.1 - изображает вариант выполнения способа выделения фона изображения из видеопоследовательности;figure 1 - depicts an embodiment of a method of highlighting the background image from a video sequence;
фиг.2А - пример кадра из видеопоследовательности;figa is an example of a frame from a video sequence;
фиг.2В - другой пример кадра из видеопоследовательности, следующий за кадром, согласно фиг.2А;figv is another example of a frame from a video sequence following the frame according to figa;
фиг.2С - пример выполнения изображения обнаружения изменения;figs - an example of the implementation of the image change detection;
фиг.2D - пример выполнения контуров границы обнаружения изменения изображения, согласно фиг.2С;fig.2D is an example of the implementation of the contours of the borders of the detection of image changes according to figs;
фиг.2Е - пример выполнения конструкции оболочки;fige - an example of the design of the shell;
фиг.3 - вариант выполнения итеративной конструкции оболочки;figure 3 - embodiment of the iterative design of the shell;
фиг.4 - вариант выполнения схемы обучения фону;4 is an embodiment of a background learning scheme;
фиг.5 - пример выполнения относительного разброса текущих средних значений в зависимости от а;5 is an example of a relative variation in the current average values depending on a;
фиг.6 - пример признаков отслеживания примера фона кадра;6 is an example of signs of tracking example frame background;
фиг.7 - вариант выполнения обнаружения движения камеры и его компенсации;7 is an embodiment of the detection of camera movement and its compensation;
фиг.8 - пример процентного количества движущихся пикселей, сегментированных с помощью алгоритма локализации движения;Fig. 8 is an example of a percentage of moving pixels segmented using a motion localization algorithm;
фиг.9 - пример процентного количества пикселей фона, сегментированных в качестве переднего плана, полученного с помощью алгоритма локализации движения;Fig. 9 is an example of a percentage of background pixels segmented as a foreground obtained using a motion localization algorithm;
фиг.10 - пример выполнения компьютерной системы с камерой.figure 10 is an example of a computer system with a camera.
Подробное описаниеDetailed description
В последующем описании многочисленные специфичные детали описываются как примеры специальных систем, технологий, компонентов и т.д. с целью обеспечения глубокого понимания данного изобретения. Однако для специалистов в данной области техники очевидно, что эти специальные детали не являются обязательными для реализации изобретения. В других случаях хорошо известные из уровня техники компоненты и способы не описываются подробно с целью исключения ненужного усложнения данного описания.In the following description, numerous specific details are described as examples of special systems, technologies, components, etc. in order to provide a thorough understanding of the present invention. However, it will be apparent to those skilled in the art that these special details are not required to implement the invention. In other cases, components and methods well known in the art are not described in detail in order to avoid unnecessarily complicating this description.
Данное изобретение содержит различные стадии, описание которых приводится ниже. Стадии данного изобретения могут быть выполнены с помощью компонентов аппаратурного обеспечения или же могут быть представлены в выполняемых машинами командах, которые могут приводить к выполнению процессором общего назначения или специальным процессором, программируемым командами, указанных стадий. В качестве альтернативного решения, стадии могут выполняться с помощью комбинации аппаратурного обеспечения и программного обеспечения.This invention contains various stages, the description of which is given below. The stages of the present invention can be performed using hardware components or can be represented in instructions executed by machines, which can lead to the execution by a general-purpose processor or a special processor programmed by instructions of the indicated stages. Alternatively, steps may be performed using a combination of hardware and software.
Данное изобретение может быть предложено в виде компьютерной программы или программного обеспечения, которое может содержать машинно-считываемый носитель информации, имеющий хранящиеся в нем команды, которые можно использовать для программирования компьютерной системы (или других электронных устройств) для выполнения способа, согласно изобретению. Машинно-считываемый носитель информации включает любой механизм для хранения или передачи информации в виде (например, программного обеспечения, прикладных программ обработки и т.д.), пригодном для считывания машиной (например, компьютером). Машинно-считываемый носитель информации может включать, но не ограничиваясь этим, магнитный носитель записи (например, гибкий магнитный диск); оптический носитель записи (например, CD-ROM), магнитно-оптический носитель записи; постоянную память (ROM), оперативную память (RAM), стираемую программируемую память (например, EPROM и EEPROM), флэш-память, электрический, оптический, акустический сигнал или сигнал с другой формой распространения (например, несущие волны, инфракрасные сигналы, цифровые сигналы и т.д.) или другие типы носителей записи, подходящие для хранения электронных команд.The present invention may be proposed in the form of a computer program or software, which may comprise a computer-readable storage medium having instructions stored therein that can be used to program a computer system (or other electronic devices) to carry out the method according to the invention. A computer-readable storage medium includes any mechanism for storing or transmitting information in the form of (e.g., software, processing applications, etc.) suitable for reading by a machine (e.g., computer). A computer-readable storage medium may include, but is not limited to, a magnetic recording medium (eg, a flexible magnetic disk); an optical recording medium (e.g., CD-ROM); a magneto-optical recording medium; read-only memory (ROM), random access memory (RAM), erasable programmable memory (e.g. EPROM and EEPROM), flash memory, electrical, optical, acoustic or other waveforms (e.g. carrier waves, infrared signals, digital signals etc.) or other types of recording media suitable for storing electronic commands.
Данное изобретение может быть реализовано также в распределенной вычислительной системе, где машинно-считываемый носитель информации хранится и/или выполняется более чем одной компьютерной системой. Дополнительно к этому, информация, передаваемая между компьютерными системами, может распространяться методом опроса изменений или методом принудительной рассылки в среде связи, соединяющей компьютерные системы.The present invention can also be implemented in a distributed computing system, where a computer-readable storage medium is stored and / or executed by more than one computer system. In addition, the information transmitted between computer systems can be disseminated by the method of polling changes or by the method of forced distribution in a communication medium connecting computer systems.
Некоторые части описания представлены в виде алгоритмов или символьных представлений операций с битами данных, которые могут храниться в памяти и с которыми может работать компьютер. Эти алгоритмы и представления являются средствами, используемыми специалистами в данной области техники для эффективного выполнения своей работы. Алгоритм обычно понимается как самодостаточная последовательность действий, приводящих к желаемому результату. Действиями являются действия, требующие обращения с количествами. Обычно, но не обязательно, эти количества принимают вид электрических или магнитных сигналов, которые можно хранить, передавать, комбинировать, сравнивать и т.д. Иногда удобно для общего пользования называть эти сигналы битами, величинами, элементами, символами, знаками, понятиями, числами, параметрами или т.п.Some parts of the description are presented in the form of algorithms or symbolic representations of operations with data bits that can be stored in memory and with which the computer can work. These algorithms and representations are the means used by specialists in the given field of technology for the effective performance of their work. An algorithm is usually understood as a self-contained sequence of actions leading to the desired result. Actions are actions requiring the handling of quantities. Usually, but not necessarily, these quantities take the form of electrical or magnetic signals that can be stored, transmitted, combined, compared, etc. Sometimes it is convenient for general use to call these signals bits, quantities, elements, symbols, signs, concepts, numbers, parameters, etc.
Ниже приводится описание способа и системы для выделения фона изображения из видеопоследовательности с объектами переднего плана. Зоны фона в кадре, которые не перекрываются объектами переднего плана во время видеопоследовательности, могут быть захвачены посредством обработки отдельных кадров видеопоследовательности.The following is a description of a method and system for extracting an image background from a video sequence with foreground objects. Background areas in the frame that are not overlapped by foreground objects during the video sequence can be captured by processing individual frames of the video sequence.
На фиг.1 показан конкретный неограничивающий вариант выполнения способа выделения фона изображения из видеопоследовательности. В одном варианте выполнения способ может включать локализацию движущихся объектов в изображении с использованием маски обнаружения изменений на стадии 110 и обучение модели фона на остальных зонах изображения на стадии 120. При локализации движущихся объектов на стадии 110 границы движущихся объектов, которые имеют однородный цвет для, по меньшей мере, двух последовательных кадров, маркируют посредством создания одной или нескольких оболочек, которые охватывают зоны, соответствующие движущимся объектам. Остаток изображения рассматривается в качестве фона и используется для обучения модели фона на стадии 120. В одном варианте выполнения фон может также использоваться для обнаружения и компенсации движения камеры на стадии 130.Figure 1 shows a specific non-limiting embodiment of a method for extracting a background image from a video sequence. In one embodiment, the method may include localizing moving objects in the image using a change detection mask in step 110 and training the background model in the remaining areas of the image in step 120. When localizing moving objects in step 110, the boundaries of moving objects that are uniform in color, at least two consecutive frames are marked by creating one or more shells that span areas corresponding to moving objects. The remainder of the image is considered as a background and is used to train the background model in step 120. In one embodiment, the background can also be used to detect and compensate for camera movement in step 130.
На фиг.2А и 2В показаны два последовательных кадра одной и той же видеопоследовательности. В качестве примера стадии 110 на фиг.1 предполагается, что в видеопоследовательности представлен только один движущийся объект 205 (например, части шагающего человека), который имеет однородный цвет. В кадре 25 части шагающего человека 205 могут иметь измененное положение по сравнению с их положением в кадре 250. Разница между этими двумя кадрами - кадром 250 и кадром 255 изображения является объектом или его частями, который переместился и который показан на фиг.2С в виде изображения 209 обнаружения изменения. Например, левая нога 261 человека почти не видна в изображении 209, поскольку человек делает шаг правой ногой 264, одновременно сохраняя левую ногу 206 по существу без движения на полу. Таким образом, левая нога 262 человека не появляется в изображении 209 обнаружения изменения. В противоположность этому, пятка правой ноги 264 человека поднялась из кадра 250 в кадре 255, и поэтому она появилась в изображении 209 обнаружения изменения.2A and 2B show two consecutive frames of the same video sequence. As an example of step 110 in FIG. 1, it is assumed that only one moving object 205 (e.g., parts of a walking person) that has a uniform color is represented in the video sequence. In frame 25, parts of the walking
Применение маски 219 обнаружения изменения приводит к маркировке лишь пограничных контуров 210, 211 и 212 движущихся зон 209 однородного цвета, а не самих зон полностью, как показано на фиг.2D. Например, контур 210 соответствует границе вокруг торса, рук и наружных частей ног объекта 205; контур 210 соответствует границе вокруг внутренних частей ног объекта 205; и контур 212 соответствует голове и шее движущегося объекта 205. В результате маска 219 обнаружения изменения содержит намного меньшее число пикселей, чем общее число пикселей в кадре. Использование алгоритма обнаружения изменения для изображения высокого разрешения с последующей обработкой маски обнаружения изменения для локализации движения занимает намного меньше времени, чем применение сложной технологии развертки, подобной оптическому потоку.The use of a
Все движущиеся объекты локализуют посредством применения быстрого анализа связанных компонентов к маске 219 обнаружения изменения, в результате которого конструируют оболочку 239 вокруг контура каждой движущейся зоны, как показано на фиг.2Е. Например, оболочку 220 создают вокруг контура 210, оболочку 221 - вокруг контура 211, и оболочку 222 - вокруг контура 212.All moving objects are localized by applying a quick analysis of related components to the
Пусть It является изображением в момент времени t, mt⊂It является комплектом пикселей, которые соответствуют действительно движущимся объектам, и Mt⊂It - комплект пикселей, которые принадлежат одной из оболочек. Локализация означает, что Mt должно охватывать mt. На практике, если пиксель р принадлежит к St=It-Mt, то он соответствует статичному объекту с высокой степенью достоверности.Let I t be an image at time t, m t ⊂I t be a set of pixels that correspond to really moving objects, and M t ⊂I t be a set of pixels that belong to one of the shells. Localization means that M t should cover m t . In practice, if the pixel p belongs to S t = I t -M t , then it corresponds to a static object with a high degree of reliability.
Для нахождения движущихся объектов алгоритм обнаружения изменения применяют к кадрам видеопоследовательности (например, к кадрам 250 и 255). В одном варианте выполнения можно использовать, например, алгоритм обнаружения изменения, описанный в "Введение в технологию трехмерного компьютерного зрения" Эмануэля Трукко и Алессандро Верри, Издательство "Prentice Hall", 1998 год. В качестве альтернативного решения можно использовать другие алгоритмы обнаружения изменения. Кроме того, алгоритм обнаружения изменения можно выбирать на основе требований конкретного применения.To find moving objects, a change detection algorithm is applied to frames of a video sequence (for example, frames 250 and 255). In one embodiment, you can use, for example, the change detection algorithm described in "Introduction to 3D Computer Vision Technology" by Emanuel Trukko and Alessandro Verry, Prentice Hall, 1998. As an alternative solution, other change detection algorithms may be used. In addition, a change detection algorithm can be selected based on the requirements of a particular application.
Если для любого n , то пиксель рассматривается как движущийся, где является максимальным изменением в последовательно текущих средних величинах, так что модель фона для пикселей рассматривается как обученная. Пороговое значение - выбрано как произведение σ(n) вычисленное из последовательности изображений статичной сцены, где σ является стандартным отклонением нормального распределения цвета пикселей в случае одного или нескольких цветных каналов. В одном варианте выполнения маска обнаружения изменения маркирует зоны изменения шума и освещенности дополнительно к границам движущихся зон однородного цвета. Как указывалось выше, для локализации движущегося объекта создают оболочку этих зон, так что она содержит движущиеся пиксели и не захватывает, по возможности, статичные пиксели.If for any n , then the pixel is considered moving, where is the maximum change in successively current averages, so the background model for pixels is considered trained. The threshold value is selected as the product σ (n) calculated from a sequence of images of a static scene, where σ is the standard deviation of the normal distribution of pixel colors in the case of one or more color channels. In one embodiment, a change detection mask marks areas of variation in noise and light in addition to the boundaries of moving areas of uniform color. As indicated above, to localize a moving object, create a shell of these zones, so that it contains moving pixels and does not capture, if possible, static pixels.
Движущийся объект является накоплением зон обнаружения изменения в текущий момент времени t. Для упрощения можно принять, что имеется лишь один движущийся объект. Все связанные компоненты в маске обнаружения изменения и их контуры установлены. В одном варианте выполнения для избавления от контуров шума (например, контура 231 на фиг.2D) зоны с малой площадью отфильтровываются. Затем выбирают контур Сmax с наибольшей площадью (который соответствует объекту или его границе), например контур 220 на фиг.2D. Итеративное конструирование оболочки Н начинают посредством объединения Сmax с другими площадями контуров (например, контуров 221 и 222). Эти другие площади контуров представляют другие движущиеся зоны движущегося объекта 205.A moving object is the accumulation of change detection zones at the current time t. For simplicity, we can assume that there is only one moving object. All related components in the change detection mask and their contours are installed. In one embodiment, to eliminate noise loops (e.g.,
На фиг.3 показан вариант выполнения итеративного построения оболочки. На стадии 120 для всех контуров Сi конструируют их выпуклые оболочки. Выпуклая оболочка является наименьшим выпуклым многоугольником, который содержит один или несколько компонентов движущихся зон. Выпуклую оболочку контура Сi обозначают как Нi, а выпуклую оболочку контура Cmax - как Нmax. На стадии 320 находят индекс k, так что евклидово расстояние между Hk и Нmax является минимальным:Figure 3 shows an embodiment of the iterative construction of the shell. At step 120, convex hulls are constructed for all C i loops. A convex hull is the smallest convex polygon that contains one or more components of moving zones. The convex hull of the contour C i is denoted by H i , and the convex hull of the contour C max is denoted by H max . At
k=arg min(dist(Hi, Нmax)) и dk=min dist(Hi, Нmax).k = arg min (dist (H i , H max )) and d k = min dist (H i , H max ).
На стадии 340 определяют, находится ли выпуклая оболочка внутри минимального расстояния Dmax выпуклой оболочки Сmax (dk меньше пороговой величины Dmax). Если это так, то конструируют выпуклую оболочку вокруг комплекта оболочек Hk и Нmax на стадии 350. Если нет, то повторяют стадию 340 для следующего контура на стадии 345. На стадии 360 обозначают и на стадии 370 определяют, были ли учтены все контуры. Затем все повторяют со стадии 320, пока все Сi не будут учтены. В противном случае переходят на стадию 380. На стадии 380 устанавливают движущуюся зону равной самому последнему максимальному контуру (Mt=Нmax). Указанные выше стадии можно объединить для случая нескольких движущихся объектов.At
Качество указанного выше алгоритма можно оценить с использованием двух величин. Первая величина является условной вероятностью того, что пиксель рассматривается как движущийся при условии, что он действительно соответствует движущемуся объекту:The quality of the above algorithm can be estimated using two values. The first value is the conditional probability that a pixel is considered to be moving, provided that it really corresponds to a moving object:
P1=Р(р∈Мt|р∈mt).P 1 = P (p∈M t | p∈m t ).
Вторая величина является условной вероятностью того, что пиксель рассматривается как движущийся при условии, что он является статичным: Р2=P(p∈Mt|p∈It-mt), где It является изображением в момент времени t, mt является комплектом пикселей в It, которые соответствуют движущимся объектам, и Mt является комплектом пикселей в It, которые претерпели значительное изменение в цвете в последнем или нескольких последних кадрах.The second quantity is the conditional probability that the pixel is considered to be moving, provided that it is static: P 2 = P (p∈M t | p∈I t -m t ), where I t is the image at time t, m t is a set of pixels in I t that correspond to moving objects, and M t is a set of pixels in I t that have undergone a significant change in color in the last or several last frames.
P1 должно быть как можно больше, в то время как Р2 должно быть небольшим. Если P1 является недостаточно большим, то может быть выполнено обучение искаженному фону, в то время как при недостаточно малом P2 увеличивается время обучения. P1 и Р2 должны, очевидно, расти с увеличением Dmax. Это определяет Dmax как минимальную величину, обеспечивающую P1 выше определенного уровня достоверности. Выбор Dmax будет описан со ссылками на применительно к фиг.8.P 1 should be as large as possible, while P 2 should be small. If P 1 is not large enough, then a distorted background can be trained, while with P 2 not enough small, the training time increases. P 1 and P 2 should obviously increase with increasing D max . This defines D max as the minimum value providing P 1 above a certain level of confidence. The selection of D max will be described with reference to FIG.
Как указывалось выше, маска обнаружения изменения маркирует лишь границы однородных движущихся зон. Кроме того, она может не маркировать зоны, которые движутся достаточно медленно. Поэтому некоторые медленно движущиеся объекты могут постоянно переходить в фон, а некоторые движущиеся объекты могут случайно рассматриваться как принадлежащие к фону. Одно решение первой проблемы состоит в выполнении обнаружения изменения несколько раз с разными опорными кадрами, например одним кадром перед текущим кадром, двумя кадрами перед текущим кадром и т.д. Одно решение второй проблемы состоит в выполнении обучения фону с учетом того, что некоторые кадры фона могут быть искажены. В этом отношении две характеристики алгоритма локализации движения представляют интерес: вероятность Р(m) того, что движущийся пиксель неправильно классифицирован m раз подряд, а индекс m* является таким, что вероятность P(m*) находится ниже уровня достоверности, в этом случае m* можно использовать в качестве параметра для алгоритма обучения фону.As indicated above, the change detection mask only marks the boundaries of uniform moving zones. In addition, it may not mark areas that move quite slowly. Therefore, some slowly moving objects can constantly turn into the background, and some moving objects can be accidentally considered to belong to the background. One solution to the first problem is to perform change detection several times with different reference frames, for example, one frame before the current frame, two frames before the current frame, etc. One solution to the second problem is to do background training, given that some background frames may be distorted. In this regard, two characteristics of the motion localization algorithm are of interest: the probability P (m) that the moving pixel is incorrectly classified m times in a row, and the index m * is such that the probability P (m *) is below the confidence level, in this case m * can be used as a parameter for the background learning algorithm.
Как показано на фиг.1, когда все движущиеся зоны в текущем кадре локализованы на стадии 110, то выполняется обучение модели фона с заданными статичными пикселями текущего кадра на стадии 120. Цвет пикселя может быть охарактеризован в заданный момент времени тремя величинами {X(n)}, n=1...3, которые в случае статичного пикселя можно приемлемо моделировать нормальными распределениями N(μ(n), σ(n)) с неизвестными средними μ(n) и стандартными отклонениями σ(n).As shown in FIG. 1, when all the moving areas in the current frame are localized at step 110, the background model is trained with the given static pixels of the current frame at step 120. The color of the pixel can be characterized at a given point in time by three values {X (n) }, n = 1 ... 3, which in the case of a static pixel can be reasonably modeled by normal distributions N (μ (n) , σ (n) ) with unknown mean μ (n) and standard deviations σ (n) .
Обучение выполняют в несколько стадий для удаления выбросов, создаваемых неправильным предсказанием на стадии 110. Со случайными изменениями фона можно обращаться аналогичным образом. Если пиксель переднего плана представляет нормальное распределение с небольшим отклонением в течение длительного времени, то это рассматривается как изменение фона и модель фона сразу же обновляется. Для сегментации фона в каждом изображении можно использовать вычитание фона, как описано, например, в статье "Не параметрическая модель для вычитания фона" Ахмеда Эльгамалля, Дэвида Харвуда, Ларри Дэвиса, Proc. ECCV, том 2, страницы 751-767, 2000. А в альтернативном варианте выполнения настоящего изобретения можно использовать другие методы вычитания фона.The training is carried out in several stages to remove the outliers created by the incorrect prediction in step 110. Random background changes can be handled in a similar way. If the foreground pixel represents a normal distribution with a slight deviation for a long time, then this is considered as a background change and the background model is immediately updated. To subtract the background in each image, you can use background subtraction, as described, for example, in the article “Non-parametric model for background subtraction” by Ahmed Elgamall, David Harwood, Larry Davis, Proc. ECCV, Volume 2, Pages 751-767, 2000. And in an alternative embodiment of the present invention, other background subtraction methods may be used.
Во время процесса обучения используют вычисление величин μ(n) с использованием обновления текущего среднего:During the learning process, the calculation of μ (n) using the update of the current average is used:
где ti обозначает кадры, где пиксель был классифицирован как статичный.where t i denotes frames where the pixel has been classified as static.
Когда последовательность сходится, т.е. разница между и является небольшой:When the sequence converges, i.e. difference between and is small:
то модель фона рассматривается как обученная в этом пикселе и . Поэтому каждый пиксель может соответствовать одному из четырех состояний, показанных на фиг.4: состояние 410 неизвестного фона (что соответствует пикселям, которые никогда не были в St), состояние 420 необученного фона (когда набирается статистика и не выполняется неравенство 2), состояние 430 обученного фона (выполняется неравенство 2) и состояние 440 переднего плана (когда обучение фону выполнено и на текущем кадре обнаружен передний план с помощью вычитания фона). Возможные переходы показаны на фиг.4. Переход А471 происходит, когда пиксель появляется в St первый раз. Переход В472 происходит, когда модель пикселя рассматривается как достаточно обученная. Переход С473 происходит, когда передний фон является статичным в течение длительного периода времени.then the background model is considered as trained in this pixel and . Therefore, each pixel can correspond to one of four states shown in FIG. 4:
С целью упрощения пиксель в заданный момент времени t можно характеризовать с помощью лишь одной величины Xt. Уравнение (1) и неравенство (2) содержат неизвестные параметры α и β, которые определяют процесс обучения. Подходящий выбор этих параметров обеспечивает быстрое и в то же время статистически оптимальное обучение фону. При предположении, что X1=I+Δt, где I является постоянной величиной цвета пикселя фона, и Δ является шумом Гаусса с нулевым средним в цвете пикселя в момент времени t со стандартным отклонением Δσ, то для δt=μt-I получают следующее равенство δt=(1-α)δti-1+αΔti, где δt является разницей текущего среднего и постоянным цветом фона.In order to simplify, a pixel at a given point in time t can be characterized using only one quantity X t . Equation (1) and inequality (2) contain unknown parameters α and β, which determine the learning process. A suitable choice of these parameters provides fast and at the same time statistically optimal background training. Under the assumption that X 1 = I + Δt, where I is a constant value of the background pixel color, and Δ is a Gaussian noise with a zero average in the pixel color at time t with a standard deviation Δσ, then for δ t = μ t -I get the following equality δ t = (1-α) δ ti-1 + αΔ ti , where δ t is the difference of the current average and constant background color.
δt имеет нормальное распределение со средним и отклонением σt.δ t has a normal distribution with mean and deviation σ t .
, где а является текущей средней постоянной where a is the current average constant
Для того чтобы иметь надежный фон обучение фону должно проводиться достаточно длительное время, чтобы быть уверенным, что обучение фону не выполнено с помощью движущегося объекта. Другими словами, если величина пикселя изменяется значительно, то обучение должно продолжаться по меньшей мере в течение m* кадров. Поэтому должно выполняться следующее неравенство:In order to have a reliable background, background training should be conducted for a sufficiently long time to be sure that background training has not been performed using a moving object. In other words, if the pixel value changes significantly, then training should continue for at least m * frames. Therefore, the following inequality must be satisfied:
где δto равно σΔ и m* является минимальным числом последовательных кадров, так что вероятность P(m*) ниже уровня достоверности; другими словами, можно предположить, что ни один пиксель не был неправильно классифицирован во всех m* последовательных кадрах. В одном варианте выполнения может не быть причины делать β меньше, чем величина, заданная в неравенстве (4), поскольку это резко увеличивает время, необходимое для обучения фону.where δ to is equal to σΔ and m * is the minimum number of consecutive frames, so that the probability P (m *) is below the confidence level; in other words, it can be assumed that not a single pixel was misclassified in all m * consecutive frames. In one embodiment, there may be no reason to make β smaller than the value specified in inequality (4), since this drastically increases the time required to teach the background.
В то же время стандартное отклонение δm* должно быть как можно меньше. Можно доказать, что как функция α∈[0, 1] имеет один минимум , гдеAt the same time, the standard deviation δ m * should be as small as possible. It can be proved that as a function α∈ [0, 1] has one minimum where
Примеры ζ(α) для разных чисел кадров показаны на фиг.5.Examples of ζ (α) for different frame numbers are shown in FIG. 5.
На фиг.5 показан пример выполнения относительного рассеяния текущего среднего в зависимости от значений α. В одном варианте выполнения сплошная линия 510 соответствует пятому кадру, пунктирная линия 520 соответствует десятому кадру, а штрих-пунктирная линия 530 соответствует двадцатому кадру.Figure 5 shows an example of the relative dispersion of the current average depending on the values of α. In one embodiment, the
Выбор слишком большой или слишком малой величины а приводит к большой статистической неопределенности δ, и текущее среднее μа=а*m* можно выбирать так, что при статичном пикселе фона текущее среднее μtm*, принимаемое в качестве величины фона пикселя, имеет минимально возможное стандартное отклонение. Заданное m*, неравенство 4 и равенство 5 задают оптимальную величину β и α.Selecting too large or too small a leads to a large statistical uncertainty δ, and the current average μa = a * m * can be chosen so that for a static background pixel, the current average μ tm * , taken as the pixel background value, has the lowest possible standard deviation. Given m *, inequality 4, and equality 5 determine the optimal value of β and α.
В одном варианте выполнения изменения фона могут учитываться при обучении модели фона. Предположим, что камера не движется, а фон значительно изменился, хотя после этого остается статичным. Например, один из статичных объектов переместился в другое положение. Система маркирует прежнее и текущее места объекта как передний план. Такие пиксели обычно не являются пикселями переднего плана, а являются статичным фоном. Это свойство позволяет отслеживать такие изменения фона и адаптировать модель фона. Модель обучают для каждого пикселя в фоне, и если он имеет статичное поведение в течение длительного периода времени, то его состояние изменяется в состояние не обученного фона. После заданного числа кадров (например, трех кадров) он становится обученным фоном.In one embodiment, background changes may be considered when training the background model. Suppose the camera does not move, and the background has changed significantly, although after that it remains static. For example, one of the static objects has moved to a different position. The system marks the previous and current places of the object as the foreground. These pixels are usually not foreground pixels, but are a static background. This property allows you to track such background changes and adapt the background model. The model is trained for each pixel in the background, and if it has a static behavior for a long period of time, then its state changes to the state of an untrained background. After a given number of frames (for example, three frames), it becomes a trained background.
Как показано на фиг.1, в одном варианте выполнения фон можно также использовать для обнаружения и компенсации движения камеры на стадии 130. Описанные выше способы можно обобщить для случая движущейся камеры посредством включения быстрого обнаружения глобального движения. Когда часть изображения принимает состояние 430 обученного фона, согласно фиг.4, то вычитание 450 фона можно применять к каждому кадру и алгоритм оценки глобального движения воздействует на найденную маску фона.As shown in FIG. 1, in one embodiment, the background can also be used to detect and compensate for camera movement in step 130. The methods described above can be generalized to the case of a moving camera by enabling fast global motion detection. When a part of the image assumes the trained
На фиг.7 показан вариант выполнения обнаружения и компенсации движения камеры. В одном варианте выполнения признаки кадра выбраны с возможностью отслеживания фона на стадии 710, например, углов 681-693, как показано на фиг.6. Можно использовать оптический поток для отслеживания нескольких сильных признаков фона для определения движения камеры на стадии 720. В одном варианте выполнения технология выбора признаков соответствует технологии, описанной в статье "Хорошие признаки для отслеживания" Джианбо Ши и Карло Томаси, Proc. CVPR, страницы 593-600, 1994. В одном варианте выполнения технология отслеживания признаков соответствует технологии, описанной в "Введение в технологию трехмерного компьютерного зрения" Эмануэля Трукко и Алессандро Верри, Издательство "Prentice Hall", 1998. В качестве альтернативного решения можно использовать другие признаки, выбор признаков и способы отслеживания.7 shows an embodiment of the detection and compensation of camera movement. In one embodiment, the features of the frame are selected with the ability to track the background at
После обнаружения глобального движения в фоне, указывающего на движение камеры на стадии 730, модель фона возвращается в исходное состояние на стадии 740 путем перевода всех пикселей в состояние неизвестного фона (например, состояние 410 на фиг.4). Отслеживание признаков обеспечивает хорошую оценку глобального движения при отслеживании точек устойчивым образом в течение длительного времени. Если все пиксели фона потеряны, то можно отслеживать определенный процент пикселей из алгоритма обнаружения изменения. Если обнаруживается ложный конец движения (может иметь место небольшая скорость обнаружения изменения во время движения камеры, например, из-за однородного фона), то на стадиях 110 и 120 локализации движения и обучения, согласно фиг.1, производится фильтрация неправильных величин пикселей. Когда на стадии 760 камера прекращает движение, то снова начинается обучение модели фона для каждой величины пикселя (стадия 120 на фиг.1).After detecting global movement in the background, indicating the movement of the camera in
Ниже приводятся некоторые результаты экспериментов с использованием способов локализации движения и обучения фону. Следует отметить, что экспериментальные результаты приведены лишь для целей более наглядного описания данного изобретения и не должны ограничивать данное изобретение. В одном варианте выполнения описываемая схема осуществлялась с использованием Библиотеки обработки изображений (Image Processing Library), представленной на рынке компанией Intel®, и Библиотеки компьютерного зрения с открытым источником (OpenCV) компании Intel в системе, способной обрабатывать 320×240 изображений за 15 мс. Тестирование выполнялось на большом числе видеопоследовательностей, снятых непосредственно видеокамерой USB.The following are some experimental results using methods for localizing movement and learning the background. It should be noted that the experimental results are presented only for the purpose of more descriptive description of the present invention and should not limit this invention. In one embodiment, the described circuit was implemented using the Image Processing Library, marketed by Intel ® , and Intel's Open Source Computer Vision Library (OpenCV) in a system capable of processing 320 × 240 images in 15 ms. Testing was performed on a large number of video sequences shot directly by a USB video camera.
Пороговое значение Dmax локализации движения можно в одном варианте выполнения выбирать согласно фиг.8. На фиг.8 показаны в качестве примера результаты тестирования алгоритма на видеопоследовательности и сравнение этих результатов с сегментацией переднего плана на основе вычитания фона. Величина P1 представляет процентное содержание пикселей из переднего плана, которые классифицировались как движущиеся пиксели. В альтернативных вариантах выполнения пороговое значение Dmax можно выбирать на основе других эмпирических данных или с помощью других способов, например имитирования, моделирования и допущений.The threshold value D max of the localization of movement in one embodiment can be selected according to Fig. 8. Fig. 8 shows, by way of example, the results of testing the algorithm on video sequences and comparing these results with foreground segmentation based on background subtraction. The value of P 1 represents the percentage of pixels from the foreground that are classified as moving pixels. In alternative embodiments, the threshold value D max can be selected based on other empirical data or using other methods, such as simulations, simulations, and assumptions.
На фиг.9 показано процентное содержание пикселей фона, сегментированных в качестве переднего плана, полученного с помощью тех же способов. Указанные выше P1 и Р2 можно варьировать с использованием параметра Dmax. Для Dmax=15 вычисляют число n(m) пикселей переднего плана, которые были неправильно классифицированы m раз подряд. Результаты приведены в следующей таблице:Figure 9 shows the percentage of background pixels segmented as a foreground obtained using the same methods. The above P 1 and P 2 can be varied using the parameter D max . For D max = 15, the number n (m) of foreground pixels that are incorrectly classified m times in a row is calculated. The results are shown in the following table:
Приняв m*=5, получают для приведенных выше неравенства (4) и равенства (5) следующие значения: α~0,25 и β~0,71.Taking m * = 5, we obtain the following values for inequality (4) and equality (5): α ~ 0.25 and β ~ 0.71.
На фиг.10 показан вариант выполнения компьютерной системы (например, системы клиента или сервер) в виде цифровой процессорной системы, представляющей собой, например, рабочую станцию, сервер, персональный компьютер, компактный компьютер, переносной компьютер, персональный цифровой ассистент, радиотелефон, телеприставку и т.д., в которой можно реализовать признаки данного изобретения. Цифровую процессорную систему 1000 можно использовать для таких применений, как видеонаблюдение, видеоконференция, зрение роботов и т.д.Figure 10 shows an embodiment of a computer system (for example, a client or server system) in the form of a digital processor system, which is, for example, a workstation, server, personal computer, compact computer, laptop computer, personal digital assistant, cordless telephone, set top box and etc., in which you can implement the features of the present invention.
Цифровая процессорная система 1000 включает одну или более шин или другие средства для передачи данных между компонентами цифровой процессорной системы 1000. Цифровая процессорная система 1000 включает также средства обработки данных, такие как процессор 1002, соединенный с системной шиной для обработки информации. Процессор 1002 может представлять один или более процессоров общего назначения (например, процессор Motorola PowerPC или процессор Intel Pentium) или специальный процессор, такой как цифровой сигнальный процессор (DSP) (например, Texas Instrument DSP). Процессор 1002 может быть выполнен с возможностью выполнения команд для осуществления указанных выше операций и стадий. Например, процессор 1002 может быть выполнен с возможностью обработки алгоритма для локализации движущегося объекта в кадрах видеопоследовательности.The
Кроме того, цифровая процессорная система 1000 включает системную память 1004, которая может включать оперативную память (RAM) или другое устройство динамической памяти, соединенное с контроллером 1065 памяти, для хранения информации и команд, подлежащих исполнению процессором 1002. Контроллер 1065 управляет операциями между процессором 1002 и устройствами памяти, такими как память 1004. Память 1004 можно также использовать для хранения временных переменных или другой промежуточной информации во время исполнения команд процессором 1002. Память 1004 представляет одно или более устройств памяти, например память 1004, может также содержать постоянную память (ROM) и/или другое устройство статического хранения для хранения статической информации и команд для процессора 1002.In addition, the
Цифровая процессорная система 1000 может содержать также контроллер 1070 ввода/вывода для управления операциями между процессором 1002 и одним или более устройствами 1075 ввода-вывода, клавиатуру и мышь. Контроллер 1075 ввода-вывода может также управлять операциями между процессором 1002 и периферийными устройствами, например устройством 1007 хранения. Устройство 1007 хранения представляет одно или более устройств хранения (например, привод магнитного диска или привод оптического диска), соединенных с контроллером 1070 ввода-вывода, для хранения информации и команд. Устройство 1007 хранения можно использовать для хранения команд для выполнения указанных выше стадий. Контроллер 1070 ввода-вывода может быть также соединен с базовой системой 1050 ввода-вывода (BIOS) для загрузки цифровой процессорной системы 1000.The
Цифровая процессорная система содержит также видеокамеру 1071 для записи и/или воспроизведения видеопоследовательностей. Камера 1071 может быть соединена с контроллером 1070 ввода-вывода с использованием, например, универсальной последовательной шины (USB) 1073. В качестве альтернативного решения, для соединения камеры 1071 с контроллером 1070 ввода-вывода можно использовать другие типы шин, например противопожарную проводную шину. С контроллером 1070 ввода-вывода может быть соединено дисплейное устройство 1021, такое как катодно-лучевая трубка или жидкокристаллический дисплей, для отображения видеопоследовательностей для пользователя.The digital processor system also comprises a
Устройство 1026 связи (например, модем или плата интерфейса с сетью) может быть также соединено с контроллером 1070 ввода-вывода. Например, устройство 1026 связи может быть платой локальной сети Ethernet, платой локальной сети с маркерным кольцом или другим типом интерфейса для обеспечения линии связи с сетью, с которой цифровая процессорная система 1000 приспособлена устанавливать соединение. Например, устройство 1026 связи можно использовать для приема данных, относящихся к видеопоследовательностям, из другой камеры и/или компьютерной системы или сети.A communication device 1026 (e.g., a modem or network interface card) may also be connected to an input /
Следует отметить, что показанная на фиг.10 архитектура является лишь примером. В альтернативных вариантах выполнения настоящего изобретения можно использовать другую архитектуру для цифровой процессорной системы 1000. Например, контроллер 1065 памяти и контроллер 1070 ввода-вывода могут быть интегрированы в единственный компонент и/или разные компоненты могут быть соединены друг с другом в другие конфигурации (например, непосредственно друг с другом) или с помощью других типов шин.It should be noted that the architecture shown in FIG. 10 is only an example. In alternative embodiments of the present invention, a different architecture can be used for the
В приведенном выше описании на конкретных примерах был представлен новый и быстрый способ извлечения фона из последовательности изображений с движущимися объектами переднего плана. Способ использует операции обработки изображения и контуров и способен надежно извлекать фон для небольшого числа кадров. Например, способ может работать примерно с 30 кадрами в типичной для видеоконференции видеопоследовательности со статичным фоном и одним человеком на переднем плане. Это является значительным преимуществом для видеоприменений в реальном времени, таких как наблюдение и зрение роботов, по сравнению с системами, известными согласно уровню техники, которые основываются на дорогих вычислительных операциях. Способы, согласно данному изобретению, можно применять для решения широкого круга задач, которые связаны со стационарным фоном и представляющими интерес объектами на переднем плане. Дополнительно к этому, универсальность систем обеспечивает выбор алгоритма обнаружения изменения для потребностей конкретного применения. Такие способы можно также использовать в соединении с сжатием видеоданных с использованием преимущества знания статичных зон в последовательности.In the above description, specific examples presented a new and quick way to extract the background from a sequence of images with moving foreground objects. The method uses image processing and contouring and is able to reliably extract the background for a small number of frames. For example, the method can work with approximately 30 frames in a typical video sequence for a video conference with a static background and one person in the foreground. This is a significant advantage for real-time video applications, such as observation and vision of robots, compared to systems known in the art that rely on expensive computing operations. The methods according to this invention can be used to solve a wide range of problems that are associated with a stationary background and objects of interest in the foreground. In addition, the versatility of systems provides the choice of a change detection algorithm for the needs of a particular application. Such methods can also be used in conjunction with video compression, taking advantage of the knowledge of static zones in sequence.
В приведенном выше описании было представлено изобретение со ссылками на конкретные примеры его выполнения. Однако, очевидно, что возможны различные модификации и изменения без отхода от более широко понимаемых сущности и объема изобретения, представленных в прилагаемой формуле изобретения. В соответствии с этим описание и чертежи следует рассматривать как иллюстрацию, а не для ограничения изобретения.In the above description, the invention was presented with reference to specific examples of its implementation. However, it is obvious that various modifications and changes are possible without departing from the more widely understood essence and scope of the invention presented in the attached claims. Accordingly, the description and drawings should be considered as an illustration, and not to limit the invention.
Claims (41)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2004115026/09A RU2276407C2 (en) | 2001-10-22 | 2001-10-22 | Method and device for background segmentation on basis of movement localization |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2004115026/09A RU2276407C2 (en) | 2001-10-22 | 2001-10-22 | Method and device for background segmentation on basis of movement localization |
Publications (2)
Publication Number | Publication Date |
---|---|
RU2004115026A RU2004115026A (en) | 2005-11-10 |
RU2276407C2 true RU2276407C2 (en) | 2006-05-10 |
Family
ID=35864802
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2004115026/09A RU2276407C2 (en) | 2001-10-22 | 2001-10-22 | Method and device for background segmentation on basis of movement localization |
Country Status (1)
Country | Link |
---|---|
RU (1) | RU2276407C2 (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2476933C1 (en) * | 2011-06-16 | 2013-02-27 | Федеральный научно-производственный центр Открытое акционерное общество "Научно-производственное объединение "Марс" | Method of simulating images with varying correlation properties |
RU2508606C2 (en) * | 2008-09-24 | 2014-02-27 | Зте Корпорейшн | Method and system for controlling video surveillance record playback |
RU2534827C2 (en) * | 2013-04-12 | 2014-12-10 | Закрытое акционерное общество "НТК" | Method for video surveillance of open space with fire hazard monitoring |
RU2546600C2 (en) * | 2013-08-01 | 2015-04-10 | Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." | Method and system for detecting small or thin objects on images (versions) |
RU2744699C1 (en) * | 2017-12-14 | 2021-03-15 | Кэнон Кабусики Кайся | Generating apparatus, method of generation and program for a three-dimensional model |
-
2001
- 2001-10-22 RU RU2004115026/09A patent/RU2276407C2/en not_active IP Right Cessation
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2508606C2 (en) * | 2008-09-24 | 2014-02-27 | Зте Корпорейшн | Method and system for controlling video surveillance record playback |
RU2476933C1 (en) * | 2011-06-16 | 2013-02-27 | Федеральный научно-производственный центр Открытое акционерное общество "Научно-производственное объединение "Марс" | Method of simulating images with varying correlation properties |
RU2534827C2 (en) * | 2013-04-12 | 2014-12-10 | Закрытое акционерное общество "НТК" | Method for video surveillance of open space with fire hazard monitoring |
RU2546600C2 (en) * | 2013-08-01 | 2015-04-10 | Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." | Method and system for detecting small or thin objects on images (versions) |
RU2744699C1 (en) * | 2017-12-14 | 2021-03-15 | Кэнон Кабусики Кайся | Generating apparatus, method of generation and program for a three-dimensional model |
US11151787B2 (en) | 2017-12-14 | 2021-10-19 | Canon Kabushiki Kaisha | Generation device, generation method and storage medium for three-dimensional model from object images and structure images |
Also Published As
Publication number | Publication date |
---|---|
RU2004115026A (en) | 2005-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20050104964A1 (en) | Method and apparatus for background segmentation based on motion localization | |
Braham et al. | Deep background subtraction with scene-specific convolutional neural networks | |
Maggio et al. | Video tracking: theory and practice | |
US11443454B2 (en) | Method for estimating the pose of a camera in the frame of reference of a three-dimensional scene, device, augmented reality system and computer program therefor | |
Maddalena et al. | Towards benchmarking scene background initialization | |
Harville et al. | Foreground segmentation using adaptive mixture models in color and depth | |
Wren et al. | Pfinder: Real-time tracking of the human body | |
JP4629364B2 (en) | A method for adaptively updating a background image representing the background of a scene | |
US10102635B2 (en) | Method for moving object detection by a Kalman filter-based approach | |
US9128528B2 (en) | Image-based real-time gesture recognition | |
Erdem et al. | Video object tracking with feedback of performance measures | |
CN101120382A (en) | Method for tracking moving object in video acquired of scene with camera | |
Nodehi et al. | Multi-metric re-identification for online multi-person tracking | |
Boulmerka et al. | Foreground segmentation in videos combining general Gaussian mixture modeling and spatial information | |
Nallasivam et al. | Moving human target detection and tracking in video frames | |
Eng et al. | A Bayesian framework for robust human detection and occlusion handling human shape model | |
RU2276407C2 (en) | Method and device for background segmentation on basis of movement localization | |
Katircioglu et al. | Self-supervised segmentation via background inpainting | |
Teixeira et al. | Object segmentation using background modelling and cascaded change detection | |
Lee et al. | Efficient Face Detection and Tracking with extended camshift and haar-like features | |
Herbst et al. | Object segmentation from motion with dense feature matching | |
Huang et al. | 50 FPS object-level saliency detection via maximally stable region | |
Hernández-Vela et al. | Human limb segmentation in depth maps based on spatio-temporal graph-cuts optimization | |
Wang et al. | A dynamic Hidden Markov Random Field Model for foreground and shadow segmentation | |
Liang et al. | Real-time background subtraction under varying lighting conditions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | The patent is invalid due to non-payment of fees |
Effective date: 20101023 |