RU188794U1 - Устройство на основе ансамбля алгоритмов детектирования аномалий в задаче прогнозирования параметров и оценки состояния дорожного покрытия - Google Patents
Устройство на основе ансамбля алгоритмов детектирования аномалий в задаче прогнозирования параметров и оценки состояния дорожного покрытия Download PDFInfo
- Publication number
- RU188794U1 RU188794U1 RU2018143868U RU2018143868U RU188794U1 RU 188794 U1 RU188794 U1 RU 188794U1 RU 2018143868 U RU2018143868 U RU 2018143868U RU 2018143868 U RU2018143868 U RU 2018143868U RU 188794 U1 RU188794 U1 RU 188794U1
- Authority
- RU
- Russia
- Prior art keywords
- indicators
- temperature
- current
- road
- adms
- Prior art date
Links
- 238000012545 processing Methods 0.000 claims abstract description 33
- 230000002547 anomalous effect Effects 0.000 claims abstract description 23
- 230000002776 aggregation Effects 0.000 claims abstract description 5
- 238000004220 aggregation Methods 0.000 claims abstract description 5
- 230000002159 abnormal effect Effects 0.000 claims description 9
- 239000003153 chemical reaction reagent Substances 0.000 claims description 3
- 238000003066 decision tree Methods 0.000 claims description 3
- 238000001556 precipitation Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 2
- 239000013049 sediment Substances 0.000 claims 2
- 241000112598 Pseudoblennius percoides Species 0.000 claims 1
- 238000001514 detection method Methods 0.000 abstract description 11
- 238000004321 preservation Methods 0.000 abstract 1
- 238000000034 method Methods 0.000 description 24
- 238000009826 distribution Methods 0.000 description 10
- 238000013459 approach Methods 0.000 description 9
- 238000001914 filtration Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000013499 data model Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 208000025174 PANDAS Diseases 0.000 description 1
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 238000013442 quality metrics Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/40—Data acquisition and logging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computer Hardware Design (AREA)
- Human Computer Interaction (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Заявленное решение относится к области обработки данных показателей АДМС (Автоматических Дорожных Метеостанций), в частности к устройству детектирования аномалий в данных, поступающих с АДМС. Техническим результатом является повышение точности детектирования и удаления аномалий в данных, поступающих с АДМС. Для обеспечения достижения указанного технического результата разработано устройство детектирования аномалий в данных, поступающих с АДМС, выполненное с возможностью получения данных о текущих показателях АДМС и исторических признаках показателей АДМС, характеризующих динамику изменения показателей АДМС, содержащее:блок обработки данных температуры воздуха (201), выполненный с возможностью:- построения модели прогнозирования текущих показателей температуры воздуха на основе исторических признаков показателей АДМС для прогнозирования текущих показателей температуры воздуха;- сравнения данных о текущих показателях температуры воздуха со спрогнозированными текущими показателями температуры воздуха для определения аномального значения текущего показателями температуры воздуха;блок обработки данных температуры дороги (202), выполненный с возможностью:- построения модели прогнозирования текущих показателей температуры дороги на основе исторических признаков показателей АДМС для прогнозирования текущих показателей температуры дороги;- сравнения данных о текущих показателях температуры дороги со спрогнозированными текущими показателями температуры дороги для определения аномального значения текущего показателя температуры дороги;блок обработки данных температуры под поверхностью дороги (203), выполненный с возможностью:- построения модели прогнозирования текущих показателей температуры под поверхностью дороги на основе исторических признаков показателей АДМС для прогнозирования текущих показателей температуры под поверхностью дороги;- сравнения данных о текущих показателях температуры под поверхностью дороги со спрогнозированными текущими показателями температуры под поверхностью дороги для определения аномального значения текущего показателя температуры под поверхностью дороги;блок обработки данных влажности воздуха (204), выполненный с возможностью:- построения модели прогнозирования текущих показателей влажности воздуха на основе исторических признаков показателей АДМС для прогнозирования текущих показателей влажности воздуха;- сравнения данных о текущих показателях влажности воздуха со спрогнозированными текущими показателями влажности воздуха для определения аномального значения текущего показателя влажности воздуха;устройство агрегирования данных (213), выполненное с возможностью:- получения спрогнозированных текущих показателей: температуры воздуха, температуры дороги, температуры под поверхностью дороги и влажности воздуха, а также информацию о том, являются ли упомянутые текущие показатели аномальными;- сохранения спрогнозированных текущих показателей температуры воздуха, температуры дороги, температуры под поверхностью дороги или влажности воздуха в качестве текущих показателей АДМС, если определено, что текущий показатель температуры воздуха, температуры дороги, температуры под поверхностью дороги или влажности воздуха является аномальным.
Description
ОБЛАСТЬ ТЕХНИКИ
Заявленное решение относится к области обработки данных показателей АДМС (Автоматических Дорожных Метеостанций), в частности, к устройству детектирования аномалий в данных, поступающих с АДМС.
УРОВЕНЬ ТЕХНИКИ
Для решения задачи обнаружения аномалий могут быть использованы современные вероятностные подходы (см. документ [1]), которые основаны на оценке генеративной плотности вероятностного распределения данных. Результирующее распределение далее может быть «урезано» для определения того, что можно отнести к нормальному состоянию, была ли порождена тестовая выборка рассматриваемым распределением. Предполагается, что обучающая выборка порождена некоторым вероятностным распределением, которое можно оценить по данным. При этом в случае параметрических методов используются «ограниченные» параметрические модели данных, применение которых на практике зачастую приводит к появлению значительного смещения в модели данных в случае, если реальная модель рассматриваемому параметрическому классу не принадлежит. Одной из наиболее часто встречающихся на практике параметрических моделей является модель смеси гауссовских распределений (см. документы [2, 3, 4]). Примером непараметрических моделей может быть ядерная оценка плотности распределения (см. документы [2, 5]).
Методы обнаружения аномалий на основе метрики, включая кластеризацию или методы на основе ближайших соседей, представляют собой другой вариант подхода, с помощью которого можно решить задачу, эквивалентную оценки плотности распределения данных. На практике обычно используются следующие подходы для подсчета близости между двумя наблюдениями (см. документ [5]): методы на основе расстояния, такие, как расстояние до κ-го ближайшего соседа (см. документ [6]), методы на основе локальной оценки плотности, в которых используется расстояние до среднего из κ - ближайших соседей (см. документ [7]). Отметим, что многие практические реализованные подходы из данного класса плохо работают в случае многомерных данных.
Другой тип алгоритмов для обнаружения аномалий (иногда еще называемых спектральными методами, см., например, документ [2]) состоит в построении таких комбинаций исходных признаков, которые наилучшим образом описывают степень изменчивости («вариабельность») исходных данных. Предполагается, что проекция данных или их вложение в низкоразмерное подпространство позволят отличить «нормальные» данные от аномальных. Метод главных компонент является стандартной техникой для проекции данных в низкоразмерное пространство и позволяет выделять такой ортогональный набор направлений, изменчивость данных вдоль которых максимальна. Эту технику можно, в частности, использовать для построения модели распределения обучающих данных в преобразованном пространстве (см. документ [8]).
Одной из ключевых проблем в развитии автотранспортной инфраструктуры является обеспечение безопасного дорожного движения. Обеспечение безопасности движения на автомобильных дорогах требует решения широкого круга проблем. Часть из них находится в области поведения участников дорожного движения, другая часть имеет технический характер и связана с обеспечением развития и функционирования современной автомобильной транспортной системы. В условиях России требования по нормальному функционированию дорожной системы в зимний период приводят к необходимости удаления снега и борьбы с обледенением дорог. Существенно увеличивается вероятность возникновения дорожно-транспортных происшествий при гололеде и при снежном накате по сравнению с сухой проезжей частью. Одновременно это приводит к снижению скорости движения транспортных средств и производительности с соответствующим увеличением себестоимости перевозок. В общей сложности, доля затрат на борьбу с зимней скользкостью составляет в настоящее время около 40% от общих затрат на зимнее содержание дорог (общедоступные данные по г. Москва).
Зарубежный опыт по содержанию автомобильных дорог в зимнее время показывает, что наиболее эффективна предварительная обработка дороги перед образованием гололеда или обработка во время появления льда и выпадения снега для предотвращения возникновения скользкости. Такая технология отличается от традиционной технологии «по факту» (после образования льда) тем, что предотвращает образование корки льда или снежного наката.
Таким образом, создание условий безопасного движения транспортных средств требует заблаговременных и точных прогнозов ухудшения состояния дорожного покрытия в режиме реального времени. Построение моделей, методов и алгоритмов прогнозирования возможно при наличии соответствующих данных о состоянии дорожного покрытия за продолжительный временной период, которые получены от датчиков, находящихся в непосредственной близости от дороги.
Одной из важнейших задач, возникающей при практической реализации систем прогнозирования, является детектирование аномалий во временных рядах данных. В задачах прогнозирования очень важно, чтобы подаваемые на вход данные адекватно отображали реальные параметры. В системе, состоящей из большого числа датчиков, могут случаться поломки, при которых передаваемые сенсором данные не соответствуют состоянию дороги. Очень важно как можно быстрее находить такие поломки, нахождение таких сенсоров можно свести к задаче обнаружения аномалий.
Задача обнаружения аномалий состоит в выявлении определенных отличий тестовых данных от тех, которые были доступны на этапе обучения. Практическая значимость и трудность задачи обнаружения аномалий привели к тому, что было разработано большое количество различных методов решения этой задачи. Эти методы обычно применяются для анализа таких данных, в которых имеется очень большое число «нормальных» ситуаций или условий (положительных примеров), а данных для описания аномалий (отрицательных примеров) недостаточно. При этом, на сегодняшний день обнаружение аномалий получило распространение в тех прикладных областях, в которых имеются сложные многокомпонентные системы, которые порождают большие массивы данных.
РАСКРЫТИЕ ПОЛЕЗНОЙ МОДЕЛИ
Технической задачей, на решение которой направлено заявленное решение, является создание простого и надежного устройство детектирования аномалий в данных, поступающих с АДМС, в минимально короткое время.
Техническим результатом является повышение точности детектирования и удаления аномалий в данных, поступающих с АДМС.
Для обеспечения достижения указанного технического результата разработано устройство детектирования аномалий в данных, поступающих с АДМС, выполненное с возможностью получения данных о текущих показателях АДМС и исторических признаках показателей АДМС, характеризующих динамику изменения показателей АДМС, содержащее:
блок обработки данных температуры воздуха (201), выполненный с возможностью:
- построения модели прогнозирования текущих показателей температуры воздуха на основе исторических признаков показателей АДМС для прогнозирования текущих показателей температуры воздуха;
- сравнения данных о текущих показателях температуры воздуха со спрогнозированными текущими показателями температуры воздуха для определения аномального значения текущего показателями температуры воздуха;
блок обработки данных температуры дороги (202), выполненный с возможностью:
- построения модели прогнозирования текущих показателей температуры дороги на основе исторических признаков показателей АДМС для прогнозирования текущих показателей температуры дороги;
- сравнения данных о текущих показателях температуры дороги со спрогнозированными текущими показателями температуры дороги для определения аномального значения текущего показателя температуры дороги;
блок обработки данных температуры под поверхностью дороги (203), выполненный с возможностью:
- построения модели прогнозирования текущих показателей температуры под поверхностью дороги на основе исторических признаков показателей АДМС для прогнозирования текущих показателей температуры под поверхностью дороги;
- сравнения данных о текущих показателях температуры под поверхностью дороги со спрогнозированными текущими показателями температуры под поверхностью дороги для определения аномального значения текущего показателя температуры под поверхностью дороги;
блок обработки данных влажности воздуха (204), выполненный с возможностью:
- построения модели прогнозирования текущих показателей влажности воздуха на основе исторических признаков показателей АДМС для прогнозирования текущих показателей влажности воздуха;
- сравнения данных о текущих показателях влажности воздуха со спрогнозированными текущими показателями влажности воздуха для определения аномального значения текущего показателя влажности воздуха;
устройство агрегирования данных (213), выполненное с возможностью:
- получения спрогнозированных текущих показателей: температуры воздуха, температуры дороги, температуры под поверхностью дороги и влажности воздуха, а также информацию о том, являются ли упомянутые текущие показатели аномальными;
- сохранения спрогнозированных текущих показателей температуры воздуха, температуры дороги, температуры под поверхностью дороги или влажности воздуха в качестве текущих показателей АДМС, если определено, что текущий показатель температуры воздуха, температуры дороги, температуры под поверхностью дороги или влажности воздуха является аномальным.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
Для лучшего понимания сущности решения, и чтобы более ясно показать, каким образом оно может быть осуществлено, далее будет сделана ссылка, лишь в качестве примера, на прилагаемый чертеж, на котором изображено:
фиг. 1 – общая схема обработки данных с АДМС;
фиг. 2 - устройство детектирования аномалий в данных.
ОСУЩЕСТВЛЕНИЕ ПОЛЕЗНОЙ МОДЕЛИ
Прежде всего, обнаружение аномалий обычно является очень субъективным процессом из-за его неконтролируемой природы, что означает, что выбор наилучшей модели и функции принятия решения сильно зависит от личного понимания того, что такое аномалия, и предположений, сделанных о базовом генеративном процессе. Очевидно, что такие допущения, как правило, очень субъективны и зависят в основном от опыта исследователя. В результате, выбранный алгоритм, вероятно, моделирует генеративный процесс аномалий с некоторыми ограничениями, что означает, что выбранная модель будет хорошо работать только на некоторых небольших частях данных или обнаруживать только узкий диапазон аномалий при отсутствии других. Это особенно очевидно в тех случаях, когда характер аномалий в наборе данных довольно неоднороден. Анализ на основе ансамбля различных методов широко используется при обнаружении аномалий, чтобы сделать процесс выбора модели менее субъективным и более адаптивным к более широкому диапазону аномалий. Кроме того, использование ансамблей часто позволяет уменьшить зависимость алгоритма от конкретного набора данных и тем самым сделать модель более обобщённой.
Набор рассматриваемых данных метеорологических временных рядов отличается разнообразием встречающихся аномалий. Аномалии в заданном наборе данных вызвана множеством различных факторов, как неисправность датчика, внешние события (например, птица, сидящая на сенсоре), ошибка подключения к серверу и т.д.
Анализ на основе ансамбля различных методов позволяет выявить аномалии различной природы, однако такой подход обычно связан с другим препятствием: правильным выбором функции принятия решения. Большинство алгоритмов на этом этапе требуют либо определения точного порога для значений аномалий, либо процента аномалий в данных для преобразования значений в двоичные метки. Однако процент аномалий в исследованных метеорологических данных (как и во многих других задачах реального мира) – это недоступная информация, которая меняется со временем. Выбор порога подразумевает определение такого значения, что любое наблюдение со значением выше этого порога считается аномалией. Существует несколько подходов к определению значения этого порога. Наиболее популярными и часто используемыми подходами являются визуальный отбор и статистический подход. Первый метод включает сортировку значений, а затем выбор значения на основе полученной кривой. Такой способ выбора порога может дать довольно неточные результаты из-за сильной субъективности выбора, которую мы пытаемся избежать. Второй метод подразумевает установку порога, равного нулю, на стандартизированных данных с нулевым средним и единичной дисперсией, что, очевидно, не всегда является лучшим выбором для реального набора данных.
Предложенный метод направлен на решение задачи выбора оптимального порога. Первый шаг алгоритма включает разделение данных на две выборки: для обучения базовых алгоритмов, входящих в ансамбль и для выбора оптимального порога. Следующим шагом является создание некоторого количества искусственных аномалий и добавление их ко второй части данных. После обучения базовых алгоритмов ансамбля на обучающей части данных их следует применить к данным с искусственными аномалиями. После получения и объединения выходных значений следует выбрать оптимальный порог, максимизирующий выбранную метрику качества (например, F1-score) на искусственных данных. В дальнейшем полученный порог будет служить решающим правилом для реальных данных.
Предлагаемый способ имеет ряд существенных преимуществ. В первую очередь, он переводит задачу без определенных меток или определённых частично в задачу обучения с учителем, позволяющую сравнить производительность алгоритмов с разными выбранными пороговыми значениями. Важно также отметить, что этот метод может быть применим не только для ансамблей, но для отдельных алгоритмов. Во-вторых, генерация искусственных данных обычно является достаточно сложной задачей, которая подразумевает точное знание базового процесса, так как может стать причиной переобучения. Однако в нашем случае, поскольку мы генерируем аномалии для выбора оптимального порога, а не для этапа обучения, мы можем избежать переобучения, даже не будучи слишком точными при выборе генеративного распределения.
Детектирование аномалий является частью комплексной системы прогнозирования параметров и оценки состояния дорожного покрытия. На фигуре 1 изображено взаимодействие всех компонент системы. Более детально, распределённая система АДМС (101) (в частности, метеостанции) агрегирует и отправляет в локальную базу данных (102) через интервалы приблизительно в 30 минут следующие показатели (всего 13 показателей):
● значения температуры и влажности воздуха;
● атмосферное давление;
● направление, скорость и величину порывов ветра;
● температуру точки росы;
● тип и интенсивность осадков;
● температуру поверхности дороги;
● температуру в глубине дорожной одежды (4 − 7 см);
● количество отложений на поверхности дороги;
● наличие реагентов на поверхности дороги.
Данные, приходящие с АДМС, имеют приблизительную частоту 2 записи в час. В этом случае «приблизительный» означает, что некоторая запись может быть получена в 15:32 или в 15:27 при плановом получении в 15:30. Поскольку большинство алгоритмов машинного обучения, применимых к данным такого типа, работают в предположении постоянной частоты, показатели из локальной базы данных (102) предварительно обрабатываются устройством предобработки данных (103).
Далее на основе предобработанных данных формируется набор дополнительных исторических признаков устройством формирования признаков (104). Данные признаки характеризуют динамику изменения во времени показателей, пришедших с той же самой рассматриваемой АДМС.
Сформированные признаки, полученные в результате работы устройства (104), отправляются на вход устройству детектирования аномалий в данных, (105) для удаления записей текущих показателей, содержащих аномальные значения признаков (ниже будет представлено более детальное описание устройства (105)).
После удаления аномальных записей в результате работы упомянутого устройства (105) оставшиеся данные записываются в базу данных (106). Используя данные из базы (106) модель METRo (Model of the Environment and Temperature of Roads) (107) предоставляет предсказание метеорологических показателей с горизонтом в несколько часов. В итоге, принимая на вход предсказания модели METRo (107) и соответствующие показатели из базы данных (106), устройство уточнения прогноза (108) предоставляет уточненные прогнозы модели METRo (107) аналогичных метеорологических показателей.
Детектирование аномалий
После работы устройства формирования признаков (104) для определённой АДМС в текущий момент времени мы имеем набор показателей, включающих в себя как и полученные с АДМС данные, так и исторические признаки показателей АДМС, характеризующих динамику изменения показателей АДМС, сформированные в результате работы устройства (104). В частности, помимо данных о 13 текущих показателях устройства формирования признаков (104) содержит данные о азимуте и угле подъема Солнца (два показателя) в месте расположения АДМС, определенные с учетом значения времени, в момент которого был произведён сбор упомянутых исторических показателей АДМС, а также 10 показателей временных признаков, учитывающих периодичность времени, представленных в виде компонент Преобразования Фурье:
● Компоненты синуса и косинуса минуты относительно суток;
● Компоненты синуса и косинуса часа относительно суток;
● Компоненты синуса и косинуса дня относительно недели;
● Компоненты синуса и косинуса дня относительно года;
● Компоненты синуса и косинуса месяца относительно года.
Для того, чтобы учесть динамику изменения получившихся 25 показателей рассматриваемой АДМС, в качестве дополнительных признаков рассматривается 8 предшествующих наборов показателей (25 * 8 = 200 показателей) и 8 разностных показателей (25 * 8 = 200 показателей).
В результате, для текущего момента времени мы имеем 425-мерный вектор показателей (25 текущих показателей + 200 предшествующих + 200 разностных показателей).
Получившийся 425-мерный набор показателей направляется в устройство детектирования аномалий (105). Таким образом, на устройство детектирования аномалий (105) поступают данные о текущих показателях АДМС и исторических признаках показателей АДМС, характеризующих динамику изменения показателей АДМС.
Устройство детектирования аномалий в данных (105), поступающих с АДМС, в соответствии с фиг. 2, содержит четыре параллельных блока: блок обработки данных температуры воздуха (201), блок обработки данных температуры дороги (202), блок обработки данных температуры под поверхностью дороги (203), блок обработки данных влажности воздуха (204), а также следующее за ними устройство агрегирования данных (213).
Устройство детектирования аномалий (105) может быть выполнено на базе по меньшей мере одного персонального компьютера с процессором Intel или AMD, поддерживающим архитектуру x86 и минимальными требования к аппаратной конфигурации: частота процессора 1 ГГц или выше, объем оперативной памяти 1 Гб или больше, объем свободного дискового пространства 100 Мб или больше. Программное обеспечение устройства для выполнения приписанных ниже ему функций может быть спроектировано и изготовлено на языке программирования Python версии 3.6.4 с использованием сторонних библиотек, которые находятся в открытом доступе: Numpy версии 1.14.1; Pandas версии 0.22.0; PyTorch версии 0.4.0; Matplotlib версии 2.2.0; Scikit-Learn версии 0.19.1; nginx версии 1.10.3; gunicorn версии 19.9.0; flask версии 1.0.2; SciPy версии 1.0.0; Docker версии 18.06.1-ce.. Упомянутые блоки (201) - (204) и устройство (213) могут быть выполнены на базе по меньшей мере одного процессора или микроконтроллера с соответствующим программных обеспечением, соединенных между собой конструктивными связями, например, путем их размещения на единой печатной плате.
Каждый их четыре параллельных блоков (201) - (204) обеспечивает фильтрацию данных на основе соответствующего целевого показателя. Все блоки обладают одинаковой структурой с точностью до параметров модели прогнозирования и выбора целевого показателя. Рассмотрим строение блоков (201)-(204) на примере работы блока обработки данных температуры воздуха (201). Блок обработки данных температуры воздуха (201) состоит из двух частей:
● Блок модели LightGBM (Light Gradient Boosting Machine) (205);
● Устройство фильтрации данных (206).
Блок модель LightGBM (205) реализован на базе программного обеспечения, разработанного компанией Microsoft и находящегося в открытом доступе. Данное программное обеспечение реализует построение модели прогнозирования в виде ансамбля деревьев решения (градиентный бустинг). Данный подход обладает следующими преимуществами:
● Высокая скорость обучения моделей и более высокая точность;
● Использование малого количества памяти;
● Поддержка параллельного обучения моделей;
● Поддержка вычислений на графических процессорах (GPU);
● Возможность работы с большими данными.
Эффективность данной модели доказана множеством выигрышных решений в различных соревнованиях по машинному обучению. Также данное решение показывает хорошие результаты в задачах прогнозирования погодных условий и исследовании изменения климата, например, приведенные в статье [9], в которой также раскрываются средства, позволяющие адаптировать модель прогнозирования в виде ансамбля деревьев решения для прогнозирования метеорологических показателей на основе входящих значений параметров.
Блок модели LightGBM (205) принимает на вход весь 425-мерный набор показателей, сформированный в результате работы устройства (104), за исключением текущего показателя температуры воздуха. Для блока (201) результатом работы блока модели (205) является спрогнозированный показатель температуры воздуха.
Для каждого целевого показателя, в частности, для прогнозирования текущих показателей температуры воздуха, температуры дороги, температуры под поверхностью дороги и влажности воздуха, определена отдельная модель LightGBM (блоки модели (205), (207), (209), (211)). Для каждой модели для более адаптивного прогнозирования выставляются соответствующие параметры. Параметры могут быть заданы пользователем при программировании упомянутых блоков. В частности, определяется максимальное количество листьев в дереве (num_leaves), доля рассматриваемых показателей от общего количества показателей (feature_fraction), доля рассматриваемых данных от общего количества данных (bagging_fraction) и количество деревьев (num_boost_round). Значения перечисленных параметров для конкретного целевого показателя представлены в Таблице 1. Остальные параметры моделей LightGBM, определенные документацией к программному обеспечению, оставлены без изменений.
Таблица 1. Значения параметров моделей LightGBM
Модель LightGBM | (205) | (207) | (209) | (211) |
Целевой показатель | Температура воздуха | Температура дороги | Температура под поверхностью дороги | Влажность воздуха |
num_leaves | 55 | 45 | 50 | 40 |
feature_fraction | 0.65 | 0.75 | 0.75 | 0.5 |
bagging_fraction | 0.5 | 0.75 | 0.5 | 0.7 |
num_boost_round | 6000 | 6000 | 6000 | 4000 |
Соответственно, данные о текущих показателях АДМС и исторических признаках показателей АДМС, характеризующих динамику изменения показателей АДМС, полученные устройством детектирования аномалий (105), поступают на входы блока обработки данных температуры воздуха (201), блока обработки данных температуры дороги (202), блока обработки данных температуры под поверхностью дороги (203), блока обработки данных влажности воздуха (204). Упомянутые данные могут поступать на входы упомянутых блоков параллельно.
На основе исторических признаков показателей АДМС блок обработки данных температуры воздуха (201) посредством блока модели LightGBM (205) осуществляет построение модели прогнозирования текущих показателей температуры воздуха для прогнозирования текущих показателей температуры воздуха, блок обработки данных температуры дороги (202) посредством блока модели LightGBM (207) осуществляет построение модели прогнозирования текущих показателей температуры для прогнозирования текущих показателей температуры дороги, блок обработки данных температуры под поверхностью дороги (203) посредством блока модели LightGBM (209) осуществляет построение модели прогнозирования текущих показателей температуры под поверхностью дороги для прогнозирования текущих показателей температуры под поверхностью дороги, а блок обработки данных влажности воздуха (204) посредством блока модели LightGBM (211) осуществляет построение модели прогнозирования текущих показателей влажности воздуха для прогнозирования текущих показателей влажности воздуха.
Далее блок обработки данных температуры воздуха (201) посредством устройства фильтрации данных (206) осуществляет сравнение данных о текущих показателях температуры воздуха со спрогнозированными текущими показателями температуры воздуха для определения отклонения текущих показателей температуры воздуха от спрогнозированных текущих показателей температуры воздуха и если полученное отклонение выше заданного порогового значения, то полученное значение текущего показателями температуры воздуха определяется как аномальное. Пороговое значение может быть задано пользователем при программировании упомянутых блоков известными из уровня техники методами. В противном случае, упомянутый текущий показатель определяется корректным.
Аналогичным образом блок обработки данных температуры дороги (202) посредством устройства фильтрации данных (208) осуществляет сравнение данных о текущих показателях температуры дороги со спрогнозированными текущими показателями температуры дороги для определения аномального значения текущего показателя температуры дороги, блок обработки данных температуры под поверхностью дороги (203) посредством устройства фильтрации данных (210) осуществляет сравнение данных о текущих показателях температуры под поверхностью дороги со спрогнозированными текущими показателями температуры под поверхностью дороги для определения аномального значения текущего показателя температуры под поверхностью дороги, а блок обработки данных влажности воздуха (204) посредством устройства фильтрации данных (212) осуществляет сравнение данных о текущих показателях влажности воздуха со спрогнозированными текущими показателями влажности воздуха для определения аномального значения текущего показателя влажности воздуха.
Каждое устройство фильтрации данных (206), (208), (210), (211) обладает определенным порогом, пример значений которых указан в Таблице 2.
Таблица 2. Значение порогов устройств фильтрации.
Устройство фильтрации | (206) | (208) | (210) | (212) |
Целевой показатель | Температура воздуха | Температура дороги | Температура под поверхностью дороги | Влажность воздуха |
Порог | 3.2 | 3.7 | 5.0 | 12.0 |
Спрогнозированные текущие показателей: температуры воздуха, температуры дороги, температуры под поверхностью дороги и влажности воздуха, а также информация о том, являются ли упомянутые текущие показатели аномальными, поступают от упомянутых блоков (201) - (204) на устройство агрегирования данных (213), которое сохраняет в базе данных (106) спрогнозированные текущие показатели температуры воздуха, температуры дороги, температуры под поверхностью дороги или влажности воздуха в качестве текущих показателей АДМС, если определено, что текущий показатель температуры воздуха, температуры дороги, температуры под поверхностью дороги или влажности воздуха является аномальным. В случае, если ни один из показателей не идентифицирован, как аномальный, в базу данных (106) записывается набор текущих показателей, пришедший на вход устройству (105) без изменений. Также в базу данных (106) записывается информация о том, что сенсор, предоставивший текущий входной набор аномальных значений параметров, имеет аномальные значения (что, возможно, является следствием выхода датчика из строя).
Таким образом, за счет того, что при прогнозировании текущих показателей: температуры воздуха, температуры дороги, температуры под поверхностью дороги и влажности воздуха учитываются исторические признаки показателей АДМС, характеризующие динамику изменения показателей АДМС, повышается точность спрогнозированных текущих показателей, а также точность определения аномальных значений текущих показателей и их удаление из данных, поступающих с АДМС. Соединение блоков (201) - (204) посредством параллельной связи дополнительно повышает скорость определения аномальных значений текущих показателей: температуры воздуха, температуры дороги, температуры под поверхностью дороги и влажности воздуха, а также обеспечивает распределение вычислительной нагрузки между упомянутыми блоками и повышает скорость работы устройства.
Список литературы:
[1] David W Scott. Multivariate density estimation: theory, practice, and visualization. John Wiley & Sons, 2015.
[2] Varun Chandola, Arindam Banerjee, and Vipin Kumar. Anomaly detection: A survey. ACM computing surveys (CSUR), 41(3):15, 2009.
[3] Markos Markou and Sameer Singh. Novelty detection: a review—part 1: statistical approaches. Signal processing, 83(12):2481–2497, 2003.
[4] Dubravko Miljkovi ́c. Review of novelty detection methods. In Mipro, 2010 proceedings of the 33rd international convention, pages 593–598. IEEE, 2010.
[5] Richard O Duda, Peter E Hart, and David G Stork. Pattern classification. John Wiley & Sons, 2012.
[6] Ji Zhang and Hai Wang. Detecting outlying subspaces for high-dimensional data: the new task, algorithms, and performance. Knowledge and information systems, 10(3):333–355, 2006.
[7] Ville Hautamaki, Ismo Karkkainen, and Pasi Franti. Outlier detection using k-nearest neighbour graph. In Pattern Recognition, 2004. ICPR 2004. Proceedings of the 17th International Conference on, volume 3, pages 430–433. IEEE, 2004.
[8] Pia Jolliffe. Principal component analysis. In Learning, Migration and Intergenerational Relations, pages 1–33. Springer, 2016.
[9] Olaiya, Folorunsho, and Adesesan Barnabas Adeyemo. "Application of data mining techniques in weather prediction and climate change studies." International Journal of Information Engineering and Electronic Business 4.1 (2012): 51.
Claims (22)
1. Устройство детектирования аномалий в данных, поступающих с АДМС (Автоматических Дорожных Метеостанций), выполненное с возможностью получения данных о текущих показателях АДМС и исторических признаках показателей АДМС, характеризующих динамику изменения показателей АДМС, содержащее:
блок обработки данных температуры воздуха (201), выполненный с возможностью:
- построения модели прогнозирования текущих показателей температуры воздуха на основе исторических признаков показателей АДМС для прогнозирования текущих показателей температуры воздуха;
- сравнения данных о текущих показателях температуры воздуха со спрогнозированными текущими показателями температуры воздуха для определения аномального значения текущего показателями температуры воздуха;
блок обработки данных температуры дороги (202), выполненный с возможностью:
- построения модели прогнозирования текущих показателей температуры дороги на основе исторических признаков показателей АДМС для прогнозирования текущих показателей температуры дороги;
- сравнения данных о текущих показателях температуры дороги со спрогнозированными текущими показателями температуры дороги для определения аномального значения текущего показателя температуры дороги;
блок обработки данных температуры под поверхностью дороги (203), выполненный с возможностью:
- построения модели прогнозирования текущих показателей температуры под поверхностью дороги на основе исторических признаков показателей АДМС для прогнозирования текущих показателей температуры под поверхностью дороги;
- сравнения данных о текущих показателях температуры под поверхностью дороги со спрогнозированными текущими показателями температуры под поверхностью дороги для определения аномального значения текущего показателя температуры под поверхностью дороги;
блок обработки данных влажности воздуха (204), выполненный с возможностью:
- построения модели прогнозирования текущих показателей влажности воздуха на основе исторических признаков показателей АДМС для прогнозирования текущих показателей влажности воздуха;
- сравнения данных о текущих показателях влажности воздуха со спрогнозированными текущими показателями влажности воздуха для определения аномального значения текущего показателя влажности воздуха;
устройство агрегирования данных (213), выполненное с возможностью:
- получения спрогнозированных текущих показателей: температуры воздуха, температуры дороги, температуры под поверхностью дороги и влажности воздуха, а также информацию о том, являются ли упомянутые текущие показатели аномальными;
- сохранения спрогнозированных текущих показателей температуры воздуха, температуры дороги, температуры под поверхностью дороги или влажности воздуха в качестве текущих показателей АДМС, если определено, что текущий показатель температуры воздуха, температуры дороги, температуры под поверхностью дороги или влажности воздуха является аномальным.
2. Устройство по п. 1, отличающееся тем, что данные о текущих показателях АДМС включают показатели: значения температуры и влажности воздуха; атмосферного давления; направления, скорости и величины порывов ветра; температуры точки росы; типа и интенсивности осадков; температуры поверхности дороги; температуры в глубине дорожной одежды (4−7 см); количества отложений на поверхности дороги; наличия реагентов на поверхности дороги.
3. Устройство по п. 1, отличающееся тем, что исторические признаки показателей АДМС, характеризующие динамику изменения показателей АДМС, включают:
- исторические показатели: значения температуры и влажности воздуха; атмосферного давления; направления, скорости и величины порывов ветра; температуры точки росы; типа и интенсивности осадков; температуры поверхности дороги; температуры в глубине дорожной одежды (4−7 см); количества отложений на поверхности дороги; наличия реагентов на поверхности дороги;
- временные признаки;
- азимут и угол подъема Солнца в месте расположения АДМС, определенные с учетом значения времени, в момент которого был произведён сбор упомянутых исторических показателей АДМС.
4. Устройство по п. 1, отличающееся тем, что построение упомянутых моделей осуществляется в виде ансамбля деревьев решения (градиентный бустинг).
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2018143868U RU188794U1 (ru) | 2018-12-11 | 2018-12-11 | Устройство на основе ансамбля алгоритмов детектирования аномалий в задаче прогнозирования параметров и оценки состояния дорожного покрытия |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2018143868U RU188794U1 (ru) | 2018-12-11 | 2018-12-11 | Устройство на основе ансамбля алгоритмов детектирования аномалий в задаче прогнозирования параметров и оценки состояния дорожного покрытия |
Publications (1)
Publication Number | Publication Date |
---|---|
RU188794U1 true RU188794U1 (ru) | 2019-04-23 |
Family
ID=66315011
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2018143868U RU188794U1 (ru) | 2018-12-11 | 2018-12-11 | Устройство на основе ансамбля алгоритмов детектирования аномалий в задаче прогнозирования параметров и оценки состояния дорожного покрытия |
Country Status (1)
Country | Link |
---|---|
RU (1) | RU188794U1 (ru) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2749252C1 (ru) * | 2020-02-26 | 2021-06-07 | Акционерное общество "Лаборатория Касперского" | Способ определения источников аномалии в кибер-физической системе |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2450346C1 (ru) * | 2011-07-08 | 2012-05-10 | Открытое акционерное общество "Научно-исследовательский и проектно-конструкторский институт информатизации, автоматизации и связи на железнодорожном транспорте" (ОАО "НИИАС") | Система мониторинга потенциально опасных объектов инфраструктуры железнодорожного транспорта |
US20140067265A1 (en) * | 2012-08-28 | 2014-03-06 | Cvg Management Corporation | Road condition tracking and presentation |
US20140062725A1 (en) * | 2012-08-28 | 2014-03-06 | Commercial Vehicle Group, Inc. | Surface detection and indicator |
CN107406079A (zh) * | 2013-10-17 | 2017-11-28 | 费泽姆股份有限公司 | 用于预测车辆的天气性能的系统和方法 |
-
2018
- 2018-12-11 RU RU2018143868U patent/RU188794U1/ru active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2450346C1 (ru) * | 2011-07-08 | 2012-05-10 | Открытое акционерное общество "Научно-исследовательский и проектно-конструкторский институт информатизации, автоматизации и связи на железнодорожном транспорте" (ОАО "НИИАС") | Система мониторинга потенциально опасных объектов инфраструктуры железнодорожного транспорта |
US20140067265A1 (en) * | 2012-08-28 | 2014-03-06 | Cvg Management Corporation | Road condition tracking and presentation |
US20140062725A1 (en) * | 2012-08-28 | 2014-03-06 | Commercial Vehicle Group, Inc. | Surface detection and indicator |
CN107406079A (zh) * | 2013-10-17 | 2017-11-28 | 费泽姆股份有限公司 | 用于预测车辆的天气性能的系统和方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2749252C1 (ru) * | 2020-02-26 | 2021-06-07 | Акционерное общество "Лаборатория Касперского" | Способ определения источников аномалии в кибер-физической системе |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11300707B2 (en) | Solar forecasting using machine learned cloudiness classification | |
Zeroual et al. | Integrating model-based observer and Kullback–Leibler metric for estimating and detecting road traffic congestion | |
Yu et al. | Automated detection of unusual soil moisture probe response patterns with association rule learning | |
RU188794U1 (ru) | Устройство на основе ансамбля алгоритмов детектирования аномалий в задаче прогнозирования параметров и оценки состояния дорожного покрытия | |
Alshammari et al. | Machine learning forecast of dust storm frequency in Saudi Arabia using multiple features | |
Lopez et al. | Statistical characterization of rainfall fields based upon a 12-year high-resolution radar archive of Belgium | |
Raksha et al. | Weather forecasting framework for time series data using intelligent learning models | |
Mu et al. | The NAO variability prediction and forecasting with multiple time scales driven by ENSO using machine learning approaches | |
Bouktif et al. | Bayesian optimized XGBoost model for traffic speed prediction incorporating weather effects | |
Qiu et al. | Travel time forecasting on a freeway corridor: a dynamic information fusion model based on the random forests approach | |
Peng et al. | Short-term traffic flow prediction based on weather factors analysis and neural network | |
De Corso et al. | Extreme value statistics for alarm threshold setting in data-driven damage detection | |
Vijayalakshmi et al. | Rainfall prediction using ARIMA and linear regression | |
Valderrama Balaguera | Precipitation forecast estimation applying the change point method and ARIMA | |
Feng et al. | Learning a precipitation indicator from traffic speed variation patterns | |
Durán-Rosal et al. | Machine Learning Applications in Real-World Time Series Problems | |
Biondi et al. | Multivariate multi-step convection nowcasting with deep neural networks: the novara case study | |
Ahmed et al. | A review of machine learning models in the air quality research | |
Al Mehedi et al. | Unraveling The Complexities of Urban Flood Hydraulics Through AI | |
Lathika et al. | A novel model for rainfall prediction using hybrid stochastic-based Bayesian optimization algorithm | |
Sharma et al. | Short-term fog forecasting using meteorological observations at airports in north india | |
Jardines et al. | Pre‐tactical convection prediction for air traffic flow management using LSTM neural network | |
RU187992U1 (ru) | Устройство предобработки данных и генерации признаков в задаче прогнозирования параметров и оценки состояния дорожного покрытия | |
Vu et al. | Neighbouring link travel time inference method using artificial neural network | |
Zhang et al. | A Deep Learning Approach for Enhanced Real-Time Prediction of Winter Road Surface Temperatures in High-Altitude Mountain Areas |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PD9K | Change of name of utility model owner | ||
QB9K | Licence granted or registered (utility model) |
Free format text: LICENCE FORMERLY AGREED ON 20211130 Effective date: 20211130 |