[go: up one dir, main page]

KR102434460B1 - 기계학습 기반 예측 모델 재학습 장치 및 그 방법 - Google Patents

기계학습 기반 예측 모델 재학습 장치 및 그 방법 Download PDF

Info

Publication number
KR102434460B1
KR102434460B1 KR1020190091126A KR20190091126A KR102434460B1 KR 102434460 B1 KR102434460 B1 KR 102434460B1 KR 1020190091126 A KR1020190091126 A KR 1020190091126A KR 20190091126 A KR20190091126 A KR 20190091126A KR 102434460 B1 KR102434460 B1 KR 102434460B1
Authority
KR
South Korea
Prior art keywords
learning
model
machine learning
prediction
necessary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
KR1020190091126A
Other languages
English (en)
Other versions
KR20210012791A (ko
Inventor
고석갑
이병탁
이현용
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020190091126A priority Critical patent/KR102434460B1/ko
Publication of KR20210012791A publication Critical patent/KR20210012791A/ko
Application granted granted Critical
Publication of KR102434460B1 publication Critical patent/KR102434460B1/ko
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

본 발명은 기계학습 기반 예측 모델 재학습 장치 및 그 방법에 관한 것이다.
본 발명에 따른 기계학습 기반 예측 모델 재학습 장치는 복수의 기계학습 예측 모델로부터 예측값을 수신하는 입력부와, 예측값을 이용하여 예측 모델의 재학습 필요 시기를 판단하는 프로그램이 저장된 메모리 및 프로그램을 실행시키는 프로세서를 포함하고, 프로세서는 예측값을 이용하여 산출한 오차와 임계값을 비교하여 모델 재학습 필요 여부를 판단하는 것을 특징으로 한다.

Description

기계학습 기반 예측 모델 재학습 장치 및 그 방법{APPARATUS FOR RE-LEARNING PREDICTIVE MODEL BASED ON MACHINE LEARNING AND METHOD USING THEREOF}
본 발명은 기계학습 기반 예측 모델 재학습 장치 및 그 방법에 관한 것이다.
기계학습 기법은 에너지, 금융, 의료, 운송, 영업 등 다양한 분야에서 예측 및 진단 모델로 사용되고 있다.
종래 기술에 따른 기계학습 기법은 환경변화에 따라 예측 출력 결과와 실제 결과의 차이가 발생되는 문제점을 해결하기 위하여, 여러 재학습 방법을 제안하고 있지만, 재학습 방법 적용에 많은 비용이 요구되는 문제점, 불필요한 재학습을 수행하거나 재학습이 필요한 타이밍을 놓치는 문제점 등을 여전히 가지고 있다.
본 발명은 전술한 문제점을 해결하기 위하여 제안된 것으로, 환경 변화에 따라 기계학습 예측 모델의 재학습이 필요한 시기를 판단함으로써, 보다 효율적이고 정확한 기계학습 모델 운용이 가능한 장치, 시스템 및 방법을 제공하는데 그 목적이 있다.
본 발명에 따른 기계학습 기반 예측 모델 재학습 장치는 복수의 기계학습 예측 모델로부터 예측값을 수신하는 입력부와, 예측값을 이용하여 예측 모델의 재학습 필요 시기를 판단하는 프로그램이 저장된 메모리 및 프로그램을 실행시키는 프로세서를 포함하고, 프로세서는 예측값을 이용하여 산출한 오차와 임계값을 비교하여 모델 재학습 필요 여부를 판단하는 것을 특징으로 한다.
본 발명에 따른 기계학습 기반 예측 모델 재학습 시스템은 동일한 입력데이터를 수신하여 각각의 예측값을 출력하는 복수의 예측 진단 모델과, 예측값을 수신하여 모델 재학습 필요 여부를 판단하는 모델 재학습 판단부 및 모델 재학습 필요 여부에 따라 예측 진단 모델을 갱신하는 모델 재학습부를 포함하는 것을 특징으로 한다.
본 발명에 따른 기계학습 기반 예측 모델 재학습 방법은 복수의 기계학습 예측 모델로부터 예측값을 수신하는 단계와, 예측값을 수신하여 모델 재학습 필요 여부를 판단하는 단계 및 판단 결과에 따라 모델 재학습을 수행하는 단계를 포함하는 것을 특징으로 한다.
본 발명의 실시예에 따르면, 적절한 시기에 기계학습 예측 모델의 재학습이 이루어지도록 함으로써, 불필요한 재학습 과정을 줄이고, 예측 진단 모델의 정확도를 향상시키는 효과가 있다.
본 발명의 효과는 이상에서 언급한 것들에 한정되지 않으며, 언급되지 아니한 다른 효과들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
도 1은 종래 기술에 따른 기계학습 예측 모델 구조 및 방식을 나타내는 도면이다.
도 2는 종래 기술에 따른 무조건 재학습 방법을 나타내는 도면이다.
도 3은 종래 기술에 따른 예측 오차가 크면 재학습하는 방법을 나타내는 도면이다.
도 4는 본 발명의 실시예에 따른 기계학습 기반 예측 모델 재학습 장치를 나타내는 블록도이다.
도 5는 본 발명의 실시예에 따른 복수 개의 예측 모델을 이용하는 기계학습 기반 예측 모델 재학습 장치를 나타내는 블록도이다.
도 6은 본 발명의 실시예에 따른 실제 결과값과 복수 개의 예측 모델을 이용하는 기계학습 기반 예측 모델 재학습 장치를 나타내는 블록도이다.
도 7은 본 발명의 실시예에 따른 기계학습 기반 예측 모델 재학습 시스템을 나타내는 블록도이다.
도 8은 본 발명의 실시예에 따른 페어 모델 에러 매트릭스(pair model error matrix)를 도시한다.
도 9는 본 발명의 실시예에 따른 모델 간 예측값 차이의 시계열 변화를 나타내는 그래프이다.
도 10은 본 발명의 실시예에 따른 재학습용 데이터 셋 구성예를 도시한다.
도 11은 본 발명의 실시예에 따른 기계학습 기반 예측 모델 재학습 방법을 나타내는 순서도이다.
본 발명의 전술한 목적 및 그 이외의 목적과 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다.
그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 이하의 실시예들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 목적, 구성 및 효과를 용이하게 알려주기 위해 제공되는 것일 뿐으로서, 본 발명의 권리범위는 청구항의 기재에 의해 정의된다.
한편, 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성소자, 단계, 동작 및/또는 소자가 하나 이상의 다른 구성소자, 단계, 동작 및/또는 소자의 존재 또는 추가됨을 배제하지 않는다.
이하에서는, 당업자의 이해를 돕기 위하여 본 발명이 제안된 배경에 대하여 먼저 서술하고, 본 발명의 실시예에 대하여 서술하기로 한다.
기계학습 기법은 에너지, 금융, 의료, 운송, 영업 등 다양한 분야에서 예측 및 진단 모델로 사용되고 있다.
일반적으로 '시스템'이라는 것은 입력 데이터를 넣으면 출력 데이터가 나오는 구조이다.
이러한 시스템의 입력 데이터에 대해 출력 데이터를 예측하는 기계학습 예측 시스템은, 수많은 입력 데이터 셋과 출력 데이터 셋을 기계학습 예측 시스템에 넣어 학습 시켜, 나중에 입력 데이터를 넣으면 출력 데이터가 나오도록 만드는 것이다.
도 1은 종래 기술에 따른 기계학습 예측 모델 구조 및 방식을 나타내는 도면이다.
도 1의 (a)에 도시된 바와 같이, 학습 과정에서는 과거의 입력 데이터 및 출력 데이터를 이용하여 예측 모델(10)이 구축된다.
도 1의 (b)에 도시된 바와 같이, 적용 과정에서는 실제 데이터인 입력 데이터가 예측 모델(10)에 입력되고, 예측 출력 데이터가 출력된다.
도 1에 도시한 바와 같은 기계학습 예측 방식은 학습된 데이터를 이용하여 예측하기 때문에, 시스템 환경이 변화하지 않을 때는 오류 없이 잘 동작한다.
그러나, 실제 시스템을 운용하면서 환경이 변화하면, 예측 모델이 예측하는 출력결과와 실제 결과의 차이가 크게 나타난다.
환경 변화에는, 기후변화, 시스템 노후화, 운용형태의 변화 등 내외적인 변화가 포함되는데, 기계학습 예측 모델이 학습한 데이터는 환경변화가 일어나기 전 과거데이터이므로 예측 오류가 나타난다.
이를 해결하는 직관적인 방법은, 최신 데이터를 이용하여 기계학습 모델을 다시 학습하는 것으로, 도 2는 종래 기술에 따른 무조건 재학습 방법을 나타낸다.
기계학습 모델은 매번 또는 주기적으로, 기존 학습하였던 데이터에 최신 운용 데이터를 추가한 다음, 다시 모델을 학습한다.
모델 재학습부(22)에 의해 재학습된 모델은 다시 예측진단 모델(21)에 적용되어, 다음 예측에 사용된다.
기계학습 모델을 학습하는 데는 많은 시간과 에너지, 전용 하드웨어가 요구되는데, 기계학습 모델의 복잡도에 따라 학습을 위해 수 일 내지는 수 개월이 소요될 수 있다.
즉, 도 2에 도시한 무조건 재학습 방법 적용에는 많은 비용이 요구되므로, 실제 적용하는 데 어려움이 있다.
또한 새로운 데이터와 과거 데이터를 모두 결합하여 학습하기 때문에, 새로운 데이터에 의한 영향력이 약하게 나타나게 되므로, 환경 변화에 따른 영향을 예측 모델에 빠르게 반영하기 어렵다.
도 3은 종래 기술에 따른 예측 오차가 크면 재학습하는 방법을 나타내는 도면으로, 오차 비교부(32)는 예측 진단 모델(31)의 예측값과 실제 측정값의 오차를 비교하여, 오차가 일정한 수준을 초과하는 경우 모델 재학습부(33)를 통해 재학습을 수행한다.
도 2를 참조하여 전술한 '무조건 재학습 방법'은 환경변화가 없어, 예측이 정확히 이루어지고 있는 상황에서도 모델을 재학습하기 때문에 불필요한 과정이 이루어지게 된다.
반면 도 3에 도시한 '예측 오차가 크면 재학습하는 방법'은, 예측 모델의 예측값과 실제 측정값의 차이를 비교하여 일정한 수준(Threshold)을 벗어나면, 환경이 변화했다고 판단하고, 최신 데이터를 이용하여 모델을 재학습하는 방법으로, 무조건 재학습 방법의 비효율성을 개선할 수 있다.
다만, 이러한 방법을 실제 적용하기에는 몇 가지 문제가 있다.
첫 번째는, Threshold 결정 문제이다.
예측 오차가 어느 정도 벗어날 때 모델을 재학습해야 하는지 판단을 해야 하는데, 통상 경험을 통해 그 값을 결정하는 경우가 많고, 이 경우 불필요한 재학습을 하게 되거나, 재학습이 필요한 타이밍을 놓치는 경우가 발생할 수 있다.
두 번째는, 예측 모델에 따라 오차를 구하기 어려운 경우가 있다.
예측 모델 중에는 거의 즉시 그 오차를 알 수 있는 경우도 있지만, 시스템의 건전성을 예측하는 경우는, 예측 오차를 판별하는데 많은 시간이 요구되는 경우도 있다.
예를 들어, 이 시스템의 잔여수명(RUL, Remaining Useful Life)을 예측하는 경우, 그것을 검증하기에는 수 개월 내지는 수 년이 걸릴 수도 있는 문제이다.
따라서 이러한 경우에는 '예측 오차가 크면 재학습하는 방법'을 적용하기 어렵다.
세 번째는, 오차 고려 문제이다.
실제 시스템의 측정값에는 오차가 포함되는데, 이러한 일시적인 오차에 대한 고려 없이 판단을 하게 되면, 불필요한 재학습을 하거나, 적절한 재학습 시기를 놓치게 된다.
본 발명은 전술한 종래 기술에 따른 기계학습 기반 모델 재학습 기술의 문제점을 해결하기 위하여 제안된 것으로, 기계학습 재학습 시기를 결정하는 방법과 그 시스템 구조를 제시한다.
즉, 환경 변화에 의해 기계학습 예측 모델이 재학습이 필요한 시기를 판단하는 방법을 제시하며, 이를 구현하기 위한 시스템의 구조를 제시하여, 보다 효율적이고 정확한 기계학습 모델이 운용될 수 있도록 한다.
도 4는 본 발명의 실시예에 따른 기계학습 기반 예측 모델 재학습 장치를 나타내는 블록도이다.
본 발명의 실시예에 따른 기계학습 기반 예측 모델 재학습 장치는 복수의 기계학습 예측 모델로부터 예측값을 수신하는 입력부(110)와, 예측값을 이용하여 예측 모델의 재학습 필요 시기를 판단하는 프로그램이 저장된 메모리(120) 및 프로그램을 실행시키는 프로세서(130)를 포함하되, 프로세서(130)는 예측값을 이용하여 산출한 오차와 임계값을 비교하여 모델 재학습 필요 여부를 판단한다.
프로세서(130)는 복수의 기계학습 예측 모델로부터 각각 수신한 예측값의 차이와 임계값을 비교하여, 모델 재학습 필요 여부를 판단한다,
이 때, 입력부(110)가 실제 결과를 수신하면, 프로세서(130)는 실제 결과와 복수의 기계학습 예측 모델로부터 수신한 예측값의 차이를 고려하여 모델 재학습 필요 여부를 판단한다.
프로세서(130)는 기존 학습 데이터로부터 획득된 복수의 기계학습 예측 모델들 간의 예측값의 차이의 합을 이용하여 임계값을 결정한다.
프로세서(130)는 복수의 기계학습 예측 모델들 간의 예측값의 차이의 합을 산출하고, 산출된 결과의 분포를 이용하여 재학습 여부 판단의 기준이 되는 임계값을 결정한다.
프로세서(130)는 복수의 기계학습 예측 모델들 간의 예측값의 차이의 평균 및 표준편차를 이용하여 모델 재학습 필요 여부를 판단한다.
프로세서(130)는 복수의 기계학습 예측 모델들 간의 예측값의 차이의 합의 시계열 변화를 고려하여 모델 재학습 필요 여부를 판단한다.
프로세서(130)는 기존 학습 데이터의 일부를 삭제하고, 새로운 운용 데이터 셋을 추가하여 재학습용 데이터 셋을 구성한다.
도 5는 본 발명의 실시예에 따른 복수 개의 예측 모델을 이용하는 기계학습 기반 예측 모델 재학습 장치를 나타내는 블록도이다.
본 발명의 실시예에 따르면, 재학습 시기를 결정하기 위해 2개 이상의 예측진단 모델을 이용한다.
즉, 서로 다른 기계학습 방식을 사용하는 복수개의 모델의 예측값을 서로 비교하여, 그 차이가 기설정 수치보다 큰 경우에만 모델 재학습을 수행한다.
도 5를 참조하면, 제1 예측 진단 모델(510a)과 제2 예측 진단 모델 (510b)는 동일한 새 입력데이터를 받아 각각 제1 예측값 및 제2 예측값을 예측한다.
모델 재학습 판단부(520)는 제1예측값 및 제2 예측값 간의 차이를 비교하여, 그 오차가 일정한 수준(Threshold)을 초과하는 경우, 최신 운용 데이터를 이용하여 모델 재학습을 수행하도록 한다.
재학습은 제1 모델 재학습부(530a) 및 제2 모델 재학습부(530b)를 통해 각 모델 별로 수행되며, 새로 학습된 모델 파라메터를 이용하여 각각 제1 예측 진단 모델(510a) 및 제2 예측 진단 모델(510b)을 갱신하고, 다음 예측부터는 새로 재학습된 모델로 예측을 수행한다.
모델 재학습 판단부(520)의 판단 결과, 모델 간 예측 오차가 일정 수준(Threshold) 미만인 경우에는, 재학습 없이 예측진단 모델이 운용된다.
이 때, 복수 개의 예측값들에 대해서는 평균을 내거나, 가중치를 반영하여 결합하는 등 앙상블(Ensemble) 방법을 통하여 하나의 값으로 만들어 예측값으로 활용한다.
이 방법은 잔여수명(RUL) 예측과 같은 시스템의 실제 측정값을 알기 어려운 경우에도 적용할 수 있다.
본 발명의 다른 실시예에 따르면, 시스템의 실제 측정값 또한 하나의 모델로 취급할 수 있는데, 도 6은 본 발명의 다른 실시예에 따른 실제 결과 값과 복수 개의 예측 모델을 이용하는 기계학습 기반 예측 모델 재학습 장치를 나타내는 블록도이다.
모델 재학습 판단부(520)는 실제 결과와 제1 예측값과의 차이, 실제 결과와 제2 예측값와의 차이, 제1 예측값 및 제2 예측값의 차이를 모두 고려하여 모델 재학습 필요 여부를 판단한다.
모델 재학습 판단부(520)는 실제 결과와 제1 예측값과의 차이가 제1 임계값 초과인지 여부를 확인하고, 초과인 경우 제1 모델 재학습부(530a)는 제1 예측 진단 모델(510a)을 갱신한다.
모델 재학습 판단부(520)는 실제 결과와 제2 예측값과의 차이가 제2 임계값 초과인지 여부를 확인하고, 초과인 경우 제2 모델 재학습부(530b)는 제2 예측 진단 모델(510b)을 갱신한다.
모델 재학습 판단부(520)는 제1 및 제2 예측값의 차이가 제3 임계값 초과인지 여부를 확인하고, 초과인 경우 실제 결과를 고려하여 재학습할 모델을 확인하고, 후속적으로 해당 예측 진단 모델의 갱신이 이루어진다.
도 7은 본 발명의 실시예에 따른 기계학습 기반 예측 모델 재학습 시스템을 나타내는 블록도로서, 실제 적용 가능한 전체 시스템의 구조를 도시한다.
현장 운용 시스템(710)이란 제품을 생산하거나, 에너지를 발전하거나, 기계 내지 장비를 제어 운용하거나, 서비스를 운용하는 등 실제 동작하는 시스템을 말한다.
예측진단 시스템(720)은 도 7에서 현장 운용 시스템(710)과 논리적으로 분리하여 도시하였으나, 물리적으로는 현장 운용 시스템(710)의 일부로 배치되거나, 별도로 배치될 수 있다.
현장 예측진단 모델(721)은, 현장 운용 시스템(710)으로부터 새로운 데이터를 받아 예측 또는 진단을 수행한다.
예측은 에너지 소비 예측, 생산량 예측, 제품 생산량 예측 등이며, 진단은 고장 또는 정상 상태, 잔여수명 등에 대한 예측을 말한다.
현장 예측진단 모델(721)의 예측진단결과에 따라, 경보 제공부(723)는 시스템에 경고 또는 경보를 보낸다.
예컨대, 현장 예측진단 모델(721)이 현재 상태를 비정상이라고 예측하면, 경보 제공부(723)는 고장 또는 비정상이라는 경보를 관리자에게 전파한다.
현장 예측진단 모델(721)의 예측값은 운전 제어부(722)에 의해, 현장 운용 시스템(710)의 제어신호로 사용될 수 있다.
현장 예측진단 모델(721)은 재학습이 필요한 경우, 필요한 최신 운용(측정) 데이터를 모델 재학습 서버(730)로 전송하고, 재학습을 요청한다.
모델 재학습 서버(730)는, 현장에 설치되는 대용량 고성능 하드웨어를 갖추고 있는 서버이거나, 클라우드 서비스 상의 소프트웨어일 수 있다.
모델 재학습 서버(730)는 기존 데이터 및 최신 데이터를 이용하여 예측진단 모델을 재학습하고, 학습한 모델(기계학습 예측 모델 구조 및 가중치 파라메터 등)을 현장 예측진단 모델(721)로 전송한다.
본 발명의 실시예에 따르면, 복수의 예측 진단 모델들의 예측값로부터 하나의 차이값으로 합할 필요가 있는데, 이를 [수학식 1]과 같이 표현한다.
[수학식 1]
Figure 112019077189804-pat00001
D sum 은 예측 진단 모델들간의 차이(거리)의 합을 나타낸다.
yi 와 yj 는 각각 모델 i의 예측값과 모델 j의 예측값을 말한다.
n은 모델의 수를 말하고, d()함수는 두 값의 거리를 나타낸다.
두 값의 거리를 나타내는 함수에는 기하학적 거리를 나타내는 유클리안 거리가 대표적이며, 상기 [수학식 1]에 ||~|| 로 표시되어 있다.
예를 들어 모델1, 2, 3의 예측값이 각각 10, 13, 12 인 경우, 모델 1과 모델 2의 차이(거리)는 3, 모델 2와 모델 3의 차이는 1, 모델 3과 모델 1의 차이는 2이기 때문에 Dsum 은 6이 된다.
본 발명의 실시예에 따른 모델 재학습 판단부(520)에서는, 기존의 학습데이터를 이용하여, Dsum 들을 구한 후, 그 분포를 이용하여 재학습 여부를 판단하는 임계값(Theshold)을 결정한다.
예를 들어, 기존 학습데이터를 이용한 Dsum 의 범위가 0~100인 경우, 임계값을 100으로 설정할 수 있다.
다른 방법으로는 Dsum 의 분포를 고려하여, Dsum 의 평균이 100이고, 표준편차가 10이라면, 약 99.9% 수준은 μ+3σ = 100+3*10 = 130 이므로, 130을 임계값으로 설정할 수 있다.
각 모델 간 예측값의 차이의 편차는 그 특성이 서로 다를 수 있다.
예를 들어, 모델1과 모델2간의 예측값 차이가 평상시 0~3사이였는데 이번 예측값 차이가 2인 경우와, 모델2와 모델3간의 예측값 차이가 평상시 0~1사이였는데 이번 예측값 차이가 2인 경우는 그 차이의 심각성 정도가 서로 다르다.
따라서 단순히 모델 간 예측값 차이값을 합치는 것 보다는 모델 간 예측값 차이의 분포를 고려하는 것이 바람직하다.
즉, 평균과의 거리가 표준편차의 몇 배인지를 나타내는 마할로노비스 거리(Mahalanobis distance)를 이용하면, 모델 간 예측값 차이의 분포를 고려하여, 다음 [수학식 2]와 같이 MDsum (각 모델 간 예측값의 마할로노비스 거리의 합)을 구할 수 있으며, 이 값이 임계값를 넘어서면 재학습을 하도록 판단한다.
[수학식 2]
Figure 112019077189804-pat00002
mi,j 는 모델 i의 예측값과 모델 j의 예측값 차이의 마할로노비스의 거리를 나타낸다.
Figure 112019077189804-pat00003
Figure 112019077189804-pat00004
는 모델 i의 예측값과 모델 j의 예측값 차이의 평균값과 표준편차로, 학습데이터를 이용하여 사전에 계산된다.
di,j는 모델 i의 예측값과 모델 j의 예측값 차이이다.
도 8은 본 발명의 실시예에 따른 페어 모델 에러 매트릭스(pair model error matrix)를 도시하며,
Figure 112019077189804-pat00005
Figure 112019077189804-pat00006
의 예시를 도시한다.
모델 2와 모델3의 관계에서, 평균 μ2,3 은 40이고, 표준편차는 σ2,3은 7이다. 이때 새로운 입력으로부터 모델1,2,3의 예측값이 각각 100,120,150 이었다면, d1,2 = 20, d2,3 = 30, d3,1 = 50이고, MDsum = (20-20)2/5 + (30-40)2/7 + (50-30)2/6 = 80.95 가 된다.
최신 측정 입력, 출력 데이터에는 일시적인 비정상적인 상황에 의한 요소의 영향을 받거나, 잡음이 포함되어 있을 수 있다.
따라서 최신 데이터 하나만을 이용해 재학습 여부를 바로 판단하는 경우, 불필요한 재학습이 이루어질 수 있으며, 일시적인 잡음이 포함된 데이터로 학습하는 경우, 예측 성능의 저하가 발생할 수 있다.
본 발명의 실시예에 따르면, 이러한 문제점을 해결하기 위하여 일정 기간동안 데이터를 관찰한 뒤 판단하는 시계열 임계값(threshold) rth를 정의하여 사용한다.
즉, 모델 간 예측값의 차이(거리)가 시간에 따라 점점 증가하는 경우 또는 지속되는 경우에만 재학습 하기로 결정하며, 이는 [수학식 3]과 같이 표현된다.
[수학식 3]
Figure 112019077189804-pat00007
Dsum은 전술한 바와 같이 모델 간 예측값 차이의 거리합이며, Dsum 대신 MDsum을 사용하는 것도 가능하다.
정해진 시간 구간에서의 Dsum의 변화를 r이라고 했을 때, 그 값이 시계열 임계값(rth) 를 넘으면, 재학습하기로 결정한다.
도 9는 본 발명의 실시예에 따른 모델 간 예측값 차이의 거리합에 대한 시계열 변화를 나타내는 그래프로서, 도 9의 (a)의 경우 모델 거리가 감소하고 있으며, 도 9의 (b)의 경우 모델 거리가 증가하고 있다.
도 9의 (b)이 경우와 같이 모델 거리가 증가하는 경우, 환경 변화에 의해 예측 성능이 떨어지고 있는 것으로 판단하여, 재학습을 하도록 한다.
도 10은 본 발명의 실시예에 따른 재학습용 데이터 셋 구성예를 도시한다.
재학습시 데이터는, 기존 학습된 데이터에 새로운 운용 데이터가 추가된다.
기존 학습데이터와 새로운 데이터를 합쳐서 새로 학습하는 경우, 새로운 데이터의 영향력이 상대적으로 약하게 학습될 수 있으므로, 본 발명의 실시예에 따르면 기존 학습 데이터의 오래된 일부를 버리고, 새로운 운용데이터 셋을 추가하여 재학습용 데이터 셋을 구성한다,
도 11은 본 발명의 실시예에 따른 기계학습 기반 예측 모델 재학습 방법을 나타내는 순서도이다.
본 발명의 실시예에 따른 기계학습 기반 예측 모델 재학습 방법은 복수의 기계학습 예측 모델로부터 예측값을 수신하는 단계(S1101)와, 예측값을 수신하여 모델 재학습 필요 여부를 판단하는 단계(S1102) 및 판단 결과에 따라 모델 재학습을 수행하는 단계(S1103)를 포함한다.
S1102 단계는 예측값의 차이와 임계값을 비교하여 모델 재학습 필요 여부를 판단하는데, S1101단계에서 실제결과를 더 수신하는 경우, 실제결과와 예측값의 차이를 함께 고려하여 모델 재학습 필요 여부를 판단한다.
S1102 단계는 예측값의 차이의 합을 산출하여, 산출 결과, 산출 결과의 분포 및 시계열 추이 중 적어도 어느 하나를 이용하여 모델 재학습 필요 여부를 판단한다.
S1102단계는 예측값의 차이의 평균 및 표준 편차를 이용하여 복수의 기계학습 예측 모델 간의 마할로노비스 거리의 합을 산출하여 모델 재학습 필요 여부를 판단한다.
S1102 단계는 마할로노비스 거리의 합의 시계열 추이를 고려하여 모델 재학습 필요 여부를 판단한다.
S1103 단계는 기존 학습 데이터의 일부를 삭제하고, 새로운 운용 데이터 셋을 추가하여 재학습용 데이터 셋을 구성한다.
한편, 본 발명의 실시예에 따른 기계학습 기반 예측 모델 재학습 방법은 컴퓨터 시스템에서 구현되거나, 또는 기록매체에 기록될 수 있다. 컴퓨터 시스템은 적어도 하나 이상의 프로세서와, 메모리와, 사용자 입력 장치와, 데이터 통신 버스와, 사용자 출력 장치와, 저장소를 포함할 수 있다. 전술한 각각의 구성 요소는 데이터 통신 버스를 통해 데이터 통신을 한다.
컴퓨터 시스템은 네트워크에 커플링된 네트워크 인터페이스를 더 포함할 수 있다. 프로세서는 중앙처리 장치(central processing unit (CPU))이거나, 혹은 메모리 및/또는 저장소에 저장된 명령어를 처리하는 반도체 장치일 수 있다.
메모리 및 저장소는 다양한 형태의 휘발성 혹은 비휘발성 저장매체를 포함할 수 있다. 예컨대, 메모리는 ROM 및 RAM을 포함할 수 있다.
따라서, 본 발명의 실시예에 따른 기계학습 기반 예측 모델 재학습 방법은 컴퓨터에서 실행 가능한 방법으로 구현될 수 있다. 본 발명의 실시예에 따른 기계학습 기반 예측 모델 재학습 방법이 컴퓨터 장치에서 수행될 때, 컴퓨터로 판독 가능한 명령어들이 본 발명에 따른 재학습 방법을 수행할 수 있다.
한편, 상술한 본 발명에 따른 기계학습 기반 예측 모델 재학습 방법은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현되는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록 매체로는 컴퓨터 시스템에 의하여 해독될 수 있는 데이터가 저장된 모든 종류의 기록 매체를 포함한다. 예를 들어, ROM(Read Only Memory), RAM(Random Access Memory), 자기 테이프, 자기 디스크, 플래시 메모리, 광 데이터 저장장치 등이 있을 수 있다. 또한, 컴퓨터로 판독 가능한 기록매체는 컴퓨터 통신망으로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 읽을 수 있는 코드로서 저장되고 실행될 수 있다.
이제까지 본 발명의 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

Claims (20)

  1. 복수의 기계학습 예측 모델로부터 예측값을 수신하는 입력부;
    상기 예측값을 이용하여 예측 모델의 재학습 필요 시기를 판단하는 프로그램이 저장된 메모리; 및
    상기 프로그램을 실행시키는 프로세서를 포함하되,
    상기 프로세서는 상기 예측값을 이용하여 산출한 오차와 임계값을 비교하여 모델 재학습 필요 여부를 판단하고,
    상기 프로세서는 상기 복수의 기계학습 예측 모델들 간의 예측값의 차이의 합을 산출하고, 산출된 결과의 분포 및 시계열 변화를 고려하여 재학습 필요 여부를 판단하는 것
    인 기계학습 기반 예측 모델 재학습 장치.
  2. 삭제
  3. 삭제
  4. 삭제
  5. 삭제
  6. 제1항에 있어서,
    상기 프로세서는 상기 복수의 기계학습 예측 모델들 간의 예측값의 차이의 평균 및 표준편차를 이용하여 상기 임계값을 결정하는 것
    인 기계학습 기반 예측 모델 재학습 장치.
  7. 삭제
  8. 제1항에 있어서,
    상기 프로세서는 기존 학습 데이터의 일부를 삭제하고, 새로운 운용 데이터 셋을 추가하여 재학습용 데이터 셋을 구성하는 것
    인 기계학습 기반 예측 모델 재학습 장치.
  9. 동일한 입력데이터를 수신하여 각각의 예측값을 출력하는 복수의 예측 진단 모델;
    상기 예측값을 수신하여 모델 재학습 필요 여부를 판단하는 모델 재학습 판단부; 및
    모델 재학습 필요 여부에 따라 상기 예측 진단 모델을 갱신하는 모델 재학습부를 포함하고,
    상기 모델 재학습 판단부는 상기 각각의 예측값의 차이의 합을 산출하고, 산출된 결과, 산출된 결과의 분포 및 산출된 결과의 시계열 추이를 고려하여 모델 재학습 필요 여부를 판단하는 것
    인 기계학습 기반 예측 모델 재학습 시스템.
  10. 삭제
  11. 삭제
  12. 삭제
  13. 제9항에 있어서,
    상기 모델 재학습 판단부는 상기 각각의 예측값의 차이의 평균 및 표준편차를 이용하여 모델 재학습 필요 여부를 판단하는 것
    인 기계학습 기반 예측 모델 재학습 시스템.
  14. 제9항에 있어서,
    상기 모델 재학습부는 기존 학습 데이터의 일부를 삭제하고, 새로운 운용 데이터 셋을 추가하여 재학습용 데이터 셋을 구성하는 것
    인 기계학습 기반 예측 모델 재학습 시스템.
  15. 기계학습 기반 예측 모델 재학습 시스템에 의해 각 단계가 수행되는 기계학습 기반 예측 모델 재학습 방법에 있어서,
    (a) 복수의 기계학습 예측 모델로부터 예측값을 수신하는 단계;
    (b) 상기 예측값을 수신하여 모델 재학습 필요 여부를 판단하되, 상기 예측값의 차이의 합을 산출하여, 산출 결과, 산출 결과의 분포 및 시계열 추이를 이용하여 모델 재학습 필요 여부를 판단하는 단계; 및
    (c) 상기 (b) 단계에서의 판단 결과에 따라 모델 재학습을 수행하는 단계
    를 포함하는 기계학습 기반 예측 모델 재학습 방법.
  16. 삭제
  17. 삭제
  18. 삭제
  19. 제15항에 있어서,
    상기 (b) 단계는 상기 예측값의 차이의 평균 및 표준 편차를 이용하여 상기 복수의 기계학습 예측 모델 간의 마할로노비스 거리의 합을 산출하여 모델 재학습 필요 여부를 판단하는 것
    인 기계학습 기반 예측 모델 재학습 방법.
  20. 제19항에 있어서,
    상기 (b) 단계는 상기 마할로노비스 거리의 합의 시계열 추이를 고려하여 모델 재학습 필요 여부를 판단하는 것
    인 기계학습 기반 예측 모델 재학습 방법.
KR1020190091126A 2019-07-26 2019-07-26 기계학습 기반 예측 모델 재학습 장치 및 그 방법 Active KR102434460B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190091126A KR102434460B1 (ko) 2019-07-26 2019-07-26 기계학습 기반 예측 모델 재학습 장치 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190091126A KR102434460B1 (ko) 2019-07-26 2019-07-26 기계학습 기반 예측 모델 재학습 장치 및 그 방법

Publications (2)

Publication Number Publication Date
KR20210012791A KR20210012791A (ko) 2021-02-03
KR102434460B1 true KR102434460B1 (ko) 2022-08-22

Family

ID=74572405

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190091126A Active KR102434460B1 (ko) 2019-07-26 2019-07-26 기계학습 기반 예측 모델 재학습 장치 및 그 방법

Country Status (1)

Country Link
KR (1) KR102434460B1 (ko)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11720088B2 (en) * 2021-03-26 2023-08-08 Lynceus Sas Real-time AI-based quality assurance for semiconductor production machines
KR20220135498A (ko) * 2021-03-30 2022-10-07 삼성전자주식회사 전자 장치 및 이의 제어 방법
US11567488B2 (en) 2021-05-27 2023-01-31 Lynceus, Sas Machine learning-based quality control of a culture for bioproduction
JP2022186039A (ja) * 2021-06-04 2022-12-15 株式会社東京精密 プローバ制御装置、プローバ制御方法、及びプローバ
KR102366922B1 (ko) * 2021-08-27 2022-02-28 팩트얼라이언스 주식회사 시계열적 절연 진단 정보 기반의 중전기기 열화 예측 시스템 및 그 방법
KR102367409B1 (ko) * 2021-11-02 2022-02-24 주식회사 데이탄소프트 기 학습된 장애 예측 모델을 이용한 it 서비스의 장애 예측 방법, 서버 및 컴퓨터프로그램
KR102775614B1 (ko) * 2021-11-25 2025-03-05 (주)브릭 시계열 데이터 회귀 예측을 위한 예측 모델의 학습 방법 및 예측 모델을 이용한 예측 방법
KR102733645B1 (ko) * 2021-12-03 2024-11-26 주식회사 아이센스 생체값의 예측 방법
WO2024029682A1 (en) * 2022-08-02 2024-02-08 Samsung Electronics Co., Ltd. Method and electronic device for automated machine learning model retraining
KR102773653B1 (ko) * 2023-03-22 2025-02-28 충북대학교 산학협력단 반사실적설명 생성 방법 및 장치

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070220034A1 (en) 2006-03-16 2007-09-20 Microsoft Corporation Automatic training of data mining models
JP2012022558A (ja) 2010-07-15 2012-02-02 Hitachi Ltd 分散計算システム
JP2017068710A (ja) * 2015-09-30 2017-04-06 富士通株式会社 分散処理システム、学習モデル作成方法、データ処理方法、学習モデル作成プログラムおよびデータ処理プログラム
JP2018156415A (ja) * 2017-03-17 2018-10-04 株式会社リコー 診断装置、診断システム、診断方法およびプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070220034A1 (en) 2006-03-16 2007-09-20 Microsoft Corporation Automatic training of data mining models
JP2012022558A (ja) 2010-07-15 2012-02-02 Hitachi Ltd 分散計算システム
JP2017068710A (ja) * 2015-09-30 2017-04-06 富士通株式会社 分散処理システム、学習モデル作成方法、データ処理方法、学習モデル作成プログラムおよびデータ処理プログラム
JP2018156415A (ja) * 2017-03-17 2018-10-04 株式会社リコー 診断装置、診断システム、診断方法およびプログラム

Also Published As

Publication number Publication date
KR20210012791A (ko) 2021-02-03

Similar Documents

Publication Publication Date Title
KR102434460B1 (ko) 기계학습 기반 예측 모델 재학습 장치 및 그 방법
CN110888788B (zh) 异常检测方法、装置、计算机设备及存储介质
US10192170B2 (en) System and methods for automated plant asset failure detection
JP7201844B2 (ja) グラディエントベースのセンサ識別を利用した障害予測
US11468359B2 (en) Storage device failure policies
US11283283B2 (en) Advanced smart battery analytic and diagnostic systems and methods
US11288577B2 (en) Deep long short term memory network for estimation of remaining useful life of the components
CN108509325B (zh) 系统超时时间的动态确定方法与装置
US7020569B2 (en) Intelligent modelling of process and tool health
CN117114454B (zh) 一种基于Apriori算法的直流套管状态评估方法及系统
WO2019133316A1 (en) Reconstruction-based anomaly detection
CN111459692B (zh) 用于预测驱动器故障的方法、设备和计算机程序产品
EP3798778A1 (en) Method and system for detecting an anomaly of an equipment in an industrial environment
CN114528934A (zh) 时序数据异常检测方法、装置、设备及介质
JP2023537562A (ja) 異常検出のための連合学習
CN112148768A (zh) 一种指标时间序列异常检测方法、系统及存储介质
KR20180116577A (ko) 건물 시스템 진단 방법 및 장치
CN104598984A (zh) 一种基于模糊神经网络的故障预测方法
CN117318052B (zh) 发电机组进相试验无功功率预测方法、装置和计算机设备
CN114175072A (zh) 使用不相关过滤器促进对公用事业系统资产的高效rul分析
CN112128950B (zh) 一种基于多种模型对比的机房温湿度预测方法及系统
Sen et al. Multiway continuous hidden Markov model‐based approach for fault detection and diagnosis
US20230075065A1 (en) Passive inferencing of signal following in multivariate anomaly detection
CN116991615A (zh) 一种基于在线学习的云原生系统故障自愈方法及装置
CN115936399A (zh) 操作票生成方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PA0109 Patent application

Patent event code: PA01091R01D

Comment text: Patent Application

Patent event date: 20190726

PA0201 Request for examination

Patent event code: PA02012R01D

Patent event date: 20200604

Comment text: Request for Examination of Application

Patent event code: PA02011R01I

Patent event date: 20190726

Comment text: Patent Application

PG1501 Laying open of application
E902 Notification of reason for refusal
PE0902 Notice of grounds for rejection

Comment text: Notification of reason for refusal

Patent event date: 20211118

Patent event code: PE09021S01D

E701 Decision to grant or registration of patent right
PE0701 Decision of registration

Patent event code: PE07011S01D

Comment text: Decision to Grant Registration

Patent event date: 20220526

GRNT Written decision to grant
PR0701 Registration of establishment

Comment text: Registration of Establishment

Patent event date: 20220816

Patent event code: PR07011E01D

PR1002 Payment of registration fee

Payment date: 20220817

End annual number: 3

Start annual number: 1

PG1601 Publication of registration