KR102434460B1

KR102434460B1 - 기계학습 기반 예측 모델 재학습 장치 및 그 방법

Info

Publication number: KR102434460B1
Application number: KR1020190091126A
Authority: KR
Inventors: 고석갑; 이병탁; 이현용
Original assignee: 한국전자통신연구원
Priority date: 2019-07-26
Filing date: 2019-07-26
Publication date: 2022-08-22
Anticipated expiration: 2039-07-26
Also published as: KR20210012791A

Abstract

본 발명은 기계학습 기반 예측 모델 재학습 장치 및 그 방법에 관한 것이다.
본 발명에 따른 기계학습 기반 예측 모델 재학습 장치는 복수의 기계학습 예측 모델로부터 예측값을 수신하는 입력부와, 예측값을 이용하여 예측 모델의 재학습 필요 시기를 판단하는 프로그램이 저장된 메모리 및 프로그램을 실행시키는 프로세서를 포함하고, 프로세서는 예측값을 이용하여 산출한 오차와 임계값을 비교하여 모델 재학습 필요 여부를 판단하는 것을 특징으로 한다.

Description

기계학습 기반 예측 모델 재학습 장치 및 그 방법{APPARATUS FOR RE-LEARNING PREDICTIVE MODEL BASED ON MACHINE LEARNING AND METHOD USING THEREOF}

본 발명은 기계학습 기반 예측 모델 재학습 장치 및 그 방법에 관한 것이다.

기계학습 기법은 에너지, 금융, 의료, 운송, 영업 등 다양한 분야에서 예측 및 진단 모델로 사용되고 있다.

종래 기술에 따른 기계학습 기법은 환경변화에 따라 예측 출력 결과와 실제 결과의 차이가 발생되는 문제점을 해결하기 위하여, 여러 재학습 방법을 제안하고 있지만, 재학습 방법 적용에 많은 비용이 요구되는 문제점, 불필요한 재학습을 수행하거나 재학습이 필요한 타이밍을 놓치는 문제점 등을 여전히 가지고 있다.

본 발명은 전술한 문제점을 해결하기 위하여 제안된 것으로, 환경 변화에 따라 기계학습 예측 모델의 재학습이 필요한 시기를 판단함으로써, 보다 효율적이고 정확한 기계학습 모델 운용이 가능한 장치, 시스템 및 방법을 제공하는데 그 목적이 있다.

본 발명에 따른 기계학습 기반 예측 모델 재학습 장치는 복수의 기계학습 예측 모델로부터 예측값을 수신하는 입력부와, 예측값을 이용하여 예측 모델의 재학습 필요 시기를 판단하는 프로그램이 저장된 메모리 및 프로그램을 실행시키는 프로세서를 포함하고, 프로세서는 예측값을 이용하여 산출한 오차와 임계값을 비교하여 모델 재학습 필요 여부를 판단하는 것을 특징으로 한다.

본 발명에 따른 기계학습 기반 예측 모델 재학습 시스템은 동일한 입력데이터를 수신하여 각각의 예측값을 출력하는 복수의 예측 진단 모델과, 예측값을 수신하여 모델 재학습 필요 여부를 판단하는 모델 재학습 판단부 및 모델 재학습 필요 여부에 따라 예측 진단 모델을 갱신하는 모델 재학습부를 포함하는 것을 특징으로 한다.

본 발명에 따른 기계학습 기반 예측 모델 재학습 방법은 복수의 기계학습 예측 모델로부터 예측값을 수신하는 단계와, 예측값을 수신하여 모델 재학습 필요 여부를 판단하는 단계 및 판단 결과에 따라 모델 재학습을 수행하는 단계를 포함하는 것을 특징으로 한다.

본 발명의 실시예에 따르면, 적절한 시기에 기계학습 예측 모델의 재학습이 이루어지도록 함으로써, 불필요한 재학습 과정을 줄이고, 예측 진단 모델의 정확도를 향상시키는 효과가 있다.

본 발명의 효과는 이상에서 언급한 것들에 한정되지 않으며, 언급되지 아니한 다른 효과들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

도 1은 종래 기술에 따른 기계학습 예측 모델 구조 및 방식을 나타내는 도면이다.
도 2는 종래 기술에 따른 무조건 재학습 방법을 나타내는 도면이다.
도 3은 종래 기술에 따른 예측 오차가 크면 재학습하는 방법을 나타내는 도면이다.
도 4는 본 발명의 실시예에 따른 기계학습 기반 예측 모델 재학습 장치를 나타내는 블록도이다.
도 5는 본 발명의 실시예에 따른 복수 개의 예측 모델을 이용하는 기계학습 기반 예측 모델 재학습 장치를 나타내는 블록도이다.
도 6은 본 발명의 실시예에 따른 실제 결과값과 복수 개의 예측 모델을 이용하는 기계학습 기반 예측 모델 재학습 장치를 나타내는 블록도이다.
도 7은 본 발명의 실시예에 따른 기계학습 기반 예측 모델 재학습 시스템을 나타내는 블록도이다.
도 8은 본 발명의 실시예에 따른 페어 모델 에러 매트릭스(pair model error matrix)를 도시한다.
도 9는 본 발명의 실시예에 따른 모델 간 예측값 차이의 시계열 변화를 나타내는 그래프이다.
도 10은 본 발명의 실시예에 따른 재학습용 데이터 셋 구성예를 도시한다.
도 11은 본 발명의 실시예에 따른 기계학습 기반 예측 모델 재학습 방법을 나타내는 순서도이다.

본 발명의 전술한 목적 및 그 이외의 목적과 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다.

그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 이하의 실시예들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 목적, 구성 및 효과를 용이하게 알려주기 위해 제공되는 것일 뿐으로서, 본 발명의 권리범위는 청구항의 기재에 의해 정의된다.

한편, 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성소자, 단계, 동작 및/또는 소자가 하나 이상의 다른 구성소자, 단계, 동작 및/또는 소자의 존재 또는 추가됨을 배제하지 않는다.

이하에서는, 당업자의 이해를 돕기 위하여 본 발명이 제안된 배경에 대하여 먼저 서술하고, 본 발명의 실시예에 대하여 서술하기로 한다.

일반적으로 '시스템'이라는 것은 입력 데이터를 넣으면 출력 데이터가 나오는 구조이다.

이러한 시스템의 입력 데이터에 대해 출력 데이터를 예측하는 기계학습 예측 시스템은, 수많은 입력 데이터 셋과 출력 데이터 셋을 기계학습 예측 시스템에 넣어 학습 시켜, 나중에 입력 데이터를 넣으면 출력 데이터가 나오도록 만드는 것이다.

도 1은 종래 기술에 따른 기계학습 예측 모델 구조 및 방식을 나타내는 도면이다.

도 1의 (a)에 도시된 바와 같이, 학습 과정에서는 과거의 입력 데이터 및 출력 데이터를 이용하여 예측 모델(10)이 구축된다.

도 1의 (b)에 도시된 바와 같이, 적용 과정에서는 실제 데이터인 입력 데이터가 예측 모델(10)에 입력되고, 예측 출력 데이터가 출력된다.

도 1에 도시한 바와 같은 기계학습 예측 방식은 학습된 데이터를 이용하여 예측하기 때문에, 시스템 환경이 변화하지 않을 때는 오류 없이 잘 동작한다.

그러나, 실제 시스템을 운용하면서 환경이 변화하면, 예측 모델이 예측하는 출력결과와 실제 결과의 차이가 크게 나타난다.

환경 변화에는, 기후변화, 시스템 노후화, 운용형태의 변화 등 내외적인 변화가 포함되는데, 기계학습 예측 모델이 학습한 데이터는 환경변화가 일어나기 전 과거데이터이므로 예측 오류가 나타난다.

이를 해결하는 직관적인 방법은, 최신 데이터를 이용하여 기계학습 모델을 다시 학습하는 것으로, 도 2는 종래 기술에 따른 무조건 재학습 방법을 나타낸다.

기계학습 모델은 매번 또는 주기적으로, 기존 학습하였던 데이터에 최신 운용 데이터를 추가한 다음, 다시 모델을 학습한다.

모델 재학습부(22)에 의해 재학습된 모델은 다시 예측진단 모델(21)에 적용되어, 다음 예측에 사용된다.

기계학습 모델을 학습하는 데는 많은 시간과 에너지, 전용 하드웨어가 요구되는데, 기계학습 모델의 복잡도에 따라 학습을 위해 수 일 내지는 수 개월이 소요될 수 있다.

즉, 도 2에 도시한 무조건 재학습 방법 적용에는 많은 비용이 요구되므로, 실제 적용하는 데 어려움이 있다.

또한 새로운 데이터와 과거 데이터를 모두 결합하여 학습하기 때문에, 새로운 데이터에 의한 영향력이 약하게 나타나게 되므로, 환경 변화에 따른 영향을 예측 모델에 빠르게 반영하기 어렵다.

도 3은 종래 기술에 따른 예측 오차가 크면 재학습하는 방법을 나타내는 도면으로, 오차 비교부(32)는 예측 진단 모델(31)의 예측값과 실제 측정값의 오차를 비교하여, 오차가 일정한 수준을 초과하는 경우 모델 재학습부(33)를 통해 재학습을 수행한다.

도 2를 참조하여 전술한 '무조건 재학습 방법'은 환경변화가 없어, 예측이 정확히 이루어지고 있는 상황에서도 모델을 재학습하기 때문에 불필요한 과정이 이루어지게 된다.

반면 도 3에 도시한 '예측 오차가 크면 재학습하는 방법'은, 예측 모델의 예측값과 실제 측정값의 차이를 비교하여 일정한 수준(Threshold)을 벗어나면, 환경이 변화했다고 판단하고, 최신 데이터를 이용하여 모델을 재학습하는 방법으로, 무조건 재학습 방법의 비효율성을 개선할 수 있다.

다만, 이러한 방법을 실제 적용하기에는 몇 가지 문제가 있다.

첫 번째는, Threshold 결정 문제이다.

예측 오차가 어느 정도 벗어날 때 모델을 재학습해야 하는지 판단을 해야 하는데, 통상 경험을 통해 그 값을 결정하는 경우가 많고, 이 경우 불필요한 재학습을 하게 되거나, 재학습이 필요한 타이밍을 놓치는 경우가 발생할 수 있다.

두 번째는, 예측 모델에 따라 오차를 구하기 어려운 경우가 있다.

예측 모델 중에는 거의 즉시 그 오차를 알 수 있는 경우도 있지만, 시스템의 건전성을 예측하는 경우는, 예측 오차를 판별하는데 많은 시간이 요구되는 경우도 있다.

예를 들어, 이 시스템의 잔여수명(RUL, Remaining Useful Life)을 예측하는 경우, 그것을 검증하기에는 수 개월 내지는 수 년이 걸릴 수도 있는 문제이다.

따라서 이러한 경우에는 '예측 오차가 크면 재학습하는 방법'을 적용하기 어렵다.

세 번째는, 오차 고려 문제이다.

실제 시스템의 측정값에는 오차가 포함되는데, 이러한 일시적인 오차에 대한 고려 없이 판단을 하게 되면, 불필요한 재학습을 하거나, 적절한 재학습 시기를 놓치게 된다.

본 발명은 전술한 종래 기술에 따른 기계학습 기반 모델 재학습 기술의 문제점을 해결하기 위하여 제안된 것으로, 기계학습 재학습 시기를 결정하는 방법과 그 시스템 구조를 제시한다.

즉, 환경 변화에 의해 기계학습 예측 모델이 재학습이 필요한 시기를 판단하는 방법을 제시하며, 이를 구현하기 위한 시스템의 구조를 제시하여, 보다 효율적이고 정확한 기계학습 모델이 운용될 수 있도록 한다.

도 4는 본 발명의 실시예에 따른 기계학습 기반 예측 모델 재학습 장치를 나타내는 블록도이다.

본 발명의 실시예에 따른 기계학습 기반 예측 모델 재학습 장치는 복수의 기계학습 예측 모델로부터 예측값을 수신하는 입력부(110)와, 예측값을 이용하여 예측 모델의 재학습 필요 시기를 판단하는 프로그램이 저장된 메모리(120) 및 프로그램을 실행시키는 프로세서(130)를 포함하되, 프로세서(130)는 예측값을 이용하여 산출한 오차와 임계값을 비교하여 모델 재학습 필요 여부를 판단한다.

프로세서(130)는 복수의 기계학습 예측 모델로부터 각각 수신한 예측값의 차이와 임계값을 비교하여, 모델 재학습 필요 여부를 판단한다,

이 때, 입력부(110)가 실제 결과를 수신하면, 프로세서(130)는 실제 결과와 복수의 기계학습 예측 모델로부터 수신한 예측값의 차이를 고려하여 모델 재학습 필요 여부를 판단한다.

프로세서(130)는 기존 학습 데이터로부터 획득된 복수의 기계학습 예측 모델들 간의 예측값의 차이의 합을 이용하여 임계값을 결정한다.

프로세서(130)는 복수의 기계학습 예측 모델들 간의 예측값의 차이의 합을 산출하고, 산출된 결과의 분포를 이용하여 재학습 여부 판단의 기준이 되는 임계값을 결정한다.

프로세서(130)는 복수의 기계학습 예측 모델들 간의 예측값의 차이의 평균 및 표준편차를 이용하여 모델 재학습 필요 여부를 판단한다.

프로세서(130)는 복수의 기계학습 예측 모델들 간의 예측값의 차이의 합의 시계열 변화를 고려하여 모델 재학습 필요 여부를 판단한다.

프로세서(130)는 기존 학습 데이터의 일부를 삭제하고, 새로운 운용 데이터 셋을 추가하여 재학습용 데이터 셋을 구성한다.

도 5는 본 발명의 실시예에 따른 복수 개의 예측 모델을 이용하는 기계학습 기반 예측 모델 재학습 장치를 나타내는 블록도이다.

본 발명의 실시예에 따르면, 재학습 시기를 결정하기 위해 2개 이상의 예측진단 모델을 이용한다.

즉, 서로 다른 기계학습 방식을 사용하는 복수개의 모델의 예측값을 서로 비교하여, 그 차이가 기설정 수치보다 큰 경우에만 모델 재학습을 수행한다.

도 5를 참조하면, 제1 예측 진단 모델(510a)과 제2 예측 진단 모델 (510b)는 동일한 새 입력데이터를 받아 각각 제1 예측값 및 제2 예측값을 예측한다.

모델 재학습 판단부(520)는 제1예측값 및 제2 예측값 간의 차이를 비교하여, 그 오차가 일정한 수준(Threshold)을 초과하는 경우, 최신 운용 데이터를 이용하여 모델 재학습을 수행하도록 한다.

재학습은 제1 모델 재학습부(530a) 및 제2 모델 재학습부(530b)를 통해 각 모델 별로 수행되며, 새로 학습된 모델 파라메터를 이용하여 각각 제1 예측 진단 모델(510a) 및 제2 예측 진단 모델(510b)을 갱신하고, 다음 예측부터는 새로 재학습된 모델로 예측을 수행한다.

모델 재학습 판단부(520)의 판단 결과, 모델 간 예측 오차가 일정 수준(Threshold) 미만인 경우에는, 재학습 없이 예측진단 모델이 운용된다.

이 때, 복수 개의 예측값들에 대해서는 평균을 내거나, 가중치를 반영하여 결합하는 등 앙상블(Ensemble) 방법을 통하여 하나의 값으로 만들어 예측값으로 활용한다.

이 방법은 잔여수명(RUL) 예측과 같은 시스템의 실제 측정값을 알기 어려운 경우에도 적용할 수 있다.

본 발명의 다른 실시예에 따르면, 시스템의 실제 측정값 또한 하나의 모델로 취급할 수 있는데, 도 6은 본 발명의 다른 실시예에 따른 실제 결과 값과 복수 개의 예측 모델을 이용하는 기계학습 기반 예측 모델 재학습 장치를 나타내는 블록도이다.

모델 재학습 판단부(520)는 실제 결과와 제1 예측값과의 차이, 실제 결과와 제2 예측값와의 차이, 제1 예측값 및 제2 예측값의 차이를 모두 고려하여 모델 재학습 필요 여부를 판단한다.

모델 재학습 판단부(520)는 실제 결과와 제1 예측값과의 차이가 제1 임계값 초과인지 여부를 확인하고, 초과인 경우 제1 모델 재학습부(530a)는 제1 예측 진단 모델(510a)을 갱신한다.

모델 재학습 판단부(520)는 실제 결과와 제2 예측값과의 차이가 제2 임계값 초과인지 여부를 확인하고, 초과인 경우 제2 모델 재학습부(530b)는 제2 예측 진단 모델(510b)을 갱신한다.

모델 재학습 판단부(520)는 제1 및 제2 예측값의 차이가 제3 임계값 초과인지 여부를 확인하고, 초과인 경우 실제 결과를 고려하여 재학습할 모델을 확인하고, 후속적으로 해당 예측 진단 모델의 갱신이 이루어진다.

도 7은 본 발명의 실시예에 따른 기계학습 기반 예측 모델 재학습 시스템을 나타내는 블록도로서, 실제 적용 가능한 전체 시스템의 구조를 도시한다.

현장 운용 시스템(710)이란 제품을 생산하거나, 에너지를 발전하거나, 기계 내지 장비를 제어 운용하거나, 서비스를 운용하는 등 실제 동작하는 시스템을 말한다.

예측진단 시스템(720)은 도 7에서 현장 운용 시스템(710)과 논리적으로 분리하여 도시하였으나, 물리적으로는 현장 운용 시스템(710)의 일부로 배치되거나, 별도로 배치될 수 있다.

현장 예측진단 모델(721)은, 현장 운용 시스템(710)으로부터 새로운 데이터를 받아 예측 또는 진단을 수행한다.

예측은 에너지 소비 예측, 생산량 예측, 제품 생산량 예측 등이며, 진단은 고장 또는 정상 상태, 잔여수명 등에 대한 예측을 말한다.

현장 예측진단 모델(721)의 예측진단결과에 따라, 경보 제공부(723)는 시스템에 경고 또는 경보를 보낸다.

예컨대, 현장 예측진단 모델(721)이 현재 상태를 비정상이라고 예측하면, 경보 제공부(723)는 고장 또는 비정상이라는 경보를 관리자에게 전파한다.

현장 예측진단 모델(721)의 예측값은 운전 제어부(722)에 의해, 현장 운용 시스템(710)의 제어신호로 사용될 수 있다.

현장 예측진단 모델(721)은 재학습이 필요한 경우, 필요한 최신 운용(측정) 데이터를 모델 재학습 서버(730)로 전송하고, 재학습을 요청한다.

모델 재학습 서버(730)는, 현장에 설치되는 대용량 고성능 하드웨어를 갖추고 있는 서버이거나, 클라우드 서비스 상의 소프트웨어일 수 있다.

모델 재학습 서버(730)는 기존 데이터 및 최신 데이터를 이용하여 예측진단 모델을 재학습하고, 학습한 모델(기계학습 예측 모델 구조 및 가중치 파라메터 등)을 현장 예측진단 모델(721)로 전송한다.

본 발명의 실시예에 따르면, 복수의 예측 진단 모델들의 예측값로부터 하나의 차이값으로 합할 필요가 있는데, 이를 [수학식 1]과 같이 표현한다.

[수학식 1]

D_sum 은 예측 진단 모델들간의 차이(거리)의 합을 나타낸다.

y_i 와 y_j 는 각각 모델 i의 예측값과 모델 j의 예측값을 말한다.

n은 모델의 수를 말하고, d()함수는 두 값의 거리를 나타낸다.

두 값의 거리를 나타내는 함수에는 기하학적 거리를 나타내는 유클리안 거리가 대표적이며, 상기 [수학식 1]에 ||~|| 로 표시되어 있다.

예를 들어 모델1, 2, 3의 예측값이 각각 10, 13, 12 인 경우, 모델 1과 모델 2의 차이(거리)는 3, 모델 2와 모델 3의 차이는 1, 모델 3과 모델 1의 차이는 2이기 때문에 D_sum 은 6이 된다.

본 발명의 실시예에 따른 모델 재학습 판단부(520)에서는, 기존의 학습데이터를 이용하여, D_sum 들을 구한 후, 그 분포를 이용하여 재학습 여부를 판단하는 임계값(Theshold)을 결정한다.

예를 들어, 기존 학습데이터를 이용한 D_sum 의 범위가 0~100인 경우, 임계값을 100으로 설정할 수 있다.

다른 방법으로는 D_sum 의 분포를 고려하여, D_sum 의 평균이 100이고, 표준편차가 10이라면, 약 99.9% 수준은 μ+3σ = 100+3*10 = 130 이므로, 130을 임계값으로 설정할 수 있다.

각 모델 간 예측값의 차이의 편차는 그 특성이 서로 다를 수 있다.

예를 들어, 모델1과 모델2간의 예측값 차이가 평상시 0~3사이였는데 이번 예측값 차이가 2인 경우와, 모델2와 모델3간의 예측값 차이가 평상시 0~1사이였는데 이번 예측값 차이가 2인 경우는 그 차이의 심각성 정도가 서로 다르다.

따라서 단순히 모델 간 예측값 차이값을 합치는 것 보다는 모델 간 예측값 차이의 분포를 고려하는 것이 바람직하다.

즉, 평균과의 거리가 표준편차의 몇 배인지를 나타내는 마할로노비스 거리(Mahalanobis distance)를 이용하면, 모델 간 예측값 차이의 분포를 고려하여, 다음 [수학식 2]와 같이 MD_sum (각 모델 간 예측값의 마할로노비스 거리의 합)을 구할 수 있으며, 이 값이 임계값를 넘어서면 재학습을 하도록 판단한다.

[수학식 2]

m_i,j 는 모델 i의 예측값과 모델 j의 예측값 차이의 마할로노비스의 거리를 나타낸다.

와

는 모델 i의 예측값과 모델 j의 예측값 차이의 평균값과 표준편차로, 학습데이터를 이용하여 사전에 계산된다.

d_i,j는 모델 i의 예측값과 모델 j의 예측값 차이이다.

도 8은 본 발명의 실시예에 따른 페어 모델 에러 매트릭스(pair model error matrix)를 도시하며,

와

의 예시를 도시한다.

모델 2와 모델3의 관계에서, 평균 μ_2,3 은 40이고, 표준편차는 σ_2,3은 7이다. 이때 새로운 입력으로부터 모델1,2,3의 예측값이 각각 100,120,150 이었다면, d_1,2 = 20, d_2,3 = 30, d_3,1 = 50이고, MD_sum = (20-20)²/5 + (30-40)²/7 + (50-30)²/6 = 80.95 가 된다.

최신 측정 입력, 출력 데이터에는 일시적인 비정상적인 상황에 의한 요소의 영향을 받거나, 잡음이 포함되어 있을 수 있다.

따라서 최신 데이터 하나만을 이용해 재학습 여부를 바로 판단하는 경우, 불필요한 재학습이 이루어질 수 있으며, 일시적인 잡음이 포함된 데이터로 학습하는 경우, 예측 성능의 저하가 발생할 수 있다.

본 발명의 실시예에 따르면, 이러한 문제점을 해결하기 위하여 일정 기간동안 데이터를 관찰한 뒤 판단하는 시계열 임계값(threshold) r_th를 정의하여 사용한다.

즉, 모델 간 예측값의 차이(거리)가 시간에 따라 점점 증가하는 경우 또는 지속되는 경우에만 재학습 하기로 결정하며, 이는 [수학식 3]과 같이 표현된다.

[수학식 3]

D_sum은 전술한 바와 같이 모델 간 예측값 차이의 거리합이며, D_sum 대신 MD_sum을 사용하는 것도 가능하다.

정해진 시간 구간에서의 D_sum의 변화를 r이라고 했을 때, 그 값이 시계열 임계값(r_th) 를 넘으면, 재학습하기로 결정한다.

도 9는 본 발명의 실시예에 따른 모델 간 예측값 차이의 거리합에 대한 시계열 변화를 나타내는 그래프로서, 도 9의 (a)의 경우 모델 거리가 감소하고 있으며, 도 9의 (b)의 경우 모델 거리가 증가하고 있다.

도 9의 (b)이 경우와 같이 모델 거리가 증가하는 경우, 환경 변화에 의해 예측 성능이 떨어지고 있는 것으로 판단하여, 재학습을 하도록 한다.

도 10은 본 발명의 실시예에 따른 재학습용 데이터 셋 구성예를 도시한다.

재학습시 데이터는, 기존 학습된 데이터에 새로운 운용 데이터가 추가된다.

기존 학습데이터와 새로운 데이터를 합쳐서 새로 학습하는 경우, 새로운 데이터의 영향력이 상대적으로 약하게 학습될 수 있으므로, 본 발명의 실시예에 따르면 기존 학습 데이터의 오래된 일부를 버리고, 새로운 운용데이터 셋을 추가하여 재학습용 데이터 셋을 구성한다,

도 11은 본 발명의 실시예에 따른 기계학습 기반 예측 모델 재학습 방법을 나타내는 순서도이다.

본 발명의 실시예에 따른 기계학습 기반 예측 모델 재학습 방법은 복수의 기계학습 예측 모델로부터 예측값을 수신하는 단계(S1101)와, 예측값을 수신하여 모델 재학습 필요 여부를 판단하는 단계(S1102) 및 판단 결과에 따라 모델 재학습을 수행하는 단계(S1103)를 포함한다.

S1102 단계는 예측값의 차이와 임계값을 비교하여 모델 재학습 필요 여부를 판단하는데, S1101단계에서 실제결과를 더 수신하는 경우, 실제결과와 예측값의 차이를 함께 고려하여 모델 재학습 필요 여부를 판단한다.

S1102 단계는 예측값의 차이의 합을 산출하여, 산출 결과, 산출 결과의 분포 및 시계열 추이 중 적어도 어느 하나를 이용하여 모델 재학습 필요 여부를 판단한다.

S1102단계는 예측값의 차이의 평균 및 표준 편차를 이용하여 복수의 기계학습 예측 모델 간의 마할로노비스 거리의 합을 산출하여 모델 재학습 필요 여부를 판단한다.

S1102 단계는 마할로노비스 거리의 합의 시계열 추이를 고려하여 모델 재학습 필요 여부를 판단한다.

S1103 단계는 기존 학습 데이터의 일부를 삭제하고, 새로운 운용 데이터 셋을 추가하여 재학습용 데이터 셋을 구성한다.

한편, 본 발명의 실시예에 따른 기계학습 기반 예측 모델 재학습 방법은 컴퓨터 시스템에서 구현되거나, 또는 기록매체에 기록될 수 있다. 컴퓨터 시스템은 적어도 하나 이상의 프로세서와, 메모리와, 사용자 입력 장치와, 데이터 통신 버스와, 사용자 출력 장치와, 저장소를 포함할 수 있다. 전술한 각각의 구성 요소는 데이터 통신 버스를 통해 데이터 통신을 한다.

컴퓨터 시스템은 네트워크에 커플링된 네트워크 인터페이스를 더 포함할 수 있다. 프로세서는 중앙처리 장치(central processing unit (CPU))이거나, 혹은 메모리 및/또는 저장소에 저장된 명령어를 처리하는 반도체 장치일 수 있다.

메모리 및 저장소는 다양한 형태의 휘발성 혹은 비휘발성 저장매체를 포함할 수 있다. 예컨대, 메모리는 ROM 및 RAM을 포함할 수 있다.

따라서, 본 발명의 실시예에 따른 기계학습 기반 예측 모델 재학습 방법은 컴퓨터에서 실행 가능한 방법으로 구현될 수 있다. 본 발명의 실시예에 따른 기계학습 기반 예측 모델 재학습 방법이 컴퓨터 장치에서 수행될 때, 컴퓨터로 판독 가능한 명령어들이 본 발명에 따른 재학습 방법을 수행할 수 있다.

한편, 상술한 본 발명에 따른 기계학습 기반 예측 모델 재학습 방법은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현되는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록 매체로는 컴퓨터 시스템에 의하여 해독될 수 있는 데이터가 저장된 모든 종류의 기록 매체를 포함한다. 예를 들어, ROM(Read Only Memory), RAM(Random Access Memory), 자기 테이프, 자기 디스크, 플래시 메모리, 광 데이터 저장장치 등이 있을 수 있다. 또한, 컴퓨터로 판독 가능한 기록매체는 컴퓨터 통신망으로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 읽을 수 있는 코드로서 저장되고 실행될 수 있다.

이제까지 본 발명의 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

Claims

복수의 기계학습 예측 모델로부터 예측값을 수신하는 입력부;
상기 예측값을 이용하여 예측 모델의 재학습 필요 시기를 판단하는 프로그램이 저장된 메모리; 및
상기 프로그램을 실행시키는 프로세서를 포함하되,
상기 프로세서는 상기 예측값을 이용하여 산출한 오차와 임계값을 비교하여 모델 재학습 필요 여부를 판단하고,
상기 프로세서는 상기 복수의 기계학습 예측 모델들 간의 예측값의 차이의 합을 산출하고, 산출된 결과의 분포 및 시계열 변화를 고려하여 재학습 필요 여부를 판단하는 것
인 기계학습 기반 예측 모델 재학습 장치.
삭제
삭제
삭제
삭제
제1항에 있어서,
상기 프로세서는 상기 복수의 기계학습 예측 모델들 간의 예측값의 차이의 평균 및 표준편차를 이용하여 상기 임계값을 결정하는 것
인 기계학습 기반 예측 모델 재학습 장치.
삭제
제1항에 있어서,
상기 프로세서는 기존 학습 데이터의 일부를 삭제하고, 새로운 운용 데이터 셋을 추가하여 재학습용 데이터 셋을 구성하는 것
인 기계학습 기반 예측 모델 재학습 장치.
동일한 입력데이터를 수신하여 각각의 예측값을 출력하는 복수의 예측 진단 모델;
상기 예측값을 수신하여 모델 재학습 필요 여부를 판단하는 모델 재학습 판단부; 및
모델 재학습 필요 여부에 따라 상기 예측 진단 모델을 갱신하는 모델 재학습부를 포함하고,
상기 모델 재학습 판단부는 상기 각각의 예측값의 차이의 합을 산출하고, 산출된 결과, 산출된 결과의 분포 및 산출된 결과의 시계열 추이를 고려하여 모델 재학습 필요 여부를 판단하는 것
인 기계학습 기반 예측 모델 재학습 시스템.
삭제
삭제
삭제
제9항에 있어서,
상기 모델 재학습 판단부는 상기 각각의 예측값의 차이의 평균 및 표준편차를 이용하여 모델 재학습 필요 여부를 판단하는 것
인 기계학습 기반 예측 모델 재학습 시스템.
제9항에 있어서,
상기 모델 재학습부는 기존 학습 데이터의 일부를 삭제하고, 새로운 운용 데이터 셋을 추가하여 재학습용 데이터 셋을 구성하는 것
인 기계학습 기반 예측 모델 재학습 시스템.
기계학습 기반 예측 모델 재학습 시스템에 의해 각 단계가 수행되는 기계학습 기반 예측 모델 재학습 방법에 있어서,
(a) 복수의 기계학습 예측 모델로부터 예측값을 수신하는 단계;
(b) 상기 예측값을 수신하여 모델 재학습 필요 여부를 판단하되, 상기 예측값의 차이의 합을 산출하여, 산출 결과, 산출 결과의 분포 및 시계열 추이를 이용하여 모델 재학습 필요 여부를 판단하는 단계; 및
(c) 상기 (b) 단계에서의 판단 결과에 따라 모델 재학습을 수행하는 단계
를 포함하는 기계학습 기반 예측 모델 재학습 방법.
삭제
삭제
삭제
제15항에 있어서,
상기 (b) 단계는 상기 예측값의 차이의 평균 및 표준 편차를 이용하여 상기 복수의 기계학습 예측 모델 간의 마할로노비스 거리의 합을 산출하여 모델 재학습 필요 여부를 판단하는 것
인 기계학습 기반 예측 모델 재학습 방법.
제19항에 있어서,
상기 (b) 단계는 상기 마할로노비스 거리의 합의 시계열 추이를 고려하여 모델 재학습 필요 여부를 판단하는 것
인 기계학습 기반 예측 모델 재학습 방법.