[go: up one dir, main page]

KR102365308B1 - 인공 신경망을 이용하여 기업 내부 문서의 리스크를 예측하는 방법 및 장치 - Google Patents

인공 신경망을 이용하여 기업 내부 문서의 리스크를 예측하는 방법 및 장치 Download PDF

Info

Publication number
KR102365308B1
KR102365308B1 KR1020210107288A KR20210107288A KR102365308B1 KR 102365308 B1 KR102365308 B1 KR 102365308B1 KR 1020210107288 A KR1020210107288 A KR 1020210107288A KR 20210107288 A KR20210107288 A KR 20210107288A KR 102365308 B1 KR102365308 B1 KR 102365308B1
Authority
KR
South Korea
Prior art keywords
risk
document
keyword
information
company
Prior art date
Application number
KR1020210107288A
Other languages
English (en)
Inventor
이송자
Original Assignee
주식회사 데이터아이
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 데이터아이 filed Critical 주식회사 데이터아이
Priority to KR1020210107288A priority Critical patent/KR102365308B1/ko
Application granted granted Critical
Publication of KR102365308B1 publication Critical patent/KR102365308B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0637Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
    • G06Q10/06375Prediction of business process outcome or impact based on a proposed change

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Educational Administration (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Artificial Intelligence (AREA)
  • Development Economics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

인공 신경망을 이용하여 기업 내부 문서의 리스크를 예측하는 방법 및 장치가 개시된다. 인공 신경망을 이용하여 기업 내부 문서의 리스크를 예측하는 장치는, 적어도 하나의 프로세서(processor); 및 상기 적어도 하나의 프로세서가 적어도 하나의 동작(operation)을 수행하도록 지시하는 명령어들(instructions)을 저장하는 메모리(memory)를 포함하고, 상기 적어도 하나의 동작은, 외부 서버로부터 기사 정보를 수신하는 단계; 상기 기사 정보에 기초하여 리스크 검출 키워드에 대한 키워드 파급력 정보를 생성하는 단계; 기업 단말로부터 기업 내부 문서 및 기업 정보를 수신하는 단계; 상기 기업 내부 문서와 상기 기업 정보, 및 상기 키워드 파급력 정보를 미리 지도학습(supervised learning)된 인공 신경망에 입력하는 단계; 및 상기 인공 신경망의 출력값에 기반하여 상기 기업 내부 문서의 리스크 점수를 결정하는 단계를 포함하고, 상기 리스크 점수는 상기 기업 내부 문서가 유출되었을 경우 기업에 끼치는 부정적인 영향력인 리스크(risk)를 정량화한 점수를 의미한다.

Description

인공 신경망을 이용하여 기업 내부 문서의 리스크를 예측하는 방법 및 장치 {METHOD AND DEVICE FOR PREDICTING RISK IN CORPORTE INTERNAL DOCUMENTS USING ARTIFICIAL NEURAL NETWORKS}
본 발명은 기업 내부 문서의 리스크를 예측하는 기술에 관한 것으로, 더욱 상세하게는 인공 신경망을 기업 내부 문서의 리스크를 예측하는 방법 및 장치에 관한 것이다.
본 명세서에서 달리 표시되지 않는 한, 이 섹션에 설명되는 내용들은 이 출원의 청구항들에 대한 종래 기술이 아니며, 이 섹션에 포함된다고 하여 종래 기술이라고 인정되는 것은 아니다.
기업 등에서 생산되는 다양한 종류의 문서를 매일 누적 저장하기 위하여 매우 큰 저장공간이 필요하다. 또한, 저장공간에 저장된 대용량의 문서들을 일반적으로 문서 이름 또는 문서에 부여된 몇몇 키워드 등으로 검색될 수 있다.
그러나, 문서 이름이나 몇몇 키워드로 문서 내 어떤 내용이 포함되어 있는지 정확하게 파악하기 어렵다. 더욱이 기업 내부 문서의 경우, 외부에 노출될 경우 기업에 끼칠 부정적인 영향력을 고려하면, 철저하게 관리되어야 함은 당연하다.
따라서, 기업 내부 문서가 외부에 노출될 경우 기업에 끼칠 부정적인 영향력(리스크)을 미리 산출하여 리스크에 따라서 대용량의 문서들을 분류할 필요가 생기게 되었다. 그러나, 많은 문서를 사람이 직접 검토하는 데에는 필요한 시간 비용과 인적 비용이 높은 문제가 있었다.
한국등록특허 제10-2008707호(공개일자: 2019.08.02.)
상기와 같은 문제점을 해결하기 위한 본 발명의 목적은, 인공 신경망을 이용하여 기업 내부 문서의 리스크를 예측하는 방법 및 장치를 제공하는 데 있다.
상기 목적을 달성하기 위한 본 발명의 일 측면은, 인공 신경망을 이용하여 기업 내부 문서의 리스크를 예측하는 장치를 제공한다.
인공 신경망을 이용하여 기업 내부 문서의 리스크를 예측하는 장치는, 적어도 하나의 프로세서(processor); 및 상기 적어도 하나의 프로세서가 적어도 하나의 동작(operation)을 수행하도록 지시하는 명령어들(instructions)을 저장하는 메모리(memory)를 포함한다.
상기 적어도 하나의 동작은, 외부 서버로부터 기사 정보를 수신하는 단계; 상기 기사 정보에 기초하여 리스크 검출 키워드에 대한 키워드 파급력 정보를 생성하는 단계; 기업 단말로부터 기업 내부 문서 및 기업 정보를 수신하는 단계; 상기 기업 내부 문서, 상기 기업 정보, 및 상기 키워드 파급력 정보를 미리 지도학습(supervised learning)된 인공 신경망에 입력하는 단계; 및 상기 인공 신경망의 출력값에 기반하여 상기 기업 내부 문서의 리스크 점수를 결정하는 단계를 포함한다.
상기 리스크 점수는 상기 기업 내부 문서가 유출되었을 경우 기업에 끼치는 부정적인 영향력인 리스크(risk)를 정량화한 점수를 의미한다.
상기 적어도 하나의 동작은, 언어 전처리기를 이용하여 상기 리스크 검출 키워드에 대한 분포 정보를 생성하는 단계를 더 포함할 수 있다.
상기 분포 정보는 상기 리스크 검출 키워드가 상기 기업 내부 문서에 포함되어 있는지 여부와 상기 기업 내부 문서에 상기 리스크 검출 키워드가 포함된 개수를 포함할 수 있다.
상기 키워드 파급력 정보를 생성하는 단계는, 상기 기사 정보에 기초하여 상기 리스크 검출 키워드의 파급력을 계산하고, 계산된 상기 파급력을 포함하는 상기 키워드 파급력 정보를 생성하는 단계를 포함할 수 있다.
상기 파급력은, 기사가 게재된 언론사의 티어(Tier), 상기 기사가 공개된 매체의 유형, 및 상기 기사 내에서 상기 리스크 검출 키워드가 사용된 방식에 따라 결정될 수 있다.
상기 인공 신경망은 미리 생성된 학습 데이터를 이용하여 지도학습될 수 있다.
상기 학습 데이터는, 상기 리스크 검출 키워드와 상기 기업 정보에 기초하여 생성된 문서 리스크 벡터 및 상기 키워드 파급력 정보에 기초하여 생성된 파급력 벡터로 구성된 훈련 입력값; 및 상기 분포 정보, 상기 기업 정보, 및 상기 키워드 파급력 정보를 기반으로 생성된 목표 리스크 벡터로 구성된 훈련 출력값을 포함할 수 있다.
상기 인공 신경망은, 미리 정의된 손실 함수에 기초하여, 상기 훈련 입력값을 입력받았을 때 얻어지는 출력 벡터와 상기 목표 리스크 벡터 사이의 차이가 최소화되도록 지도학습될 수 있다.
본 발명은 리스크 관리를 지원하는 온라인 서비스(및/또는 온라인 플랫폼)를 기업(및/또는 사용자)에게 제공함으로써, 기업(및/또는 사용자)이 기업 내부 문서의 리스크를 파악할 수 있는 효과를 기대할 수 있다.
또한 본 발명은 기업 내부 문서의 리스크를 정량적으로 계산하여 사용자에게 제공하기에 기업(및/또는 사용자)이 리스크가 존재하는 기업 내부 문서의 확인이 가능해지는 효과가 있다.
또한 본 발명은 인공 신경망(10)을 이용하여 기업 내부 문서가 외부에 노출될 경우 기업에 끼칠 부정적인 영향력인 리스크에 따라서 대용량의 문서들을 분류할 수 있기 때문에, 많은 문서를 검토하는 비용을 절감하면서도 리스크가 높은 문서를 명확하게 가려낼 수 있는 효과가 있다.
실시예들로부터 얻을 수 있는 효과들은 이상에서 언급된 효과들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 이하의 상세한 설명을 기반으로 당해 기술분야에서 통상의 지식을 가진 자에게 명확하게 도출되고 이해될 수 있다.
실시예들에 대한 이해를 돕기 위해 상세한 설명의 일부로 포함된, 첨부 도면은 다양한 실시예들을 제공하고, 상세한 설명과 함께 다양한 실시예들의 기술적 특징을 설명한다.
도 1은 본 발명의 일 실시예에 따른 인공지능을 이용한 기업 내부 문서의 리스크 예측 방법 및 장치에 대한 개요도이다.
도 2는 도 1에 따른 리스크 예측 서버의 기능적 모듈을 예시적으로 나타낸 블록도이다.
도 3은 하나의 기사에 대한 특정 키워드의 파급력을 계산하기 위해 언론사 티어 점수(PT)이고, 노출 방식 점수(EM), 언급 방식 점수(MM)에 대하여 미리 정해진 테이블에 따라 할당된 점수의 예시를 나타내는 도면이다.
도 4는 도 1에 따른 리스크 예측 서버에서 이용하는 인공 신경망의 구조와 동작을 설명하기 위한 개념도이다.
도 5는 문서 리스크 벡터(YD)와 리스크 검출 키워드의 파급력 벡터(YRE)를 설명하기 위한 개념도이다.
도 6은 본 발명의 일 실시예에 따른 리스크 예측 서버의 하드웨어 구성을 예시적으로 나타낸 도면이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.
제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
어떤 구성요소가 다른 구성요소에 "연걸되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어"있다고 언급된 때에는, 중간에 다른 구성요가 존재하지 않는 것으로 이해되어야 할 것이다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
본 명세서에서, 리스크는 기업 내부 문서가 유출되었을 경우 기업에 끼치는 부정적인 영향력을 의미한다.
도 1은 본 발명의 일 실시예에 따른 인공지능을 이용한 기업 내부 문서의 리스크 예측 방법 및 장치에 대한 개요도이다.
도 1을 참조하면, 인공 신경망을 이용하여 기업 내부 문서의 리스크를 예측하는 방법은 리스크 예측 서버(100, 인공 신경망을 이용하여 기업 내부 문서의 리스크를 예측하는 장치와 혼용하여 지칭될 수 있음)는, 기업 단말(200), 외부 서버(300), 및 사용자 단말(400)를 이용하여 수행될 수 있다. 이때, 리스크 예측 서버(100), 기업 단말(200), 외부 서버(300), 및, 사용자 단말(400)을 리스크 예측 시스템(10)으로 지칭할 수도 있다.
기업 단말(200)은, 리스크 예측 서버(100)를 통해 기업 내부 문서의 리스크를 예측하고자 하는 기업의 단말로서, 기업 내부 문서 및 기업 정보를 리스크 예측 서버(100)에 전송할 수 있다. 이때 기업 내부 문서는 전자 문서로서, 문서의 타입은 doc, pdf, hwp, ppt, txt 등이 있을 수 있다.
예를 들어, 기업 정보는, 기업 내부 문서의 리스크를 예측할 대상 기업에 대한 정보로서, 기업의 사업연도, 매출액, 순이익, 근로자수 등을 포함할 수 있다.
사용자 단말(400)은, 리스크 예측 서버(100)로부터 기업 내부 문서의 리스크 예측 결과를 제공받을 수 있다. 이때, 사용자 단말(400)과 기업 단말(200)은 동일한 단말일 수 있다. 예를 들어, 기업 내부 문서의 리스크 예측 결과는, 기업 내부 문서에 대해 리스크를 정량화한 점수인 리스크 점수, 특정 기업 내부 문서가 어떤 종류의 리스크 점수가 가장 높은 지에 대한 정보, 리스크 점수에 따라 복수의 기업 내부 문서를 오름차순하거나 내림차순으로 정렬한 리스트 정보, 리스크 점수에 따라 기업 내부 문서에 리스크 등급이 부여된 경우 특정 리스크 등급을 모아놓은 기업 내무 문서의 리스크 등급별 리스트 정보 등이 포함할 수 있다. 이때, 리스크의 종류에는 오너 리스크, 제조 리스크, 유통 리스크, 자산 리스크, 자산 리스크, 서비스 리스크, 건설 리스크, 국제조세 리스크 등이 포함될 수 있다.
기업 단말(200) 및 사용자 단말(400)의 예를 들면, 통신 가능한 데스크탑 컴퓨터(desktop computer), 랩탑 컴퓨터(laptop computer), 노트북(notebook), 스마트폰(smart phone), 태블릿 PC(tablet PC), 모바일폰(mobile phone), 스마트 워치(smart watch), 스마트 글래스(smart glass), e-book 리더기, PMP(portable multimedia player), 휴대용 게임기, 네비게이션(navigation) 장치, 디지털 카메라(digital camera), DMB(digital multimedia broadcasting) 재생기, 디지털 음성 녹음기(digital audio recorder), 디지털 음성 재생기(digital audio player), 디지털 동영상 녹화기(digital video recorder), 디지털 동영상 재생기(digital video player), PDA(Personal Digital Assistant) 등일 수 있다.
외부 서버(300)는, 기사 정보를 리스크 예측 서버(100)에게 전송할 수 있다. 예를 들어, 기사 정보는 적어도 하나 이상의 언론사가 발행한 기사의 본문 및 제목, 상기 기사가 온라인과 오프라인 중 어디서 발행되었는 지 등이 포함할 수 있다.
리스크 예측 서버(100)는, 기업 단말(200)로부터 기업 내부 문서와 기업 정보, 및 외부 서버(300)로부터 기사 정보를 입력받고, 인공신경망을 이용하여 기업 내부 문서의 리스크를 예측하고, 생성된 리스크 예측 결과를 사용자 단말(400)에게 전송할 수 있다.
리스크 예측 서버(100)는 전자 문서 관리 시스템(EDMS; Electronic Document Management System), 그룹웨어(GW; Groupware), 비즈니스 프로세스 관리 (BPM; Business Process Management) 시스템, 전사적 자원 관리(ERP; Enterprise Resource Planning) 시스템, 이메일 시스템 등과 같이 기업 내부 문서의 결재, 공유, 수정, 저장, 전송 등과 같은 기업 내부 문서의 처리를 위한 장치에 상응할 수 있다. 상기 리스크 예측 서버(100)는 중앙 서버, 관리 서버, 클라우드 서버, 웹서버, 클라이언트 서버 등의 형태로 구현될 수 있다.
리스크 예측 서버(100)는, 기업 내부 문서와 기업 정보를 수집할 수 있다.
예를 들어, 리스크 예측 서버(100)는, 기업 단말(200)의 데이터베이스에 접속하여 기업 내부 문서를 수집하거나 기업 단말(200)로부터 기업 내부 문서를 전송받을 수 있다. 또한, 기업 정보의 경우에도 리스크 예측 서버(100)는 기업 단말(200)의 데이터베이스에 접속하여 기업 정보를 수집하거나 기업 단말(200)로부터 기업 정보를 전송받을 수 있고, 관리자로부터 기업 정보를 입력받을 수도 있다.
리스크 예측 서버(100)는, 인공 신경망(10)을 내부 저장소에 저장하고, 인공 신경망(10)을 구동시킬 수 있으나, 인공 신경망(10)을 구동하는 독립한 서버와 통신함으로써 인공 신경망(10)에 기업 내부 문서와 기업 정보를 입력하고, 인공 신경망(10)의 출력으로 리스크 예측 결과를 수신할 수도 있다.
리스크 예측 서버(100)는, 기업 내부 문서, 기업 정보, 및 기사 정보를 이용해 학습 데이터를 생성하고, 생성된 학습 데이터를 이용하여 인공 신경망(10)을 미리 지도학습(supervised learning)시킬 수 있다.
리스크 예측 서버(100)는 인공 신경망(10)의 출력으로 획득한 리스크 예측 결과를 사용자 단말(400)에게 전송할 수 있다.
본 발명의 일 실시예에 따른 리스크 예측 서버(100)는 기업 내부 문서, 기업 정보, 및 기사 정보를 이용해 인공 신경망(10)을 미리 지도학습시키고, 지도학습된 인공 신경망(10)에 리스크를 예측할 기업 내부 문서와 기업 정보를 입력하여 리스크 예측 결과를 획득함으로써, 기업의 데이터베이스에 저장된 대용량의 문서들에 대한 리스크 예측 결과를 쉽게 획득할 수 있다.
따라서, 인공 신경망(10)을 통해, 기업 내부 문서가 외부에 노출될 경우 기업에 끼칠 부정적인 영향력인 리스크에 따라서 대용량의 문서들을 분류할 수 있기 때문에, 많은 문서를 검토하는 비용을 절감하면서도 리스크가 높은 문서를 명확하게 가려낼 수 있다.
도 2는 도 1에 따른 리스크 예측 서버의 기능적 모듈을 예시적으로 나타낸 블록도이다.
도 2를 참조하면, 리스크 예측 서버(100)는, 기업 내부 문서 전처리부(101), 키워드 파급력 추출부(102), 학습데이터 생성부(103), 리스크 예측 모델 학습부(104), 리스크 예측 모델(105)를 포함할 수 있다.
기업 내부 문서 전처리부(101)는 기업 단말(200)로부터 획득한 기업 내부 문서에 형태소 분석기, 색인어 추출기 등 언어 전처리기를 이용하여 기업 내부 문서로부터 무의미한 텍스트 정보를 필터링하고, 기업 내부 문서에 포함된 키워드의 분포 정보를 생성할 수 있다. 예를 들어, 키워드의 분포 정보는 기업 내부 문서에 특정 키워드의 포함 여부와 기업 내부 문서에 특정 키워드가 포함된 개수 등을 포함할 수 있다.
관련하여, 기업 내부 문서 전처리부(101)는 수집한 적어도 하나의 기업 내부 문서에서 제목 및/또는 본문을 식별하고, 상기 식별된 제목 및/또는 본문에 기반하여 키워드의 개수를 추출할 수 있다.
또한, 기업 내부 문서 전처리부(101)는, 언어 전처리기를 이용하여 기업 내부 문서로부터 리스크 검출 키워드의 분포 정보를 생성할 수 있다. 여기서, 리스크 검출 키워드는 리스크를 정량화한 리스크 점수를 산출하기 위해 사용되는 검출용 키워드를 의미한다. 또한, 리스크 검출 키워드는 관리자에 의해 미리 설정될 수 있다. 이하에서, 리스크 검출 키워드의 총 개수는 N개로 가정하고 설명하도록 한다.
한편, 검출하고자 하는 리스크는 다양하게 존재할 수 있는데, 오너 리스크, 제조 리스크, 유통 리스크, 자산 리스크, 서비스 리스크, 건서 리스크, 국제조세 리스크 등이 존재할 수 있다. 이에 대응하여 리스크 검출 키워드의 종류도 다양할 수 있다.
자세하게는, 리스크 검출 키워드의 종류에는 오너 리스크 검출 키워드, 제조 리스크 검출 키워드, 유통 리스크 검출 키워드, 자산 리스크 검출 키워드, 서비스 리스크 검출 키워드, 건설 리스크 검출 키워드, 국제조세 리스크 검출 키워드 등이 포함될 수 있다. 예를 들어, 오너 리스크 검출 키워드에는, 상속, 증여, 경영권, 악재, 미술품, 골동품, VIP 등이 포함될 수 있으며, 제조 리스크 검출 키워드에는 반품, 보관, 재고미실현, 인건비, 선매출 등이 포함될 수 있으며, 유통 리스크 검출 키워드에는, 바꿔치기, 내부거래, 단가, 덤핑 등이 포함될 수 있으며, 자산 리스크 검출 키워드에는 부외자산, 재고실사, 처분손실, 감모손실, 불용자산, 대여자산 등이 포함될 수 있으며, 서비스 리스크 검출 키워드에는 직원할인, 연령분석, 해외광고, 브랜드, 광고 등이 포함될 수 있으며, 건설 리스크 검출 키워드에는 매각, 주택임차, 대리점 등이 포함될 수 있으며, 국제조세 리스크 검출 키워드에는 보고서, 컨설팅, 소송, 감찰, 부정, 횡령, 부당행위 등이 포함된다.
관련하여, 기업 내부 문서 전처리부(101)는, 언어 전처리기를 이용하여 기업 내부 문서의 리스크 검출 키워드에 대한 분포 정보를 생성할 수 있다. 예를 들어, 리스크 검출 키워드에 대한 분포 정보에는 리스크 검출 키워드가 기업 내부 문서에 포함되어 있는지 여부와 기업 내부 문서에 리스크 검출 키워드가 포함된 개수가 포함될 수 있다. 이하에서, 후술되는 분포 정보는 리스크 검출 키워드에 대한 분포 정보를 지칭한다.
키워드 파급력 추출부(102)는, 외부 서버(300)로부터 획득한 기사 정보에 기초하여 리스크 검출 키워드의 파급력(ripple effect)을 계산할 수 있다. 예를 들어, 기사 정보는 적어도 하나 이상의 언론사가 발행한 기사의 본문 및 제목, 기사가 온라인과 오프라인 중 어디서 발행되었는 지 등이 포함할 수 있다.
여기서, 파급력은 특정 키워드가 언론사의 기사에 포함된 경우 해당 기사에 대한 언론의 관심을 정량적으로 계산한 값을 의미한다. 이때, 파급력은 하나의 기사 단위로 계산될 수 있으며, 복수 개의 기사에 대한 특정 키워드의 파급력은 각각의 기사에 대한 파급력을 계산하고, 계산된 각각의 기사에 대한 특정 키워드의 파급력에 기초하여 복수 개의 기사에 대한 파급력을 계산할 수 있다. 예를 들어, 복수 개의 기사에 대한 파급력은 각각의 기사에 대한 특정 키워드의 파급력의 평균값으로 계산될 수 있다.
리스크 검출 키워드의 파급력을 계산하는 경우에는, 리스크 검출 키워드의 파급력을 계산하는 데 사용될 기사의 개수를 미리 설정하고, 미리 설정된 개수의 기사 각각의 리스크 검출 키워드에 대한 파급력의 평균값을 사용한다고 가정한다.
한편, 하나의 기사에 대한 특정 키워드의 파급력은 다음의 수학식 1과 같이 정의될 수 있다.
Figure 112021093718229-pat00001
수학식 1에서 REn은 임의의 n(n은 1 이상의 자연수로서 키워드의 총 개수 N보다 작거나 같음)번째 키워드에 대한 파급력(Ripple Effect)이고, PT는 기사가 게재된 언론사 티어 점수(Press Tier Score)이고, EM은 노출 방식 점수(Exposure Method Score)이고, MM은 언급 방식 점수(Mention Method Score)이다. 여기서, 언론사 티어 점수(PT) 관련하여, 언론사 티어는 (언론사의 오프라인 기사 발행부 수) * (언론사의 홈페이지에 대한 온라인 트래픽 수)를 계산한 값에 따라 구분될 수 있으며, 계산한 값이 클수록 기사가 게재된 언론사 티어가 높은 등급의 티어가 되도록 설정되며, 그에 따라 언론사 티어에 따른 점수(PT)도 높아지도록 설정된다. 또한, 노출 방식 점수(EM)는 특정 키워드를 포함한 기사가 공개된 매체(media)의 유형에 따라 결정된다. 예를 들어, 노출 방식 점수(EM)는 온라인에서만 노출되었는 지, 온라인과 오프라인에서 함께 노출되었는 지에 따라 결정될 수 있으며, 온라인과 오프라인에서 함께 발행된 경우가 온라인에서만 발행된 경우보다 높도록 설정된다. 언급 방식 점수(MM)는 기사 내에서 특정 키워드가 사용된 방식에 따라 결정된다. 특정 키워드가 기사의 제목에 있는 경우와 제목에 없는 경우에 따라 결정될 수 있으며, 특정 키워드가 기사의 제목에 있는 경우가 제목에 없는 경우보다 높도록 설정된다.
도 3은 하나의 기사에 대한 특정 키워드의 파급력을 계산하기 위해 언론사 티어 점수(PT)이고, 노출 방식 점수(EM), 언급 방식 점수(MM)에 대하여 미리 정해진 테이블에 따라 할당된 점수의 예시를 나타내는 도면이다. 구체적으로, 언론사 티어가 높을수록 언론사 티어 점수(PT)에 할당된 점수는 높도록 설정되어 있고, 노출 방식 점수(EM)에 할당된 점수는 온라인과 오프라인에서 함께 발행된 경우가 온라인에서만 발행된 경우보다 높도록 설정되어 있고, 언급 방식 점수(MM)는 특정 키워드가 기사의 제목에 있는 경우가 제목에 없는 경우보다 높도록 설정된다.
한편, 리스크 검출 키워드와 리스크 검출 키워드의 개수(N개)는 관리자에 의해 미리 설정될 수 있으며, 키워드 파급력 추출부(102)는, 외부 서버(300)로부터 획득한 기사 정보에 기초하여 총 N개의 리스크 검출 키워드 각각의 파급력을 계산할 수 있고, 계산된 리스크 검출 키워드 각각의 파급력을 포함하는 리스크 검출 키워드에 대한 파급력 정보를 생성할 수 있다. 또한, 키워드 파급력 추출부(102)는 주기적으로 외부 서버(300)로부터 획득한 기사 정보에 기초하여 파급력 정보를 업데이트할 수 있다.
학습데이터 생성부(103)는, 분포 정보, 기업 정보, 및 키워드 파급력 정보를 이용하여 인공 신경망(10)을 학습시키기 위한 학습데이터를 생성할 수 있다.
일 실시예에 있어서, 학습데이터 생성부(103)는 기업 단말로부터 획득한 기업 내부 문서의 분포 정보 및 기업 정보를 이용하여 획득된 입력 벡터로 키워드 파급력 정보를 반영한 리스크 점수를 출력하도록 인공 신경망(10)을 지도학습하기 위한 학습데이터를 생성할 수 있다.
이때, 리스크 점수는 기업 내부 문서가 유출되었을 경우 기업에 끼치는 부정적인 영향력을 기업 정보를 반영하여 정량화한 점수를 의미한다. 즉, 리스크 점수는 같은 내용의 기업 내부 문서일지라도, 기업에 따라서 달라질 수 있다.
또한, 지도 학습이란, 입력값과 그에 따른 출력값이 있는 데이터를 학습데이터로 이용하여 주어진 입력값에 따른 출력값을 찾는 학습을 의미하며, 정답을 알고 있는 상태에서 이루어지는 학습을 의미한다. 또한, 인공 신경망(Artificial neural network)은 많은 수의 인공 뉴런(또는, 노드)들을 이용하여 생물학적인 시스템의 계산 능력을 모방하는 소프트웨어나 하드웨어로 구현된 예측 모델이다.
학습데이터 생성부(103)는 기업 내부 문서의 분포 정보, 기업 정보, 및 키워드 파급력 정보를 훈련 입력값으로 하고, 기업 내부 문서의 분포 정보, 기업 정보, 및 키워드 파급력 정보를 기반으로 연산하여 얻어지는 목표 리스크를 훈련 출력값으로 갖는, 학습데이터를 생성할 수 있다.
구체적으로, 학습데이터 생성부(103)는 훈련 입력값을 생성하기 위하여 기업 내부 문서 정보의 분포 정보와 기업 정보를 하기 수학식 2에 기초하여 문서 리스크 벡터(YD)로 변환할 수 있다.
Figure 112021093718229-pat00002
수학식 2에서, NDn은 리스크 검출 키워드의 총 개수 N(N은 1 이상의 자연수)개 중 n(n은 1 이상이고 N 이하인 자연수)번째 검출 키워드가 문서에 포함된 개수이고, wn은 리스크 검출 키워드의 총 개수 N개 중 n번째 검출 키워드에 대한 기업 정보를 반영한 가중치이다. 이때, 문서 리스크 벡터(YD)의 성분 개수는 검출 키워드의 개수(N개)와 동일하도록 기업 내부 문서 정보의 분포 정보와 기업 정보가 문서 리스크 벡터(YD)로 변환될 수 있다.
문서 리스크 벡터(YD)는, 검출 키워드의 개수와 기업 정보에 따른 키워드별 가중치를 반영하여 구성되기 때문에, 내부 문서 자체가 기업에 대하여 갖는 중요도 또는 영향력을 대표할 수 있다.
또한, 학습데이터 생성부(103)는 훈련 입력값을 생성하기 위하여 키워드 파급력 정보를 하기 수학식 3에 기초하여 파급력 벡터(YRE)로 변환할 수 있다.
Figure 112021093718229-pat00003
수학식 3에서, REn는 리스크 검출 키워드의 총 개수 N개 중 n번째 검출 키워드의 파급력이다.
파급력 벡터(YRE)는, 각 키워드별 파급도를 성분값으로 갖는 벡터이기 때문에, 내부 문서가 외부에 유출되었을 때 전파되는 정도를 대표할 수 있다.
문서 리스크 벡터(YD)와 파급력 벡터(YRE)는 훈련 입력값을 구성할 수 있다.
또한, 학습데이터 생성부(103)는 기업 내부 문서의 분포 정보, 기업 정보, 및 키워드 파급력 정보를 기반으로 미리 정의된 하기 수학식 4에 따라 연산함으로써 목표 리스크 벡터(Y)를 생성할 수 있다. 구체적으로, 학습데이터 생성부(103)는, 문서 리스크 벡터(YD)와 파급력 벡터(YRE)를 이용하여 목표 리스크 벡터(Y)를 생성할 수 있다.
구체적으로, 학습데이터 생성부(103)는, 문서 리스크 벡터(YD)를 전치(transpose) 연산하여 전치 문서 리스크 벡터(YD T)를 생성하고, 생성된 전치 문서 리스크 벡터(YD T)를 하나의 행(row)으로 하는 N×N 크기의 정방 행렬인, 문서 리스크 행렬(MATYD)를 하기 수학식 4와 같이 생성할 수 있다.
Figure 112021093718229-pat00004
다음으로, 학습데이터 생성부(103)는, 문서 리스크 행렬(MATYD)의 각 행에 파급력 벡터(YRE)의 각 행에 위치하는 성분값을 곱하여 N×N 크기의 정방 행렬인, 문서 파급력 행렬(MATYDRE)을 하기 수학식 5와 같이 생성할 수 있다.
Figure 112021093718229-pat00005
다음으로, 학습데이터 생성부(103)는, 수학식 5에 따른 문서 파급력 행렬(MATYDRE)에 대한 고유 벡터(eigen vector)를 산출하고, 산출된 고유 벡터를 목표 리스크 벡터(Y)로서 생성할 수 있다. 여기서, 고유 벡터를 산출하는 과정은 통상의 기술자에게 널리 알려져있으므로 구체적 설명은 생략한다.
여기서 생성되는 목표 리스크 벡터(Y)는 훈련 출력값이 될 수 있다.
리스크 예측 모델 학습부(104)는 생성된 훈련 입력값과 훈련 출력값으로 구성되는 학습데이터를 이용하여 리스크 예측 모델(105)을 학습시킬 수 있다.
즉, 본 발명의 일 실시예에 따른 학습데이터 생성부(103)는, 내부 문서가 유출되었을 때의 파급력이나 내부 기업 리스크를 실험적으로 또는 실증적으로 수집하기 어려운 문제를 보완하기 위하여, 상술한 연산 방식을 통해 훈련 출력값을 구성하여 학습데이터로서 리스크 예측 모델(105)을 학습시켜 운용이 가능하도록 구성한 후, 실질적으로 현장에서 리스크 예측을 사용함에 따른 예측 결과를 미세조정(fine-tuning)하고, 오류 역전파 알고리즘(back propagation)을 통해 가중치를 재조정함으로써 추가적인 기계학습을 하도록 구성한다.
일 실시예에 있어서, 리스크 예측 모델 학습부(104)은 리스크 예측 모델(105)에 기업 내부 문서의 분포 정보, 기업 정보, 및 키워드 파급력 정보를 입력하여 리스크 점수가 출력되도록, 리스크 예측 모델(105)을 지도 학습시킬 수 있다.
리스크 예측 모델(105)은 리스크 예측 모델 학습부(104)에 의해서 기업 내부 문서의 기업 내부 문서의 분포 정보, 기업 정보, 및 키워드 파급력 정보를 입력하여 리스크 점수를 출력하도록 지도 학습될 수 있다. 리스크 예측 모델(105)로서 인공 신경망(Artifical Neural Network)이 이용될 수 있으며, 인공 신경망(Artificial neural network)은 많은 수의 인공 뉴런(또는, 노드)들을 이용하여 생물학적인 시스템의 계산 능력을 모방하는 소프트웨어나 하드웨어로 구현된 예측 모델이다.
학습데이터 생성부(103), 리스크 예측 모델 학습부(104) 및 리스크 예측 모델(105)의 동작에 대해서는 도 4를 참조하여 자세히 설명하도록 한다.
도 4는 도 1에 따른 리스크 예측 서버에서 이용하는 인공 신경망의 구조와 동작을 설명하기 위한 개념도이다.
도 4를 참조하면, 인공 신경망(10)은 입력층(11), 은닉층(12), 및 출력층(13)을 포함할 수 있다.
본 발명의 일 실시예에서 인공 신경망(10)은 학습 데이터의 훈련 입력값을 입력받고, 학습 데이터의 훈련 출력값인 목표 리스크 벡터(Y)를 은닉층(12)에서 출력할 수 있도록 지도학습된다.
입력층(11)은, 문서 리스크 벡터(YD) 및 파급력 벡터(YRE) 각각의 성분 개수(N)와 동일한 개수(N)의 입력 노드들로 구성될 수 있다. 예를 들어, 문서 리스크 벡터(YD) 및 파급력 벡터(YRE) 각각의 성분 개수가 N개인 경우, 입력층(11)은 N개의 입력 노드들로 구성될 수 있다.
입력층(11)은 문서 리스크 벡터(YD) 및 파급력 벡터(YRE) 각각에 대하여, 입력 노드들과 대응하는 하나 이상의 연결 강도값들을 적용하여 은닉층(12)에 전달할 수 있다.
예를 들어, 입력 노드들 각각에 대응하는 하나 이상의 연결 강도값들은 N×V의 크기를 갖는 제1 연결강도 행렬(WN×V)로 표현할 수 있다. 이때, N은 입력노드들과 동일한 개수인 N일 수 있고, V는 벡터의 매우 많은 다차원(여기서 차원은 성분값의 개수와 동일)을 유의미한 차원으로 사상(projection)할 수 있도록, N보다 매우 작게 설정되는 것이 유리하다. 예를 들어, V는 N의 1/10일 수 있다. 제1 연결강도 행렬(WN×V)은 임의의 초기값으로 설정된 후 지도학습을 통해 지속적으로 갱신될 수 있다.
종합하면, 입력층(11)은 입력받은 문서 리스크 벡터(YD) 에 제1 연결강도 행렬(WN×V)을 행렬곱 연산하여 얻어진 제1 중간 벡터(X1)를 은닉층(12)에 전달하고, 입력받은 파급력 벡터(YRE)에 제1 연결강도 행렬(WN×V)을 행렬곱 연산하여 얻어진 제2 중간 벡터(X2)를 은닉층(12)에 전달할 수 있다.
은닉층(12)은, 입력층(11)으로부터 전달받은 제1 중간 벡터(X1) 및 제2 중간 벡터(X2)를 서로 합성하여 생성된 중간 출력 벡터(X`)에 은닉 노드들 각각에 대응하는 하나 이상의 연결 강도를 적용하여 출력 벡터(Y`)를 생성하고, 생성된 출력 벡터(Y`)를 출력층(13)에 전달할 수 있다. 여기서, 제1 중간 벡터(X1) 및 제2 중간 벡터(X2)를 합성하는 과정은, 미리 정의된 은닉층(12)의 기준식에 따라 결정되며, 본 발명이 속하는 기술분야에서 다양한 기준식들이 공지되어 있으므로 통상의 기술자가 이를 선택적으로 적용할 수 있다. 이때, 은닉 노드들 각각에 대응하는 하나 이상의 연결 강도값들은 V×N의 크기를 갖는 제2 연결강도 행렬(UV×N)로 표현할 수 있다. 즉, 제2 연결강도 행렬(UV×N)은 V개의 차원으로 사상된 중간 출력 벡터(X`)를 다시 N개의 차원으로 복원한다.
한편, 제2 연결강도 행렬(UV×N)의 초기값은 임의의 값으로 설정된 후, 중간 출력 벡터(X`)와 제2 연결강도 행렬(UV×N) 사이의 행렬곱 연산하여 생성된 출력 벡터(Y`)가 훈련 출력값인 목표 리스크 벡터(Y)가 되도록 지속적으로 갱신될 수 있다. 즉, 제2 연결강도 행렬(UV×N)은 학습 데이터를 지속적으로 지도학습함에 따라 갱신될 수 있다.
출력층(13)은, 은닉층(12)으로부터 전달받은 출력 벡터(Y`)에 활성화 함수를 적용함으로써 출력 벡터(Y`)에 대응하는 확률(p)을 출력할 수 있다. 활성화 함수는 다양한 범위를 가지는 값들을 0과 1 사이의 값으로 확대 또는 축소함으로써 확률로 변환하는 효과가 있다. 예를 들어, 활성화 함수는, LeRU 함수 또는 Softmax 함수일 수 있으나 이에 한정되는 것은 아니다.
리스크 예측 서버(100)는, 출력층(13)으로부터 출력된 확률(p)에 기반하여 키워드 파급력 정보를 반영한 리스크 점수를 결정할 수 있다.
한편, 앞서 설명한 것처럼 인공 신경망(10)은, 학습 데이터의 훈련 입력값(임의의 기업에 대한 기업 내부 문서의 검출 키워드에 대한 분포 정보, 기업 정보, 및 키워드 파급력 정보)을 벡터 형태로 입력받아 출력된 출력 벡터(Y`)와 목표 리스크 벡터(Y) 사이의 차이가 최소화되도록 제1 연결강도 행렬(WN×V)과 제2 연결강도 행렬(UV×N)을 지속적으로 갱신하는 방식으로 지도학습될 수 있다.
이를 위해 더욱 구체적으로, 인공 신경망(10)은, 손실 함수(Loss function)에 출력 벡터(Y`)와 목표 리스크 벡터(Y)를 대입하고, 손실 함수의 결과값이 최소화되도록 제1 연결강도 행렬(WN×V)과 제2 연결강도 행렬(UV×N)을 지속적으로 갱신할 수 있다.
예를 들어, 손실 함수는, 크로스 엔트로피(Cross Entropy) 함수일 수 있다. 출력 벡터(Y`)와 목표 리스크 벡터(Y) 사이의 크로스 엔트로피(H(Y,Y`))는 다음의 수학식 6과 같이 정의될 수 있다.
Figure 112021093718229-pat00006
수학식 6에서 Ym은 목표 리스크 벡터(Y)의 m(m은 1 이상의 자연수)번째 성분이고, Y`m은 점수 벡터(Y`)의 m번째 성분일 수 있다.
한편, 본 발명의 일 실시예에서 손실 함수(Loss function, LF)는 정확도를 향상시키기 위해 다음의 수학식 7과 같이 정의될 수도 있다.
Figure 112021093718229-pat00007
수학식 7을 참조하면, 손실 함수(LF)는, 목표 리스크 벡터(Y)와 출력 벡터(Y`) 사이의 내적을 목표 리스크 벡터(Y)의 놈(norm) 연산값과 출력 벡터(Y`)의 놈(norm) 연산값으로 나눈 값 및 크로스 엔트로피 함수(H)의 결과값 중 큰 값으로 정의될 수 있다.
도 5는 문서 리스크 벡터(YD)와 리스크 검출 키워드의 파급력 벡터(YRE)를 설명하기 위한 개념도이다.
도 5를 참조하면, 총 N개의 검출 키워드가 미리 설정되어 있고, 검출 키워드마다 할당된 파급력, 특정 기업 내부 문서에 대하여 검출 키워드의 포함 개수가 나타나 있음을 알 수 있다.
관련하여, 문서 리스크 벡터(YD)는 기업 단말(200)로부터 획득한 기업 내부 문서의 검출 키워드에 대한 분포 정보(총 N개)와 기업 정보에 기초하여 생성되고, 리스크 검출 키워드의 파급력 벡터(YRE)는 외부 서버(300)로부터 획득한 기사 정보에 기초하여 총 N개의 리스크 검출 키워드 각각의 파급력을 계산하여 생성된 키워드 파급력 정보에 기초하여 생성될 수 있다.
일 실시예에 있어서, 문서 리스크 벡터(YD)는 1×N의 크기의 벡터로, n행의 성분값은 언어 전처리기를 이용하여 추출되는 기업 내부 문서에 검출 키워드가 포함된 개수(NDn)와 총 N개의 검출 키워드 중 n번째 검출 키워드에 대해 기업정보에 기초하여 할당된 가중치(wn)의 곱이 되도록 설정된다. 이때, 검출 키워드에 대해 기업정보에 기초하여 할당된 가중치는 기업마다 달라질 수 있으며, 예를 들어, 검출 키워드 '상속'은 대기업의 경우가 개인사업자의 경우보다 리스크가 높기 때문에 대기업의 검출 키워드 '상속'에 대한 가중치는 개인사업자의 검출 키워드 '상속'에 대한 가중치보다 높게 설정되도록 한다. 또한, 검출 키워드에 대해 기업정보에 기초하여 할당된 가중치는 검출 키워드마다 달라질 수도 있다.
또한, 리스크 검출 키워드의 파급력 벡터(YRE)는 1×N의 크기의 벡터로, n행의 성분값은 총 N개의 검출 키워드 중 n번째 검출 키워드의 파급력(REn)이 되도록 설정된다. 이때, 검출 키워드의 파급력은 키워드 파급력 추출부(102)에 의해 상술한 방식에 의해 계산될 수 있다.
도 6은 본 발명의 일 실시예에 따른 리스크 예측 서버의 하드웨어 구성을 예시적으로 나타낸 도면이다.
도 6을 참조하면, 리스크 예측 서버(100)는, 적어도 하나의 프로세서(110); 및 상기 적어도 하나의 프로세서(110)가 적어도 하나의 동작(operation)을 수행하도록 지시하는 명령어들(instructions)을 저장하는 메모리(memory)를 포함할 수 있다.
상기 적어도 하나의 동작은, 도 1 내지 도 5를 참조하여 설명한 리스크 예측 서버(100)의 동작을 포함할 수 있다.
여기서 적어도 하나의 프로세서(110)는 중앙 처리 장치(central processing unit, CPU), 그래픽 처리 장치(graphics processing unit, GPU), 또는 본 발명의 실시예들에 따른 방법들이 수행되는 전용의 프로세서를 의미할 수 있다.
메모리(120)는 휘발성 저장 매체 및 비휘발성 저장 매체 중에서 적어도 하나로 구성될 수 있다. 예를 들어, 메모리(120)는 읽기 전용 메모리(read only memory, ROM) 및 랜덤 액세스 메모리(random access memory, RAM) 중에서 적어도 하나로 구성될 수 있다.
저장 장치(160)는, 인공 신경망(10)을 저장할 수 있는데, 예를 들어 HDD(hard disk drive), SSD(solid state drive) 등일 수 있다.
또한, 리스크 예측 서버(100)는, 무선 네트워크를 통해 통신을 수행하는 송수신 장치(transceiver)(130)를 포함할 수 있다. 또한, 리스크 예측 서버 (100)는 입력 인터페이스 장치(140), 출력 인터페이스 장치(150), 저장 장치(160) 등을 더 포함할 수 있다. 리스크 예측 서버(100)에 포함된 각각의 구성 요소들은 버스(bus, 170)에 의해 연결되어 서로 통신을 수행할 수 있다.
리스크 예측 서버(100)의 예를 들면, 통신 가능한 데스크탑 컴퓨터(desktop computer), 랩탑 컴퓨터(laptop computer), 노트북(notebook), 스마트폰(smart phone), 태블릿 PC(tablet PC), 모바일폰(mobile phone), 스마트 워치(smart watch), 스마트 글래스(smart glass), e-book 리더기, PMP(portable multimedia player), 휴대용 게임기, 네비게이션(navigation) 장치, 디지털 카메라(digital camera), DMB(digital multimedia broadcasting) 재생기, 디지털 음성 녹음기(digital audio recorder), 디지털 음성 재생기(digital audio player), 디지털 동영상 녹화기(digital video recorder), 디지털 동영상 재생기(digital video player), PDA(Personal Digital Assistant) 등일 수 있다.
본 발명에 따른 방법들은 다양한 컴퓨터 수단을 통해 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 컴퓨터 판독 가능 매체에 기록되는 프로그램 명령은 본 발명을 위해 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.
컴퓨터 판독 가능 매체의 예에는 롬(ROM), 램(RAM), 플래시 메모리(flash memory) 등과 같이 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함될 수 있다. 프로그램 명령의 예에는 컴파일러(compiler)에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터(interpreter) 등을 사용해서 컴퓨터에 의해 실행될 수 있는 고급 언어 코드를 포함할 수 있다. 상술한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 적어도 하나의 소프트웨어 모듈로 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
또한, 상술한 방법 또는 장치는 그 구성이나 기능의 전부 또는 일부가 결합되어 구현되거나, 분리되어 구현될 수 있다.
상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
10: 인공 신경망 11: 입력층
12: 은닉층 13: 출력층
100: 리스크 예측 서버 101: 기업 내부 문서 전처리부
102: 키워드 파급력 추출부 103: 학습데이터 생성부
104: 리스크 예측 모델 학습부 105: 리스크 예측 모델
110: 프로세서 120: 메모리
130: 송수신 장치 140: 입력 인터페이스 장치
150: 출력 인터페이스 장치 160: 저장 장치
170: 버스 200: 기업단말
300: 외부 서버 400: 사용자 단말

Claims (5)

  1. 인공 신경망을 이용하여 기업 내부 문서의 리스크를 예측하는 장치로서,
    적어도 하나의 프로세서(processor); 및
    상기 적어도 하나의 프로세서가 적어도 하나의 동작(operation)을 수행하도록 지시하는 명령어들(instructions)을 저장하는 메모리(memory)를 포함하고,
    상기 적어도 하나의 동작은,
    외부 서버로부터 기사 정보를 수신하는 단계;
    상기 기사 정보에 기초하여 미리 정의된 리스크 검출 키워드에 대한 키워드 파급력 정보를 생성하는 단계;
    기업 단말로부터 기업 내부 문서 및 기업 정보를 수신하는 단계;
    상기 기업 내부 문서와 상기 기업 정보, 및 상기 키워드 파급력 정보를 미리 지도학습(supervised learning)된 인공 신경망에 입력하는 단계; 및
    상기 인공 신경망의 출력값에 기반하여 상기 기업 내부 문서의 리스크 점수를 결정하는 단계를 포함하고,
    상기 리스크 점수는 상기 기업 내부 문서가 유출되었을 경우 기업에 끼치는 부정적인 영향력인 리스크(risk)를 정량화한 점수를 의미하고,
    상기 키워드 파급력 정보를 생성하는 단계는,
    상기 기사 정보에 기초하여 상기 리스크 검출 키워드의 파급력을 계산하고, 계산된 상기 파급력을 포함하는 상기 키워드 파급력 정보를 생성하는 단계를 포함하며,
    상기 파급력은, 하기 수학식에 기초하여 결정되고,
    Figure 112022500394672-pat00014

    상기 수학식에서 REn은 임의의 n(n은 1 이상의 자연수로서 상기 리스크 검출 키워드의 총 개수 N보다 작거나 같음)번째 리스크 검출 키워드에 대한 파급력(Ripple Effect)이고, PT는 기사가 게재된 언론사 티어 점수(Press Tier Score)이고, EM은 온라인 노출 또는 오프라인 노출에 따라 달라지는 노출 방식 점수(Exposure Method Score)이고, MM은 기사 내에서 상기 리스크 검출 키워드가 사용된 방식에 따라 달라지는 언급 방식 점수(Mention Method Score)이며,
    상기 인공 신경망은 미리 생성된 학습 데이터를 이용하여 지도학습되고,
    상기 학습 데이터는,
    상기 리스크 검출 키워드와 상기 기업 정보에 기초하여 생성된 문서 리스크 벡터 및 상기 키워드 파급력 정보에 기초하여 생성된 파급력 벡터로 구성된 훈련 입력값; 및
    분포 정보, 상기 기업 정보, 및 상기 키워드 파급력 정보를 기반으로 생성된 목표 리스크 벡터로 구성된 훈련 출력값을 포함하고,
    상기 문서 리스크 벡터는, 상기 리스크 검출 키워드의 총 개수 N개 중 상기 n번째 리스크 검출 키워드가 기업 내부 문서에 포함된 개수 및 상기 n번째 리스크 검출 키워드에 대하여 기업 정보를 반영하여 설정된 가중치를 서로 곱한 값을 n번째 성분으로 갖고,
    상기 파급력 벡터는, 상기 n번째 리스크 검출 키워드에 대한 파급력을 n번째 성분으로 가지며,
    상기 목표 리스크 벡터는,
    상기 문서 리스크 벡터를 전치(transpose) 연산하여 전치 문서 리스크 벡터를 생성하는 단계;
    생성된 상기 전치 문서 리스크 벡터를 하나의 행(row)으로 하는 정방 행렬인 문서 리스크 행렬을 생성하는 단계;
    생성된 상기 문서 리스크 행렬의 각 행에 상기 파급력 벡터의 각 행에 위치하는 성분값을 곱하여 문서 파급력 행렬을 생성하는 단계; 및
    생성된 상기 문서 파급력 행렬에 대한 고유 벡터를 상기 목표 리스크 벡터로 결정하는 단계를 거쳐 결정되는, 장치.
  2. 청구항 1에서,
    상기 적어도 하나의 동작은,
    언어 전처리기를 이용하여 상기 리스크 검출 키워드에 대한 분포 정보를 생성하는 단계를 더 포함하며,
    상기 분포 정보는 상기 리스크 검출 키워드가 상기 기업 내부 문서에 포함되어 있는지 여부와 상기 기업 내부 문서에 상기 리스크 검출 키워드가 포함된 개수를 포함하는, 장치.
  3. 삭제
  4. 삭제
  5. 청구항 1에서,
    상기 인공 신경망은,
    미리 정의된 손실 함수에 기초하여, 상기 훈련 입력값을 입력받았을 때 얻어지는 출력 벡터와 상기 목표 리스크 벡터 사이의 차이가 최소화되도록 지도학습되는, 장치.
KR1020210107288A 2021-08-13 2021-08-13 인공 신경망을 이용하여 기업 내부 문서의 리스크를 예측하는 방법 및 장치 KR102365308B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210107288A KR102365308B1 (ko) 2021-08-13 2021-08-13 인공 신경망을 이용하여 기업 내부 문서의 리스크를 예측하는 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210107288A KR102365308B1 (ko) 2021-08-13 2021-08-13 인공 신경망을 이용하여 기업 내부 문서의 리스크를 예측하는 방법 및 장치

Publications (1)

Publication Number Publication Date
KR102365308B1 true KR102365308B1 (ko) 2022-02-23

Family

ID=80495529

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210107288A KR102365308B1 (ko) 2021-08-13 2021-08-13 인공 신경망을 이용하여 기업 내부 문서의 리스크를 예측하는 방법 및 장치

Country Status (1)

Country Link
KR (1) KR102365308B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115660410A (zh) * 2022-10-09 2023-01-31 广东迪浪科技股份有限公司 基于大数据的企业风险预测方法、控制装置及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060086619A (ko) * 2005-01-27 2006-08-01 주식회사 하이닉스반도체 Erp시스템 기반의 감사정보 시스템 및 이를 이용한감사정보 운영 방법, 그 프로그램이 기록된 기록매체
KR20170004165A (ko) * 2015-07-01 2017-01-11 지속가능발전소 주식회사 뉴스의 데이터마이닝을 통한 기업 평판 분석 장치 및 방법, 그 방법을 수행하기 위한 기록 매체
KR102008707B1 (ko) 2019-03-26 2019-08-09 이종훈 업무 리스크 관리 시스템
JP2020510926A (ja) * 2017-02-27 2020-04-09 アマゾン・テクノロジーズ、インコーポレイテッド インテリジェントセキュリティ管理
KR20210090714A (ko) * 2019-02-01 2021-07-20 엘지전자 주식회사 인공지능 장치

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060086619A (ko) * 2005-01-27 2006-08-01 주식회사 하이닉스반도체 Erp시스템 기반의 감사정보 시스템 및 이를 이용한감사정보 운영 방법, 그 프로그램이 기록된 기록매체
KR20170004165A (ko) * 2015-07-01 2017-01-11 지속가능발전소 주식회사 뉴스의 데이터마이닝을 통한 기업 평판 분석 장치 및 방법, 그 방법을 수행하기 위한 기록 매체
JP2020510926A (ja) * 2017-02-27 2020-04-09 アマゾン・テクノロジーズ、インコーポレイテッド インテリジェントセキュリティ管理
KR20210090714A (ko) * 2019-02-01 2021-07-20 엘지전자 주식회사 인공지능 장치
KR102008707B1 (ko) 2019-03-26 2019-08-09 이종훈 업무 리스크 관리 시스템

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115660410A (zh) * 2022-10-09 2023-01-31 广东迪浪科技股份有限公司 基于大数据的企业风险预测方法、控制装置及存储介质

Similar Documents

Publication Publication Date Title
Mukhopadhyay A multivariate adaptive regression splines based damage identification methodology for web core composite bridges including the effect of noise
Bilal et al. Big Data in the construction industry: A review of present status, opportunities, and future trends
US7779051B2 (en) System and method for optimizing federated and ETL'd databases with considerations of specialized data structures within an environment having multidimensional constraints
Van de Ven et al. Designing new business startups: Entrepreneurial, organizational, and ecological considerations
US7584160B2 (en) System and method for optimizing project subdivision using data and requirements focuses subject to multidimensional constraints
CN112270547A (zh) 基于特征构造的金融风险评估方法、装置和电子设备
CN110751286A (zh) 神经网络模型的训练方法和训练系统
US20230032739A1 (en) Propensity modeling process for customer targeting
Law et al. Knowledge-driven decision analytics for commercial banking
Mturi et al. A context‐based process semantic annotation model for a process model repository
Zhang et al. Several multi-criteria programming methods for classification
Huang et al. Talent recommendation based on attentive deep neural network and implicit relationships of resumes
KR102365308B1 (ko) 인공 신경망을 이용하여 기업 내부 문서의 리스크를 예측하는 방법 및 장치
Hamzah et al. Big Data Implementation in Malaysian Public Sector: A
US20240086947A1 (en) Intelligent prediction of sales opportunity outcome
US20230368130A1 (en) Systems and methods for prioritizing orders
Wei e‐Commerce Online Intelligent Customer Service System Based on Fuzzy Control
CN114742645A (zh) 基于多阶段时序多任务的用户安全等级识别方法及装置
Gokhale et al. A binary classification approach to lead identification and qualification
WO2022266168A1 (en) Systems, devices and methods for data processing and presentation
Kumar et al. Automated text summarization using transformers
Zhuzhel et al. No two users are alike: Generating audiences with neural clustering for temporal point processes
Seng et al. Big data and FinTech
US11941076B1 (en) Intelligent product sequencing for category trees
US20230237503A1 (en) System and method for determining commodity classifications for products

Legal Events

Date Code Title Description
PA0109 Patent application

Patent event code: PA01091R01D

Comment text: Patent Application

Patent event date: 20210813

PA0201 Request for examination
PA0302 Request for accelerated examination

Patent event date: 20210819

Patent event code: PA03022R01D

Comment text: Request for Accelerated Examination

Patent event date: 20210813

Patent event code: PA03021R01I

Comment text: Patent Application

PE0701 Decision of registration

Patent event code: PE07011S01D

Comment text: Decision to Grant Registration

Patent event date: 20211213

GRNT Written decision to grant
PR0701 Registration of establishment

Comment text: Registration of Establishment

Patent event date: 20220216

Patent event code: PR07011E01D

PR1002 Payment of registration fee

Payment date: 20220217

End annual number: 3

Start annual number: 1

PG1601 Publication of registration