[go: up one dir, main page]

KR102748662B1 - Apparatus for selecting data to train artificial intelligence and method for controlling the same - Google Patents

Apparatus for selecting data to train artificial intelligence and method for controlling the same Download PDF

Info

Publication number
KR102748662B1
KR102748662B1 KR1020230089711A KR20230089711A KR102748662B1 KR 102748662 B1 KR102748662 B1 KR 102748662B1 KR 1020230089711 A KR1020230089711 A KR 1020230089711A KR 20230089711 A KR20230089711 A KR 20230089711A KR 102748662 B1 KR102748662 B1 KR 102748662B1
Authority
KR
South Korea
Prior art keywords
data
quality
verification
information
artificial intelligence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
KR1020230089711A
Other languages
Korean (ko)
Other versions
KR20240103948A (en
Inventor
조영탁
김민기
안기옥
Original Assignee
주식회사 가치랩스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 가치랩스 filed Critical 주식회사 가치랩스
Publication of KR20240103948A publication Critical patent/KR20240103948A/en
Application granted granted Critical
Publication of KR102748662B1 publication Critical patent/KR102748662B1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/98Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
    • G06V10/993Evaluation of the quality of the acquired pattern
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/803Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/98Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
    • G06V10/987Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns with the intervention of an operator

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Quality & Reliability (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

인공지능 훈련 데이터 선별 장치 및 그의 제어 방법에 관한 것이며, 인공지능 훈련 데이터 선별 방법은, 사용자 데이터에 사전 분석을 수행하고, 기 정의된 연관 규칙을 이용하여 검증 대상과 품질 기준을 포함하는 품질검증조건을 설정하는 단계; 기 생성된 데이터 분석 알고리즘 및 상기 품질검증조건을 기초로 규격 특성 및 내용 기반 특성을 포함하는 상기 사용자 데이터의 데이터 특성을 검증하여 상기 사용자 데이터의 품질 정보를 측정하는 단계; 및 상기 데이터 특성 및 상기 품질 정보에 기초하여 인공지능 훈련에 유효한 학습 데이터를 선정하는 단계를 포함할 수 있다.The present invention relates to an artificial intelligence training data selection device and a control method thereof, wherein the artificial intelligence training data selection method may include a step of performing a preliminary analysis on user data and setting a quality verification condition including a verification target and a quality criterion using a predefined association rule; a step of measuring quality information of the user data by verifying data characteristics of the user data including standard characteristics and content-based characteristics based on a pre-generated data analysis algorithm and the quality verification conditions; and a step of selecting learning data effective for artificial intelligence training based on the data characteristics and the quality information.

Description

인공지능 훈련 데이터 선별 장치 및 그의 제어 방법{APPARATUS FOR SELECTING DATA TO TRAIN ARTIFICIAL INTELLIGENCE AND METHOD FOR CONTROLLING THE SAME}{APPARATUS FOR SELECTING DATA TO TRAIN ARTIFICIAL INTELLIGENCE AND METHOD FOR CONTROLLING THE SAME}

본원은 인공지능 훈련 데이터 선별 장치 및 그의 제어 방법에 관한 것이다.The present invention relates to an artificial intelligence training data selection device and a control method thereof.

최근 들어 종래의 기술로는 실현하기 용이하지 않다고 간주되었던 시각 및 음성과 관련한 인공지능 분야에서 딥러닝과 같은 머신러닝 기술이 적극적으로 도입되면서, 인공지능을 훈련시키기 위한 학습 데이터의 형식 또한 종래의 데이터베이스 기반의 정형데이터(structured data)뿐만 아니라 이미지, 비디오, 오디오 및 텍스트 등을 포함하는 비정형데이터(unstructured data)를 활용하는 것은 물론이고, 정형데이터(structured data)와 비정형데이터(unstructured data)를 조합한 멀티모달(multi-modal) 데이터를 활용하는 추세가 증가하고 있다.Recently, as machine learning technologies such as deep learning are being actively introduced in the fields of artificial intelligence related to vision and speech, which were considered difficult to realize with conventional technologies, the format of training data for artificial intelligence is also changing, not only from structured data based on conventional databases to unstructured data including images, videos, audio, and text, and there is an increasing trend of utilizing multi-modal data that combines structured data and unstructured data.

또한, 머신러닝 기반의 인공지능 알고리즘의 성능을 확보하기 위해서, 알고리즘의 훈련을 위한 일정 규모 이상의 학습 데이터의 수량뿐만 아니라 그 학습 데이터의 품질 또한 강조되고 있으나, 인공지능 학습용 데이터의 품질을 측정하기 위한 종래의 방법은 정형데이터를 위한 품질지표에 기초하는 검증 방식에 제한되기 때문에, 주로 정형데이터를 구성하는 파일의 형식과 클래스 또는 인스턴스의 수량과 분포 등 데이터의 생산 과정에서 준수해야 하는 데이터의 규격에 관한 적합성 및 준수율 확인에 제한적으로 활용되고 있는 실정이다.In addition, in order to secure the performance of artificial intelligence algorithms based on machine learning, not only a certain amount of learning data for training the algorithm but also the quality of the learning data is emphasized. However, conventional methods for measuring the quality of data for artificial intelligence learning are limited to verification methods based on quality indicators for structured data. Therefore, they are mainly used to confirm the suitability and compliance rate of data specifications that must be followed in the data production process, such as the format of files constituting structured data and the quantity and distribution of classes or instances.

또한, 데이터 규격과 수량 기준을 만족하는 데이터를 이용하더라도, 구현하고자 하는 인공지능에 부여된 임무에 관한 유의미한 도메인 특성의 반영 여부 및 인공지능 알고리즘의 훈련에 관한 유효성 여부 등의 데이터 이용 관점의 품질 문제는, 종래의 규격 적합성 또는 준수율만으로는 설명할 수 없고 인공지능의 구현 단계로 전가되어 반복적인 품질검증으로 인한 시간과 비용의 증가를 유발하고 인공지능의 구현 업무에 역량을 집중하기가 어려운 문제가 있다.In addition, even if data that satisfies the data specifications and quantity criteria are used, quality issues from the perspective of data use, such as whether meaningful domain characteristics regarding the tasks assigned to the artificial intelligence to be implemented are reflected and whether the training of the artificial intelligence algorithm is effective, cannot be explained by the conventional standard suitability or compliance rate alone, and are transferred to the artificial intelligence implementation stage, causing an increase in time and cost due to repetitive quality verification and making it difficult to focus capabilities on the artificial intelligence implementation task.

그러나, 시청각 데이터를 비롯한 비정형데이터의 경우, 저작권 또는 출처의 명기 및 부정확한 비식별화 등 법적 요건의 충족 여부는 물론 데이터가 인공지능에 부여된 임무와 관련한 유의미한 도메인 특성을 반영하였는지 여부만 아니라, 인공지능 알고리즘의 훈련과 목표 성능 달성을 저해하는 데이터 중복, 과소 또는 과대한 라벨 영역을 설정한 문제가 존재하는지의 여부, 라벨링이 부정확한지의 여부, 이미지의 초점이 불량한지의 여부 등에 관한 내용 기반의 검증이 반드시 필요하지만, 사람이 직접 눈과 귀로 확인하는 방식으로 인하여 대량의 데이터를 일일이 열람하여 시청 또는 청취하는 것은 용이하지 않고, 이로 인하여 현장에서는 데이터의 일부를 검사하는 샘플링 검사 방식이 활용되어 정밀한 품질 측정이 어려운 실정이다.However, in the case of unstructured data including audiovisual data, in addition to satisfying legal requirements such as copyright or source indication and inaccurate de-identification, it is essential to conduct content-based verification regarding whether the data reflects meaningful domain characteristics related to the task assigned to AI, as well as whether there are problems such as data duplication, insufficient or excessive labeling areas that hinder training of AI algorithms and achievement of target performance, whether labeling is inaccurate, and whether the image is out of focus. However, it is not easy for people to directly check with their eyes and ears, so it is not easy to view or listen to a large amount of data one by one. As a result, a sampling inspection method is used in the field to inspect a portion of the data, making it difficult to measure quality precisely.

또한, 인력에 의존하는 종래의 데이터 품질에 관한 측정, 평가, 또는 검증 업무는 다수의 작업자에 의해 수행되며, 이를 수행하는 작업자 개인의 경험과 주관, 그리고 업무의 난이도와 작업량에 따른 피로도 등 계량할 수 없는 외부 요인으로 인한 휴먼 에러(Human error)를 수반하므로 품질 측정 기준과 그 결과의 일관성을 유지하기 어렵고, 정확도와 신속성을 확보하기가 어려운 작업이라고 할 것이다.In addition, conventional data quality measurement, evaluation, or verification tasks that depend on manpower are performed by a number of workers, and involve human error due to external factors that cannot be measured, such as the experience and subjectivity of each worker performing the tasks, and fatigue due to the difficulty and workload of the tasks. Therefore, it is difficult to maintain consistency between quality measurement standards and results, and it is difficult to secure accuracy and speed.

결과적으로, 종래의 방식은 인공지능의 훈련에 필요한 데이터 생산과 이용 관점에서 정량적 지표는 시간과 비용의 문제로 인하여 규격 적합성 관점의 검증으로 한정되고, 대량의 데이터가 갖는 내용 기반의 품질을 정량화하거나 객관적으로 설명하기가 어려우며, 인공지능의 훈련에 적합한 데이터의 선별과 데이터셋의 구성은 물론, 부적합한 데이터의 재수집과 재가공 등을 위한 의사결정은 여전히 사람의 경험과 주관적 판단에 전적으로 의지할 수 밖에 없어, 인공지능의 성능 확보와 개선은 많은 시간, 노력 및 비용을 요구하는 작업이라고 할 것이다.As a result, in terms of the production and use of data required for artificial intelligence training, the conventional method is limited to verification from the perspective of standard conformity due to time and cost issues in quantitative indicators, and it is difficult to quantify or objectively explain the content-based quality of a large amount of data. In addition, the selection of data suitable for artificial intelligence training and the composition of datasets, as well as decision-making for re-collecting and re-processing unsuitable data, still have to rely entirely on human experience and subjective judgment. Therefore, securing and improving the performance of artificial intelligence can be said to be a task that requires a lot of time, effort, and cost.

본원의 배경이 되는 기술은 한국등록특허공보 제10-0803561호에 개시되어 있다.The background technology of this application is disclosed in Korean Patent Publication No. 10-0803561.

본원은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 인공지능 알고리즘의 훈련을 위해 수집 또는 가공된 정형데이터는 물론 이미지, 비디오, 오디오, 텍스트, 또는 그 외의 유형을 갖는 비정형데이터를 대상으로, 그 구성과 내용 기반 특성을 사전 분석하여 검증항목과 세부품질지표를 용이하게 설정할 수 있고, 이러한 설정에 따라 규격 검증 및 내용 기반 검증에 관한 기 생성된 데이터 분석 알고리즘을 이용하여 객관적인 품질을 측정 및 평가하고, 그 결과를 시각적으로 설명가능하고 사용자 상호작용 가능한 형태로 제공함으로써 품질지표별 통계와 함께 전체 또는 개별 데이터의 규격 및 내용 기반 검증 결과를 용이하게 확인 가능하도록 하며, 이를 통해 적합 또는 부적합 데이터를 조회 및 선별하여 인공지능 훈련에 유효한 데이터셋의 도출을 용이하도록 하는 인공지능 훈련 데이터 선별 장치 및 그의 제어 방법을 제공하려는 것을 목적으로 한다.The present invention is intended to solve the problems of the above-mentioned prior art, and to provide an artificial intelligence training data selection device and a control method thereof, which enables easy setting of verification items and detailed quality indicators by pre-analyzing the composition and content-based characteristics of structured data collected or processed for training artificial intelligence algorithms as well as unstructured data of images, videos, audios, texts, or other types, and objectively measuring and evaluating quality using pre-generated data analysis algorithms for standard verification and content-based verification according to these settings, and providing the results in a form that can be visually explained and interacted with by the user, thereby enabling easy confirmation of the standard and content-based verification results of all or individual data together with statistics by quality indicator, and thereby facilitating the derivation of a dataset effective for artificial intelligence training by searching and selecting suitable or unsuitable data.

다만, 본원의 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.However, the technical tasks to be achieved by the embodiments of the present invention are not limited to the technical tasks described above, and other technical tasks may exist.

상기한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본원의 일 실시예에 따른 인공지능 훈련 데이터 선별 방법은, 사용자 데이터에 사전 분석을 수행하고, 기 정의된 연관 규칙을 이용하여 검증 대상과 품질 기준을 포함하는 품질검증조건을 설정하는 단계; 기 생성된 데이터 분석 알고리즘 및 상기 품질검증조건을 기초로 규격 특성 및 내용 기반 특성을 포함하는 상기 사용자 데이터의 데이터 특성을 검증하여 상기 사용자 데이터의 품질 정보를 측정하는 단계; 및 상기 데이터 특성 및 상기 품질 정보에 기초하여 인공지능 훈련에 유효한 학습 데이터를 선정하는 단계를 포함할 수 있다.As a technical means for achieving the above technical task, a method for selecting artificial intelligence training data according to an embodiment of the present invention may include a step of performing a preliminary analysis on user data and setting a quality verification condition including a verification target and a quality criterion using a predefined association rule; a step of measuring quality information of the user data by verifying data characteristics of the user data including standard characteristics and content-based characteristics based on a pre-generated data analysis algorithm and the quality verification conditions; and a step of selecting learning data effective for artificial intelligence training based on the data characteristics and the quality information.

본원의 일 실시예에 따르면, 상기 품질검증조건을 설정하는 단계는, 상기 사용자 데이터의 유형 및 형식과 관련한 사전 분석을 수행하여 구성 정보 및 규격 속성 정보를 포함하는 규격 정보를 생성하는 단계; 상기 규격 정보와 상기 연관 규칙을 이용하여 세부품질지표를 포함하는 검증 항목을 선정하고, 상기 품질 기준에 관한 상기 사용자 데이터로부터 유효한 기준값의 후보를 결정하여 상기 품질검증조건을 예비설정하는 단계; 및 사용자 인터페이스를 통해 획득한 사용자 입력에 기초하여 상기 품질 기준에 대하여 상세 설정을 수행하여 상기 품질 기준을 설정하는 단계를 포함할 수 있다.According to one embodiment of the present invention, the step of setting the quality verification condition may include the step of performing a preliminary analysis related to the type and format of the user data to generate standard information including configuration information and standard attribute information; the step of selecting a verification item including a detailed quality indicator using the standard information and the association rule, and determining a candidate for a valid standard value from the user data regarding the quality criterion to preliminarily set the quality verification condition; and the step of performing a detailed setting of the quality criterion based on a user input acquired through a user interface to set the quality criterion.

본원의 일 실시예에 따르면, 상기 규격 정보를 생성하는 단계는, 상기 사용자 데이터를 구성하는 각 파일의 규격(File format)을 식별하여 각 파일 규격에 관한 상기 데이터의 유형 및 형식에 따라 범주화된 분류 정보와 데이터의 수량 정보를 포함하는 상기 구성 정보를 생성하고, 상기 파일 규격에 기초하여 각 규격별 속성에 관한 유효값의 목록 또는 데이터 스키마(Data schema)로 정의되는 상기 규격 속성 정보를 추출하여 상기 구성 정보와 결합한 상기 규격 정보를 생성할 수 있다.According to one embodiment of the present invention, the step of generating the specification information may include: identifying the specification (File format) of each file constituting the user data, generating the configuration information including classification information categorized according to the type and format of the data for each file specification and quantity information of the data; and extracting the specification attribute information defined as a list of valid values or a data schema for attributes for each specification based on the file specification, and generating the specification information combined with the configuration information.

본원의 일 실시예에 따르면, 상기 품질검증조건을 예비설정하는 단계는, 상기 사전 분석의 결과 및 상기 연관 규칙에 기초하여, 규격 적합성 검증 및 내용 기반 검증 중 적어도 하나의 검증에 관한 상기 검증 항목 및 검증 대상 데이터 목록을 생성하는 단계; 및 상기 세부품질지표에 기초하여 지표 후보 목록을 선정하고 상기 규격 속성 정보로부터 각 지표의 검증에 필요한 상기 규격 속성 정보, 유효값의 목록 및 데이터 스키마 중 적어도 하나를 이용하는 방식으로 생성되는 사전 품질 정보를 결정하여 품질 기준 후보값을 생성하는 단계를 포함할 수 있다.According to one embodiment of the present invention, the step of pre-setting the quality verification conditions may include the step of generating a list of verification items and verification target data for at least one of verification of standard conformity verification and content-based verification based on the result of the pre-analysis and the association rule; and the step of selecting a list of indicator candidates based on the detailed quality indicators and determining preliminary quality information generated by using at least one of the standard attribute information, the list of valid values, and the data schema necessary for verification of each indicator from the standard attribute information to generate a quality criterion candidate value.

본원의 일 실시예에 따르면, 상기 품질 기준을 설정하는 단계는, 상기 사전 품질 정보에 관하여 사용자 인터페이스를 통해 획득된 사용자 입력에 기초하여 상기 품질검증조건을 확정할 수 있다.According to one embodiment of the present invention, the step of setting the quality criterion may determine the quality verification condition based on user input obtained through a user interface with respect to the prior quality information.

본원의 일 실시예에 따르면, 상기 사용자 데이터의 품질 정보를 측정하는 단계는, 상기 사용자 데이터, 상기 검증 대상 및 상기 품질 기준을 입력으로 하는 상기 데이터 분석 알고리즘에 기초하여 상기 사용자 데이터에 관한 규격 적합성 검증 및 내용 기반 검증에 따른 각 세부지표별 정량적 품질정보 및 기준 적합성 정보를 도출하는 단계; 및 상기 사전 분석으로 결정된 상기 데이터의 구조적 특성에 관한 각 세부 특성을 추출하여 도출되거나 내용 기반 검증의 데이터 분석 결과로부터 통계 정보를 생성하거나 범주화하여 결정된 상기 정량적 품질정보 및 상기 기준 적합성 정보를 이용하여 각 품질 특성에 관한 통계 및 범주화 결과를 연관된 사용자 데이터의 목록과 결합하여 품질검증결과를 제공하는 단계를 포함할 수 있다.According to one embodiment of the present invention, the step of measuring the quality information of the user data may include the step of deriving quantitative quality information and criterion conformity information for each detailed index according to the standard conformity verification and content-based verification regarding the user data based on the data analysis algorithm that inputs the user data, the verification target, and the quality criterion; and the step of combining the statistical and categorization results regarding each quality characteristic with a list of associated user data by using the quantitative quality information and the criterion conformity information derived by extracting each detailed characteristic regarding the structural characteristics of the data determined by the pre-analysis or by generating or categorizing statistical information from the data analysis results of the content-based verification, thereby providing a quality verification result.

본원의 일 실시예에 따르면, 상기 기준 적합성 정보는, 상기 사용자 데이터에 관하여 상기 품질 기준에 적합함의 여부를 판정한 정보를 포함하고, 적합한 상기 사용자 데이터의 수량 또는 비율이 상기 정량적 품질정보에 포함된 목표를 충족하는지 여부에 따라 결정될 수 있다.According to one embodiment of the present invention, the criterion suitability information includes information determining whether the user data satisfies the quality criterion, and can be determined based on whether a quantity or ratio of the suitable user data satisfies a target included in the quantitative quality information.

본원의 일 실시예에 따르면, 상기 학습 데이터를 선정하는 단계는, 상기 품질 정보에 대한 측정 결과를 기초로 상기 품질 정보와 상기 기준 적합성 정보를 상기 사용자 데이터의 구조적 특성에 관한 시각화 리포트를 생성하는 단계; 및 상기 시각화 리포트를 이용하여 상기 사용자 데이터의 품질과 특성을 검색조건으로 하여 내용 기반 데이터 시각화 검색을 수행하는 단계를 포함할 수 있다.According to one embodiment of the present invention, the step of selecting the learning data may include the step of generating a visualization report on the structural characteristics of the user data based on the measurement results of the quality information and the criterion suitability information; and the step of performing a content-based data visualization search using the visualization report and the quality and characteristics of the user data as search conditions.

본원의 일 실시예에 따르면, 상기 품질검증조건을 설정하는 단계는, 상기 사용자 데이터의 형식에 따른 품질 지표의 검증을 수행하기 위한 알고리즘 및 연관 규칙을 추가하는 단계를 포함하고, 상기 품질검증조건을 설정하는 단계 및 상기 학습 데이터를 선정하는 단계에서, 추가된 상기 알고리즘과 품질 지표 정보가 제공될 수 있다.According to one embodiment of the present invention, the step of setting the quality verification condition includes the step of adding an algorithm and an association rule for performing verification of a quality indicator according to a format of the user data, and in the step of setting the quality verification condition and the step of selecting the learning data, the added algorithm and quality indicator information may be provided.

본원의 일 실시예에 따르면, 상기 사용자 데이터는, 정형데이터(structured data), 비정형데이터(unstructured data) 및 라벨링데이터(label data) 중 적어도 하나의 데이터를 포함하고, 데이터 유형 및 형식에 관하여 적어도 하나의 혼합된 형태를 갖는 것일 수 있다.According to one embodiment of the present invention, the user data may include at least one of structured data, unstructured data, and label data, and may have at least one mixed form with respect to data type and format.

본원의 일 실시예에 따르면, 상기 연관 규칙은, 규격 적합성 검증 및 내용 기반 검증에 관한 기 정의된 검증 항목에 관하여 수행 가능한 상기 데이터 분석 알고리즘 및 상기 데이터 분석 알고리즘에 관하여 처리 가능한 상기 사용자 데이터의 유형 및 형식을 정의할 수 있다.According to one embodiment of the present invention, the association rules may define the data analysis algorithms that can be performed with respect to predefined verification items for standard conformity verification and content-based verification, and the types and formats of the user data that can be processed with respect to the data analysis algorithms.

본원의 일 실시예에 따르면, 상기 데이터 분석 알고리즘은, 규격 적합성 검증 및 내용 기반 검증에 관하여 기 정의된 검증 항목 별로 상기 사용자 데이터와 상기 품질 기준을 입력으로 하여 상기 규격 적합성 검증 및 상기 내용 기반 검증 중 적어도 하나의 검증을 수행한 결과를 출력으로 제공할 수 있다.According to one embodiment of the present invention, the data analysis algorithm may perform at least one verification among the standard conformity verification and the content-based verification by inputting the user data and the quality criterion for each verification item defined in advance with respect to the standard conformity verification and the content-based verification, and provide the result as output.

본원의 일 실시예에 따르면, 상기 기 정의된 검증항목은, 상기 규격 적합성 검증 및 상기 내용 기반 검증에 관하여 상기 사용자 데이터로부터 측정 가능한 세부 검증항목 또는 품질지표를 정의한 목록이거나 각 검증을 수행하는 상기 데이터 분석 알고리즘의 기능명세로 정의될 수 있다.According to one embodiment of the present invention, the predefined verification items may be defined as a list of detailed verification items or quality indicators that can be measured from the user data with respect to the standard conformity verification and the content-based verification, or as a functional specification of the data analysis algorithm that performs each verification.

본원의 일 실시예에 따른 인공지능 훈련 데이터 선별 장치는, 사용자 데이터에 사전 분석을 수행하고, 기 정의된 연관 규칙을 이용하여 검증 대상과 품질 기준을 포함하는 품질검증조건을 설정하는 품질검증조건 설정부; 기 생성된 데이터 분석 알고리즘 및 상기 품질검증조건을 기초로 규격 특성 및 내용 기반 특성을 포함하는 상기 사용자 데이터의 데이터 특성을 검증하여 상기 사용자 데이터의 품질 정보를 측정하는 데이터 분석 및 품질측정부; 및 상기 데이터 특성 및 상기 품질 정보에 기초하여 인공지능 훈련에 유효한 학습 데이터를 선정하는 학습 데이터 선정부를 포함할 수 있다.An artificial intelligence training data selection device according to one embodiment of the present invention may include a quality verification condition setting unit that performs a preliminary analysis on user data and sets a quality verification condition including a verification target and a quality criterion using a predefined association rule; a data analysis and quality measurement unit that measures quality information of the user data by verifying data characteristics of the user data including standard characteristics and content-based characteristics based on a pre-generated data analysis algorithm and the quality verification conditions; and a learning data selection unit that selects learning data that is effective for artificial intelligence training based on the data characteristics and the quality information.

상술한 과제 해결 수단은 단지 예시적인 것으로서, 본원을 제한하려는 의도로 해석되지 않아야 한다. 상술한 예시적인 실시예 외에도, 도면 및 발명의 상세한 설명에 추가적인 실시예가 존재할 수 있다.The above-described problem solving means are merely exemplary and should not be construed as limiting the present invention. In addition to the above-described exemplary embodiments, additional embodiments may exist in the drawings and detailed description of the invention.

전술한 본원의 과제 해결 수단에 의하면, 입력된 사용자 데이터에 관하여 사전 분석에 의한 검증 대상과 품질 기준을 적응적으로 설정하고 기 정의된 데이터 분석 알고리즘에 기초하여 사용자 데이터의 규격 적합성 및 내용 기반 검증을 수행하는 인공지능 훈련 데이터 선별 장치 및 그의 제어 방법을 제공함으로써, 측정된 품질 정보를 이용하여 상기 입력된 사용자 데이터의 이용 목적에 따라 용이하게 조회 및 선별 가능하고 인공지능 훈련을 위한 유효 데이터셋을 용이하게 도출이 가능하도록 하는 인공지능 훈련 데이터 선별 장치 및 방법을 제공할 수 있는 효과가 있다.According to the above-described means for solving the problem of the present invention, an artificial intelligence training data selection device and a control method thereof are provided, which adaptively sets verification targets and quality criteria through prior analysis with respect to input user data and performs standard conformity and content-based verification of user data based on a predefined data analysis algorithm, thereby providing an artificial intelligence training data selection device and method that enable easy searching and selection according to the purpose of use of the input user data using measured quality information and easily derive a valid dataset for artificial intelligence training.

전술한 본원의 과제 해결 수단에 의하면, 종래의 인력에 크게 의존하였던 데이터의 품질 측정 업무를 완전 또는 부분 자동화하여 사용자의 개입을 최소화 하는 인공지능 훈련 데이터 선별 장치 및 그의 제어 방법을 제공함으로써, 시간과 비용을 절감하면서도 대량의 전수 검사가 가능하고 품질 측정의 방법과 기준에 관한 일관성을 유지하여 검증결과의 객관성을 보장할 수 있는 효과가 있다.According to the aforementioned means for solving the problem of this invention, an artificial intelligence training data selection device and its control method are provided that completely or partially automates the quality measurement work of data, which has been heavily dependent on manpower in the past, to minimize user intervention, thereby enabling mass comprehensive inspection while saving time and cost, and maintaining consistency in the method and criteria of quality measurement, thereby ensuring the objectivity of the verification result.

전술한 본원의 과제 해결 수단에 의하면, 데이터 생산 과정에서 품질 측정 결과를 바탕으로 부적합 데이터를 선별 하는 인공지능 훈련 데이터 선별 장치 및 그의 제어 방법을 제공함으로써, 재수집 또는 재가공 등 데이터의 품질 목표 달성을 위한 필요한 조치에 관하여 객관적이고 빠른 의사결정에 활용할 수 있는 효과가 있다.According to the above-described means for solving the problem of the present invention, by providing an artificial intelligence training data selection device and its control method for selecting unsuitable data based on quality measurement results in the data production process, there is an effect that can be utilized for objective and rapid decision-making regarding necessary measures for achieving data quality goals, such as re-collection or re-processing.

전술한 본원의 과제 해결 수단에 의하면, 품질 측정 결과에 기초하여 데이터의 이용 목적에 따라 유효 또는 무효 데이터를 선별한 결과로 데이터의 목록 또는 품질검증 보고서를 제공하여, 인공지능 알고리즘의 입력을 위한 데이터 형식의 변환, 인공지능의 임무에 따른 조건부 학습 데이터셋의 구성 등을 용이하게 하는 인공지능 훈련 데이터 선별 장치 및 그의 제어 방법을 제공함으로써, 인공지능 알고리즘 훈련 및 성능 테스트 등 응용시스템의 구현 업무에 시간과 노력을 집중할 수 있도록 하는 효과가 있다.According to the above-described means for solving the problem of this invention, based on the results of quality measurement, a list of data or a quality verification report is provided as a result of selecting valid or invalid data according to the purpose of data use, thereby facilitating conversion of data formats for input of artificial intelligence algorithms, composition of conditional learning datasets according to the tasks of artificial intelligence, etc., thereby providing an artificial intelligence training data selection device and a control method thereof, thereby enabling time and effort to be concentrated on tasks of implementing application systems such as artificial intelligence algorithm training and performance testing.

전술한 본원의 과제 해결 수단에 의하면, 종래의 인공지능 알고리즘의 성능 개선 방법으로 주로 활용되는 모델 최적화 방식(model-centric)뿐만 아니라 데이터 중심의 최적화 방식(data-centric)의 도입과 활용을 가능하도록 하여 보다 다양한 관점에서 사용자가 획득하고자 하는 인공지능 기술의 고도화를 지원할 수 있는 효과가 있다.According to the solution to the aforementioned problem of this invention, it is possible to introduce and utilize not only the model optimization method (model-centric) that is mainly used as a method for improving the performance of conventional artificial intelligence algorithms, but also the data-centric optimization method (data-centric), thereby supporting the advancement of artificial intelligence technology that users want to acquire from a wider range of perspectives.

전술한 본원의 과제 해결 수단에 의하면, 새로운 품질지표와 그 측정 방식을 구현하는 데이터 분석 알고리즘의 추가 또는 변경이 용이하게 하는 인공지능 훈련 데이터 선별 장치 및 그의 제어 방법을 제공함으로써, 데이터의 생산과 이용 과정에서 인공지능에 부여하는 임무에 따라 상이한 데이터의 형식, 내용, 구성, 이용 환경 등의 다양한 조건을 갖는 데이터 분석 및 품질 검증에 활용할 수 있는 효과가 있다.According to the above-mentioned means for solving the problem of the present invention, by providing an artificial intelligence training data selection device and a control method thereof that facilitate the addition or change of a data analysis algorithm that implements a new quality indicator and its measurement method, there is an effect that it can be utilized for data analysis and quality verification having various conditions such as different data formats, contents, structures, and usage environments depending on the tasks assigned to artificial intelligence in the process of producing and using data.

다만, 본원에서 얻을 수 있는 효과는 상기된 바와 같은 효과들로 한정되지 않으며, 또 다른 효과들이 존재할 수 있다.However, the effects that can be obtained from this invention are not limited to the effects described above, and other effects may exist.

도 1은 본원의 일 실시예에 따른 인공지능 훈련 데이터 선별 장치를 포함하는 인공지능 훈련 데이터 선별 시스템의 개략적인 구성도이다.
도 2는 본원의 일 실시예에 따른 품질검증조건에 관한 검증 대상과 품질 기준을 적응적으로 설정하는 것을 설명하기 위한 도면이다.
도 3은 본원의 일 실시예에 따른 인공지능 훈련 데이터 선별 장치의 개략적인 블록도이다.
도 4는 본원의 일 실시예에 따른 인공지능 훈련 데이터 선별 장치의 개략적인 구성도이다.
도 5는 본원의 일 실시예에 따른 품질검증조건 설정부의 세부 구성도이다.
도 6은 본원의 일 실시예에 따른 데이터 분석 및 품질측정부의 세부 구성도이다.
도 7은 본원의 일 실시예에 따른 학습 데이터 선정부의 세부 구성도이다.
도 8은 본원의 일 실시예에 따른 데이터 유형 및 형식의 의미론적 범주화를 개략적으로 도시한 도면이다.
도 9는 본원의 일 실시예에 따른 사전 분석 과정에서 사전조건을 질의응답하기 위한 사용자 인터페이스를 나타낸 도면이다.
도 10은 본원의 일 실시예에 따른 기 생성된 데이터 분석 알고리즘을 이용한 규격 검증 및 내용 기반 검증 작업의 상태와 이력 정보를 제공하는 작업관리 화면을 나타낸 도면이다.
도 11은 본원의 일 실시예에 따른 규격 적합성 및 내용 기반 검증으로 도출된 정량적 품질정보와 기준 적합성 정보를 요약하여 제공하는 검증결과 요약정보 제공 화면을 나타낸 도면이다.
도 12는 본원의 일 실시예에 따른 규격 적합성 검증에 관한 상세 결과를 조회하는 검증결과 상세정보 제공 화면을 나타낸 도면이다.
도 13은 본원의 일 실시예에 따른 내용 기반 검증에 관한 상세 결과의 조회와 인공지능 학습용 데이터셋을 선별하는 것을 설명하기 위한 도면이다.
도 14는 본원의 일 실시예에 따른 인공지능 훈련 데이터 선별 장치의 제어 방법에 대한 동작 흐름도이다.
도 15는 본원의 일 실시예에 따른 다른 단계적 구성을 포함하는 인공지능 훈련 데이터 선별 장치의 제어 방법의 동작 흐름도이다.
도 16은 본원의 일 실시예에 따른 또 다른 단계적 구성의 인공지능 훈련 데이터 선별 장치의 제어 방법의 동작 흐름도이다.
FIG. 1 is a schematic diagram of an artificial intelligence training data selection system including an artificial intelligence training data selection device according to one embodiment of the present invention.
Figure 2 is a drawing for explaining adaptively setting verification targets and quality criteria for quality verification conditions according to one embodiment of the present invention.
FIG. 3 is a schematic block diagram of an artificial intelligence training data selection device according to one embodiment of the present invention.
Figure 4 is a schematic diagram of an artificial intelligence training data selection device according to one embodiment of the present invention.
Figure 5 is a detailed configuration diagram of a quality verification condition setting unit according to one embodiment of the present invention.
Figure 6 is a detailed configuration diagram of a data analysis and quality measurement unit according to one embodiment of the present invention.
Figure 7 is a detailed configuration diagram of a learning data selection unit according to one embodiment of the present invention.
FIG. 8 is a diagram schematically illustrating semantic categorization of data types and formats according to one embodiment of the present invention.
FIG. 9 is a diagram showing a user interface for asking and answering preconditions in a pre-analysis process according to one embodiment of the present invention.
FIG. 10 is a drawing showing a work management screen that provides status and history information of standard verification and content-based verification tasks using a pre-generated data analysis algorithm according to one embodiment of the present invention.
Figure 11 is a drawing showing a verification result summary information provision screen that summarizes and provides quantitative quality information and standard conformity information derived from standard conformity and content-based verification according to one embodiment of the present invention.
Figure 12 is a drawing showing a verification result detailed information provision screen for viewing detailed results regarding standard conformity verification according to one embodiment of the present invention.
Figure 13 is a diagram for explaining the detailed results of content-based verification according to one embodiment of the present invention and the selection of a data set for artificial intelligence learning.
Figure 14 is an operational flow diagram of a control method of an artificial intelligence training data selection device according to one embodiment of the present invention.
FIG. 15 is a flowchart of an operation of a control method of an artificial intelligence training data selection device including another stepwise configuration according to one embodiment of the present invention.
FIG. 16 is a flowchart of an operation of a control method of an artificial intelligence training data selection device of another stepwise configuration according to one embodiment of the present invention.

아래에서는 첨부한 도면을 참조하여 본원이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본원의 실시예를 상세히 설명한다. 그러나 본원은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본원을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.Below, with reference to the attached drawings, embodiments of the present invention are described in detail so that those with ordinary skill in the art can easily practice the present invention. However, the present invention may be implemented in various different forms and is not limited to the embodiments described herein. In addition, in order to clearly describe the present invention in the drawings, parts that are not related to the description are omitted, and similar parts are assigned similar drawing reference numerals throughout the specification.

본원 명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결" 또는 "간접적으로 연결"되어 있는 경우도 포함한다. Throughout this specification, when a part is said to be "connected" to another part, this includes not only the case where it is "directly connected," but also the case where it is "electrically connected" or "indirectly connected" with another element in between.

본원 명세서 전체에서, 어떤 부재가 다른 부재 "상에", "상부에", "상단에", "하에", "하부에", "하단에" 위치하고 있다고 할 때, 이는 어떤 부재가 다른 부재에 접해 있는 경우뿐 아니라 두 부재 사이에 또 다른 부재가 존재하는 경우도 포함한다.Throughout this specification, when it is said that an element is located “on,” “above,” “below,” “under,” or “below” another element, this includes not only cases where an element is in contact with another element, but also cases where another element exists between the two elements.

본원 명세서 전체에서, 어떤 부분이 어떤 구성 요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다.Throughout this specification, whenever a part is said to "include" a component, this does not mean that it excludes other components, but rather that it may include other components, unless otherwise specifically stated.

도 1은 본원의 일 실시예에 따른 인공지능 훈련 데이터 선별 장치를 포함하는 인공지능 훈련 데이터 선별 시스템의 개략적인 구성도이다.FIG. 1 is a schematic diagram of an artificial intelligence training data selection system including an artificial intelligence training data selection device according to one embodiment of the present invention.

도 1을 참조하면, 본원의 인공지능 훈련 데이터 선별 시스템(10)은 본원의 일 실시예에 따른 인공지능 훈련 데이터 선별 장치(100)(이하, '본 장치'라고도 지칭함.), 외부 서버(200) 및 사용자 단말(300)을 포함할 수 있다. 또한, 도 1을 참조하면, 본원의 일 실시예에 따른 인공지능 훈련 데이터 선별 장치(100)(이하, '본 장치(100)'라 한다.)는, 클라우드 스토리지, 네트워크 연결 스토리지(NAS, Network Attached Storage) 등의 데이터 저장 장치로부터 인공지능 알고리즘의 훈련을 목적으로 수집 또는 가공된 사용자 데이터(A)를 입력으로 수신하고, 입력된 사용자 데이터(A)에 관한 사전 분석 및 기 정의된 연관 규칙에 따라 검증 대상과 품질 기준에 관한 품질검증조건(B)을 적응적으로 설정하고, 상기 품질검증조건(B)에 기초하여 상기 입력된 사용자 데이터(A)의 규격 적합성 및 내용 기반 검증에 따른 데이터 분석 및 검증을 수행하고, 품질문제의 유형 또는 데이터 특성의 분포에 관한 데이터 검증결과 및 통계정보(C)에 기초하여, 사용자 데이터(A)에 관한 시각적으로 표현된 데이터의 품질과 특성을 검색조건으로 활용하는 내용 기반 데이터 시각화 검색(D)을 가능하도록 하여, 데이터 이용 목적에 따라 조회 및 선별하여 인공지능 훈련에 적합하거나 유효한 학습 데이터(E)를 선정하고 사용자 단말(300)로 제공하도록 동작할 수 있다. 외부 서버(200)는 클라우드 스토리지, 네트워크 연결 스토리지(NAS, Network Attached Storage) 등의 데이터 저장 장치를 포함할 수 있다.Referring to FIG. 1, the artificial intelligence training data selection system (10) of the present invention may include an artificial intelligence training data selection device (100) (hereinafter, also referred to as 'the present device') according to one embodiment of the present invention, an external server (200), and a user terminal (300). In addition, referring to FIG. 1, the artificial intelligence training data selection device (100) (hereinafter referred to as 'the device (100)') according to one embodiment of the present invention receives user data (A) collected or processed for the purpose of training an artificial intelligence algorithm from a data storage device such as a cloud storage or a network attached storage (NAS), as input, adaptively sets quality verification conditions (B) regarding verification targets and quality criteria based on a pre-analysis and pre-defined association rules regarding the input user data (A), performs data analysis and verification according to the standard conformity and content-based verification of the input user data (A) based on the quality verification conditions (B), and enables content-based data visualization search (D) that utilizes the quality and characteristics of visually expressed data regarding the user data (A) as search conditions based on the data verification results and statistical information (C) regarding the type of quality issue or distribution of data characteristics, thereby selecting and selecting learning data (E) suitable or valid for artificial intelligence training according to the purpose of data use and providing it to the user terminal (300). can operate. The external server (200) may include a data storage device such as cloud storage, network attached storage (NAS, Network Attached Storage), etc.

여기서, 상기 입력된 사용자 데이터(A)는, 데이터베이스 등과 같은 외부 서버에 저장되는 정형데이터(structured data)이거나 이미지, 비디오, 오디오, 텍스트 등을 포함하는 비정형데이터(unstructured data)일 수 있고, 이러한 원시데이터(raw data) 또는 원천데이터(source data)에 관하여 인공지능이 수행해야 하는 임무에 따라 부여된 참값(ground truth) 등 어노테이션(annotation)으로 구성된 라벨링데이터(label data)를 포함하는 것일 수 있으면서, 이러한 데이터 유형 및 형식에 관하여 하나 또는 그 이상의 혼합된 형태를 갖는 동시에 컴퓨터 또는 저장장치에서 이용 가능한 하나 이상의 파일로 구성되는 것일 수 있다.Here, the input user data (A) may be structured data stored in an external server such as a database, or unstructured data including images, videos, audio, text, etc., and may include label data composed of annotations such as ground truth assigned according to tasks that artificial intelligence must perform with respect to such raw data or source data, and may have one or more mixed forms with respect to such data types and formats, and may be composed of one or more files usable on a computer or storage device.

본원은 인공지능 훈련 데이터 선별 장치 및 방법에 관한 것이다.The present invention relates to a device and method for selecting artificial intelligence training data.

본원의 일 실시예에 따르면, 인공지능 훈련 데이터 선별 장치 및 방법을 제공함으로써, 기존 인력 기반 데이터 품질 검증 방식을 자동화할 수 있다.According to one embodiment of the present invention, by providing an artificial intelligence training data selection device and method, an existing human-based data quality verification method can be automated.

일 예로, 인공지능 훈련 데이터 선별 장치 및 방법에 의해 기존 인력 기반 데이터 품질 검증 방식을 자동화하는 경우, 품질 검증 대상이 되는 데이터는 기술적으로 검증 가능한 검사 항목들이 대상이 될 수 있다.For example, when automating the existing human-based data quality verification method by an artificial intelligence training data selection device and method, the data subject to quality verification may be technically verifiable inspection items.

예를 들어, 영상 데이터의 초점 흐림의 문제, 잘못된 비식별화 처리의 문제 및 단일폐곡선을 이루지 못한 라벨링 영역 설정 문제 등에 있어서, 종래에는 사람의 눈으로 직접 확인해야 했으나, 인공지능 훈련 데이터 선별 장치 및 방법에 의하면 해당 문제들에 대한 품질 검증 방식을 자동화할 수 있다.For example, in the past, problems such as blurring of image data, incorrect de-identification processing, and labeling area setting that does not form a single closed curve had to be directly checked by human eyes, but with the artificial intelligence training data selection device and method, the quality verification method for such problems can be automated.

기존 데이터 품질 검증은 규격 검증에 치우쳐, 내용 기반 품질 문제는 인공지능 개발 단계로 전가되어 인공지능 훈련에 유효한 데이터 선별을 위해 시간과 비용을 재투자해야 하고, 대량으로 구축되는 인공지능 학습용 데이터는 사람의 눈과 귀에 의존해서는 전수 검사가 불가능하고, 사람의 경험과 주관에 좌우된 검증 기준과 결과로 인해 객관성이 저하되는 문제가 발생할 수 있다.Existing data quality verification is biased toward standard verification, so content-based quality issues are transferred to the AI development stage, requiring reinvestment of time and money to select valid data for AI training. In addition, it is impossible to inspect all data for AI training using human eyes and ears when a large amount of data is built, and verification criteria and results that depend on human experience and subjectivity may result in problems such as reduced objectivity.

그러나, 인공지능 훈련 데이터 선별 장치 및 방법에 의하면, 인공지능 학습용 데이터에 대한 전수 검사 수행이 가능하면서도 객관성을 유지할 수 있다.However, according to the artificial intelligence training data selection device and method, it is possible to perform a comprehensive inspection on artificial intelligence learning data while maintaining objectivity.

본원의 일 실시예에 따르면, 인공지능 훈련 데이터 선별 장치 및 방법이 제공하는 객관적인 검증 지표는 단순히 데이터 규격에 관한 것만이 아니라 기존에 사람의 눈과 귀에 의존해야 했던 항목들에 관한 검증인 내용 기반 검증을 포함할 수 있다.According to one embodiment of the present invention, the objective verification indicators provided by the artificial intelligence training data selection device and method may include not only data specifications but also content-based verification, which is verification of items that previously had to be dependent on human eyes and ears.

본원의 일 실시예에 따르면, 인공지능 훈련 데이터 선별 장치 및 방법은, 품질검사 옵션을 설정하는 것을 전적으로 사용자에게 맡기지 않고, 사전 분석을 통해 설정 가능한 옵션값 후보를 제시하여 사용자에게 편의성을 도모할 수 있다. 예를 들어, 데이터 규격 및 클래스 분포 검사를 위한 라벨링데이터의 검사 대상 항목 지정 등이 이에 해당될 수 있다.According to one embodiment of the present invention, the artificial intelligence training data selection device and method can provide convenience to the user by presenting candidate option values that can be set through prior analysis, rather than leaving the setting of quality inspection options entirely to the user. For example, this can include designating inspection target items of labeling data for data standard and class distribution inspection.

본원의 일 실시예에 따르면, 인공지능 훈련 데이터 선별 장치 및 방법은, 품질검증 결과를 바탕으로 시각화된 내용 기반 검색 방식을 이용하여 데이터를 조회하거나 원하는 특성에 관한 데이터를 선별할 수 있다. 예를 들어, 인공지능 훈련 데이터 선별 장치 및 방법에 의하면, 통계 그래프 또는 데이터 특성에 관한 히트맵 등의 특정 영역을 선택하면 연관된 데이터 목록을 확인할 수 있다.According to one embodiment of the present invention, the AI training data selection device and method can search for data or select data related to desired characteristics using a visualized content-based search method based on the quality verification results. For example, according to the AI training data selection device and method, if a specific area such as a statistical graph or a heat map related to data characteristics is selected, a list of related data can be checked.

기존의 검증 방식은 단순히 기준 규격에 대한 부합 여부 정도만 판정한 품질 검사 결과지를 제공하기 때문에, 결국 데이터의 내용에 관한 확인 및 선별은 수작업에 의존하는 실정이다. 그러나, 인공지능 훈련 데이터 선별 장치 및 방법은, 검증 결과를 바탕으로 데이터에 대해 재수집 및 재가공 중 적어도 하나를 수행하거나, 또는 이용 가능한 유효 데이터의 선별에 관한 신속한 의사결정을 지원할 수 있다.Since the existing verification method simply provides a quality inspection result sheet that only determines whether it conforms to the standard specification, the verification and selection of the data content ultimately depends on manual work. However, the artificial intelligence training data selection device and method can perform at least one of re-collection and re-processing of the data based on the verification result, or support rapid decision-making regarding the selection of available valid data.

결과적으로, 인공지능 훈련 데이터 선별 장치 및 방법에 의하면, 데이터 구축 목적인 인공지능의 개발 업무에 시간과 역량을 집중할 수 있다.As a result, the artificial intelligence training data selection device and method can focus time and capabilities on the artificial intelligence development work, which is the purpose of data construction.

본원의 일 실시예에 따르면, 본 장치(100)가 이용하는 상기 기 정의된 연관 규칙은 규격 적합성 검증 및 내용 기반 검증에 관한 기 정의된 검증항목에 관하여 수행 가능한 상기 기 생성된 데이터 분석 알고리즘 및 상기 알고리즘에 관하여 처리 가능한 상기 데이터의 유형 및 형식을 정의하는 것일 수 있고, 또한 본원의 일 실시예에 따라 상기 연관 규칙은 본 장치(100)의 기능적 확장을 지원하기 위하여 기 정의된 규칙만 아니라 기존 규칙의 변경 또는 새로운 규칙의 추가가 가능하도록 동작할 수 있다.According to one embodiment of the present invention, the above-described association rule used by the present device (100) may define the above-described generated data analysis algorithm that can be performed with respect to the above-described verification items for standard conformity verification and content-based verification, and the type and format of the above-described data that can be processed with respect to the above-described algorithm. In addition, according to one embodiment of the present invention, the above-described association rule may operate to enable not only the above-described rules but also the modification of existing rules or the addition of new rules in order to support the functional expansion of the present device (100).

또한, 본원의 일 실시예에 따른 본 장치(100)에 입력되는 상기 사용자 데이터(A)의 유형 및 형식은 원시데이터, 원천데이터, 라벨링데이터로 분류할 때 실제 데이터를 파일로 저장하는 규격에 관하여 JPG, MP4, WAV, DCM, TXT, CSV, JSON 등의 파일 포맷으로 구분하는 것일 수 있고, 상기 파일 포맷으로 저장되는 정보의 분류로서 이미지, 비디오, 오디오, 텍스트, 또는 그 외의 형식으로 구분하는 것일 수 있다. 다만, 이에 한정되지는 않고 상기 연관 규칙으로 정의되는 것일 수 있다.In addition, the type and format of the user data (A) input to the device (100) according to one embodiment of the present invention may be classified into raw data, source data, and labeling data, and may be classified into file formats such as JPG, MP4, WAV, DCM, TXT, CSV, and JSON with respect to the standard for saving actual data as a file, and may be classified into image, video, audio, text, or other formats as the classification of information stored in the file format. However, the present invention is not limited thereto and may be defined by the association rules.

또한, 본원의 일 실시예에 따른 본 장치(100)의 상기 기 생성된 데이터 분석 알고리즘은, 상기 규격 적합성 및 내용 기반 검증에 관하여 기 정의된 검증항목별로 상기 사용자 데이터(A)와 상기 품질검증조건(B)을 입력으로 하여 데이터의 규격 또는 내용 기반 특성을 분석 및 평가한 결과를 출력으로 제공하는 것일 수 있다. 예를 들어, 상기 기 생성된 데이터 분석 알고리즘은 정규표현식(Regular expression) 및 형식언어, 패턴인식(Pattern recognition), 음성 및 영상신호처리, 컴퓨터 비젼(Computer vision), 규칙기반(Rule-based), 휴리스틱 알고리즘(Heuristic Algorithm), 의사결정 나무(Decision tree), 수학적 모델 및 통계학적 방법, SVM(Support Vector Machine), 인공신경망(Artificial Neural Network), 강화학습(Reinforcement learning), 자연어 처리(Natural Language Processing, NLP) 등 딥러닝(Deep Learning)을 포함한 머신러닝(Machine Learning) 방식 등으로 종래에 공지되었거나 향후 개발되는 모든 종류의 데이터 분석 및 처리 방식을 통해 구현된 것일 수 있다.In addition, the above-mentioned pre-generated data analysis algorithm of the present device (100) according to one embodiment of the present invention may analyze and evaluate the standard or content-based characteristics of data by inputting the user data (A) and the quality verification condition (B) for each pre-defined verification item with respect to the standard conformity and content-based verification, and provide the results as output. For example, the above-mentioned pre-generated data analysis algorithm may be implemented through all types of data analysis and processing methods known in the past or to be developed in the future, such as regular expressions and formal languages, pattern recognition, audio and image signal processing, computer vision, rule-based, heuristic algorithms, decision trees, mathematical models and statistical methods, SVM (Support Vector Machine), artificial neural networks, reinforcement learning, natural language processing (NLP), and machine learning methods including deep learning.

또한, 본원의 일 실시예에 따른 본 장치(100)의 상기 기 정의된 검증항목은, 상기 규격 적합성 검증 및 내용 기반 검증에 관하여 데이터로부터 측정 가능한 세부 검증항목 또는 품질지표를 정의한 목록이거나 각 검증을 수행하는 기 생성된 데이터 분석 알고리즘의 기능명세로 정의되는 것일 수 있다. 또한, 본원의 일 실시예에 따르면, 본 장치(100)는 상기 데이터 유형 및 형식에 따라 파일 포맷, 이미지 해상도, 인코딩 형식 등 데이터의 규격에 관한 속성을 검사하여 주어진 품질 기준의 규격조건에 관한 적합 여부를 판정할 수 있다.In addition, the pre-defined verification items of the device (100) according to one embodiment of the present invention may be a list defining detailed verification items or quality indicators that can be measured from data with respect to the standard conformity verification and content-based verification, or may be defined as a functional specification of a pre-generated data analysis algorithm that performs each verification. In addition, according to one embodiment of the present invention, the device (100) may examine attributes related to data standards, such as file format, image resolution, and encoding format, according to the data type and format, to determine whether or not the data meets the standard conditions of a given quality criterion.

또한, 본원의 일 실시예에 따르면, 본 장치(100)의 내용 기반 검증 방식은 종래의 사람의 눈과 귀에 의존하고 필요한 경우 도메인 지식에 기초하여 정성적으로 평가하였던 품질문제 중 정량화 가능한 품질유형에 관하여 상기 기 생성된 데이터 분석 알고리즘에 기초하여 분석된 결과를 제공함으로써 사용자의 의사결정을 용이하게 판단하도록 보조할 수 있다. 예를 들어, 본 장치(100)는 정량화 가능한 품질유형에 관하여 시각 지능을 위한 학습 데이터로서 이미지 데이터에 포함된 도메인 특징은 원천적으로 인접한 화소값으로 표현됨을 가정할 때, 촬영 장비의 조작 또는 환경의 문제로 인하여 초점의 흐림이 발생하여 해당 특징이 구분되지 않는 경우가 발생하거나, 객체 분류 문제를 위한 참값을 나타내는 어노테이션으로서 영상에 포함된 임의의 화소 영역에 대한 바운딩박스(bounding box)가 지나치게 과소 또는 과대하거나 특정 위치에 치우쳐 설정될 수 있고, 이미지의 중복 또는 같은 영역에 서로 다른 라벨이 설정되었거나, 객체의 경계를 따라 설정하는 다각형(polygon) 영역이 단일 폐곡선을 이루지 못하거나 인체 스켈레톤을 구성하는 키포인트(key points)가 인체영역을 벗어나 배경에 설정된 경우를 비롯하여, 라벨링 영역이 이미지 영역을 벗어났거나 이미지 방향 불일치한 문제 및 불완전한 비식별화 처리 등의 품질문제 유형 등을 포함할 수 있으나, 이에만 한정되는 것은 아니다.In addition, according to one embodiment of the present invention, the content-based verification method of the present device (100) can assist in making decisions easily by providing results analyzed based on the previously generated data analysis algorithm regarding quantifiable quality types among quality issues that were qualitatively evaluated based on the eyes and ears of humans in the past and, if necessary, domain knowledge. For example, when assuming that domain features included in image data as learning data for visual intelligence in terms of quantifiable quality types are originally expressed as adjacent pixel values, the present device (100) may include, but is not limited to, quality problem types such as, but not limited to, cases where focus blurs due to problems in the operation of photographing equipment or the environment, causing the corresponding features to be indistinguishable, or where a bounding box for an arbitrary pixel area included in an image as an annotation indicating a true value for an object classification problem may be set to be excessively small or large or biased toward a specific location, or where different labels are set in duplicate or the same area of an image, or where a polygon area set along the boundary of an object does not form a single closed curve, or where key points constituting a human skeleton are set outside the human body area and on the background, or where a labeling area is outside the image area, or where the image direction does not match, or where incomplete de-identification processing is set outside the human body area.

본 장치(100)는, 입력된 사용자 데이터(A)에 관한 사전 분석 및 기 정의된 연관 규칙에 따라 검증 대상과 품질 기준에 관한 품질검증조건(B)을 적응적으로 설정할 수 있다.This device (100) can adaptively set quality verification conditions (B) regarding verification targets and quality criteria based on pre-analysis of input user data (A) and pre-defined association rules.

구체적으로, 본 장치(100)는, 사용자 데이터(A)를 사전 분석하여 데이터 유형 및 형식에 관한 규격 정보를 생성하고, 상기 규격 정보와 기 정의된 연관 규칙을 이용하여 적용 가능한 검증항목을 선정하고, 품질 기준에 관한 상기 사용자 데이터(A)로부터 유효한 기준값의 후보를 적응적으로 결정하여 검증조건을 예비적으로 설정하는 사전품질정보를 출력으로 제공할 수 있다.Specifically, the present device (100) can generate standard information on data types and formats by pre-analyzing user data (A), select applicable verification items using the standard information and pre-defined association rules, and provide preliminary quality information as output to preliminarily set verification conditions by adaptively determining candidates for valid reference values from the user data (A) regarding quality criteria.

달리 말하면, 사용자의 데이터(A)에 관하여 사용자가 검증 목적에 따라 필요한 검증항목에 관한 검증조건을 입력하기에 앞서, 본 장치(100)는 사용자 데이터(A)로부터 유효한 설정값의 후보 목록을 지능적으로 생성하여 사전에 제공하고, 상세한 데이터 구성 정보를 알지 못하더라도 검증조건의 설정을 용이하게 수행할 수 있도록 한다.In other words, before the user inputs verification conditions for verification items required for verification purposes with respect to the user's data (A), the device (100) intelligently generates a candidate list of valid setting values from the user data (A) and provides it in advance, thereby facilitating the setting of verification conditions even without knowing detailed data configuration information.

또한, 본 장치(100)는 상기 규격 정보를 생성하기 위하여 사용자 데이터(A)를 사전 분석하여 구성 정보와 규격 속성 정보를 생성할 수 있다.In addition, the present device (100) can pre-analyze user data (A) to generate the above-mentioned standard information and generate configuration information and standard attribute information.

본원의 일 실시예에 따르면, 본 장치(100)가 생성하는 사용자 데이터(A)의 구성 정보는 상기 입력된 사용자 데이터(A)를 구성하는 각 파일의 규격(File format)을 식별하여 각 파일 규격에 관한 상기 데이터의 유형 및 형식에 따라 범주화된 분류정보와 데이터의 수량정보로 결정될 수 있다. 또한, 본원의 일 실시예에 따르면, 본 장치(100)는 상기 규격 속성 정보는 상기 파일 규격에 관한 종래의 기술표준 또는 규격명세로 정의되는 고유한 규격속성에 기초하여 사용자 데이터로부터 각 규격별 속성에 관한 유효값의 목록 또는 데이터 스키마(Data schema)를 이용하여 결정될 수 있다.According to one embodiment of the present invention, the configuration information of the user data (A) generated by the present device (100) may be determined by identifying the file format of each file constituting the input user data (A) and categorizing the classification information and the quantity information of the data according to the type and format of the data for each file format. In addition, according to one embodiment of the present invention, the present device (100) may determine the specification attribute information by using a list of valid values for each specification attribute or a data schema from the user data based on a unique specification attribute defined by a conventional technical standard or specification specification for the file format.

본원의 일 실시예에 따르면, 데이터의 상기 고유한 규격속성은 사용자 데이터(A)의 상기 구성 정보를 이용하여, 각각의 데이터 유형 및 형식에 관하여 종래의 고유하게 정의되는 기술적 속성을 추출하여 결정되는 것일 수 있다. 예를 들어, 이미지에 관한 해상도, 컬러 포맷, 압축형식 등일 수 있고, 비디오에 관하여 이미지의 속성 중 일부 또는 전부를 포함하면서 비트레이트(Bit rate), 프레임레이트(Frame rate, Frames per Second, FPS) 등의 고유한 속성일 수 있고, 오디오에 관하여 채널 레이아웃(Channel layout), 샘플링레이트(Sampling rate) 등의 고유한 속성일 수 있고, 텍스트에 관하여 문자 인코딩(Character encoding) 형식 등을 폭넓게 포함할 수 있다. 다만, 이에만 한정되는 것은 아니다. 또한, 본원의 일 실시예에 따르면, 본 장치(100)는 상기 규격속성 관하여 해당 파일의 저장 구조에 따라 정의된 헤더(File header) 정보 또는 부가된 메타데이터 등을 추출하여 결정되는 것이거나 데이터를 해석하여 확인된 값으로 결정하는 것일 수 있다.According to one embodiment of the present invention, the unique standard attribute of data may be determined by extracting a technical attribute that is uniquely defined in the related art for each data type and format using the configuration information of the user data (A). For example, it may be resolution, color format, compression format, etc. for images, and may be unique attributes such as bit rate, frame rate (Frames per Second, FPS) including some or all of the attributes of the image for videos, and may be unique attributes such as channel layout, sampling rate, etc. for audio, and may broadly include character encoding format, etc. for text. However, it is not limited thereto. In addition, according to one embodiment of the present invention, the device (100) may be determined by extracting header information or added metadata defined according to the storage structure of the corresponding file for the standard attribute, or may be determined as a confirmed value by interpreting the data.

또한, 본원의 일 실시예에 따르면, 본 장치(100)가 식별하는 상기 데이터 스키마는 데이터를 구성하는 정보단위를 일정한 규칙에 따라 배열하는 데이터 저장구조 및 상기 정보단위에 관하여 저장되는 값의 형식과 입력범위를 정의하는 자료구조(Data structure)로서, 상기 입력된 사용자 데이터와 함께 제공되는 것이거나, 실제 데이터를 해석함으로써 결정되는 것일 수 있다. 예를 들어, 본 장치(100)는 상기 입력된 사용자 데이터(A)와 함께 제공된 부가 데이터를 확인하는 것이거나, 사용자 데이터(A)에 관하여 패턴인식, 정규표현식, 오토마타, 유한 상태 기계 등 구문분석 방식과 통계적 방식 등 다양한 방식으로 해석함으로써 구문구조를 추출하고 데이터에서 발견되는 유효한 입력값의 형식과 목록 및 최대값과 최소값으로 표현할 수 있는 값의 입력범위 또는 형식화된 문자열(formatted string) 등을 포함하는 입력 가능한 값의 범위 정보로 결정되는 것일 수 있다.In addition, according to one embodiment of the present invention, the data schema identified by the present device (100) is a data storage structure that arranges information units constituting data according to a certain rule, and a data structure that defines the format and input range of values stored with respect to the information units, and may be provided together with the input user data, or determined by interpreting actual data. For example, the present device (100) may check additional data provided together with the input user data (A), or may extract a syntactic structure by interpreting the user data (A) in various ways, such as a syntactic analysis method such as pattern recognition, regular expression, automata, and finite state machine, and a statistical method, and may be determined as information on the range of inputtable values, including the format and list of valid input values found in the data, and the input range of values that can be expressed as maximum and minimum values, or a formatted string.

또한, 본 장치(100)는 사용자 데이터(A)에 대한 상기 검증조건의 예비적 설정을 위하여, 기 정의된 연관 규칙에 따라 상기 규격 정보에 기초하여 규격 적합성 검증 또는 내용 기반 검증 방식 중 상기 사용자 데이터에 관하여 적용이 가능한 검증항목과 검증 대상 데이터 목록을 생성하고, 상기 검증항목이 포함하는 세부품질지표 중 사용자 데이터에 적합한 지표 후보목록을 선정하고 상기 사전 분석 결과의 규격 속성 정보로부터 각 지표의 검증에 필요한 상기 규격속성과 유효값의 목록 또는 데이터 스키마를 이용하는 적응적 방식으로 사전품질 기준을 적응적으로 설정할 수 있다.In addition, the device (100) may, for preliminary setting of the verification conditions for the user data (A), generate a list of verification items and verification target data applicable to the user data among the standard conformity verification or content-based verification methods based on the standard information according to the predefined association rules, select a list of indicator candidates suitable for the user data among the detailed quality indicators included in the verification items, and adaptively set the pre-quality criteria in an adaptive manner using the list of standard attributes and valid values or data schema required for verification of each indicator from the standard attribute information of the pre-analysis results.

예를 들어, 본 장치(100)가 생성하는 사전품질 기준은 사용자의 최종 결정에 따른 의사결정과 검증조건의 편집을 용이하도록, 상기 데이터의 유형 및 형식 각각에 대하여 상기 규격 적합성 검증 또는 내용 기반 검증 가능 여부에 관한 미리 정의된 연관 규칙을 이용하여 사용자 데이터(A)의 규격 속성 정보를 이용하여 데이터베이스 또는 파일 단위의 각 데이터에 대하여 기 정의된 검증항목 목록으로부터 적용 가능한 항목을 지정하거나, 상기 기 정의된 검증항목의 각각에 해당하는 데이터 목록을 생성하는 것으로 결정되는 것일 수 있고, 데이터의 구성 정보 및 사용자 데이터(A)로부터 추출된 구조적 특성을 나타내는 규격 특성과 자료구조의 내재된 속성을 결합하여 검증 대상에 적합할 것으로 예상되는 품질 기준 정보를 제시하여 사용자 인터페이스를 통해 표출하는데 활용되는 것일 수 있다.For example, the pre-quality criteria generated by the present device (100) may be determined by using the standard attribute information of the user data (A) to designate applicable items from a pre-defined verification item list for each data in a database or file unit, or by generating a data list corresponding to each of the pre-defined verification items, by using pre-defined association rules regarding the possibility of standard conformity verification or content-based verification for each type and format of the data, so as to facilitate decision-making and editing of verification conditions according to the user's final decision, and may be utilized to present quality criteria information expected to be suitable for the verification target by combining the standard characteristics representing the composition information of the data and the structural characteristics extracted from the user data (A) and the inherent characteristics of the data structure, and to display them through a user interface.

도 2는 본원의 일 실시예에 따른 품질검증조건에 관한 검증 대상과 품질 기준을 적응적으로 설정하는 것을 설명하기 위한 도면이다.Figure 2 is a drawing for explaining adaptively setting verification targets and quality criteria for quality verification conditions according to one embodiment of the present invention.

도 2를 참조하면, 본원의 일 실시예에 따른 본 장치(100)는 규격 적합성 및 내용 기반 검증을 위해 사용자 데이터(A)를 사전 분석하여, 데이터 유형과 형식에 따라 추출 가능한 데이터 특성과 검증가능한 항목별 지표를 정의한 상기 연관 규칙(F)에 기초하여 규격 적합성 및 내용 기반 검증에 관한 세부품질지표 및 유효값 목록 등을 예비적으로 설정하는 사전품질정보(G)을 생성한다. 또한, 본원의 일 실시예에 따라 본 장치(100)는 사전품질정보(G)를 사용자의 검토와 편집을 용이하게 하는 사용자 인터페이스를 통해 제공하고 사용자의 의사결정에 따라 품질검증조건(B)을 최종 확정할 수 있다.Referring to FIG. 2, the device (100) according to one embodiment of the present invention preliminarily analyzes user data (A) for standard conformity and content-based verification, and generates preliminarily quality information (G) that preliminarily sets detailed quality indicators and a list of valid values for standard conformity and content-based verification based on the association rules (F) that define extractable data characteristics and verifiable item-by-item indicators according to data type and format. In addition, the device (100) according to one embodiment of the present invention provides preliminarily quality information (G) through a user interface that facilitates user review and editing, and can finally determine quality verification conditions (B) according to user decision-making.

예를 들어, 본원의 일 실시예에 따른 사전품질정보(G)는 사전 분석된 사용자 데이터(A)의 구성 정보 검증항목과 세부지표에 관한 유효값 목록으로 정의되는 선택지(도2의 우측 사용자 인터페이스 예시 영역의 상단) 형식으로 제공되는 것이거나, 데이터 스키마를 이용하거나 내용 기반의 검증에 필요한 데이터 분포 또는 특성에 관하여 계층적 구문구조 검증 또는 통계 산출을 위한 세부 데이터의 선택과 조건설정을 용이하도록 하는 맵, 그래프, 표 등으로 시각화된 형식(도2의 우측 사용자 인터페이스 예시 영역의 하단)으로 제공할 수 있다.For example, the pre-quality information (G) according to one embodiment of the present invention may be provided in the form of a choice (top of the example area of the user interface on the right side of Fig. 2) defined as a list of valid values for verification items and detailed indicators of the configuration information of the pre-analyzed user data (A), or may be provided in a visualized form (bottom of the example area of the user interface on the right side of Fig. 2) as a map, graph, table, etc. that facilitates selection of detailed data and setting of conditions for hierarchical syntax verification or statistical calculation regarding data distribution or characteristics required for content-based verification or using a data schema.

또한, 본원의 일 실시예에 따른 품질검증조건(B)은 사전 분석의 결과로 생성된 사전품질정보(G)에 포함된 값만을 사용해야 하는 것은 아닐 수 있다. 예를 들어, 사용자는 소정의 사용자 인터페이스에 제시된 사전품질정보(G) 중 불필요한 검사항목 및 세부지표 또는 유효값을 제외하거나 수정할 수 있고 사전 분석으로 발견되지 않은 값을 추가할 수 있다. 또한, 예비설정된 값을 수정하는 것은 물론 각 검증항목에 관한 기준 부합여부의 판정을 위한 검증항목 단위 또는 각 검증항목의 세부지표에 관한 준수율 또는 기준 수량 등 목표 품질 기준을 입력하는 방식으로 사용자의 의사결정에 따라 최종 확정되는 방식으로 결정될 수 있다.In addition, the quality verification condition (B) according to one embodiment of the present invention may not necessarily use only the values included in the pre-quality information (G) generated as a result of the pre-analysis. For example, the user may exclude or modify unnecessary inspection items and detailed indicators or valid values among the pre-quality information (G) presented in a given user interface, and may add values not found by the pre-analysis. In addition, the method may be determined in a way that is finally confirmed according to the user's decision by inputting the target quality criteria such as the verification item unit for determining whether each verification item complies with the criteria or the compliance rate or standard quantity for the detailed indicator of each verification item, as well as modifying the preset values.

본원의 일 실시예에 따르면, 본 장치(100)는 사용자 단말(300)로 품질검증조건 설정 메뉴, 데이터 분석 및 품질측정 메뉴, 학습 데이터 선정 메뉴를 제공할 수 있다. 예를 들어, 본 장치(100)가 제공하는 어플리케이션 프로그램을 사용자 단말(300)이 다운로드하여 설치하고, 설치된 어플리케이션을 통해 품질검증조건 설정 메뉴, 데이터 분석 및 품질측정 메뉴, 학습 데이터 선정 메뉴가 제공될 수 있다.According to one embodiment of the present invention, the device (100) can provide a quality verification condition setting menu, a data analysis and quality measurement menu, and a learning data selection menu to the user terminal (300). For example, the user terminal (300) can download and install an application program provided by the device (100), and the quality verification condition setting menu, the data analysis and quality measurement menu, and the learning data selection menu can be provided through the installed application.

본 장치(100)는 외부 서버(200) 및 사용자 단말(300)과 데이터, 콘텐츠, 각종 통신 신호를 네트워크를 통해 송수신하고, 데이터 저장 및 처리의 기능을 가지는 모든 종류의 서버, 단말, 또는 디바이스를 포함할 수 있다.This device (100) may include all types of servers, terminals, or devices that transmit and receive data, content, and various communication signals through a network with an external server (200) and a user terminal (300), and have the function of storing and processing data.

사용자 단말(300)은 네트워크를 통해 본 장치(100) 및 외부 서버(200)와 연동되는 디바이스로서, 예를 들면, 스마트폰(Smartphone), 스마트패드(Smart Pad), 태블릿 PC, 웨어러블 디바이스 등과 PCS(Personal Communication System), GSM(Global System for Mobile communication), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), Wibro(Wireless Broadband Internet) 단말기 같은 모든 종류의 무선 통신 장치 및 데스크탑 컴퓨터, 스마트 TV와 같은 고정용 단말기일 수도 있다.The user terminal (300) is a device that is connected to the main device (100) and the external server (200) through a network, and may be, for example, a smartphone, a smart pad, a tablet PC, a wearable device, and all types of wireless communication devices such as a PCS (Personal Communication System), a GSM (Global System for Mobile communication), a PDC (Personal Digital Cellular), a PHS (Personal Handyphone System), a PDA (Personal Digital Assistant), an IMT (International Mobile Telecommunication)-2000, a CDMA (Code Division Multiple Access)-2000, a W-CDMA (W-Code Division Multiple Access), a Wibro (Wireless Broadband Internet) terminal, and a fixed terminal such as a desktop computer or a smart TV.

본 장치(100), 외부 서버(200) 및 사용자 단말(300) 간의 정보 공유를 위한 네트워크의 일 예로는 3GPP(3rd Generation Partnership Project) 네트워크, LTE(Long Term Evolution) 네트워크, 5G 네트워크, WIMAX(World Interoperability for Microwave Access) 네트워크, 유무선 인터넷(Internet), LAN(Local Area Network), Wireless LAN(Wireless Local Area Network), WAN(Wide Area Network), PAN(Personal Area Network), 블루투스(Bluetooth) 네트워크, Wifi 네트워크, NFC(Near Field Communication) 네트워크, 위성 방송 네트워크, 아날로그 방송 네트워크, DMB(Digital Multimedia Broadcasting) 네트워크 등이 포함될 수 있으며, 이에 한정된 것은 아니다.Examples of networks for sharing information between the device (100), the external server (200), and the user terminal (300) may include, but are not limited to, a 3GPP (3rd Generation Partnership Project) network, an LTE (Long Term Evolution) network, a 5G network, a WIMAX (World Interoperability for Microwave Access) network, a wired/wireless Internet, a LAN (Local Area Network), a Wireless LAN (Wireless Local Area Network), a WAN (Wide Area Network), a PAN (Personal Area Network), a Bluetooth network, a Wifi network, an NFC (Near Field Communication) network, a satellite broadcasting network, an analog broadcasting network, a DMB (Digital Multimedia Broadcasting) network, etc.

본원의 일 실시예에 따르면, 본 장치는, 사용자 데이터에 사전 분석을 수행할 수 있다.According to one embodiment of the present invention, the device can perform pre-analysis on user data.

일 예로, 본 장치는 입력된 사용자데이터의 유형 및 형식을 분석하여 규격 정보를 생성함으로써 사전 분석을 수행할 수 있다.For example, the device can perform pre-analysis by analyzing the type and format of input user data to generate standard information.

본원의 일 실시예에 따르면, 본 장치는, 기 정의된 연관 규칙을 이용하여 검증 대상과 품질 기준을 포함하는 품질검증조건을 설정할 수 있다.According to one embodiment of the present invention, the device can set quality verification conditions including verification targets and quality criteria using predefined association rules.

일 예로, 본 장치는, 규격 정보와 기 정의된 연관 규칙을 이용하여 적용 가능한 검증방식과 세부품질지표를 선정하고 품질 기준에 관한 사용자 데이터로부터 유효한 기준값의 후보를 적응적으로 결정할 수 있다.For example, the device can select applicable verification methods and detailed quality indicators using standard information and predefined association rules, and adaptively determine candidates for valid reference values from user data regarding quality criteria.

본원의 일 실시예에 따르면, 본 장치는, 기 생성된 데이터 분석 알고리즘 및 품질검증조건을 기초로 규격 특성 및 내용 기반 특성을 포함하는 사용자 데이터의 데이터 특성을 검증하여 사용자 데이터의 품질 정보를 측정할 수 있다.According to one embodiment of the present invention, the device can measure quality information of user data by verifying data characteristics of user data including standard characteristics and content-based characteristics based on previously generated data analysis algorithms and quality verification conditions.

본원의 일 실시예에 따르면, 본 장치는, 데이터 특성 및 품질 정보에 기초하여 인공지능 훈련에 유효한 학습 데이터를 선정할 수 있다.According to one embodiment of the present invention, the device can select learning data effective for artificial intelligence training based on data characteristics and quality information.

본원의 일 실시예에 따르면, 본 장치는, 사용자 데이터의 유형 및 형식과 관련한 사전 분석을 수행하여 구성 정보 및 규격 속성 정보를 포함하는 규격 정보를 생성할 수 있다.According to one embodiment of the present invention, the device can perform a preliminary analysis related to the type and format of user data to generate specification information including configuration information and specification attribute information.

본원의 일 실시예에 따르면, 본 장치는, 규격 정보와 연관 규칙을 이용하여 세부품질지표를 포함하는 검증 항목을 선정할 수 있다.According to one embodiment of the present invention, the device can select verification items including detailed quality indicators using standard information and association rules.

본원의 일 실시예에 따르면, 본 장치는, 품질 기준에 관한 사용자 데이터로부터 유효한 기준값의 후보를 결정하여 품질검증조건을 예비설정할 수 있다.According to one embodiment of the present invention, the device can pre-set quality verification conditions by determining candidates for valid criteria from user data regarding quality criteria.

본원의 일 실시예에 따르면, 본 장치는, 사용자 인터페이스를 통해 획득한 사용자 입력에 기초하여 품질 기준에 대하여 상세 설정을 수행하여 품질 기준을 설정할 수 있다.According to one embodiment of the present invention, the device can set quality criteria by performing detailed settings for quality criteria based on user input obtained through a user interface.

본원의 일 실시예에 따르면, 본 장치는, 사용자 데이터를 구성하는 각 파일의 규격(File format)을 식별하여 각 파일 규격에 관한 데이터의 유형 및 형식에 따라 범주화된 분류 정보와 데이터의 수량 정보를 포함하는 구성 정보를 생성할 수 있다.According to one embodiment of the present invention, the device can identify the file format of each file constituting user data and generate configuration information including classification information categorized according to the type and format of data regarding each file format and quantity information of the data.

본원의 일 실시예에 따르면, 본 장치는, 파일 규격에 기초하여 각 규격별 속성에 관한 유효값의 목록 또는 데이터 스키마(Data schema)로 정의되는 규격 속성 정보를 추출하여 구성 정보와 결합한 규격 정보를 생성할 수 있다.According to one embodiment of the present invention, the device can extract specification attribute information defined as a list of valid values for each specification attribute or a data schema based on a file specification, and generate specification information combined with configuration information.

본원의 일 실시예에 따르면, 본 장치는, 사전 분석의 결과 및 연관 규칙에 기초하여, 규격 적합성 검증 및 내용 기반 검증 중 적어도 하나의 검증에 관한 검증 항목 및 검증 대상 데이터 목록을 생성할 수 있다.According to one embodiment of the present invention, the device can generate a list of verification items and verification target data for at least one of standard conformity verification and content-based verification based on the results of the pre-analysis and the association rules.

본원의 일 실시예에 따르면, 본 장치는, 세부품질지표에 기초하여 지표 후보 목록을 선정하고 규격 속성 정보로부터 각 지표의 검증에 필요한 규격 속성 정보, 유효값의 목록 및 데이터 스키마 중 적어도 하나를 이용하는 방식으로 생성되는 사전 품질 정보를 결정하여 품질 기준 후보값을 생성할 수 있다.According to one embodiment of the present invention, the device can generate a quality criterion candidate value by determining a priori quality information generated by selecting a list of indicator candidates based on detailed quality indicators and using at least one of standard attribute information, a list of valid values, and a data schema necessary for verification of each indicator from standard attribute information.

본원의 일 실시예에 따르면, 본 장치는, 사전 품질 정보에 관하여 사용자 인터페이스를 통해 획득된 사용자 입력에 기초하여 품질검증조건을 확정할 수 있다.According to one embodiment of the present invention, the device can determine quality verification conditions based on user input obtained through a user interface regarding prior quality information.

본원의 일 실시예에 따르면, 본 장치는, 사용자 데이터, 검증 대상 및 품질 기준을 입력으로 하는 데이터 분석 알고리즘에 기초하여 사용자 데이터에 관한 규격 적합성 검증 및 내용 기반 검증에 따른 각 세부지표별 정량적 품질정보 및 기준 적합성 정보를 도출할 수 있다.According to one embodiment of the present invention, the device can derive quantitative quality information and standard conformity information for each detailed index according to standard conformity verification and content-based verification regarding user data based on a data analysis algorithm that takes user data, a verification target, and a quality criterion as inputs.

본원의 일 실시예에 따르면, 본 장치는, 사전 분석으로 결정된 데이터의 구조적 특성에 관한 각 세부 특성을 추출하여 도출되거나 내용 기반 검증의 데이터 분석 결과로부터 통계 정보를 생성하거나 범주화하여 결정된 정량적 품질정보 및 기준 적합성 정보를 이용하여 각 품질 특성에 관한 통계 및 범주화 결과를 연관된 사용자 데이터의 목록과 결합하여 품질검증결과를 제공할 수 있다.According to one embodiment of the present invention, the device can provide a quality verification result by combining the statistical and categorization results on each quality characteristic with a list of associated user data using quantitative quality information and criterion suitability information determined by extracting each detailed characteristic on the structural characteristics of data determined by a pre-analysis or generating statistical information from the data analysis results of content-based verification or by categorizing and determining the statistical information.

본원의 일 실시예에 따르면, 기준 적합성 정보는, 사용자 데이터에 관하여 품질 기준에 적합함의 여부를 판정한 정보를 포함하고, 적합한 사용자 데이터의 수량 또는 비율이 정량적 품질정보에 포함된 목표를 충족하는지 여부에 따라 결정될 수 있다.According to one embodiment of the present invention, the criterion suitability information includes information determining whether user data conforms to a quality criterion, and may be determined based on whether a quantity or ratio of suitable user data satisfies a target included in the quantitative quality information.

본원의 일 실시예에 따르면, 본 장치는, 품질 정보에 대한 측정 결과를 기초로 품질 정보와 기준 적합성 정보를 사용자 데이터의 구조적 특성에 관한 시각화 리포트를 생성할 수 있다.According to one embodiment of the present invention, the device can generate a visualization report on the structural characteristics of user data based on the measurement results for the quality information and the criterion conformity information.

본원의 일 실시예에 따르면, 본 장치는, 시각화 리포트를 이용하여 사용자 데이터의 품질과 특성을 검색조건으로 하여 내용 기반 데이터 시각화 검색을 수행할 수 있다.According to one embodiment of the present invention, the device can perform content-based data visualization search using the quality and characteristics of user data as search conditions using a visualization report.

본원의 일 실시예에 따르면, 본 장치는, 사용자 데이터의 형식에 따른 품질 지표의 검증을 수행하기 위한 알고리즘 및 연관 규칙을 추가할 수 있다.According to one embodiment of the present invention, the device may add an algorithm and association rules for performing verification of quality indicators according to the format of user data.

본원의 일 실시예에 따르면, 품질검증조건을 설정하는 단계 및 학습 데이터를 선정하는 단계에서, 추가된 알고리즘과 품질 지표 정보가 제공될 수 있다.According to one embodiment of the present invention, in the step of setting quality verification conditions and the step of selecting learning data, additional algorithm and quality indicator information may be provided.

본원의 일 실시예에 따르면, 사용자 데이터는, 정형데이터(structured data), 비정형데이터(unstructured data) 및 라벨링데이터(label data) 중 적어도 하나의 데이터를 포함하고, 데이터 유형 및 형식에 관하여 적어도 하나의 혼합된 형태를 갖는 것일 수 있다.According to one embodiment of the present invention, the user data may include at least one of structured data, unstructured data, and label data, and may have at least one mixed form with respect to data type and format.

본원의 일 실시예에 따르면, 연관 규칙은, 규격 적합성 검증 및 내용 기반 검증에 관한 기 정의된 검증 항목에 관하여 수행 가능한 데이터 분석 알고리즘 및 데이터 분석 알고리즘에 관하여 처리 가능한 사용자 데이터의 유형 및 형식을 정의할 수 있다.According to one embodiment of the present invention, association rules may define data analysis algorithms that can be performed with respect to predefined verification items for conformance verification and content-based verification, and types and formats of user data that can be processed with respect to the data analysis algorithms.

본원의 일 실시예에 따르면, 데이터 분석 알고리즘은, 규격 적합성 검증 및 내용 기반 검증에 관하여 기 정의된 검증 항목 별로 사용자 데이터와 품질 기준을 입력으로 하여 규격 적합성 검증 및 내용 기반 검증 중 적어도 하나의 검증을 수행한 결과를 출력으로 제공할 수 있다.According to one embodiment of the present invention, a data analysis algorithm may perform at least one verification among standard conformity verification and content-based verification by inputting user data and quality criteria for each verification item defined in advance for standard conformity verification and content-based verification, and provide the result as output.

본원의 일 실시예에 따르면, 기 정의된 검증항목은, 규격 적합성 검증 및 내용 기반 검증에 관하여 사용자 데이터로부터 측정 가능한 세부 검증항목 또는 품질지표를 정의한 목록이거나 각 검증을 수행하는 데이터 분석 알고리즘의 기능명세로 정의될 수 있다.According to one embodiment of the present invention, the predefined verification items may be defined as a list of detailed verification items or quality indicators that can be measured from user data with respect to standard conformity verification and content-based verification, or as a functional specification of a data analysis algorithm that performs each verification.

예를 들어, 인공지능 기반의 학습 모델은 기계 학습(Machine Learning), 딥 러닝(Deep Learning) 등의 인공지능 기반의 학습을 통해 생성되는 것일 수 있으나, 이에만 한정되는 것은 아니며, 기 개발되었거나 향후 개발되는 다양한 신경망 체계 또는 알고리즘 등을 적용할 수 있다.For example, an AI-based learning model may be created through AI-based learning such as machine learning or deep learning, but is not limited thereto, and various neural network systems or algorithms that have been developed or will be developed in the future may be applied.

또한, 본 장치는 하기와 같이 구현될 수 있다.Additionally, the present device can be implemented as follows.

본원의 일 실시예에 따른 인공지능 훈련 데이터 선별 장치의 제어 방법은, 입력된 사용자 데이터를 사전 분석하고 기 정의된 연관 규칙을 이용하여 검증 대상과 품질 기준을 적응적으로 설정하는 품질검증조건 설정 단계, 기 정의된 데이터 분석 알고리즘에 기초하여 품질검증조건에 따라 입력된 사용자 데이터의 규격 적합성 및 내용 기반 검증을 객관적으로 수행하는 데이터 분석 및 품질측정 단계 및 객관적으로 검증된 데이터 특성과 품질정보에 기초하여 입력된 사용자 데이터의 이용 목적에 따라 시각적으로 설명 가능한 방식으로 조회 및 선별하여 인공지능 훈련에 유효한 데이터를 출력하여 제공하는 학습 데이터 선정 단계를 포함할 수 있다.A control method of an artificial intelligence training data selection device according to one embodiment of the present invention may include a quality verification condition setting step of pre-analyzing input user data and adaptively setting a verification target and quality criteria using pre-defined association rules, a data analysis and quality measurement step of objectively performing standard conformity and content-based verification of input user data according to quality verification conditions based on a pre-defined data analysis algorithm, and a learning data selection step of outputting and providing data valid for artificial intelligence training by searching and selecting in a visually explainable manner according to the purpose of use of the input user data based on objectively verified data characteristics and quality information.

또한, 품질검증조건 설정 단계는, 입력된 사용자 데이터의 유형 및 형식을 분석하여 규격 정보를 생성하는 사전 분석 단계 및 규격 정보와 기 정의된 연관 규칙을 이용하여 적용 가능한 검증방식과 세부품질지표를 선정하고 품질 기준에 관한 사용자 데이터로부터 유효한 기준값의 후보를 적응적으로 결정하는 검증조건 예비설정 단계를 포함할 수 있다.In addition, the quality verification condition setting step may include a pre-analysis step for generating standard information by analyzing the type and format of input user data, and a verification condition pre-setting step for selecting applicable verification methods and detailed quality indicators using the standard information and pre-defined association rules, and adaptively determining candidates for valid reference values from user data regarding quality criteria.

또한, 사전 분석 단계는, 입력된 사용자 데이터를 구성하는 각 파일의 규격(File format)을 식별하여 각 파일 규격에 관한 데이터의 유형 및 형식에 따라 범주화된 분류정보와 데이터의 수량정보를 포함하는 데이터 구성 정보를 생성하고 파일 규격에 관한 종래의 기술표준 또는 규격명세로 정의되는 고유한 규격속성에 기초하여 사용자 데이터로부터 각 규격별 속성에 관한 유효값의 목록 또는 데이터 스키마(Data schema)를 이용하여 데이터의 규격 속성 정보를 생성할 수 있다.In addition, the pre-analysis step identifies the file format of each file that constitutes the input user data, and generates data configuration information including classification information categorized according to the type and format of data for each file format and quantity information for the data, and based on unique specification attributes defined by conventional technical standards or specification specifications for the file format, data specification attribute information can be generated using a list of valid values for each specification attribute or a data schema from the user data.

또한, 검증조건 예비설정 단계는, 기 정의된 연관 규칙 및 사전 분석 결과에 기초하여, 규격 적합성 검증 또는 내용 기반 검증 방식 중 사용자 데이터에 관하여 적용이 가능한 검증항목과 검증 대상 데이터 목록을 생성하는 단계 및 검증항목이 포함하는 세부품질지표 중 사용자 데이터에 적합한 지표 후보목록을 선정하고 규격 속성 정보로부터 각 지표의 검증에 필요한 규격속성과 유효값의 목록 또는 데이터 스키마를 이용하는 방식으로 예비적으로 생성되는 사전품질정보를 적응적으로 결정하는 단계를 포함할 수 있다.In addition, the verification condition preliminary setting step may include a step of generating a list of verification items and verification target data applicable to user data among the standard conformity verification or content-based verification methods based on predefined association rules and preliminary analysis results, and a step of adaptively determining preliminary quality information that is preliminary generated by selecting a list of indicator candidates suitable for user data among the detailed quality indicators included in the verification items and using a list of standard attributes and valid values or a data schema required for verification of each indicator from standard attribute information.

또한, 사전품질정보는, 사용자 데이터에 관하여 적용 가능한 유효한 품질검증 조건을 참조하여 검증하고자 하는 데이터의 품질 기준에 관한 정량적 품질목표의 설정을 용이하게 하여 사용자의 수고를 최소화하기 위한 용도로 활용될 수 있다.In addition, the pre-quality information can be utilized to minimize the user's effort by facilitating the setting of quantitative quality goals regarding the quality criteria of data to be verified by referring to valid quality verification conditions applicable to user data.

또한, 데이터 분석 및 품질측정 단계는, 검증 대상과 품질 기준에 따라 입력된 사용자 데이터를 객관적으로 검증하여 정량적 품질정보 및 기준 적합성 정보를 산출할 수 있다.In addition, the data analysis and quality measurement steps can objectively verify the entered user data according to the verification target and quality criteria to produce quantitative quality information and criteria suitability information.

또한, 품질정보와 기준 적합성 정보는, 규격 적합성 및 내용 기반 검증을 수행하는 기 생성된 데이터 분석 알고리즘에 의해 결정될 수 있다.Additionally, quality information and criterion conformity information can be determined by pre-generated data analysis algorithms that perform standard conformity and content-based verification.

또한, 품질정보는, 본 장치가 사전 분석으로 결정된 데이터의 구조적 특성에 관한 각 세부 특성을 추출하거나 내용 기반의 데이터 분석 결과로부터 통계정보를 생성하거나 범주화하여 결정되는 것일 수 있다.Additionally, quality information may be determined by extracting each detailed characteristic regarding the structural characteristics of data determined by prior analysis by this device or by generating or categorizing statistical information from the results of content-based data analysis.

또한, 기준 적합성 정보는, 입력된 사용자 데이터에 관하여 품질 기준에 적합함의 여부를 판정하고 적합한 데이터의 수량 또는 비율이 정량적 품질목표를 충족함을 판단하여 정량적으로 결정되는 것일 수 있다.Additionally, the criterion suitability information may be quantitatively determined by determining whether the input user data conforms to the quality criterion and determining whether the quantity or proportion of the conforming data meets the quantitative quality goal.

또한, 본원의 일 실시예에 따른 인공지능 훈련 데이터 선별 장치의 제어 방법은, 인공지능 훈련에 유효한 학습 데이터 선정을 위하여, 품질정보와 기준 적합성 정보를 데이터의 구조적 특성에 관하여 시각적으로 설명 가능하도록 시각화 리포트를 생성하는 단계 및 시각적으로 표현된 데이터의 품질과 특성을 검색조건으로 활용하는 내용 기반 데이터 시각화 검색 단계를 포함할 수 있다.In addition, a method for controlling an artificial intelligence training data selection device according to one embodiment of the present invention may include a step of generating a visualization report so that quality information and standard suitability information can be visually explained in relation to structural characteristics of data in order to select learning data effective for artificial intelligence training, and a content-based data visualization search step that utilizes the quality and characteristics of the visually expressed data as search conditions.

또한, 본원의 일 실시예에 따른 인공지능 훈련 데이터 선별 장치의 제어 방법은, 기 생성된 데이터 분석 알고리즘뿐만 아니라 새로운 사용자 데이터 형식과 이에 적합한 품질지표의 검증을 수행하는 새로운 알고리즘과 연관 규칙을 추가하고 사용자 데이터 처리 흐름을 제어하는데 활용하는 방식으로 기능적 확장성을 보장할 수 있다.In addition, the method for controlling an artificial intelligence training data selection device according to one embodiment of the present invention can ensure functional expandability by adding a new algorithm and association rule that performs verification of a new user data format and a quality indicator suitable therefor as well as a previously generated data analysis algorithm and utilizing it to control the user data processing flow.

한편, 본원의 일 실시예에 따른 인공지능 훈련 데이터 선별 장치는, 입력된 사용자 데이터에 관하여 사전 분석하고 기 정의된 연관 규칙을 이용하여 검증 대상과 품질 기준을 적응적으로 설정하는 품질검증조건 설정부; 기 생성된 데이터 분석 알고리즘에 기초하여 품질검증조건에 따라 입력된 사용자 데이터의 규격 적합성 및 내용 기반 검증을 객관적으로 수행하는 데이터 분석 및 품질측정부; 및 측정된 품질 정보를 이용하여 입력된 사용자 데이터의 이용 목적에 따라 시각적으로 설명 가능한 방식으로 조회 및 선별하여 인공지능 훈련을 위한 유효 데이터를 출력하는 학습 데이터 선정부를 포함할 수 있다.Meanwhile, an artificial intelligence training data selection device according to one embodiment of the present invention may include a quality verification condition setting unit that pre-analyzes input user data and adaptively sets verification targets and quality criteria using pre-defined association rules; a data analysis and quality measurement unit that objectively performs standard conformity and content-based verification of input user data according to quality verification conditions based on a pre-generated data analysis algorithm; and a learning data selection unit that searches and selects input user data in a visually explainable manner according to the purpose of use using measured quality information and outputs valid data for artificial intelligence training.

또한, 품질검증조건 설정부는, 입력된 사용자 데이터의 유형 및 형식을 분석하여 규격 정보를 생성하는 사전 분석부, 규격 정보와 기 정의된 연관 규칙을 이용하여 적용 가능한 검증방식과 세부품질지표에 관한 검증항목을 선정하고 품질 기준에 관한 사용자 데이터로부터 유효한 기준값의 후보를 적응적으로 결정하는 검증조건 예비설정부 및 예비설정된 품질 기준에 대하여 수정, 추가, 삭제 등의 상세 설정이 가능하도록 하는 사용자 인터페이스를 포함하는 품질 기준 설정부를 포함할 수 있다.In addition, the quality verification condition setting unit may include a pre-analysis unit that analyzes the type and format of input user data to generate standard information, a verification condition preliminary setting unit that selects applicable verification methods and verification items regarding detailed quality indicators using the standard information and predefined association rules and adaptively determines candidates for valid standard values from user data regarding quality criteria, and a quality criteria setting unit that includes a user interface that enables detailed settings such as modification, addition, and deletion for the preliminary quality criteria.

또한, 사전 분석부는, 입력된 사용자 데이터를 조사하여 파일의 규격(File format)을 식별하여 데이터의 유형 및 형식에 따라 범주화된 분류정보와 수량에 관한 구성 정보를 생성하고, 종래의 기술표준 또는 규격명세로 정의되는 고유한 규격속성에 기초하여 사용자 데이터로부터 각 규격별 속성에 관한 유효값의 목록 또는 데이터 스키마(Data schema)로 정의되는 규격 속성 정보를 추출하여 구성 정보와 결합한 규격 정보를 생성할 수 있다.In addition, the pre-analysis unit examines the input user data to identify the file format and generate classification information categorized by the type and format of the data and configuration information regarding quantity, and extracts specification attribute information defined as a list of valid values for each specification attribute or a data schema from the user data based on unique specification attributes defined by conventional technical standards or specification specifications, and generates specification information combined with the configuration information.

또한, 검증조건 예비 설정부는, 사전 분석 결과에 기초하여, 규격 적합성 검증 또는 내용 기반 검증 방식 중 사용자 데이터에 관하여 적용이 가능한 검증항목과 검증 대상 데이터 목록을 생성하는 검증 대상 식별부 및 검증항목이 포함하는 세부품질지표 중 사용자 데이터에 적합한 지표 후보목록을 선정하고 사전 분석 결과로부터 각 지표의 검증에 필요한 규격속성과 유효값의 목록 또는 데이터 스키마를 이용하여 사전품질정보를 적응적으로 설정하는 품질 기준 후보값 생성부를 포함할 수 있다.In addition, the verification condition preliminary setting unit may include a verification target identification unit that generates a list of verification items and verification target data applicable to user data among the standard conformity verification or content-based verification methods based on the preliminary analysis results, and a quality criterion candidate value generation unit that selects a list of indicator candidates suitable for user data among the detailed quality indicators included in the verification items, and adaptively sets preliminary quality information using a list of standard attributes and valid values or a data schema required for verification of each indicator from the preliminary analysis results.

또한, 데이터 분석 및 품질측정부는, 사용자 데이터 및 검증 대상과 품질 기준 정보를 입력으로 하는 기 정의된 데이터 분석 알고리즘에 기초하여 사용자 데이터에 관한 규격 적합성 및 내용 기반 검증에 따른 각 세부지표별 정량적 품질정보 및 기준 적합성 정보를 도출하는 분석 알고리즘 적용부, 데이터의 구조적 특성에 관한 세부 특성을 추출하여 도출된 정량적 품질정보 및 기준 적합성 정보를 이용하여 각 품질 특성에 관한 통계 및 범주화 결과를 연관된 사용자 데이터의 목록과 결합하여 품질검증결과를 제공하는 데이터 검증결과 생성부를 포함할 수 있다.In addition, the data analysis and quality measurement unit may include an analysis algorithm application unit that derives quantitative quality information and criterion conformity information for each detailed indicator according to standard conformity and content-based verification regarding user data based on a predefined data analysis algorithm that takes user data and verification target and quality criterion information as inputs, and a data verification result generation unit that extracts detailed characteristics regarding the structural characteristics of data and uses the derived quantitative quality information and criterion conformity information to provide quality verification results by combining statistical and categorization results regarding each quality characteristic with a list of associated user data.

또한, 학습 데이터 선정부는, 품질검증결과를 기초로 데이터의 구조적 특성에 관하여 시각적으로 설명가능한 리포트를 생성하는 시각화 리포트 생성부, 시각적으로 표현된 데이터의 품질과 특성을 검색조건으로 활용하여 사용자 상호작용 가능한 방식으로 내용 기반 데이터 시각화 검색 및 사용자에 의한 적합여부를 최종 판단하고 유효 데이터의 선별을 용이하게 하는 시각화 조회부 및 데이터 이용 목적에 따라 선별된 데이터 목록 또는 품질검증 보고서를 출력하는 데이터 출력부를 포함할 수 있다.In addition, the learning data selection unit may include a visualization report generation unit that generates a visually explainable report on the structural characteristics of data based on the quality verification results, a visualization query unit that utilizes the quality and characteristics of the visually expressed data as search conditions to facilitate content-based data visualization search in a user-interactive manner, a final judgment of suitability by the user, and selection of valid data, and a data output unit that outputs a list of data selected or a quality verification report according to the purpose of data use.

또한, 본원의 일 실시예에 따른 인공지능 훈련 데이터 선별 장치는, 인공지능에 부여하는 임무에 따라 사용자 데이터는 다양한 유형 및 형식을 가질 수 있음을 고려하여 이용 가능한 알고리즘의 고정된 목록으로 한정하여 동작하지 아니하며, 기 정의된 데이터 분석 알고리즘뿐만 아니라 새로운 사용자 데이터 형식과 이에 적합한 품질지표의 검증을 수행하는 새로운 알고리즘을 추가하거나 이용을 용이하도록 하는 알고리즘 관리부 및 알고리즘과 품질지표 정보를 사전 분석부와 학습 데이터 선정부에 제공하여 데이터 처리 흐름을 제어하는 작업 관리부를 포함할 수 있다.In addition, the artificial intelligence training data selection device according to one embodiment of the present invention does not operate by being limited to a fixed list of available algorithms, considering that user data may have various types and formats depending on the task assigned to the artificial intelligence, but may include an algorithm management unit that adds or facilitates the use of new algorithms that perform verification of new user data formats and quality indicators suitable therefor as well as predefined data analysis algorithms, and a task management unit that controls the data processing flow by providing algorithm and quality indicator information to the pre-analysis unit and the training data selection unit.

도 3은 본원의 일 실시예에 따른 인공지능 훈련 데이터 선별 장치의 개략적인 블록도이다.FIG. 3 is a schematic block diagram of an artificial intelligence training data selection device according to one embodiment of the present invention.

도 3을 참조하면, 인공지능 훈련 데이터 선별 장치는 품질검증조건 설정부, 데이터 분석 및 품질측정부, 학습 데이터 선정부를 포함할 수 있다.Referring to FIG. 3, the artificial intelligence training data selection device may include a quality verification condition setting unit, a data analysis and quality measurement unit, and a learning data selection unit.

본원의 일 실시예에 따르면, 품질검증조건 설정부는, 사용자 데이터에 사전 분석을 수행하고, 기 정의된 연관 규칙을 이용하여 검증 대상과 품질 기준을 포함하는 품질검증조건을 설정할 수 있다.According to one embodiment of the present invention, the quality verification condition setting unit can perform a preliminary analysis on user data and set a quality verification condition including a verification target and quality criteria using predefined association rules.

본원의 일 실시예에 따르면, 데이터 분석 및 품질측정부는, 기 생성된 데이터 분석 알고리즘 및 품질검증조건을 기초로 규격 특성 및 내용 기반 특성을 포함하는 사용자 데이터의 데이터 특성을 검증하여 사용자 데이터의 품질 정보를 측정할 수 있다.According to one embodiment of the present invention, the data analysis and quality measurement unit can measure quality information of user data by verifying data characteristics of user data including standard characteristics and content-based characteristics based on previously generated data analysis algorithms and quality verification conditions.

본원의 일 실시예에 따르면, 학습 데이터 선정부는 데이터 특성 및 품질 정보에 기초하여 인공지능 훈련에 유효한 학습 데이터를 선정할 수 있다.According to one embodiment of the present invention, the learning data selection unit can select learning data effective for artificial intelligence training based on data characteristics and quality information.

도 4는 본원의 일 실시예에 따른 인공지능 훈련 데이터 선별 장치의 개략적인 구성도이다.Figure 4 is a schematic diagram of an artificial intelligence training data selection device according to one embodiment of the present invention.

도 4를 참조하면, 본 장치(100)는, 사전 분석부(110), 데이터 분석 및 품질측정부(120), 학습 데이터 선정부(130), 알고리즘 관리부(140), 및 작업 관리부(150)을 포함할 수 있다.Referring to FIG. 4, the device (100) may include a pre-analysis unit (110), a data analysis and quality measurement unit (120), a learning data selection unit (130), an algorithm management unit (140), and a task management unit (150).

품질검증조건 설정부(110)는, 입력된 사용자 데이터(A)에 관하여 사전 분석 결과와 연관 규칙을 이용하여 검증 대상과 품질 기준을 적응적으로 설정할 수 있다.The quality verification condition setting unit (110) can adaptively set verification targets and quality criteria using pre-analysis results and association rules regarding input user data (A).

데이터 분석 및 품질측정부(120)는, 기 생성된 데이터 분석 알고리즘에 기초하여 상기 설정된 검증 대상과 품질 기준에 따라 사용자 데이터(A)의 규격 적합성 및 내용 기반 검증을 수행할 수 있다.The data analysis and quality measurement unit (120) can perform standard conformity and content-based verification of user data (A) according to the verification target and quality criteria set above based on the previously generated data analysis algorithm.

학습 데이터 선정부(130)는, 측정된 품질 정보를 이용하여 사용자 데이터(A)의 이용 목적에 따라 조회 및 선별하여 인공지능 훈련을 위한 유효 데이터셋을 도출할 수 있다.The learning data selection unit (130) can use the measured quality information to search and select user data (A) according to the purpose of use, thereby deriving a valid data set for artificial intelligence training.

알고리즘 관리부(140)는, 본 장치(100)의 기능적 확장성을 고려하여, 새로운 사용자 데이터 형식과 이에 적합한 품질지표의 검증을 수행하는 새로운 알고리즘을 추가하거나 새로운 데이터 형식과 알고리즘의 적용 방법에 관한 연관 규칙(F)을 등록하고 관리할 수 있다.The algorithm management unit (140) can add a new user data format and a new algorithm that verifies quality indicators suitable for the new user data format, or register and manage association rules (F) regarding the application method of the new data format and the algorithm, taking into account the functional expandability of the device (100).

작업 관리부(150)는, 알고리즘 관리부(140)의 알고리즘 및 연관 규칙(F)에 관한 관리정보를 이용하여 품질검증조건 설정부(110), 데이터 분석 및 품질측정부(120), 학습 데이터 선정부(130)의 데이터 처리 흐름을 제어할 수 있다.The work management unit (150) can control the data processing flow of the quality verification condition setting unit (110), the data analysis and quality measurement unit (120), and the learning data selection unit (130) by using the management information regarding the algorithm and association rules (F) of the algorithm management unit (140).

또한, 본원의 일 실시예에 따라, 본 장치(100)는 인공지능에 부여하는 임무에 따라 사용자 데이터는 다양한 유형 및 형식을 가질 수 있음을 고려하여, 기 생성된 데이터 분석 알고리즘뿐만 아니라 새로운 사용자 데이터 형식과 이에 적합한 품질지표의 검증을 수행하는 새로운 알고리즘을 추가할 수 있고, 새로운 데이터 형식과 알고리즘의 적용 방법에 관한 연관 규칙(F)을 추가하고 사용자 데이터 처리 흐름을 제어하는데 활용하는 방식으로 기능적 확장성을 보장할 수 있다.In addition, according to one embodiment of the present invention, the device (100) can add a new algorithm that performs verification of a new user data format and a quality indicator suitable therefor as well as an existing data analysis algorithm, considering that user data may have various types and formats depending on the task assigned to the artificial intelligence, and can ensure functional expandability by adding an association rule (F) regarding a method of applying the new data format and algorithm and utilizing it to control the user data processing flow.

도 5는 본원의 일 실시예에 따른 품질검증조건 설정부의 세부 구성도이다.Figure 5 is a detailed configuration diagram of a quality verification condition setting unit according to one embodiment of the present invention.

도 5를 참조하면, 품질검증조건 설정부(110)는, 사전 분석부(111), 검증조건 예비설정부(112) 및 품질 기준 설정부(113)을 포함할 수 있다.Referring to FIG. 5, the quality verification condition setting unit (110) may include a pre-analysis unit (111), a verification condition preliminary setting unit (112), and a quality standard setting unit (113).

사전 분석부(111)는, 연관 규칙(F)을 이용하여 사용자 데이터(A)의 유형 및 형식을 분석하여 데이터의 구성 정보 및 규격 속성 정보를 포함하는 규격 정보를 생성할 수 있다.The pre-analysis unit (111) can analyze the type and format of user data (A) using association rules (F) to generate standard information including data composition information and standard attribute information.

검증조건 예비설정부(112)는, 검증 대상 식별부(112-1) 및 품질 기준 후보값 생성부(112-2)를 포함할 수 있다.The verification condition preliminary setting unit (112) may include a verification target identification unit (112-1) and a quality criterion candidate value generation unit (112-2).

또한, 본원의 일 실시예에 따른 검증조건 예비설정부(112)는, 사전 분석부(111)에 의해 분석된 상기 규격 정보 및 연관 규칙(F)를 이용하는 적응적 방식으로 사전품질정보(G)를 생성할 수 있다. 예를 들어, 검증 대상 식별부(112-1)는 규격 검증이 필요한 데이터와 내용 기반 데이터 분석 및 검증을 수행할 데이터를 연관 규칙에 따라 구분할 수 있고, 품질 기준 후보값 생성부(112-2)는 상기 검증 대상별 유효한 검증항목 및 세부지표를 정의하고 각 품질 기준에 관하여 상기 분석된 규격 정보에 기초하여 사용자 데이터(A)로부터 연관된 데이터 구조와 속성 정보를 추출 및 결합하여 품질 기준에 관한 유효값의 후보 목록을 포함하는 사전품질정보(G)를 출력으로 제공하는 것일 수 있다.In addition, the verification condition pre-setting unit (112) according to one embodiment of the present invention can generate the pre-quality information (G) in an adaptive manner by using the standard information and association rules (F) analyzed by the pre-analysis unit (111). For example, the verification target identification unit (112-1) can distinguish data requiring standard verification and data to be subject to content-based data analysis and verification according to association rules, and the quality criterion candidate value generation unit (112-2) can define valid verification items and detailed indicators for each verification target, and extract and combine the associated data structure and attribute information from the user data (A) based on the analyzed standard information for each quality criterion to provide the pre-quality information (G) including the candidate list of valid values for the quality criterion as an output.

품질 기준 설정부(113)는, 상기 사전품질정보(G)에 대하여 수정, 추가, 삭제 등의 상세 설정이 가능하도록 사용자에게 제공하여 품질검증조건(B)을 최종 확정할 수 있다.The quality standard setting unit (113) can provide the user with detailed settings such as modification, addition, and deletion of the above-mentioned pre-quality information (G) to finally confirm the quality verification conditions (B).

도 6은 본원의 일 실시예에 따른 데이터 분석 및 품질측정부의 세부 구성도이다.Figure 6 is a detailed configuration diagram of a data analysis and quality measurement unit according to one embodiment of the present invention.

도 6을 참조하면, 데이터 분석 및 품질측정부(120)는, 분석 알고리즘 적용부(121) 및 데이터 검증결과 생성부(122)를 포함할 수 있다.Referring to FIG. 6, the data analysis and quality measurement unit (120) may include an analysis algorithm application unit (121) and a data verification result generation unit (122).

알고리즘 적용부(121)는, 사용자 데이터(A) 및 품질검증조건(B)을 입력으로 하는 기 생성된 데이터 분석 알고리즘에 기초하여 사용자 데이터에 관한 규격 적합성 및 내용 기반 검증에 따른 각 세부지표별 정량적 품질정보 및 기준 적합성 정보를 도출하여 제공할 수 있다.The algorithm application unit (121) can derive and provide quantitative quality information and standard conformity information for each detailed indicator according to standard conformity and content-based verification of user data based on a pre-generated data analysis algorithm that uses user data (A) and quality verification conditions (B) as input.

데이터 검증결과 생성부(122)는, 알고리즘 적용부(121)로부터 데이터의 구조적 특성에 관한 세부 특성을 추출하여 도출된 정량적 품질정보 및 기준 적합성 정보를 이용하여 각 품질 특성에 관한 통계 및 범주화 결과를 연관된 사용자 데이터의 파일 목록과 결합한 품질검증결과를 도출하여, 품질문제의 유형 또는 데이터 특성의 분포에 관한 데이터 검증결과 및 통계정보(C)에 기초하여 사용자 데이터(A)에 관한 시각적으로 표현된 데이터의 품질과 특성을 검색조건으로 활용하는 내용 기반 데이터 시각화 검색(D)이 가능하도록 제공할 수 있다.The data verification result generation unit (122) extracts detailed characteristics regarding the structural characteristics of data from the algorithm application unit (121), derives a quality verification result by combining the statistical and categorization results regarding each quality characteristic with the file list of related user data using quantitative quality information and criterion suitability information derived from the algorithm application unit (121), and provides a content-based data visualization search (D) that utilizes the quality and characteristics of visually expressed data regarding user data (A) as search conditions based on the data verification result and statistical information (C) regarding the type of quality problem or distribution of data characteristics.

도 7은 본원의 일 실시예에 따른 학습 데이터 선정부의 세부 구성도이다.Figure 7 is a detailed configuration diagram of a learning data selection unit according to one embodiment of the present invention.

도 7을 참조하면, 학습 데이터 선정부(130)는, 시각화 리포트 생성부(131), 시각화 조회부(132) 및 데이터 출력부(133)를 포함할 수 있다.Referring to FIG. 7, the learning data selection unit (130) may include a visualization report generation unit (131), a visualization query unit (132), and a data output unit (133).

시각화 리포트 생성부(131)는, 사용자 데이터(A)에 관한 품질검증결과를 이용하여 품질 기준에 따른 적합 여부와 함께 품질지표별로 측정된 데이터 특성에 관하여 사용자 상호작용 가능한 시각화된 품질정보와 상기 특성별 데이터 목록정보를 제공할 수 있다. 예를 들어, 본원의 일 실시예에 따라 본 장치(100)는 품질문제의 유형 또는 데이터 특성의 분포에 관한 데이터 검증결과 및 통계정보(C)에 기초하여 사용자 데이터(A)에 관한 시각적으로 표현된 데이터의 품질과 특성을 검색조건으로 활용하는 내용 기반 데이터 시각화 검색(D)이 가능하도록 출력하여 제공하는 것일 수 있다.The visualization report generation unit (131) can provide visualized quality information that allows user interaction and data list information for each characteristic, with respect to data characteristics measured by quality indicators, along with suitability according to quality criteria, using the quality verification results for user data (A). For example, according to one embodiment of the present invention, the device (100) can output and provide content-based data visualization search (D) that utilizes the quality and characteristics of visually expressed data regarding user data (A) as search conditions based on the data verification results and statistical information (C) regarding the type of quality issue or distribution of data characteristics.

시각화 조회부(132)는, 내용 기반 데이터 시각화 검색(D)을 이용하여 세부품질지표 및 데이터 특성에 따라 연관 데이터의 조회 및 품질에 관한 적합 기준의 검토와 변경을 용이하도록 하여 사용자에 의한 데이터의 품질과 유효 데이터의 선별을 최종 확정하도록 할 수 있다.The visualization query unit (132) can facilitate the review and change of the appropriate criteria for the search and quality of related data according to detailed quality indicators and data characteristics using content-based data visualization search (D), thereby allowing the user to finalize the quality of data and selection of valid data.

데이터 출력부(133)는, 품질 측정 결과에 기초하여 데이터의 이용 목적에 따라 유효 또는 무효 데이터를 선별한 결과로 데이터의 목록 또는 품질검증 보고서를 제공할 수 있다.The data output unit (133) can provide a list of data or a quality verification report as a result of selecting valid or invalid data according to the purpose of data use based on the quality measurement results.

알고리즘 관리부(140)는, 기 생성된 데이터 분석 알고리즘뿐만 아니라 새로운 사용자 데이터 형식과 이에 적합한 품질지표의 검증을 수행하는 새로운 알고리즘을 추가하거나 이용을 용이하도록 한다. 달리 말해, 본원의 일 실시예에 따른 본 장치(100)는, 인공지능에 부여하는 임무에 따라 사용자 데이터(A)가 다양한 유형 및 형식을 가질 수 있음을 고려하여 이용 가능한 알고리즘의 고정된 목록으로 한정하여 동작하지 아니한다.The algorithm management unit (140) adds or facilitates the use of new algorithms that perform verification of new user data formats and quality indicators suitable therefor, as well as previously generated data analysis algorithms. In other words, the present device (100) according to one embodiment of the present invention does not operate by being limited to a fixed list of available algorithms, considering that user data (A) may have various types and formats depending on the task assigned to the artificial intelligence.

작업 관리부(150)은, 알고리즘과 품질지표 정보를 사전 분석부와 학습 데이터 선정부에 제공하여 데이터 처리 흐름을 제어하는 작업 관리부를 포함할 수 있다.The work management unit (150) may include a work management unit that provides algorithm and quality indicator information to the pre-analysis unit and the learning data selection unit to control the data processing flow.

도 8은 본원의 일 실시예에 따른 데이터 유형 및 형식의 의미론적 범주화를 개략적으로 도시한 도면이다.FIG. 8 is a diagram schematically illustrating semantic categorization of data types and formats according to one embodiment of the present invention.

도 8을 참조하면, 인공지능 훈련 데이터 선별 장치는 데이터의 파일 포맷에 따라 데이터 유형을 결정하고, 데이터 유형을 기초로 데이터 분류를 수행할 수 있으며, 분류된 데이터를 사용자 데이터로 설정할 수 있다.Referring to FIG. 8, the artificial intelligence training data selection device can determine a data type according to a file format of the data, perform data classification based on the data type, and set the classified data as user data.

도 9는 본원의 일 실시예에 따른 사전 분석 과정에서 사전조건을 질의응답하기 위한 사용자 인터페이스를 나타낸 도면이다.FIG. 9 is a diagram showing a user interface for asking and answering preconditions in a pre-analysis process according to one embodiment of the present invention.

도 9를 참조하면, 본원의 일 실시예에 따른 본 장치(100)는 사전 분석을 수행 중에 연관 규칙(F)을 적용하기 위한 사전조건(H)을 소정의 사용자 인터페이스를 이용하여 사용자로부터 입력받을 수 있다. 본원의 일 실시예에 따르면, 사전품질정보(G)는 연관 규칙(F)을 이용하여 생성되는 과정에서, 연관 규칙(F)만을 이용하여 생성되는 것이거나, 이용 목적에 따라 다양하게 구성되는 사용자 데이터를 고려하여 소정의 사용자 인터페이스를 이용한 사용자와의 질의응답에 따라 입력받은 사전조건(H)을 참조하여 연관 규칙(F)을 적용함으로써 적응적으로 생성될 수 있다.Referring to FIG. 9, the device (100) according to one embodiment of the present invention may receive a precondition (H) for applying an association rule (F) from a user using a predetermined user interface while performing a pre-analysis. According to one embodiment of the present invention, in the process of generating pre-quality information (G) using the association rule (F), the pre-quality information may be generated only using the association rule (F), or may be adaptively generated by applying the association rule (F) by referring to the precondition (H) input according to a question-and-answer session with a user using a predetermined user interface, taking into account user data configured in various ways depending on the purpose of use.

예를 들어, 소정의 사용자 인터페이스를 이용한 사전조건(H)의 입력은, 사전 분석을 진행 중에 라벨링데이터로 추정되는 데이터의 파일 포맷을 결정하기 위한 사용자 선택에 관한 것이거나, 데이터를 이용하여 구현하고자 하는 인공지능의 임무 유형에 따른 바운딩박스 또는 폴리곤 등 라벨의 형식과 이를 표현하는 좌표값 관련 어노테이션의 위치 및 형식정보 등에 관한 것일 수 있다. 또한, 본원의 일 실시예에 따른 본 장치(100)는 입력된 사전조건(H)에 따라 데이터 스키마를 추출하거나 좌표 데이터의 입력범위 및 면적분포의 중앙값을 추정하여 최소 라벨 크기를 설정하기 위한 기준값 후보로 제시하는 등의 방식으로 동작할 수 있으나, 이에만 한정되는 것은 아니며, 데이터 분석 및 검증 방식을 구현하는 알고리즘의 선택 및 동작을 제어하는데 필요한 사전조건(H)에 관하여 사용자의 개입 및 확인을 요구하는 방식으로 적응적으로 데이터를 분석하여 생성하는 것일 수 있다.For example, the input of a precondition (H) using a given user interface may relate to a user selection for determining a file format of data estimated as labeling data during a pre-analysis, or may relate to information on the format of a label, such as a bounding box or polygon, and the location and format of annotations related to coordinate values expressing the label, depending on the type of artificial intelligence task to be implemented using the data. In addition, the present device (100) according to one embodiment of the present invention may operate in a manner such as extracting a data schema according to the input precondition (H), or estimating the input range of coordinate data and the median of the area distribution to present them as a reference value candidate for setting the minimum label size, but is not limited thereto, and may adaptively analyze and generate data in a manner that requires user intervention and confirmation regarding the precondition (H) necessary for controlling the selection and operation of an algorithm that implements a data analysis and verification method.

또한, 본원의 일 실시예에 따른 본 장치(100)는 사전조건(H) 정보를 사전품질정보(G) 또는 사용자에 의해 검토 및 수정되어 최정 확정된 품질검증조건(B) 정보와 함께 데이터베이스에 저장하여 보유할 수 있다. 이에 따라, 사용자는 언제든 사전조건(H)을 변경하여 사전 분석을 다시 수행하거나, 동일한 목적으로 추가 생성된 새로운 사용자 데이터에 대하여 동일한 사전조건(H)을 포함하는 사전품질정보(G) 또는 확정된 품질검증조건(B) 정보를 재사용하여 사용자 설정을 빠르게 완료하고 품질검증을 시작할 수 있도록 제공할 수 있다.In addition, the device (100) according to one embodiment of the present invention can store and retain in a database the precondition (H) information together with the prequality information (G) or the quality verification condition (B) information that has been reviewed and modified by the user and finalized. Accordingly, the user can change the precondition (H) at any time to perform the pre-analysis again, or can provide the user with the ability to quickly complete the user settings and start the quality verification by reusing the prequality information (G) or the finalized quality verification condition (B) information that includes the same precondition (H) for new user data additionally generated for the same purpose.

도 10은 본원의 일 실시예에 따른 기 생성된 데이터 분석 알고리즘을 이용한 규격 적합성 및 내용 기반 검증 작업의 상태와 이력 정보를 제공하는 작업관리 화면을 나타낸 도면이다.FIG. 10 is a drawing showing a work management screen that provides status and history information of a standard conformity and content-based verification task using a pre-generated data analysis algorithm according to one embodiment of the present invention.

도 10을 참조하면, 본 장치(100)는 상기 품질검증조건(B)을 이용하는 기 생성된 데이터 분석 알고리즘에 기초하여 상기 입력된 사용자 데이터(A)의 규격 적합성 및 내용 기반 검증에 따른 데이터 검증결과 및 통계정보(C)를 도출할 수 있다. 또한, 도 10을 참조하면, 본 장치(100)에 의해 제공되는 작업관리 화면은 사용자 데이터(A)에 관한 검증 작업의 상태를 포함하는 작업 상태 표시부(1001)와 검증을 수행할 새로운 데이터를 입력할 수 있는 작업 등록부(1002)가 제공될 수 있다. 예를 들어, 작업 상태 표시부(1001)은 작업의 대기중, 완료, 중단 여부 또는 진행률을 나타내는 작업의 상태와 사용자에 의해 입력된 데이터의 이름, 검사 중인 데이터의 수량 및 주요 데이터 형식, 검사 일시 등의 정보를 포함할 수 있고 진행 중인 작업의 진행률 또는 작업의 결과를 열람할 수 있는 결과조회부(1003)를 호출하는 사용자 인터페이스가 포함될 수 있다.Referring to FIG. 10, the device (100) can derive data verification results and statistical information (C) according to the standard conformity and content-based verification of the input user data (A) based on the pre-generated data analysis algorithm using the quality verification condition (B). In addition, referring to FIG. 10, the work management screen provided by the device (100) may be provided with a work status display unit (1001) including the status of a verification task regarding the user data (A) and a work registration unit (1002) in which new data to be verified can be input. For example, the work status display unit (1001) may include information such as the status of the task indicating whether the task is waiting, completed, stopped, or the progress, the name of the data input by the user, the quantity and main data format of the data being inspected, the inspection date, and the like, and may include a user interface that calls a result inquiry unit (1003) in which the progress of the task in progress or the result of the task can be viewed.

본원의 일 실시예에 따른 작업 상태 표시부(1001)에 표시되는 데이터 수량과 주요 데이터 형식은 전술한 사전 분석을 통해 생성될 수 있다. 예를 들어, 입력된 사용자 데이터(A)를 구성하는 데이터 형식에 관한 구성 정보는 사용자 데이터(A)에 관한 전체 파일 목록으로부터 각각의 파일 포맷을 조사하여 파일 포맷에 관한 범주화된 목록을 생성하면서 해당 형식의 파일이 몇 번 발생하였는지를 함께 기록할 수 있고 그 중 발생 빈도가 가장 높은 형식을 선택하는 것으로 결정될 수 있다. 또한, 가장 높은 발생 빈도를 갖는 파일 포맷에 관하여 미리 정의된 아이콘 또는 이미지를 작업 상태 표시부(1001)에 표시하여 각각의 작업이 주로 어떤 형식의 데이터를 갖는지를 시각적으로 용이하게 구분할 수 있도록 제공될 수 있으나, 작업 상태 표시부(1001)에 표시되는 정보와 표시 방식은 이에 한정되지 않는다.The data quantity and main data format displayed on the task status display unit (1001) according to one embodiment of the present invention can be generated through the aforementioned prior analysis. For example, the configuration information regarding the data format constituting the input user data (A) can be determined by examining each file format from the entire file list regarding the user data (A) to generate a categorized list regarding the file format, recording the number of times a file of the corresponding format occurs, and selecting the format with the highest occurrence frequency. In addition, a predefined icon or image regarding the file format with the highest occurrence frequency can be displayed on the task status display unit (1001) so that it is easy to visually distinguish which format of data each task mainly has, but the information and the display method displayed on the task status display unit (1001) are not limited thereto.

또한, 본원의 일 실시예에 따른 본 장치(100)에 의해 제공되는 작업관리 화면은 작업 상태 표시부(1001)에 표시되는 각각의 데이터에 관하여 부여된 검증 대상 및 품질 기준을 조회 및 수정하여 변경된 조건으로 검증을 다시 시작하거나 작업의 시작과 중단을 선택할 수 있고, 검증 이력을 삭제하거나 작업 등록부(1002)를 이용하여 새로운 데이터를 등록하면서 다른 데이터에 관해 설정했던 사전조건(H) 및 품질검증조건(B)을 복제하거나 사전 분석을 통한 새로운 검증조건을 설정하여 적용할 수 있다. 또한, 본원의 일 실시예에 따르면, 사용자 데이터(A)에 관한 등록 및 검증이력을 데이터베이스에 저장하여 보유하고 사용자가 조회할 수 있도록 제공할 수 있다. 이때, 사전조건(H)을 포함하는 사전품질정보(G) 또는 확정된 품질검증조건(B) 정보를 함께 저장하여 사용자 데이터(A)에 관한 검증조건의 변경이력을 관리할 수 있도록 제공할 수 있다.In addition, the work management screen provided by the device (100) according to one embodiment of the present invention can check and modify the verification target and quality criteria assigned to each data displayed on the work status display unit (1001), restart verification with changed conditions, select start and stop of work, delete verification history, or register new data using the work registration unit (1002) while duplicating preconditions (H) and quality verification conditions (B) set for other data, or set and apply new verification conditions through prior analysis. In addition, according to one embodiment of the present invention, the registration and verification history for user data (A) can be stored and retained in a database and provided so that the user can check it. At this time, pre-quality information (G) including the precondition (H) or confirmed quality verification condition (B) information can be stored together so that the change history of verification conditions for user data (A) can be managed.

도 11은 본원의 일 실시예에 따른 규격 적합성 및 내용 기반 검증으로 도출된 정량적 품질정보와 기준 적합성 정보를 요약하여 제공하는 검증결과 요약정보 제공 화면을 나타낸 도면이다.Figure 11 is a drawing showing a verification result summary information provision screen that summarizes and provides quantitative quality information and standard conformity information derived from standard conformity and content-based verification according to one embodiment of the present invention.

도 11을 참조하면, 본 장치(100)에 의해 제공되는 검증결과 요약정보 제공 화면에는 검증 대상 데이터 이름 및 수량 등 검사개요 정보와 함께 규격 적합성 검증 및 내용 기반 검증항목의 각각의 검증에 따른 요약결과 표시부(1004)가 포함될 수 있고, 요약결과의 세부 항목을 선택하여 상세결과 표시부(1005)의 표시에 관한 사용자 인터페이스를 포함할 수 있다. 예를 들어, 본 장치(100)는 기 생성된 데이터 분석 알고리즘을 이용하여 상기 품질검증조건(B)에 따라 입력된 사용자 데이터(A)를 분석하여 정량적 품질정보 및 기준 적합성 정보를 산출하고 요약결과 및 상세결과를 제공할 수 있다.Referring to FIG. 11, the verification result summary information provision screen provided by the present device (100) may include a summary result display section (1004) according to each verification of standard conformity verification and content-based verification items along with inspection overview information such as the name and quantity of the verification target data, and may include a user interface for displaying a detailed result display section (1005) by selecting detailed items of the summary result. For example, the present device (100) may analyze user data (A) entered according to the quality verification conditions (B) using a previously generated data analysis algorithm to produce quantitative quality information and standard conformity information and provide a summary result and a detailed result.

본원의 일 실시예에 따르면, 본 장치(100)에 의해 제공되는 품질정보는 상기 사전 분석으로 결정된 상기 데이터의 구조적 특성에 관한 각 세부 특성을 추출하고 통계정보를 생성하거나 범주화하여 결정될 수 있고, 연관된 사용자 데이터(A)의 목록과 결합하여 품질검증결과를 제공하는데 이용될 수 있다. 또한, 본원의 일 실시예에 따르면, 본 장치(100)에 의해 제공되는 기준 적합성 정보는 상기 품질정보에 관하여 상기 품질검증조건(B)에 포함된 품질 기준의 부합여부에 따라 적합 또는 부적합을 판정하여 결정되는 것일 수 있다.According to one embodiment of the present invention, the quality information provided by the present device (100) may be determined by extracting each detailed characteristic regarding the structural characteristics of the data determined by the above-described pre-analysis and generating or categorizing statistical information, and may be used to provide a quality verification result by combining it with a list of associated user data (A). In addition, according to one embodiment of the present invention, the criterion suitability information provided by the present device (100) may be determined by determining suitability or unsuitability according to whether the quality information complies with a quality criterion included in the quality verification condition (B).

본원의 일 실시예에 따르면, 본 장치(100)에 의해 제공되는 검증결과 요약정보는 사용자에 의해 입력된 각 세부품질지표에 관한 품질 기준 외에도 검사 항목에 관한 목표 품질 기준을 정량목표로 이용하여 적합성 여부를 표시할 수 있다. 예를 들어, 입력된 사용자 데이터(A)에 관하여 세부품질지표 각각에 설정된 품질 기준에 따라 적합 여부를 판정하여 각 검사항목별로 세부품질지표별 검증 결과를 생성하고, 품질 기준에 위배되는 사용자 데이터 파일의 수량의 통계를 산출하여 그 비율 또는 수량이 검사항목의 목표품질 기준, 즉 정량목표를 달성하였는지에 관하여 각 검사항목별로 확인함으로써 적합 여부가 결정될 수 있다.According to one embodiment of the present invention, the verification result summary information provided by the present device (100) can indicate suitability by using the target quality criteria for the inspection items as quantitative goals in addition to the quality criteria for each detailed quality index input by the user. For example, the suitability is determined based on the quality criteria set for each detailed quality index for the input user data (A), and the verification result for each detailed quality index is generated for each inspection item, and statistics on the quantity of user data files that violate the quality criteria are calculated and whether the ratio or quantity has achieved the target quality criteria, i.e., the quantitative goal, of the inspection items, thereby determining suitability.

또한, 도 11을 참조하면, 각 검사 항목의 정량목표에 관한 달성 또는 미달성 여부를 적합 또는 부적합 데이터의 비율 또는 수량으로 표시하는 것만 아니라 막대그래프 또는 파이차트 등의 시각화 방식으로 표시할 수 있다. 예를 들어, 그래프는 도 11의 막대그래프에 표시된 점선 등으로 사용자가 설정한 정량목표를 표시하고 적합과 부적합 비율을 구분된 색상으로 표시될 수 있다. 또한, 실시예에 따라 각각의 검증항목별 요약결과 표시부에는 상세 결과를 호출 또는 표시하기 위한 버튼 또는 링크 등의 사용자 인터페이스가 포함될 수 있다.In addition, referring to FIG. 11, whether the quantitative goal of each inspection item is achieved or not may be displayed not only as a ratio or quantity of suitable or unsuitable data, but also in a visualization format such as a bar graph or a pie chart. For example, the graph may display a quantitative goal set by a user as a dotted line, etc., as shown in the bar graph of FIG. 11, and the suitable and unsuitable ratios may be displayed in different colors. In addition, depending on the embodiment, the summary result display section for each verification item may include a user interface such as a button or link for calling or displaying detailed results.

도 12는 본원의 일 실시예에 따른 규격 적합성 검증에 관한 상세 결과를 조회하는 검증결과 상세정보 제공 화면을 나타낸 도면이다.Figure 12 is a drawing showing a verification result detailed information provision screen for viewing detailed results regarding standard conformity verification according to one embodiment of the present invention.

도 12를 참조하면, 본 장치(100)에 의해 제공되는 검증결과 상세정보 제공 화면은 규격 적합성 검증에 관한 각각의 검증항목에 관한 정량 목표 대비 적합 여부판정 결과 및 검증 대상 데이터의 수량과 품질문제가 발생한 데이터의 수량 등의 검증개요와 검증항목에 관한 세부품질지표의 상세 검증결과를 그래프로 시각화하여 제공하는 상세결과 표시부(1005)를 포함할 수 있다. 예를 들어, 상세결과 표시부(1005)는 사용자가 주의를 기울여야할 품질 문제가 무엇인지 용이하게 식별할 수 있도록 각각의 세부품질지표에 관한 품질문제가 발생한 데이터의 비율을 표시하거나 발생 빈도에 따라 정렬하여 표시하고 적합 또는 부적합 판정 결과를 함께 표시하는 방식으로 나타낼 수 있으나, 이에 한정되지 않고 데이터의 특성 또는 검증항목에 따라 다양한 방식(도 13의 (1006) 또는 (1007) 등)으로 표현될 수 있다.Referring to FIG. 12, the verification result detailed information provision screen provided by the present device (100) may include a detailed result display section (1005) that provides a verification overview, such as the result of the judgment of conformity with respect to the quantitative target for each verification item for the standard conformity verification, the quantity of verification target data, the quantity of data with quality issues, etc., and the detailed verification result of the detailed quality indicator for the verification item, in a visualized form of a graph. For example, the detailed result display section (1005) may display the ratio of data with quality issues for each detailed quality indicator or display them sorted by occurrence frequency so that the user can easily identify what quality issue he or she should pay attention to, and may display the result of the conformity or unconformity judgment together, but is not limited thereto and may be expressed in various ways (such as (1006) or (1007) of FIG. 13) depending on the characteristics of the data or the verification item.

또한, 도 12를 참조하면, 본 장치(100)에 의해 제공되는 상세결과 표시부(1005)에 포함된 목록보기 버튼 또는 각 그래프 또는 차트의 막대 또는 파이 등시각적으로 표현된 각각의 품질지표에 해당하는 개별 항목을 선택하여 사용자 데이터 목록으로부터 각각의 품질문제 유형별 데이터 목록(I)을 조회할 수 있다. 예를 들어, 키포인트 라벨이 부여된 영상 데이터에 대하여 검증을 실시하였다면 조회된 데이터 목록(I)에 대하여 품질문제의 유형 및 적합여부 또는 파일의 형식 및 이름에 따라 검색하거나 정렬하여 상세 조회할 수 있고, 데이터 목록(I)으로부터 키포인트 라벨을 이미지 데이터에 중첩하는 방식으로 미리보기를 제공하는 등의 예와 같이 원천데이터와 라벨링데이터를 상호 참조하여 조회하는 내용 기반 데이터 시각화 검색(D)으로 동작할 수 있다.In addition, referring to FIG. 12, the list view button included in the detailed result display unit (1005) provided by the present device (100) or the individual items corresponding to each quality indicator visually expressed as bars or pies of each graph or chart can be selected to search for a data list (I) for each quality issue type from the user data list. For example, if verification has been performed on image data to which keypoint labels have been assigned, the searched data list (I) can be searched for in detail by searching or sorting according to the type and suitability of the quality issue or the format and name of the file, and the source data and labeling data can be cross-referenced and searched for as a content-based data visualization search (D), such as providing a preview by overlapping keypoint labels on image data from the data list (I).

도 13은 본원의 일 실시예에 따른 내용 기반 검증에 관한 상세 결과의 조회와 인공지능 학습용 데이터셋을 선별하는 것을 설명하기 위한 도면이다.Figure 13 is a diagram for explaining the detailed results of content-based verification according to one embodiment of the present invention and the selection of a data set for artificial intelligence learning.

도 13을 참조하면, 본 장치(100)는 구조적 데이터 표시부(1006)를 포함하여 다양한 통계 시각화 방식을 제공하는 데이터 시각화 표시부(1007)를 이용하여, 사용자 데이터(A)에 관한 상기 품질검증결과의 품질정보와 기준 적합성 정보를 데이터의 구조적 특성에 관하여 시각적으로 설명가능하면서, 시각적으로 표현된 데이터의 품질과 특성을 검색조건으로 활용하는 내용 기반 데이터 시각화 검색(D) 방식으로 사용자 데이터(A)를 조회하거나 선별하여 인공지능 훈련을 위한 유효 데이터셋(E)을 도출하여 제공할 수 있다.Referring to FIG. 13, the device (100) uses a data visualization display unit (1007) that provides various statistical visualization methods including a structural data display unit (1006), so that quality information and standard suitability information of the quality verification result regarding the user data (A) can be visually explained in terms of the structural characteristics of the data, and a content-based data visualization search (D) method that utilizes the quality and characteristics of the visually expressed data as search conditions can be used to retrieve or select the user data (A) and derive and provide a valid data set (E) for artificial intelligence training.

또한, 본원의 일 실시예에 따라 본 장치(100)가 제공하는 내용 기반 데이터 시각화 검색(D)을 가능하도록 하기 위하여, 규격 적합성 및 내용 기반 검증 결과를 입력으로 하여 표시 대상 항목을 시각적으로 변환하고 각각의 항목에 관하여 연관된 데이터 목록을 보유할 수 있다. 예를 들어, 상세결과 표시부(1005)는 데이터 시각화 표시부(1007)를 이용하여 검증 결과를 품질문제 유형별로 시각화하고 각각의 시각화 요소를 선택할 때 연관된 품질문제에 관한 데이터 목록(I)을 제공하거나, 부정확한 비식별화 문제를 검증하기 위하여 기 생성된 데이터 분석 알고리즘으로서 얼굴검출 알고리즘을 이용하여 영상 내 사람의 얼굴을 검출하고 각 데이터의 얼굴 검출 여부에 관한 통계 정보를 시각화하는 방식으로 내용 기반 데이터 시각화 검색(D)을 활용하여 데이터 특성을 확인 및 조회하고 데이터 목록(I)을 선별할 수 있다.In addition, in order to enable content-based data visualization search (D) provided by the device (100) according to one embodiment of the present invention, standard conformity and content-based verification results may be input to visually convert display target items and maintain a list of related data for each item. For example, the detailed result display unit (1005) may use the data visualization display unit (1007) to visualize verification results by quality issue type and provide a list of data (I) regarding related quality issues when selecting each visualization element, or may use a face detection algorithm as a previously generated data analysis algorithm to detect a person's face in an image and visualize statistical information regarding whether or not a face is detected for each data, thereby utilizing the content-based data visualization search (D) to confirm and search data characteristics and select a list of data (I).

본원의 일 실시예에 따르면, 본 장치(100)가 제공하는 데이터 시각화 표시부(1007)는 내용 기반 데이터 분석 및 검증 결과에 관하여 통계값을 포함하여 데이터의 구조적 특성을 용이하게 확인할 수 있도록 2차원 또는 3차원 형식으로 시각화하여 제공할 수 있다. 예를 들어, 구조적 데이터 표시부(1006)는 라벨링데이터의 구문구조 등 데이터의 계층 구조를 표시하여 각각의 하위 요소의 규격 적합성에 관한 품질검증 결과를 확인할 수 있으면서 히스토그램, 산점도, 박스플롯 등의 시각화 방식을 결합하여 어노테이션에 관한 데이터 인스턴스의 분포 또는 데이터 특성 사이의 상관관계를 표시할 수 있다.According to one embodiment of the present invention, the data visualization display unit (1007) provided by the present device (100) can provide data in a two-dimensional or three-dimensional format so that the structural characteristics of the data can be easily confirmed, including statistical values, with respect to the content-based data analysis and verification results. For example, the structural data display unit (1006) can display the hierarchical structure of the data, such as the syntactic structure of the labeling data, so that the quality verification results regarding the conformity of each lower element to the standard can be confirmed, and visualization methods such as histograms, scatter plots, and box plots can be combined to display the distribution of data instances regarding annotations or the correlation between data characteristics.

또한, 본원의 일 실시예에 따르면, 데이터 시각화 표시부(1007)를 이용하여 제공되는 시각화 정보는 원천데이터 및 라벨링데이터를 참조하여 도출된 내용 기반 검증 결과로부터 시각화된 정보를 이용하여 검색 도구로 활용할 수 있다. 예를 들어, 객체 라벨링 영역 정보를 이용하여 원천데이터인 이미지 데이터로부터 라벨링 영역에 대한 선예도를 조사하고 전체 데이터에 대한 선예도 분포를 히스토그램을 이용하여 표시하거나 최솟값과 최댓값에 대한 문턱값(threshold values, cut-off values)을 조절할 수 있도록 하여 범위 내의 데이터만을 선별할 수 있거나, 바운딩박스 또는 폴리곤 등으로 정의된 라벨링 영역에 대한 위치와 크기에 관하여 히트맵을 생성할 수 있거나, 히스토그램의 막대, 히트맵의 격자 등 각각의 다양한 시각화 방식에 따라 시각화된 데이터의 일부 영역을 선택하여 해당 영역이 나타내는 특성 또는 값의 범위에 포함된 상세 데이터 목록(I)을 출력하거나 내용 기반 데이터 시각화 검색(D)을 수행하도록 동작할 수 있다.In addition, according to one embodiment of the present invention, the visualization information provided using the data visualization display unit (1007) can be utilized as a search tool by using the visualized information from the content-based verification result derived by referring to the original data and the labeling data. For example, by using the object labeling area information, the sharpness of the labeling area from the original data, the image data, can be investigated, and the sharpness distribution of the entire data can be displayed using a histogram, or the threshold values (cut-off values) for the minimum and maximum values can be adjusted so that only the data within the range can be selected, or a heat map can be generated with respect to the location and size of the labeling area defined by a bounding box or a polygon, or a partial area of the visualized data can be selected according to various visualization methods, such as a bar of a histogram or a grid of a heat map, and a detailed data list (I) included in the range of the characteristics or values indicated by the corresponding area can be output, or a content-based data visualization search (D) can be performed.

또한, 본원의 일 실시예에 따르면, 본 장치(100)는 데이터 시각화 표시부(1007)를 다양한 방식으로 조합하여 활용하는 내용 기반 데이터 시각화 검색(D)을 이용하여 사용자 데이터(A)의 내용 기반 특성에 관하여 상세조회할 수 있다. 예를 들어, 영상 내 인물의 손동작을 분류하는 인공지능 모델의 경우 주요한 학습 데이터로 손가락을 포함하는 손에 관한 키포인트 또는 조인트 정보를 필요로 할 때, 사용자는 구조적 데이터 표시부(1006)로부터 손에 관한 어노테이션을 선택하고 손 부위의 키포인트 수량 및 좌표값 범위 등 규격 기준을 충족하는 데이터 목록을 조회하여 해당 목록으로부터 데이터 시각화 표시부(1007)를 이용하여 다양한 품질지표 및 데이터 속성을 확인하고 손의 위치 또는 크기에 따라 유효 데이터를 선별하거나 손동작을 수행하는 액터(Actor)의 성별 또는 연령대를 기준으로 데이터 인스턴스를 선별하는 등의 방식으로 결정되는 것일 수 있다. 다만, 이러한 활용 예에 한정되지 않고 데이터의 특성과 이용 목적에 따라 다양한 활용예가 존재할 수 있다.In addition, according to one embodiment of the present invention, the device (100) can perform detailed inquiry on the content-based characteristics of the user data (A) by using the content-based data visualization search (D) that utilizes the data visualization display unit (1007) in various combinations. For example, in the case of an artificial intelligence model that classifies the hand movements of a person in an image, when keypoint or joint information on a hand including fingers is required as the main learning data, the user may select an annotation on the hand from the structural data display unit (1006), search for a list of data that satisfies the standard criteria such as the number of keypoints and the range of coordinate values of the hand part, and use the data visualization display unit (1007) to check various quality indicators and data properties from the list, and select valid data based on the position or size of the hand, or select data instances based on the gender or age group of the actor performing the hand movement. However, the present invention is not limited to these utilization examples, and various utilization examples may exist depending on the characteristics and purpose of use of the data.

또한, 본원의 일 실시예에 따르면, 본 장치(100)는 학습 데이터셋(E)을 도출하기 위해 사용자에 의해 측정된 품질 정보가 갖는 정량화된 품질척도에 기초하여 선별된 유효 데이터의 목록(I) 또는 품질검증 결과에 관한 보고서를 출력으로 제공할 수 있다. 예를 들어, 본원의 일 실시예에 따라 본 장치(100)가 제공하는 품질검증 결과에 관한 보고서에 기초하여 데이터의 구성과 품질상태를 확인하고 수집 또는 가공에 관한 요구되는 보완작업을 결정하기 위하여 그 대상 파일 목록을 결정하는 등의 의사결정에 활용하는 것이거나, 데이터 시각화 표시부(1007)를 이용하여 선별된 유효 데이터 목록(I)에 기초하여 사용자 데이터(A)를 인공지능 알고리즘에 입력하기 위한 형식에 관하여 원천데이터의 파일 포맷을 기준으로 변환하거나 라벨링데이터의 구문구조를 종래의 공지된 MS COCO 또는 Pascal VOC 등의 형식으로 변환하거나 인공지능 알고리즘의 교차검증을 위한 데이터를 분할하는 작업에 활용하는 것일 수 있다.In addition, according to one embodiment of the present invention, the device (100) may output a list (I) of valid data selected based on a quantified quality scale of quality information measured by the user to derive a learning data set (E) or a report on the results of quality verification. For example, based on the report on the results of quality verification provided by the device (100) according to one embodiment of the present invention, it may be utilized for decision-making such as determining a list of target files to confirm the composition and quality status of data and determine required supplementary work regarding collection or processing, or it may be utilized for converting the format for inputting user data (A) into an artificial intelligence algorithm based on the list (I) of valid data selected using the data visualization display unit (1007) based on the file format of the original data, converting the syntax structure of the labeling data into a conventionally known format such as MS COCO or Pascal VOC, or dividing data for cross-verification of the artificial intelligence algorithm.

또한, 본원의 일 실시예에 따르면, 본 장치(100)가 제공하는 인공지능 훈련을 위한 학습 데이터셋(E)은 교차검증을 위한 데이터셋으로 분할하여 생성될 수 있다. 예를 들어, 상기 선정된 유효 데이터 목록(I)에 대하여 인공지능 알고리즘의 훈련에 따른 교차검증을 위한 학습 데이터셋, 검증 데이터셋, 시험 데이터셋으로 분할하거나 사용자가 정의한 비율에 따라 병합 또는 분할하여 제공할 수 있다.In addition, according to one embodiment of the present invention, the learning data set (E) for artificial intelligence training provided by the present device (100) may be generated by dividing it into data sets for cross-validation. For example, the selected valid data list (I) may be divided into learning data sets, verification data sets, and test data sets for cross-validation according to training of the artificial intelligence algorithm, or may be merged or divided and provided according to a ratio defined by the user.

이와 같이, 본 장치(100)는 대량의 사용자 데이터(A)에 관하여 객관적으로 정의된 품질검증조건(B)에 따라 기 생성된 데이터 분석 알고리즘을 이용하여 규격 적합성 검증 및 내용 기반의 데이터 분석 및 검증을 실시하고, 그 결과로부터 품질문제의 유형 또는 데이터 특성의 분포에 관한 데이터 검증결과 및 통계정보(C)에 기초하여 사용자 데이터(A)에 관한 시각적으로 표현된 데이터의 품질과 특성을 검색조건으로 활용하는 내용 기반 데이터 시각화 검색(D)이 가능하도록 제공함으로써, 데이터의 이용 목적에 따라 각 품질문제의 유형 또는 데이터 특성에 관한 유효 데이터 목록(I)을 검색 및 조회하여 선별하거나 인공지능 훈련을 위한 학습 데이터셋(E)을 구성할 수 있어, 시청각 데이터와 같은 대량의 데이터를 일일이 사람의 눈과 귀로 확인하는 수고를 덜 수 있고 객관적인 품질지표를 이용하여 인공지능 훈련에 필요한 데이터를 용이하게 확보하거나 데이터 재수집 또는 재가공을 위한 의사결정을 빠르게 수행할 수 있어 인공지능 프로젝트의 업무 효율성이 향상될 수 있다.In this way, the present device (100) performs standard conformity verification and content-based data analysis and verification using a pre-generated data analysis algorithm according to objectively defined quality verification conditions (B) with respect to a large amount of user data (A), and provides a content-based data visualization search (D) that utilizes the quality and characteristics of visually expressed data regarding the user data (A) as search conditions based on the data verification results and statistical information (C) regarding the type of quality issue or distribution of data characteristics from the results, thereby enabling a list of valid data (I) regarding each type of quality issue or data characteristic to be searched and selected according to the purpose of data use, or a learning data set (E) for artificial intelligence training to be configured, thereby reducing the effort of individually checking a large amount of data such as audiovisual data with one's eyes and ears, and making it easy to secure data necessary for artificial intelligence training using objective quality indicators or quickly perform decisions for data re-collection or re-processing, thereby improving the work efficiency of an artificial intelligence project.

이하에서는 상기에 자세히 설명된 내용을 기반으로, 본원의 동작 흐름을 간단히 살펴보기로 한다.Below, we will briefly review the operating flow of this system based on the detailed explanation above.

도 14 내지 도 16은 본원의 일 실시예에 따른 인공지능 훈련 데이터 선별 장치의 제어 방법에 대한 동작 흐름도이다.Figures 14 to 16 are flowcharts of operations for a control method of an artificial intelligence training data selection device according to one embodiment of the present invention.

도 14 내지 도 16에 도시된 인공지능 훈련 데이터 선별 장치의 제어 방법은 앞서 설명된 인공지능 훈련 데이터 선별 장치에 의하여 수행될 수 있다. 따라서, 이하 생략된 내용이라고 하더라도 인공지능 훈련 데이터 선별 장치에 대하여 설명된 내용은 인공지능 훈련 데이터 선별 장치의 제어 방법에 대한 설명에도 동일하게 적용될 수 있다.The control method of the artificial intelligence training data selection device illustrated in FIGS. 14 to 16 can be performed by the artificial intelligence training data selection device described above. Therefore, even if the content is omitted below, the content described for the artificial intelligence training data selection device can be equally applied to the description of the control method of the artificial intelligence training data selection device.

도 14는 본원의 일 실시예에 따른 인공지능 훈련 데이터 선별 장치의 제어 방법에 대한 동작 흐름도이다.Figure 14 is an operational flow diagram of a control method of an artificial intelligence training data selection device according to one embodiment of the present invention.

도 14를 참조하면, 인공지능 훈련 데이터 선별 장치의 제어 방법('인공지능 훈련 데이터 선별 방법'이라고도 지칭함.)은 단계 S110 내지 S130을 포함할 수 있다.Referring to FIG. 14, a control method of an artificial intelligence training data selection device (also referred to as an 'artificial intelligence training data selection method') may include steps S110 to S130.

S110 단계에서, 본 장치는 사용자 데이터에 사전 분석을 수행하고, 기 정의된 연관 규칙을 이용하여 검증 대상과 품질 기준을 포함하는 품질검증조건을 설정할 수 있다.At step S110, the device can perform a pre-analysis on user data and set quality verification conditions including verification targets and quality criteria using predefined association rules.

다음으로 S120 단계에서, 본 장치는 기 생성된 데이터 분석 알고리즘 및 품질검증조건을 기초로 규격 특성 및 내용 기반 특성을 포함하는 사용자 데이터의 데이터 특성을 검증하여 사용자 데이터의 품질 정보를 측정할 수 있다.Next, in step S120, the device can measure quality information of user data by verifying data characteristics of user data including standard characteristics and content-based characteristics based on previously generated data analysis algorithms and quality verification conditions.

다음으로 S130 단계에서, 본 장치는 데이터 특성 및 품질 정보에 기초하여 인공지능 훈련에 유효한 학습 데이터를 선정할 수 있다.Next, at step S130, the device can select learning data valid for artificial intelligence training based on data characteristics and quality information.

도 15는 본원의 일 실시예에 따른 다른 단계적 구성을 포함하는 설명가능한 품질정보를 이용하는 인공지능 훈련 데이터 선별 방법의 동작 흐름도이다.FIG. 15 is a flowchart of an artificial intelligence training data selection method using explainable quality information including another stepwise configuration according to one embodiment of the present invention.

도 15를 참조하면, 단계 S210에서 품질검증조건 설정부(110)는, 입력된 사용자 데이터(A)에 대한 규격 정보를 생성하고 기 정의된 연관 규칙(F)을 이용하여 품질검증조건(B)에 관한 사전품질정보(G)를 적응적으로 생성할 수 있다. 이 단계에서 또는 이 단계에 앞서 사용자 데이터(A)가 본 장치(100)에 입력될 수 있고, 생성된 사전품질정보(G)는 사용자에 의해 검토 및 수정을 용이하게 하는 사용자 인터페이스를 통해 제공되고 사용자 판단에 따라 최종 확정된 품질검증조건(B)을 출력으로 제공할 수 있다.Referring to FIG. 15, in step S210, the quality verification condition setting unit (110) can generate standard information for the input user data (A) and adaptively generate pre-quality information (G) regarding the quality verification condition (B) using the pre-defined association rule (F). In this step or before this step, the user data (A) can be input into the device (100), and the generated pre-quality information (G) can be provided through a user interface that facilitates review and modification by the user, and can provide the final quality verification condition (B) as an output according to the user's judgment.

구체적으로, 단계 S210은 입력된 사용자 데이터(A)의 유형 및 형식을 분석하여 규격 정보를 생성하는 단계 S211, 상기 규격 정보를 이용하여 적용 가능한 세부품질지표와 유효한 기준값의 후보를 정의하는 검증조건 예비설정 단계 S212 및 품질검증조건(B)을 검토하거나 수정하여 확정하는 품질 기준 설정 단계 S213을 포함할 수 있다. 이와 관련하여, 단계 S211에서 규격 분석부(111)는 입력된 사용자 데이터(A)의 상기 입력된 사용자 데이터의 유형 및 형식에 따른 규격 정보를 생성할 수 있고, 단계 S212에서 검증조건 예비설정부(112)는 입력된 사용자 데이터(A)로부터 검증 대상을 식별하고 적용 가능한 데이터 분석 및 검증조건에 관하여 품질 기준으로 지정 가능한 유효값의 후보 목록을 적응적으로 생성할 수 있으며, 단계 S213에서 품질 기준 설정부(113)는 상기 검증 대상 및 초기 설정된 유효값의 후보 목록에 대하여 수정, 추가, 삭제 등의 상세 설정이 가능하도록 사용자에게 제공하여 품질검증조건(B)을 최종 확정할 수 있다.Specifically, step S210 may include step S211 of generating standard information by analyzing the type and format of the input user data (A), step S212 of preliminary setting verification conditions by using the standard information to define candidates for applicable detailed quality indicators and valid reference values, and step S213 of reviewing or modifying and confirming the quality verification conditions (B). In this regard, in step S211, the standard analysis unit (111) may generate standard information according to the type and format of the input user data (A) of the input user data, and in step S212, the verification condition preliminary setting unit (112) may identify a verification target from the input user data (A) and adaptively generate a candidate list of valid values that can be designated as quality criteria with respect to applicable data analysis and verification conditions, and in step S213, the quality standard setting unit (113) may provide the user with detailed settings such as modification, addition, and deletion for the verification target and the candidate list of initially set valid values, thereby finally confirming the quality verification conditions (B).

다음으로, 단계 S220에서 데이터 분석 및 품질측정부(120)는, 입력된 사용자 데이터(A)에 대하여 품질검증조건(B)에 따른 정량적 품질정보 및 기준 적합성 정보를 생성할 수 있다. 여기서, 기 생성된 데이터 분석 알고리즘은, 규격 적합성 및 내용 기반 검증에 관하여 기 정의된 검증항목별로 상기 사용자 데이터(A)와 상기 품질 기준을 입력으로 하여 데이터의 규격 또는 내용 기반 특성을 분석 및 평가한 결과를 출력으로 제공하는 알고리즘을 의미할 수 있다.Next, in step S220, the data analysis and quality measurement unit (120) can generate quantitative quality information and standard conformity information according to the quality verification condition (B) for the input user data (A). Here, the previously generated data analysis algorithm may mean an algorithm that analyzes and evaluates the standard or content-based characteristics of the data as input by the user data (A) and the quality criterion for each verification item defined in advance with respect to standard conformity and content-based verification, and provides the results as output.

다음으로, 단계 S230에서 학습 데이터 선정부(130)는 측정된 품질 정보가 갖는 정량화된 품질척도에 기초하여, 시각화 리포트 생성부(131) 및 시각화 조회부(132)가 제공하는 방식으로 상기 입력된 사용자 데이터(A)에 관한 검증 또는 이용 목적에 따라 데이터를 선별할 수 있다.Next, in step S230, the learning data selection unit (130) can select data according to the purpose of verification or use of the input user data (A) in a manner provided by the visualization report generation unit (131) and the visualization query unit (132) based on the quantified quality scale of the measured quality information.

다음으로, 단계 S240에서 학습 데이터 선정부(130)에 포함된 데이터 출력부(133)는 품질 측정 결과에 기초하여 데이터의 이용 목적에 따라 유효 또는 무효 데이터를 선별한 결과로 데이터의 목록 또는 품질검증 보고서를 출력으로 제공할 수 있다.Next, in step S240, the data output unit (133) included in the learning data selection unit (130) can output a list of data or a quality verification report as a result of selecting valid or invalid data according to the purpose of data use based on the quality measurement results.

도 16은 본원의 일 실시예에 따른 또 다른 단계적 구성의 인공지능 훈련 데이터 선별 장치의 제어 방법의 동작 흐름도이다.FIG. 16 is a flowchart of an operation of a control method of an artificial intelligence training data selection device of another stepwise configuration according to one embodiment of the present invention.

도 16을 참조하면, 인공지능 훈련 데이터 선별 장치의 제어 방법은 도 16에 개시된 흐름도의 내용과 같이 수행될 수 있다.Referring to FIG. 16, a control method of an artificial intelligence training data selection device can be performed as in the flowchart disclosed in FIG. 16.

상술한 설명에서, 단계 S110 내지 S130, S210 내지 S240은 본원의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다.In the above description, steps S110 to S130 and S210 to S240 may be further divided into additional steps or combined into fewer steps, depending on the implementation example of the present invention. In addition, some steps may be omitted as needed, and the order between the steps may be changed.

본원의 일 실시 예에 따른 인공지능 훈련 데이터 선별 장치의 제어 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.The control method of the artificial intelligence training data selection device according to one embodiment of the present invention may be implemented in the form of a program command that can be executed through various computer means and recorded on a computer-readable medium. The computer-readable medium may include program commands, data files, data structures, etc., alone or in combination. The program commands recorded on the medium may be those specially designed and configured for the present invention or may be those known to and usable by those skilled in the art of computer software. Examples of the computer-readable recording medium include magnetic media such as hard disks, floppy disks, and magnetic tapes, optical media such as CD-ROMs and DVDs, magneto-optical media such as floptical disks, and hardware devices specially configured to store and execute program commands such as ROMs, RAMs, and flash memories. Examples of the program commands include not only machine language codes generated by a compiler, but also high-level language codes that can be executed by a computer using an interpreter, etc. The above hardware devices may be configured to operate as one or more software modules to perform the operations of the present invention, and vice versa.

또한, 전술한 인공지능 훈련 데이터 선별 장치의 제어 방법은 기록 매체에 저장되는 컴퓨터에 의해 실행되는 컴퓨터 프로그램 또는 애플리케이션의 형태로도 구현될 수 있다.In addition, the control method of the artificial intelligence training data selection device described above can also be implemented in the form of a computer program or application executed by a computer stored in a recording medium.

전술한 본원의 설명은 예시를 위한 것이며, 본원이 속하는 기술분야의 통상의 지식을 가진 자는 본원의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.The above description of the present invention is for illustrative purposes only, and those skilled in the art will understand that the present invention can be easily modified into other specific forms without changing the technical idea or essential features of the present invention. Therefore, it should be understood that the embodiments described above are exemplary in all respects and not restrictive. For example, each component described as a single component may be implemented in a distributed manner, and likewise, components described as distributed may be implemented in a combined manner.

본원의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본원의 범위에 포함되는 것으로 해석되어야 한다.The scope of the present application is indicated by the claims described below rather than the detailed description above, and all changes or modifications derived from the meaning and scope of the claims and their equivalent concepts should be interpreted as being included in the scope of the present application.

10: 인공지능 훈련 데이터 선별 시스템
20: 네트워크
100: 인공지능 훈련 데이터 선별 장치
110: 품질검증조건 설정부
111: 사전 분석부
112: 검증조건 예비설정부
112-1: 검증 대상 식별부
112-2: 품질 기준 후보값 생성부
113: 품질 기준 설정부
120: 데이터 분석 및 품질측정부
121: 분석 알고리즘 적용부
122: 데이터 검증결과 생성부
130: 학습 데이터 선정부
131: 시각화 리포트 생성부
132: 시각화 조회부
133: 데이터 출력부
140: 알고리즘 관리부
150: 작업 관리부
200: 외부 서버
300: 사용자 단말
1001: 작업 상태 표시부
1002: 작업 등록부
1003: 결과조회부
1004: 요약결과 표시부
1005: 상세결과 표시부
1006: 구조적 데이터 표시부
1007: 데이터 시각화 표시부
A: 사용자 데이터
B: 품질검증조건
C: 데이터 검증결과 및 통계정보
D: 내용 기반 데이터 시각화 검색
E: 유효 학습 데이터
F: 연관 규칙
G: 사전품질정보
H: 사전조건
I: 선별 데이터 목록
10: Artificial Intelligence Training Data Selection System
20: Network
100: Artificial Intelligence Training Data Selection Device
110: Quality verification condition setting section
111: Pre-analysis department
112: Verification Condition Preliminary Setting Section
112-1: Verification target identification section
112-2: Quality Criteria Candidate Value Generation Section
113: Quality Standards Setting Department
120: Data Analysis and Quality Measurement Department
121: Application of Analysis Algorithm
122: Data verification result generation section
130: Learning data selection section
131: Visualization Report Generation Section
132: Visualization query section
133: Data output section
140: Algorithm Management Department
150: Work Management Department
200: External server
300: User Terminal
1001: Work status indicator
1002: Work Register
1003: Results Inquiry
1004: Summary Results Display Section
1005: Detailed results display section
1006: Structured Data Display
1007: Data visualization display section
A: User data
B: Quality verification conditions
C: Data verification results and statistical information
D: Content-based data visualization search
E: Valid training data
F: Association Rules
G: Pre-quality information
H: Prerequisite
I: List of selected data

Claims (15)

인공지능 훈련 데이터 선별 방법에 있어서,
사용자 데이터에 사전 분석을 수행하고, 기 정의된 연관 규칙을 이용하여 검증 대상과 품질 기준을 포함하는 품질검증조건을 설정하는 단계;
기 생성된 데이터 분석 알고리즘 및 상기 품질검증조건을 기초로 규격 특성 및 내용 기반 특성을 포함하는 상기 사용자 데이터의 데이터 특성을 검증하여 상기 사용자 데이터의 품질 정보를 측정하는 단계; 및
상기 데이터 특성 및 상기 품질 정보에 기초하여 인공지능 훈련에 유효한 학습 데이터를 선정하는 단계,
를 포함하고,
상기 품질검증조건을 설정하는 단계는,
상기 사용자 데이터의 유형 및 형식과 관련한 사전 분석을 수행하여 구성 정보 및 규격 속성 정보를 포함하는 규격 정보를 생성하는 단계;
상기 규격 정보와 상기 연관 규칙을 이용하여 세부품질지표를 포함하는 검증 항목을 선정하고, 상기 품질 기준에 관한 상기 사용자 데이터로부터 유효한 기준값의 후보를 결정하여 상기 품질검증조건을 예비설정하는 단계; 및
사용자 인터페이스를 통해 획득한 사용자 입력에 기초하여 상기 품질 기준에 대하여 상세 설정을 수행하여 상기 품질 기준을 설정하는 단계;를 포함하고,
상기 규격 정보를 생성하는 단계는,
상기 사용자 데이터를 구성하는 각 파일의 규격(File format)을 식별하여 각 파일 규격에 관한 상기 데이터의 유형 및 형식에 따라 범주화된 분류 정보와 데이터의 수량 정보를 포함하는 상기 구성 정보를 생성하는 단계; 상기 파일 규격에 기초하여 각 규격별 속성에 관한 유효값의 목록 또는 데이터 스키마(Data schema)로 정의되는 상기 규격 속성 정보를 추출하는 단계; 및 상기 규격 속성 정보와 상기 구성 정보가 결합한 상기 규격 정보를 생성하는 것인,
인공지능 훈련 데이터 선별 방법.
In the method of selecting artificial intelligence training data,
A step of performing a preliminary analysis on user data and setting quality verification conditions including verification targets and quality criteria using predefined association rules;
A step of measuring the quality information of the user data by verifying the data characteristics of the user data including standard characteristics and content-based characteristics based on the generated data analysis algorithm and the quality verification conditions; and
A step of selecting learning data valid for artificial intelligence training based on the above data characteristics and the above quality information;
Including,
The step of setting the above quality verification conditions is:
A step of generating specification information including configuration information and specification attribute information by performing a preliminary analysis related to the type and format of the above user data;
A step of selecting verification items including detailed quality indicators using the above standard information and the above association rules, and determining candidates for valid reference values from the user data regarding the quality criteria to pre-set the quality verification conditions; and
A step of setting the quality criterion by performing detailed settings for the quality criterion based on user input obtained through a user interface; including;
The steps for generating the above standard information are:
A step for identifying the file format of each file composing the user data and generating the configuration information including classification information categorized according to the type and format of the data for each file specification and quantity information of the data; a step for extracting the specification attribute information defined as a list of valid values or a data schema for each specification attribute based on the file specification; and generating the specification information in which the specification attribute information and the configuration information are combined.
A method for selecting artificial intelligence training data.
삭제delete 삭제delete 제1항에 있어서,
상기 품질검증조건을 예비설정하는 단계는,
상기 사전 분석의 결과 및 상기 연관 규칙에 기초하여, 규격 적합성 검증 및 내용 기반 검증 중 적어도 하나의 검증에 관한 상기 검증 항목 및 검증 대상 데이터 목록을 생성하는 단계; 및
상기 세부품질지표에 기초하여 지표 후보 목록을 선정하고 상기 규격 속성 정보로부터 각 지표의 검증에 필요한 상기 규격 속성 정보, 유효값의 목록 및 데이터 스키마 중 적어도 하나를 이용하는 방식으로 생성되는 사전 품질 정보를 결정하여 품질 기준 후보값을 생성하는 단계,
를 포함하는 것인,
인공지능 훈련 데이터 선별 방법.
In the first paragraph,
The step of pre-setting the above quality verification conditions is:
A step of generating a list of verification items and verification target data for at least one of verification of conformity to the standard and content-based verification based on the results of the above pre-analysis and the above association rules; and
A step of selecting a list of indicator candidates based on the above detailed quality indicators and generating quality criterion candidate values by determining pre-quality information generated by using at least one of the above standard attribute information, the list of valid values, and the data schema necessary for verifying each indicator from the above standard attribute information.
which includes,
A method for selecting artificial intelligence training data.
제4항에 있어서,
상기 품질 기준을 설정하는 단계는,
상기 사전 품질 정보에 관하여 사용자 인터페이스를 통해 획득된 사용자 입력에 기초하여 상기 품질검증조건을 확정하는 것인,
인공지능 훈련 데이터 선별 방법.
In paragraph 4,
The steps for setting the above quality criteria are:
The quality verification conditions are determined based on user input obtained through the user interface regarding the above-mentioned prior quality information.
A method for selecting artificial intelligence training data.
제1항에 있어서,
상기 사용자 데이터의 품질 정보를 측정하는 단계는,
상기 사용자 데이터, 상기 검증 대상 및 상기 품질 기준을 입력으로 하는 상기 데이터 분석 알고리즘에 기초하여 상기 사용자 데이터에 관한 규격 적합성 검증 및 내용 기반 검증에 따른 각 세부지표별 정량적 품질정보 및 기준 적합성 정보를 도출하는 단계; 및
상기 사전 분석으로 결정된 상기 데이터의 구조적 특성에 관한 각 세부 특성을 추출하여 도출되거나 내용 기반 검증의 데이터 분석 결과로부터 통계 정보를 생성하거나 범주화하여 결정된 상기 정량적 품질정보 및 상기 기준 적합성 정보를 이용하여 각 품질 특성에 관한 통계 및 범주화 결과를 연관된 사용자 데이터의 목록과 결합하여 품질검증결과를 제공하는 단계,
를 포함하는 것인,
인공지능 훈련 데이터 선별 방법.
In the first paragraph,
The step of measuring the quality information of the above user data is:
A step of deriving quantitative quality information and standard conformity information for each detailed indicator according to standard conformity verification and content-based verification of the user data based on the data analysis algorithm that uses the user data, the verification target, and the quality criterion as inputs; and
A step of extracting each detailed characteristic of the structural characteristics of the data determined by the above-mentioned preliminary analysis, or generating statistical information from the data analysis results of the content-based verification, or using the quantitative quality information and the above-mentioned criterion suitability information determined by categorizing, to provide a quality verification result by combining the statistical and categorization results of each quality characteristic with a list of associated user data.
which includes,
A method for selecting artificial intelligence training data.
제6항에 있어서,
상기 기준 적합성 정보는,
상기 사용자 데이터에 관하여 상기 품질 기준에 적합함의 여부를 판정한 정보를 포함하고, 적합한 상기 사용자 데이터의 수량 또는 비율이 상기 정량적 품질정보에 포함된 목표를 충족하는지 여부에 따라 결정되는 것인,
인공지능 훈련 데이터 선별 방법.
In Article 6,
The above criteria suitability information is:
Including information that determines whether the above user data satisfies the above quality criteria, and wherein the quantity or ratio of the above user data that satisfies the target included in the quantitative quality information is determined based on whether the quantity or ratio of the above user data that satisfies the target included in the quantitative quality information.
A method for selecting artificial intelligence training data.
제6항에 있어서,
상기 학습 데이터를 선정하는 단계는,
상기 품질 정보에 대한 측정 결과를 기초로 상기 품질 정보와 상기 기준 적합성 정보를 상기 사용자 데이터의 구조적 특성에 관한 시각화 리포트를 생성하는 단계; 및
상기 시각화 리포트를 이용하여 상기 사용자 데이터의 품질과 특성을 검색조건으로 하여 내용 기반 데이터 시각화 검색을 수행하는 단계,
를 포함하는 것인,
인공지능 훈련 데이터 선별 방법.
In Article 6,
The step of selecting the above learning data is:
A step of generating a visualization report on the structural characteristics of the user data based on the measurement results for the quality information and the criterion suitability information; and
A step of performing a content-based data visualization search using the quality and characteristics of the user data as search conditions using the above visualization report.
which includes,
A method for selecting artificial intelligence training data.
제1항에 있어서,
상기 품질검증조건을 설정하는 단계는,
상기 사용자 데이터의 형식에 따른 품질 지표의 검증을 수행하기 위한 알고리즘 및 연관 규칙을 추가하는 단계,
를 포함하고,
상기 품질검증조건을 설정하는 단계 및 상기 학습 데이터를 선정하는 단계에서, 추가된 상기 알고리즘과 품질 지표 정보가 제공되는 것인,
인공지능 훈련 데이터 선별 방법.
In the first paragraph,
The step of setting the above quality verification conditions is:
A step of adding an algorithm and association rules for performing verification of quality indicators according to the format of the above user data;
Including,
In the step of setting the above quality verification conditions and the step of selecting the above learning data, the added algorithm and quality indicator information are provided.
A method for selecting artificial intelligence training data.
제1항에 있어서,
상기 사용자 데이터는,
정형데이터(structured data), 비정형데이터(unstructured data) 및 라벨링데이터(label data) 중 적어도 하나의 데이터를 포함하고, 데이터 유형 및 형식에 관하여 적어도 하나의 혼합된 형태를 갖는 것인,
인공지능 훈련 데이터 선별 방법.
In the first paragraph,
The above user data is,
Contains at least one of structured data, unstructured data and label data, and has at least one mixed form with respect to data type and format.
A method for selecting artificial intelligence training data.
제1항에 있어서,
상기 연관 규칙은,
규격 적합성 검증 및 내용 기반 검증에 관한 기 정의된 검증 항목에 관하여 수행 가능한 상기 데이터 분석 알고리즘 및 상기 데이터 분석 알고리즘에 관하여 처리 가능한 상기 사용자 데이터의 유형 및 형식을 정의하는 것인,
인공지능 훈련 데이터 선별 방법.
In the first paragraph,
The above association rules are,
Defining the data analysis algorithm that can be performed on the predefined verification items for standard conformity verification and content-based verification, and the types and formats of the user data that can be processed with respect to the data analysis algorithm.
A method for selecting artificial intelligence training data.
제1항에 있어서,
상기 데이터 분석 알고리즘은,
규격 적합성 검증 및 내용 기반 검증에 관하여 기 정의된 검증 항목 별로 상기 사용자 데이터와 상기 품질 기준을 입력으로 하여 상기 규격 적합성 검증 및 상기 내용 기반 검증 중 적어도 하나의 검증을 수행한 결과를 출력으로 제공하는 것인,
인공지능 훈련 데이터 선별 방법.
In the first paragraph,
The above data analysis algorithm is,
The result of performing at least one of the standard conformity verification and the content-based verification by inputting the user data and the quality criteria for each verification item defined in relation to the standard conformity verification and the content-based verification is provided as an output.
A method for selecting artificial intelligence training data.
제12항에 있어서,
상기 기 정의된 검증항목은,
상기 규격 적합성 검증 및 상기 내용 기반 검증에 관하여 상기 사용자 데이터로부터 측정 가능한 세부 검증항목 또는 품질지표를 정의한 목록이거나 각 검증을 수행하는 상기 데이터 분석 알고리즘의 기능명세로 정의되는 것인,
인공지능 훈련 데이터 선별 방법.
In Article 12,
The above defined verification items are:
A list defining detailed verification items or quality indicators that can be measured from the user data with respect to the above standard conformity verification and the above content-based verification, or defined as a functional specification of the data analysis algorithm that performs each verification.
A method for selecting artificial intelligence training data.
인공지능 훈련 데이터 선별 장치에 있어서,
사용자 데이터에 사전 분석을 수행하고, 기 정의된 연관 규칙을 이용하여 검증 대상과 품질 기준을 포함하는 품질검증조건을 설정하는 품질검증조건 설정부;
기 생성된 데이터 분석 알고리즘 및 상기 품질검증조건을 기초로 규격 특성 및 내용 기반 특성을 포함하는 상기 사용자 데이터의 데이터 특성을 검증하여 상기 사용자 데이터의 품질 정보를 측정하는 데이터 분석 및 품질측정부; 및
상기 데이터 특성 및 상기 품질 정보에 기초하여 인공지능 훈련에 유효한 학습 데이터를 선정하는 학습 데이터 선정부,
를 포함하고,
상기 품질검증조건 설정부는, 입력된 사용자 데이터의 유형 및 형식을 분석하여 규격 정보를 생성하는 사전 분석부, 규격 정보와 기 정의된 연관 규칙을 이용하여 적용 가능한 검증방식과 세부품질지표에 관한 검증항목을 선정하고 품질 기준에 관한 사용자 데이터로부터 유효한 기준값의 후보를 적응적으로 결정하는 검증조건 예비설정부, 및 예비설정된 품질 기준에 대하여 수정, 추가, 삭제 등의 상세 설정이 가능하도록 하는 사용자 인터페이스를 포함하는 품질 기준 설정부를 포함하고,
사전 분석부는, 입력된 사용자 데이터를 조사하여 파일의 규격(File format)을 식별하여 데이터의 유형 및 형식에 따라 범주화된 분류정보와 수량에 관한 구성 정보를 생성하고, 종래의 기술표준 또는 규격명세로 정의되는 고유한 규격 속성에 기초하여 사용자 데이터로부터 각 규격별 속성에 관한 유효값의 목록 또는 데이터 스키마(Data schema)로 정의되는 규격 속성 정보를 추출하여 구성 정보와 결합한 규격 정보를 생성하는 것인,
인공지능 훈련 데이터 선별 장치.
In the artificial intelligence training data selection device,
A quality verification condition setting unit that performs a preliminary analysis on user data and sets quality verification conditions including verification targets and quality criteria using predefined association rules;
A data analysis and quality measurement unit that measures the quality information of the user data by verifying the data characteristics of the user data including standard characteristics and content-based characteristics based on the generated data analysis algorithm and the quality verification conditions; and
A learning data selection unit that selects learning data that is valid for artificial intelligence training based on the above data characteristics and the above quality information;
Including,
The above quality verification condition setting unit includes a pre-analysis unit that analyzes the type and format of input user data to generate standard information, a verification condition preliminary setting unit that selects applicable verification methods and verification items for detailed quality indicators using standard information and predefined association rules and adaptively determines candidates for valid standard values from user data regarding quality criteria, and a quality criteria setting unit that includes a user interface that enables detailed settings such as modification, addition, and deletion for the pre-set quality criteria.
The pre-analysis unit examines the input user data to identify the file format and generate classification information categorized by the type and format of the data and configuration information on the quantity, and extracts a list of valid values for each attribute of the standard from the user data based on the unique standard attribute defined by the conventional technical standard or standard specification or the standard attribute information defined by the data schema to generate standard information combined with the configuration information.
Artificial intelligence training data selection device.
제1항 및 제4항 내지 제13항 중 어느 한 항의 방법을 컴퓨터에서 실행하기 위한 프로그램을 기록한 컴퓨터에서 판독 가능한 기록매체.A computer-readable recording medium having recorded thereon a program for executing the method of any one of claims 1 and 4 to 13 on a computer.
KR1020230089711A 2022-12-27 2023-07-11 Apparatus for selecting data to train artificial intelligence and method for controlling the same Active KR102748662B1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20220186147 2022-12-27
KR1020220186147 2022-12-27

Publications (2)

Publication Number Publication Date
KR20240103948A KR20240103948A (en) 2024-07-04
KR102748662B1 true KR102748662B1 (en) 2024-12-31

Family

ID=91913097

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020230089711A Active KR102748662B1 (en) 2022-12-27 2023-07-11 Apparatus for selecting data to train artificial intelligence and method for controlling the same

Country Status (1)

Country Link
KR (1) KR102748662B1 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102715175B1 (en) * 2024-07-09 2024-10-11 주식회사 알에스팀 Business Intelligent Platform System

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180131829A (en) * 2017-06-01 2018-12-11 한국과학기술정보연구원 All-round data management device and method supporting long-term ecological research
KR102236826B1 (en) * 2018-11-30 2021-04-06 아주대학교산학협력단 The Method and System for Evaluating the Quality of Medical Image dataset for Machine Learning
KR102457824B1 (en) * 2020-12-11 2022-10-24 한국전자통신연구원 Apparatus and method for selecting collected data for smart farm dataset validation

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
"테스트웍스 데이터 품질 검증 전문 도구 ADQ",https://blog.testworks.co.kr/testworks-ai-data-quality-tool/, pp1-12(2022.03.24.) 1부.*
한국 공개특허공보 제10-2018-0131829호(2018.12.11.) 1부.*
한국 공개특허공보 제10-2020-0065923호(2020.06.09.) 1부.*
한국 공개특허공보 제10-2022-0083181호(2022.06.20.) 1부.*

Also Published As

Publication number Publication date
KR20240103948A (en) 2024-07-04

Similar Documents

Publication Publication Date Title
Li et al. KG4Vis: A knowledge graph-based approach for visualization recommendation
US11106944B2 (en) Selecting logo images using machine-learning-logo classifiers
US11380087B2 (en) Data analyzing device
CN108229485B (en) Method and apparatus for testing user interface
TW202018533A (en) Data processing model construction method and device, server and client
CN107844836A (en) A kind of system and learning method based on machine learning
JP7069029B2 (en) Automatic prediction system, automatic prediction method and automatic prediction program
CN110942086A (en) Data prediction optimization method, device and equipment and readable storage medium
KR101588027B1 (en) Method and apparatus for generating test case to support localization of software
US11669753B1 (en) Artificial intelligence system providing interactive model interpretation and enhancement tools
CN110968664A (en) Document retrieval method, device, equipment and medium
KR102748662B1 (en) Apparatus for selecting data to train artificial intelligence and method for controlling the same
CA3236133A1 (en) System and method for building document relationships and aggregates
CN112783762B (en) Software quality assessment method, device and server
CN117786086A (en) Reply text generation method, reply text generation device, computer equipment and readable storage medium
Kozlova et al. Development of the toolkit to process the internet memes meant for the modeling, analysis, monitoring and management of social processes
US11645362B2 (en) Data analyzing device
Osman et al. Interactive scalable abstraction of reverse engineered UML class diagrams
CN117350380A (en) Abnormal behavior monitoring system and method
KR20240053911A (en) Method and system for AI collaboration service based on source code automatic generation system
US11106689B2 (en) System and method for self-service data analytics
Wang et al. Cloud-based xai services for assessing open repository models under adversarial attacks
CN118569232B (en) A bidding document generation method and terminal device
JP7429374B2 (en) Information processing system, information processing method, and information processing program
CN118377912B (en) Electronic manual processing method, interaction system, electronic device and readable storage medium

Legal Events

Date Code Title Description
PA0109 Patent application

Patent event code: PA01091R01D

Comment text: Patent Application

Patent event date: 20230711

PA0201 Request for examination

Patent event code: PA02011R01I

Patent event date: 20230711

Comment text: Patent Application

PA0302 Request for accelerated examination

Patent event date: 20240328

Patent event code: PA03022R01D

Comment text: Request for Accelerated Examination

PE0902 Notice of grounds for rejection

Comment text: Notification of reason for refusal

Patent event date: 20240531

Patent event code: PE09021S01D

PG1501 Laying open of application
E701 Decision to grant or registration of patent right
PE0701 Decision of registration

Patent event code: PE07011S01D

Comment text: Decision to Grant Registration

Patent event date: 20241223

PG1601 Publication of registration