RU2726931C1 - Method for automatic classification of electronic documents in an electronic document management system with automatic generation of electronic cases - Google Patents
Method for automatic classification of electronic documents in an electronic document management system with automatic generation of electronic cases Download PDFInfo
- Publication number
- RU2726931C1 RU2726931C1 RU2019139137A RU2019139137A RU2726931C1 RU 2726931 C1 RU2726931 C1 RU 2726931C1 RU 2019139137 A RU2019139137 A RU 2019139137A RU 2019139137 A RU2019139137 A RU 2019139137A RU 2726931 C1 RU2726931 C1 RU 2726931C1
- Authority
- RU
- Russia
- Prior art keywords
- document
- predicates
- classification
- electronic
- predicate
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/383—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
Область техники, к которой относится изобретениеThe technical field to which the invention relates
Изобретение относится к системам классификации и аннотирования документов и может использоваться в системах электронного документооборота, базах данных, автоматизированных системах, где существует необходимость классификации формализованных электронных документов по степеням конфиденциальности, содержащейся в них информации и областям информационной ответственности должностных лиц с учетом уровня их допуска к указанной информации, а также необходимость автоматического формирования электронных дел по результатам аннотирования информативной части каждого документа.The invention relates to systems for classifying and annotating documents and can be used in electronic document management systems, databases, automated systems, where there is a need to classify formalized electronic documents according to the degrees of confidentiality, information contained in them and areas of information responsibility of officials, taking into account the level of their access to the specified information, as well as the need for automatic formation of electronic files based on the results of annotating the informative part of each document.
Уровень техникиState of the art
а) Описание аналоговa) Description of analogs
Известен аналог - способ мультиклассовой классификации (Schapire R.E., Singer Y. "BoosTexter: A boosting-based system for text categorization". MachineLearning 39, 2/3, 2000, pp. 135-168), заключающийся в осуществлении преобразования документа из формата хранения в текст на естественном языке, преобразуют слова документа в базовые словоформы, отбрасывании незначимых слов, осуществлении подсчета весов слов в документе в соответствии с частотами их появления и тем самым формируют вектор признаков документа; на этапе обучения по предъявленному набору классифицированных вручную документов формируют набор классификационных признаков, сохраняют классификационные признаки в базе данных; при классификации документа осуществляют преобразование его из формата хранения в текст на естественном языке, преобразуют слова документа в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в документе и формируют вектор признаков документа, после чего принимают решение о принадлежности либо не принадлежности документа каждой информационной области.A known analogue is a method of multiclass classification (Schapire RE, Singer Y. "BoosTexter: A boosting-based system for text categorization". MachineLearning 39, 2/3, 2000, pp. 135-168), which consists in converting a document from a storage format into text in natural language, transform the words of the document into basic word forms, discard insignificant words, calculate the weights of words in the document in accordance with the frequencies of their occurrence and thereby form a vector of document features; at the training stage, according to the presented set of manually classified documents, a set of classification features is formed, the classification features are stored in the database; when classifying a document, it is converted from a storage format to a text in a natural language, the words of the document are converted into basic word forms, insignificant words are discarded, the weights of words in the document are counted and a vector of document signs is formed, after which a decision is made about whether the document belongs to each information document. area.
Недостатком данного способа является:The disadvantage of this method is:
невозможность классифицировать формализованные электронные документы по электронным делам с учетом ограничений при обращении с конфиденциальными документами.the impossibility of classifying formalized electronic documents in electronic affairs, taking into account the restrictions when handling confidential documents.
Известен также аналог - Methods and apparatus for building a support vector machine classifier (Пат. 6327581 Соединенные Штаты Америки, МПК G06F 015/18), заключающийся в осуществлении преобразования документа из формата хранения в текст на естественном языке, преобразовании слов документа в базовые словоформы, отбрасывании незначимых слов, осуществлении подсчета весов слов в документе в соответствии с частотами их появления; на этапе обучения по предъявленному набору классифицированных вручную документов формируют набор классификационных признаков; при классификации документа осуществляют преобразование его из формата хранения в текст на естественном языке, преобразуют слова документа в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в документе, на основе классификационного критерия SVM (Support Vector Machines) и классификационных признаков определяют принадлежность документа к информационной области.An analogue is also known - Methods and apparatus for building a support vector machine classifier (Pat. 6327581 United States of America, IPC G06F 015/18), which consists in converting a document from a storage format into a text in natural language, converting words of a document into basic word forms, discarding insignificant words, calculating the weights of words in the document in accordance with the frequencies of their occurrence; at the training stage, a set of classification features is formed on the basis of the presented set of manually classified documents; when classifying a document, it is converted from a storage format to a natural language text, the words of the document are converted into basic word forms, insignificant words are discarded, the weights of words in the document are counted, based on the SVM (Support Vector Machines) classification criterion and classification features, the document belongs to information area.
Недостатком данного способа является:The disadvantage of this method is:
невозможность классифицировать формализованные электронные документы по электронным делам с учетом ограничений при обращении с конфиденциальными документами.the impossibility of classifying formalized electronic documents in electronic affairs, taking into account the restrictions when handling confidential documents.
Также известен аналог - способ автоматической классификации документов (Пат. 2254610 Российская Федерация, МПК G06F 17/30), заключающийся в осуществлении преобразования документа из формата хранения в текст на естественном языке, преобразуют слова преобразованного документа в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в упомянутом документе в соответствии с частотами их появления и тем самым формируют вектор признаков документа; на этапе обучения по предъявленному набору классифицированных вручную документов формируют набор классификационных признаков, сохраняют классификационные признаки в базе данных; при классификации документа осуществляют преобразование его из формата хранения в текст на естественном языке, преобразуют слова документа в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в документе и формируют вектор признаков документа, после чего принимают решение о принадлежности либо не принадлежности документа каждой из категорий.An analogue is also known - a method for automatic classification of documents (Pat. 2254610 Russian Federation, IPC G06F 17/30), which consists in converting a document from a storage format to a text in a natural language, converting words of the converted document into basic word forms, discarding insignificant words, performing counting weights of words in said document in accordance with the frequencies of their occurrence, and thus form a vector of document features; at the training stage, according to the presented set of manually classified documents, a set of classification features is formed, the classification features are stored in the database; when classifying a document, it is converted from a storage format to a text in a natural language, the words of the document are converted into basic word forms, insignificant words are discarded, the weights of words in the document are counted and a vector of document features is formed, after which a decision is made whether the document belongs or does not belong to each categories.
Недостатком данного способа является:The disadvantage of this method is:
невозможность классифицировать формализованные электронные документы по электронным делам с учетом ограничений при обращении с конфиденциальными документами.the impossibility of classifying formalized electronic documents in electronic affairs, taking into account the restrictions when handling confidential documents.
Также известен аналог - способ автоматической классификации конфиденциальных формализованных документов в системе электронного документооборота (Пат. 2647640 Российская Федерация, МПК G06F 17/30, G06F 17/21), заключающийся в определении области формализованного документа для извлечения метаданных и информативной части, осуществлении преобразования документа из формата хранения в текст на естественном языке, преобразовании слов преобразованного документа в базовые словоформы, отбрасывании незначимых слов, осуществлении подсчета весов слов в документе в соответствии с частотами их появления и тем самым формировании классификационных признаков документа; на этапе обучения по набору классифицированных вручную документов формировании набора классификационных признаков, сохранении классификационных признаков в базе данных; при классификации документа на основании полученных классификационных признаков с помощью базы данных принимают решение об относимости документа к каждой из информационных областей и к каждой из меток конфиденциальности, заданных в информационной системе, на этапе определения принадлежности документа к каждой информационной области и метке конфиденциальности используют априорную информацию о зависимостях категорий друг от друга.An analogue is also known - a method for automatic classification of confidential formalized documents in the electronic document management system (Pat. 2647640 Russian Federation, IPC G06F 17/30, G06F 17/21), which consists in determining the area of a formalized document for extracting metadata and an informative part, transforming a document from storage format into natural language text, converting words of the converted document into basic word forms, discarding insignificant words, calculating the weights of words in the document in accordance with the frequencies of their occurrence and thereby forming the classification features of the document; at the stage of training on a set of manually classified documents, the formation of a set of classification signs, saving the classification signs in the database; when classifying a document on the basis of the obtained classification features using the database, a decision is made on the relevance of the document to each of the information areas and to each of the confidentiality labels set in the information system; at the stage of determining the document's belonging to each information area and the confidentiality label, a priori information about dependencies of categories from each other.
Недостатком данного способа является:The disadvantage of this method is:
невозможность классифицировать формализованные электронные документы по электронным делам, чем достигается заявленный технический результат.impossibility to classify formalized electronic documents in electronic affairs, which achieves the declared technical result.
б) Описание ближайшего аналога (прототипа)b) Description of the closest analogue (prototype)
Наиболее близким по технической сущности к предлагаемому является способ автоматической классификации электронных документов в системе электронного документооборота с автоматическим формированием реквизита резолюции руководителя (Пат. 2692972 Российская Федерация, МПК G06F 17/30, G06F 17/21), заключающийся в выделении и анализе формальной части поступившего документа (реквизитов), осуществлении преобразования информативной части документа в текст на естественном языке, преобразования слов преобразованного документа (за исключением отдельных слов и словосочетаний, соответствующих временным интервалам выполнения определенной документом деятельности) в базовые словоформы, отбрасывании незначимых слов, осуществлении подсчета весов слов в документе в соответствии с частотами их появления и формировании признаков документа. На этапе обучения по набору классифицированных вручную документов формируют системы предикатов идентификации признаков текста поступившего документа и сохраняют их в базе данных. При классификации документа на основании полученных классификационных признаков с помощью базы данных принимают решение об относимости документа к компетенции должностного лица (исполнителя поручений руководителя), определяют соответствующую ему метку конфиденциальности и поручения по нему, формируя реквизит «резолюция».The closest in technical essence to the proposed is the method of automatic classification of electronic documents in the electronic document management system with automatic generation of the requisite of the head's resolution (Pat. 2692972 Russian Federation, IPC G06F 17/30, G06F 17/21), which consists in the selection and analysis of the formal part of the received document (details), converting the informative part of the document into text in natural language, converting the words of the converted document (with the exception of individual words and phrases corresponding to the time intervals for performing the activity specified by the document) into basic word forms, discarding insignificant words, calculating the weights of words in the document in accordance with the frequencies of their occurrence and the formation of document signs. At the stage of training, according to a set of manually classified documents, predicate systems for identifying the characteristics of the text of the received document are formed and stored in the database. When classifying a document on the basis of the obtained classification signs, using the database, a decision is made on the relevance of the document to the competence of an official (executor of the instructions of the head), the corresponding confidentiality label and instructions for it are determined, forming the "resolution" variable.
Недостатком данного способа является отсутствие возможности классифицировать формализованные электронные документы по электронным делам с учетом ограничений при обращении с конфиденциальными документами, чем достигается заявленный технический результат.The disadvantage of this method is the inability to classify formalized electronic documents in electronic affairs, taking into account the restrictions when handling confidential documents, which achieves the claimed technical result.
Раскрытие сущности изобретенияDisclosure of the essence of the invention
а) технический результат, на достижение которого направлено изобретениеa) the technical result to which the invention is aimed
Целью настоящего изобретения является автоматизация классификации формализованных электронных документов в системе электронного документооборота по электронным делам, проверка соответствия метки конфиденциальности исполненного документа и дела, в которое распределяется исполненный документ.The aim of the present invention is to automate the classification of formalized electronic documents in the electronic document management system for electronic affairs, to check the compliance of the confidentiality label of the executed document and the case in which the executed document is distributed.
б) совокупность существенных признаковb) a set of essential features
Для достижения указанного технического результата предложен способ автоматической классификации формализованных электронных документов в системе электронного документооборота с автоматическим формированием электронных дел, заключающийся в определении области формализованного документа для извлечения метаданных и информативной части, осуществлении преобразования документа из формата хранения в текст на естественном языке, преобразовании слов обработанного документа в базовые словоформы, отбрасывании незначимых слов, осуществлении подсчета весов слов в документе в соответствии с частотами их появления и формировании набора классификационных признаков; на основе распознанных реквизитов и значений ключевых слов этих реквизитов определяют конкретный вид электронного документа; при преобразовании слов документа в базовые словоформы выделяют и оставляют без изменений отдельные слова и словосочетания, соответствующие временным интервалам выполнения определяемой документом деятельности, формируют, тем самым, вектор данных о сроках исполнения документа; на основе определенных областей информационной ответственности, а также априорных сведений о структуре организации (учреждения), в том числе об отношениях подчиненности между должностными лицами организации (учреждения) и уровнях их допуска к различным степеням конфиденциальности документов, формируют первый набор классификационных признаков; на основе определенных вида документа и области информационной ответственности, к которым относится документ, при помощи предикатов узнавания ключевых слов и отдельных реквизитов формальной части формируют второй набор классификационных признаков; на этапе обучения по набору классифицированных вручную документов формируют систему предикатов определения области информационной ответственности; формируют систему предикатов идентификации метки конфиденциальности документа; сохраняют указанные системы предикатов в базе данных; по набору документов, для которых вручную заполнен реквизит «резолюция», формируют систему предикатов идентификации исполнителя поручения по поступившему документу и систему предикатов идентификации поручения, сохраняют системы предикатов в базу данных; при классификации документов на основании полученного набора классификационных признаков с помощью базы данных принимают решение об относимости документа каждой из информационных областей и каждой из меток конфиденциальности, подставляют первый набор классификационных признаков в систему предикатов идентификации исполнителя поручения и по предикатам, принявшим значение «истина», принимают решение об отнесении документа к компетенции конкретных сотрудников, подчиненных руководителю; подставляют второй набор классификационных признаков в систему предикатов идентификации поручения и по предикатам, принявшим значение «истина», принимают решение о назначении исполнителям конкретных поручений по исполнению поступившего документа; полученные данные об исполнителе, поручении и сроке исполнения, а также полученные любым способом данные о дате рассмотрения документа, объединяют в кортеж данных и присваивают его реквизиту документа «резолюция», отличающийся тем, что на основе определенных области информационной ответственности и вида документа формируют третий классификационный признак и определяют статью Перечня документов со сроками их хранения (далее - Перечень), хранящуюся в базе данных, к которой может быть отнесен исполненный документ; на основании ранее определенных реквизитов и уникальных ключевых слов, относящихся к этим реквизитам, формируют четвертый классификационный признак, определяют контур системы электронного документооборота (далее - СЭД), в котором был разработан документ; на основании определенных статьи Перечня и контура СЭД формируют пятый классификационный признак и определяют срок хранения исполненного документа; на основании определенной статьи Перечня, определенного срока хранения исполненного документа и исполнителя документа формируют шестой классификационный признак и определяют дело, в которое будет распределен исполненный документ; на основании определенной метки конфиденциальности документа и известной метки конфиденциальности дела, в которое будет распределен документ, проверяют соответствие меток конфиденциальности документа и дела, в которое его распределяют; на этапе обучения, по набору классифицированных вручную документов, формируют систему предикатов определения статьи Перечня, формируют систему предикатов определения контура СЭД, в котором был разработан документ, формируют систему предикатов определения срока хранения документа, сохраняют указанные системы предикатов в базе данных; формируют систему предикатов определения дела, в которое будет распределен исполненный документ, формируют систему предикатов проверки соответствия меток конфиденциальности документа и дела, в которое будет распределен документ, и сохраняют указанные системы предикатов в базе данных; при классификации документов на основании полученного набора классификационных признаков с помощью базы данных принимают решение об относимости документа к каждой из статей Перечня, подставляют третий набор классификационных признаков в систему предикатов определения статьи Перечня и по предикатам, принявшим значение «истина», принимают решение об отнесении документа к конкретной статье Перечня; подставляют четвертый набор классификационных признаков в систему предикатов определения контура СЭД и по предикатам, принявшим значение «истина», принимают решение о контуре СЭД, в котором был разработан документ; подставляют пятый набор классификационных признаков в систему предикатов узнавания срока хранения документа, и по предикатам, принявшим значение «истина», принимают решение о присвоении срока хранения исполненному документу; подставляют шестой набор классификационных признаков в систему предикатов определения дела, в которое будет распределен исполненный документ и по предикатам, принявшим значение «истина», принимают решение об определении дела, в которое требует распределить исполненный документ.To achieve the specified technical result, a method is proposed for automatic classification of formalized electronic documents in an electronic document management system with automatic generation of electronic files, which consists in determining the area of a formalized document for extracting metadata and an informative part, converting a document from a storage format into a text in natural language, converting processed words document in basic word forms, discarding insignificant words, calculating the weights of words in the document in accordance with the frequencies of their occurrence and forming a set of classification features; on the basis of the recognized details and the values of the keywords of these details, determine the specific type of electronic document; when converting the words of a document into basic word forms, separate words and phrases corresponding to the time intervals for performing the activity determined by the document are selected and left unchanged, thereby forming a vector of data on the timing of the execution of the document; on the basis of certain areas of information responsibility, as well as a priori information about the structure of the organization (institution), including the relations of subordination between officials of the organization (institution) and the levels of their access to various degrees of confidentiality of documents, form the first set of classification signs; on the basis of a certain type of document and the area of information responsibility to which the document belongs, using predicates for recognizing keywords and individual details of the formal part, a second set of classification features is formed; at the stage of training, a system of predicates for determining the area of information responsibility is formed using a set of manually classified documents; form a predicate system for identifying a confidentiality label of a document; save the specified predicate systems in the database; according to the set of documents for which the "resolution" requisite is manually filled in, form a predicate system for identifying the executor of the order according to the received document and a system for predicate identification of the order, save the predicate systems in the database; when classifying documents on the basis of the obtained set of classification features using the database, a decision is made on the relevance of the document to each of the information areas and each of the confidentiality labels, the first set of classification features is substituted into the system of predicates for identifying the executor of the order, and according to the predicates that have taken the value "true" the decision to refer the document to the competence of specific employees subordinate to the head; substitute the second set of classification signs into the system of order identification predicates and, based on the predicates that have taken the value "true", make a decision on assigning specific orders to executors to execute the received document; the obtained data about the executor, the order and the deadline, as well as the data obtained in any way about the date of the document consideration, are combined into a data tuple and assigned to the requisite of the "resolution" document, characterized in that, based on certain areas of information responsibility and the type of document, a third classification is formed sign and determine the article of the List of documents with the terms of their storage (hereinafter referred to as the List), stored in the database, to which the executed document can be attributed; on the basis of previously determined details and unique keywords related to these details, form the fourth classification feature, determine the outline of the electronic document management system (hereinafter - EDMS), in which the document was developed; on the basis of certain articles of the List and the outline of the EDMS, the fifth classification feature is formed and the storage period of the executed document is determined; on the basis of a certain article of the List, a certain storage period for the executed document and the executor of the document, form the sixth classification feature and determine the case in which the executed document will be distributed; on the basis of a certain confidentiality label of the document and the known confidentiality label of the case to which the document will be distributed, the compliance of the confidentiality labels of the document and the case in which it is distributed is checked; at the training stage, based on a set of manually classified documents, they form a predicate system for determining the List entry, form a predicate system for determining the EDMS contour in which the document was developed, form a predicate system for determining the storage period of a document, save the specified predicate systems in the database; form a system of predicates for defining a case, into which the executed document will be distributed, form a system of predicates for checking the compliance of confidentiality labels of a document and a case, into which the document will be distributed, and store the specified predicate systems in the database; when classifying documents on the basis of the obtained set of classification features, a decision is made with the help of the database on the relevance of the document to each of the articles of the List, the third set of classification features is substituted into the predicate system for determining the item of the List, and according to the predicates that have taken the value "true", a decision is made to assign the document to a specific article of the List; substitute the fourth set of classification features into the system of predicates for determining the EDMS contour and, based on the predicates that have taken the value "true", make a decision on the EDMS contour in which the document was developed; the fifth set of classification features is substituted into the system of predicates for recognizing the storage period of the document, and according to the predicates that have taken the value "true", a decision is made to assign the storage period to the executed document; the sixth set of classification features is substituted into the system of case definition predicates, into which the executed document will be distributed, and according to the predicates that have taken the value "true", a decision is made on the definition of the case, into which the executed document is required to be distributed.
Краткое описание чертежейBrief Description of Drawings
На фигуре представлена блок-схема вычислительного устройства для реализации способа. Устройство для реализации способа состоит из блоков: ввода формализованных электронных документов (1), анализа характеристик текста (2), распознавания реквизитов документа (3), распознавания вида документа (4), выделения метаданных (5), определения базовых словоформ (6), создания рабочего словаря (7), определения весов словоформ текста документа (8), распознавания области информационной ответственности (9), учета документа по метаданным (10), обучения (11), распознавания метки конфиденциальности документа (12), адресации документа (13), формирования проекта резолюции руководителя (14) и ввода - вывода системы (15), формирования дела (16).The figure shows a block diagram of a computing device for implementing the method. The device for implementing the method consists of blocks: input of formalized electronic documents (1), analysis of text characteristics (2), recognition of document details (3), recognition of the type of document (4), extraction of metadata (5), definition of basic word forms (6), creating a working dictionary (7), determining the weights of word forms of the text of a document (8), recognizing the area of information responsibility (9), accounting for a document using metadata (10), training (11), recognizing a document confidentiality label (12), document addressing (13) , formation of a draft resolution of the head (14) and input - output of the system (15), formation of a case (16).
Осуществление изобретенияImplementation of the invention
При поступлении электронного документа (далее - ЭД) выделяют характеристики одинаковых участков текста Z - реквизитов. При этом априорно известно, что количество реквизитов формализованного ЭД ограничено. Каждый реквизит представим конечным предикатом PZ(T, L), где Т - конечное множество характеристик текста - множество ключевых слов реквизита, где q' - количество всех используемых ключевых слов. Для написания правил построения предикатов используем математический аппарат логики предикатов.Upon receipt of an electronic document (hereinafter - ED), the characteristics of the same sections of the text Z - details are distinguished. At the same time, it is a priori known that the number of details of a formalized ED is limited. Each variable is represented by a finite predicate P Z (T, L), where T is a finite set of text characteristics - many keywords props, where q '- the number of all used keywords. To write the rules for constructing predicates, we use the mathematical apparatus of predicate logic.
Правило построения предиката узнавания реквизита формализованного документа выразится следующей формулой:The rule for constructing a predicate for recognizing an attribute of a formalized document is expressed by the following formula:
где {b} - множество значимых слов в реквизитах формализованных документов;where {b} is a set of significant words in the details of formalized documents;
{h'} - множество характеристик текста, - возможные характеристики текста;{h '} - many characteristics of the text, - possible characteristics of the text;
{а'} - множество переменных характеристик текста, - возможные характеристики текста;{ a '} - a set of variable characteristics of the text, - possible characteristics of the text;
- предикат узнавания α-ой переменной h-ой характеристики текста; - the predicate of recognition of the α-th variable of the h-th characteristic of the text;
- предикат узнавания значимых слов в реквизитах. - predicate of recognition of significant words in the requisites.
Вид документа определяется при помощи конечного предиката PV(Z, L), где V={νj} - множество видов документов, - значения в множестве видов документов, j' - количество всех используемых видов документов, Z - множество предикатов узнавания реквизитов документа, n - количество всех реквизитов документов. Правило построения предиката узнавания вида документа выразится следующей формулой:The document type is determined using the final predicate P V (Z, L), where V = {ν j } is the set of document types, - values in a set of document types, j 'is the number of all used document types, Z is a set of predicates for recognizing document details, n is the number of all document details. The rule for constructing a predicate for recognizing the type of document is expressed by the following formula:
где {νj} - множество видов документов, j - все используемые виды формализованных документов, j' - конечное значение множества видов формализованных документов; where {ν j } is the set of types of documents, j - all used types of formalized documents, j '- the final value of the set of types of formalized documents;
Z=zi - множество предикатов узнавания i-го реквизита для j-го вида документа, n - количество всех возможных реквизитов, нанесенных на документ;Z = z i is the set of predicates for recognizing the i-th variable for the j-th type of document, n - the number of all possible details applied to the document;
- множество предикатов узнавания уникального значения ξ ключевого слова q i-го реквизита j-го вида документа; - the set of predicates for recognizing the unique value ξ of the keyword q of the i-th variable of the j-th type of document;
zi - предикат узнавания i-го реквизита для j-го вида документа.z i - predicate of recognition of the i-th variable for the j-th type of document.
С использованием правил (1, 2) создаются системы предикатов идентификации формуляров (расположения и значений реквизитов) и видов поступающих документов. Формуляр документа однозначно задает места расположения реквизитов документа, что позволяет классифицировать документы по виду и степени ограничения доступа.Using the rules (1, 2), systems of predicate identification of forms (location and values of attributes) and types of incoming documents are created. The document form uniquely specifies the location of the document details, which allows you to classify documents by type and degree of access restriction.
Затем информативную часть документа (далее - текст) преобразуют из формата хранения в текст на естественном языке, преобразуют слова документа в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в тексте в соответствии с частотами их появления и тем самым формируют предикаты идентификации признаков текста.Then the informative part of the document (hereinafter referred to as the text) is converted from the storage format to the text in natural language, the words of the document are converted into basic word forms, insignificant words are discarded, the weights of words in the text are counted in accordance with the frequencies of their occurrence and thereby form predicates for identifying text features ...
Вес ƒ словоформы wp в тексте документа dy, рассчитывается по формуле:The weight ƒ of the word form w p in the text of the document d y is calculated by the formula:
где - количество раз, которое wp-я словоформа встречается в dy-м тексте документа;Where - the number of times that the w p -th word form occurs in the d y -th text of the document;
- общее количество словоформ в dy-м тексте документа. - the total number of word forms in the d y -th text of the document.
Классифицируемые документы могут быть представлены в различных форматах: текстовые файлы различных форматов, графические файлы с графическим представлением некоторого текста, звуковые файлы с записью речи и другие файлы, для которых существует механизм выделения из них текста, отражающего их содержание.The classified documents can be presented in various formats: text files of various formats, graphic files with a graphical representation of some text, sound files with speech recording and other files for which there is a mechanism for extracting text from them that reflects their content.
Каждый документ предварительно проходит стадию первичной обработки, на которой производится определение формата документа и установление того, возможно ли извлечение текста из документа данного формата. В случае положительного решения производится извлечение текста из документа. После разбиения текста на слова происходит определение для каждого слова его базовой словоформы по одному из способов. Для документов на естественном языке славянской группы предпочтительными являются алгоритмы лемматизации (процесса приведения слова к его нормальной форме (лемме), допустимо применение алгоритмов усечения окончаний, стохастических и статистических алгоритмов; для документов на естественном языке западногерманской группы - алгоритмов усечения окончаний, например, стемер Портера (использование специальных правил отсечения и замены окончаний слов).Each document preliminarily goes through the stage of primary processing, at which the document format is determined and whether it is possible to extract text from a document of this format. In case of a positive decision, the text is extracted from the document. After splitting the text into words, the definition for each word of its basic word form takes place in one of the ways. For documents in the natural language of the Slavic group, lemmatization algorithms are preferable (the process of reducing a word to its normal form (lemma), it is permissible to use algorithms for truncating endings, stochastic and statistical algorithms; for documents in the natural language of the West German group - algorithms for truncating endings, for example, Porter's stemer (using special rules for cutting and replacing word endings).
Правило построения предиката РU(W) узнавания информационной области U={uβ}, где β' - количество областей информационной ответственности, выражается следующей формулой:The rule for constructing a predicate Р U (W) for recognizing the information domain U = {u β }, where β '- the number of areas of information responsibility, expressed by the following formula:
где W={wp} - множество значимых слов текстов, где where W = {w p } is the set of meaningful words of texts, where
р' - количество значимых слов текстов;p '- the number of significant words in the texts;
- предикат узнавания значения веса ƒ значимого слова wp, в тексте документа dy uβ-той информационной области по g-тому значению веса слова. - the predicate of recognition of the value of the weight ƒ of the significant word w p , in the text of the document d y u of the β -th information area by the g-value of the weight of the word.
Правило построения предиката PM(U,Z) узнавания метки конфиденциальности документа М={mλ}, где λ' - количество определенных в системе меток конфиденциальности выразится следующей формулой:The rule for constructing a predicate P M (U, Z) for recognizing a document confidentiality label M = {m λ }, where λ '- the number of confidentiality labels defined in the system is expressed by the following formula:
где - предикат узнавания k-го значения r-ого реквизита;Where - the predicate of recognition of the k-th value of the r-th variable;
mo - метка конфиденциальности документа dy, при этом mo ∈ М;m o is the confidentiality label of the document d y , while m o ∈ М;
uβ - предикат узнавания β-ой области, где β' - количество информационных областей системы.u β is a predicate of recognition of the β-th region, where β 'is the number of information areas of the system.
После определения метки конфиденциальности документа переходят к формированию проекта резолюции руководителя организации. Реквизит «резолюция», исходя из его определения, представим в виде кортежа данных:After determining the confidentiality label of the document, they proceed to the formation of a draft resolution of the head of the organization. The props “resolution”, based on its definition, can be represented as a tuple of data:
где μϕ - наименование должности, либо фамилии и инициалов ϕ-го должностного лица организации (учреждения), ϕ' - количество должностных лиц, непосредственно подчиненных руководителю и являющихся исполнителями его поручений по поступающим электронным документам;where μ ϕ is the name of the position, or the surname and initials of the ϕ-th official of the organization (institution), ϕ '- the number of officials directly subordinate to the head and who are executors of his instructions on the received electronic documents;
sϕχ - χ-ое поручение руководителя ϕ-му должностному лицу;s ϕχ - χ-th order of the head to the ϕ-th official;
- срок исполнения -ого поручения руководителя ϕ-му должностному лицу и соответствующий ему атомарный предикат узнавания дат и сроков в информативной части документа; - the term of execution of the th order of the head to the ϕ-th official and the corresponding atomic predicate of recognition of dates and terms in the informative part of the document;
- подпись руководителя. - signature of the head.
Правило построения предиката Pμ(U,M) узнавания должностного лица организации (учреждения), компетентного в uβ-ой области информационной ответственности, имеющего соответствующий степени ограничения λ допуск и являющегося исполнителем формируемого поручения руководителя (далее - исполнитель) по поступившему электронному документу dy выразится следующим образом:The rule for constructing a predicate P μ (U, M) for recognizing an official of an organization (institution) who is competent in the u β- th area of information responsibility, who has a tolerance corresponding to the degree of restriction λ and who is the executor of the generated order of the head (hereinafter referred to as the executor) according to the received electronic document d y is expressed as follows:
где - предикат узнавания значения λ метки конфиденциальности mo поступившего документа dy, λ' - общее количество меток конфиденциальности в системе.Where - the predicate of recognition of the value λ of the confidentiality label m o of the received document d y , λ 'is the total number of privacy labels in the system.
Правило построения предиката выбора поручения из списка готовых поручений будет иметь вид:The rule for constructing a predicate for selecting an instruction from the list of ready-made orders will be as follows:
После исполнения всех поруAfter all, it's time
чений начальника (резолюции) по документу переходят к распределению документа в дело.The chief's instructions (resolutions) for the document are transferred to the distribution of the document in the case.
Для этого определяют статью Перечня, к которой может быть отнесен документ. Правило построения предиката узнавания статьи Перечня который примет значение «истина» при условии, что документ относится к конкретной области информационной ответственности (uβ) и имеет конкретный вид (νj), выражают следующей формулойTo do this, determine the article of the List to which the document can be attributed. The rule for constructing a predicate for recognizing an entry in the List which takes the value "true", provided that the document belongs to a specific area of information responsibility (u β ) and has a specific form (ν j ), is expressed by the following formula
где Ns - статья Перечня;where N s is an entry in the List;
uβ - область информационной ответственности, к которой относится документ;u β - area of information responsibility to which the document belongs;
νj - вид формализованного документа.ν j - type of formalized document.
Прежде чем определить срок хранения исполненного документа, необходимо определить контур системы электронного документооборота, в котором был разработан и хранится документ (γ).Before determining the storage period of the executed document, it is necessary to determine the outline of the electronic document management system, in which the document was developed and stored (γ).
Правило записи предиката узнавания контура, в котором исполненный документ был разработан, Pγ(Z,L), выразится следующей формулой, которая примет значение «истина» при условии, что в реквизитах «место составления», «адресат», «отметка о поступлении» есть уникальные слова , соответствующие искомому контуру:The rule for writing the predicate of recognition of the contour in which the executed document was developed, P γ (Z, L), will be expressed by the following formula, which will take the value “true”, provided that the attributes “place of compilation”, “addressee”, “receipt note »There are unique words corresponding to the desired contour:
где γ - контур СЭД, в котором был разработан ЭД;where γ is the EDMS contour in which the ED was developed;
zi - предикат узнавания i-го реквизита;z i - predicate of recognition of the i-th variable;
- предикат узнавания уникального значения ξ' ключевого слова q i-того реквизита электронного документа, относящегося γ-му контуру; - the predicate of recognition of the unique value ξ 'of the q keyword of the i-th variable of the electronic document related to the γ-th contour;
i={13,16,22} - реквизиты документа в соответствии с ГОСТ 7.0.97 2016 года;i = {13,16,22} - details of the document in accordance with GOST 7.0.97 2016;
zi - предикат узнавания i-го реквизита для ЭД, относящегося к контуру.z i - predicate of recognition of the i-th variable for the ED related to the contour.
Далее определяют срок хранения исполненного документа (τ) при помощи предиката узнавания срока хранения ЭД Pτ(U,V,K), который примет значение истина при условии, что ЭД отнесен к конкретной статье Перечня и разработан в конкретном контуре СЭД, правило построения которого выразится следующей формулой:Next, the shelf life of the executed document (τ) is determined using the predicate for recognizing the ED retention period P τ (U, V, K), which will take on the value true, provided that the ED is assigned to a specific entry in the List and developed in a specific EDMS circuit, the construction rule of which is expressed by the following formula:
где Pτ(U, V, K) - предикат узнавания срока хранения (τ) документа;where P τ (U, V, K) is the predicate for recognizing the storage period (τ) of the document;
uβ - область информационной ответственности, к которой относится документ;u β - area of information responsibility to which the document belongs;
νj - вид формализованного документа;ν j - type of formalized document;
- предикат узнавания контура СЭД, в котором разработан и хранится исполненный документ; - recognition predicate the outline of the EDMS, in which the executed document is developed and stored;
- контур СЭД, отличный от контура, в котором разработан и хранится исполненный документ. - the contour of the EDMS, different from the contour in which the executed document is developed and stored.
На основании значений, полученных в (6, 8, 10) определяют дело в которое будет распределен исполненный документ, используя предикат который примет значение «истина» при условии, что документ отнесен к конкретной статье Перечня и обладает конкретным сроком хранения и относится к области деятельности конкретного подразделения (должностного лица). Правило построения предиката выражают следующей формулой:Based on the values obtained in (6, 8, 10), the case is determined into which the executed document will be distributed using the predicate which will take the value "true" provided that the document is attributed to a specific article of the List and has a specific storage period and belongs to the area of activity of a specific unit (official). The rule for constructing a predicate expressed by the following formula:
где - электронное дело, в котором будет храниться исполненный ЭД;Where - an electronic file in which the executed ED will be stored;
Ns - предикат узнавания статьи Перечня, к которой отнесен ЭД;N s - predicate of recognition of the List entry to which the ED is referred;
Т - предикат узнавания срока хранения документа;T is a predicate for recognizing the storage period of a document;
Ω - предикат узнавания должностного лица, к области деятельности которого относится документ;Ω is a predicate of recognition of an official whose field of activity the document belongs to;
τ - срок хранения документа;τ - document storage period;
μ - должностное лицо (структурное подразделение), к области информационной ответственности которого отнесен документ;μ - an official (structural unit), to whose area of information responsibility the document is assigned;
- статья Перечня, к которой отнесен документ. - the article of the List to which the document belongs.
Перед распределением документа в дело необходимо проверить соответствие ограничительных меток конфиденциальности документа и дела. На основании данных, полученных в (4), построят правило записи предиката узнавания разрешения на распределение документа в дело:Before distributing a document to a file, you must verify that the document and file confidentiality restrictive labels match. Based on the data obtained in (4), a rule for recording the predicate of recognition of permission for the distribution of a document in a case will be constructed:
где Pθ(Md, МΔ) - предикат узнавания возможности распределения документа в дело;where P θ (M d , M Δ ) is a predicate for recognizing the possibility of distributing a document into a case;
md - предикат узнавания ограничительной метки конфиденциальности дела;m d - the predicate of recognition of the restrictive confidentiality label of the case;
mΔ - предикат узнавания ограничительной метки конфиденциальности документа.m Δ is the predicate for recognizing the document's confidentiality restrictive label.
Согласно предлагаемому способу каждый документ dy представляется декартовым произведением переменных из множеств Т×L×W, где для инициализации классификатора и построения классификационных признаков служит этап обучения классификатора. При этом должно быть задано множество обучающих документов, заранее вручную классифицированных по делам, с учетом соответствия меток конфиденциальности документа и дела, а также содержащих непустой реквизит «отметка об исполнении и направлении в дело». После извлечения из них текстового содержания происходит построение словаря значимых слов. Словарь содержит базовые словоформы всех слов, встречающихся в обучающих документах.According to the proposed method, each document d y is represented by a Cartesian product of variables from the sets T × L × W, where the classifier training stage is used to initialize the classifier and construct classification features. In this case, a set of training documents must be set, manually pre-classified by cases, taking into account the correspondence of the confidentiality labels of the document and the case, as well as containing a non-empty variable "mark of execution and direction to the case." After extracting the textual content from them, a dictionary of significant words is built. The dictionary contains basic word forms of all words found in educational documents.
При классификации документа в расчет берутся не все словоформы из словаря документов, а лишь те из них, которые входят в рабочий словарь классификатора. В рабочий словарь классификатора включаются наиболее информативные словоформы с точки зрения определения принадлежности документа данной области (метке). Информативность словоформы wp для классификатора по информационной области uβ определяется по следующей формуле:When classifying a document, not all word forms from the dictionary of documents are taken into account, but only those that are included in the working dictionary of the classifier. The working vocabulary of the classifier includes the most informative word forms from the point of view of determining the belonging of a document to a given area (label). The informativeness of the word form w p for the classifier by the information area u β is determined by the following formula:
В рабочий словарь классификатора включаются все словоформы, не попавшие в стоп-словарь, информативность которых превышает заданный порог информативности ε. Стоп-словарь состоит из словоформ, частоты встречаемости которых во множестве обучающих документов превышают заранее установленный порог δ. При этом могут отсекаться слова, не несущие смысловой нагрузки, такие как предлоги, союзы, вводные и общие слова и т.д. Значения коэффициента δ, согласно данному способу, устанавливаются в пределах от 0.05 до 0.7 и могут быть различны в зависимости от специфики и условий его использования.The working dictionary of the classifier includes all word forms that are not included in the stop dictionary, the information content of which exceeds the given threshold of information content ε. The stop dictionary consists of word forms, the frequency of occurrence of which in a set of training documents exceeds a predetermined threshold δ. In this case, words that do not carry a semantic load, such as prepositions, conjunctions, introductory and general words, etc., can be cut off. The values of the coefficient δ, according to this method, are set in the range from 0.05 to 0.7 and can be different depending on the specifics and conditions of its use.
В режиме обучения, по предъявленному набору классифицированных вручную текстов формируют систему предикатов идентификации признаков текста, где количество предикатов в системе предикатов определяется количеством статей Перечня, на которые необходимо классифицировать документы. Сохраняют предикаты в базе данных.In the training mode, according to the presented set of manually classified texts, a system of predicates for identifying text signs is formed, where the number of predicates in the predicate system is determined by the number of entries in the List into which documents must be classified. Store predicates in the database.
В режиме обучения, по предъявленному набору классифицированных вручную документов формируют системы предикатов определения контура СЭД, в котором был разработан исполненный документ. Количество предикатов в системе определяется количеством контуров, заданных в информационной системе. Сохраняют системы предикатов в базе данных.In the training mode, according to the presented set of manually classified documents, predicate systems for determining the EDMS contour in which the executed document was developed are formed. The number of predicates in the system is determined by the number of contours specified in the information system. Store predicate systems in the database.
В режиме обучения, по предъявленному набору классифицированных документов, определяют срок хранения исполненного документа, формируют системы предикатов определения срока хранения исполненного документа. Количество предикатов в системе определения сроков хранения определяется количеством возможных сроков хранения, определенных Перечнем. Сохраняют системы предикатов в базе данных.In the training mode, according to the presented set of classified documents, the storage period of the executed document is determined, predicate systems for determining the storage period of the executed document are formed. The number of predicates in the storage period determination system is determined by the number of possible storage periods defined by the List. Store predicate systems in the database.
В режиме обучения, по предъявленному набору классифицированных документов, определяют дело, в которое будет распределен исполненный документ, формируют системы предикатов определения дела, в которое будет распределен исполненного документа. Количество предикатов в системе определения дела, в которое будет распределен исполненный документ, определяется количеством возможных дел, определенных номенклатурой дел организации. Сохраняют системы предикатов в базе данных.In the training mode, according to the presented set of classified documents, they determine the case in which the executed document will be distributed, form the predicate systems for determining the case, into which the executed document will be distributed. The number of predicates in the case definition system into which the executed document will be distributed is determined by the number of possible cases determined by the organization's case nomenclature. Store predicate systems in the database.
В режиме классификации документов осуществляют преобразование документа из формата хранения в текст на естественном языке, затем - слов текста в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в тексте, получившиеся значения подставляют в систему предикатов (3), находящуюся в базе данных. По предикатам, принявшим значение «истина», однозначно определяют области информационной ответственности, к которым относится документ. Используя извлеченные метаданные документа, полученные по (1), определяют соответствующую ему метку конфиденциальности, для чего указанные значения подставляют в систему предикатов, построенных по (4). По предикату, принявшему значение «истина», определяют метку конфиденциальности, после чего переходят к построению проекта реквизита «резолюция». Для этого, во-первых, определенные по (3) значения областей информационной ответственности и определенное по (4) значение метки конфиденциальности документа подставляют в систему предикатов, построенных по (5), и по предикатам, принявшим значение «истина», определяют исполнителя. Во-вторых, подставляя в систему предикатов, построенных по (6), значения определенных по (1) реквизитов документа, по (2) вида документа и по (3) области информационной ответственности, а также значения отдельных ключевых слов, по предикатам, принявшим значения «истина» определяют конкретные поручения. Дополняя полученные значения исполнителя и поручения определенными атомарными предикатами узнавания значениями сроков исполнения и определенной любым способом даты поступления документа, получают кортеж данных, который присваивается реквизиту «резолюция» поступившего документа. Используя значения области информационной ответственности, полученные по (3), и значение вида документа, полученные по (2), подставляют в систему предикатов, построенных по правилу (8), и по предикатам, принявшим значение «истина», определяют статью Перечня, к которой можно отнести исполненный документ. Значения, определенные по (8) статьи Перечня и значения, определенные по (6) и (10), подставляют в систему предикатов, построенных по правилу (11) и по предикатам, принявшим значение «истина», определяют дело, в которое будет распределен исполненный документ. Далее, используя значения определенные по (4) метки конфиденциальности документа и предиката узнавания метки конфиденциальности выбранного дела, подставляя их в систему предикатов, построенных по правилу (12) и по предикатам, принявшим значение «истина», определяют возможность распределения исполненного документа в идентифицированное дело.In the document classification mode, the document is converted from the storage format to the text in natural language, then the words of the text into basic word forms, insignificant words are discarded, the weights of words in the text are counted, the resulting values are substituted into the predicate system (3) located in the database. According to the predicates that have taken the value "true", the areas of information responsibility to which the document belongs are uniquely determined. Using the extracted document metadata obtained according to (1), the corresponding confidentiality label is determined, for which the indicated values are substituted into the system of predicates constructed according to (4). According to the predicate that has taken the value "true", the confidentiality label is determined, after which they proceed to the construction of the draft of the "resolution" variable. For this, firstly, the values of the areas of information responsibility determined by (3) and the value of the document confidentiality label determined by (4) are substituted into the system of predicates built by (5), and the executor is determined by the predicates that have taken the value "true". Secondly, substituting into the system of predicates built according to (6), the values determined by (1) the details of the document, by (2) the type of document and by (3) the area of information responsibility, as well as the values of individual keywords, according to the predicates that true values identify specific assignments. Supplementing the obtained values of the executor and the instruction with certain atomic predicates of recognition with the values of the due dates and the date of receipt of the document determined in any way, a data tuple is obtained, which is assigned to the "resolution" variable of the received document. Using the values of the area of information responsibility obtained by (3) and the value of the document type obtained by (2), they are substituted into the system of predicates built according to rule (8), and by the predicates that have taken the value "true", they determine the entry of the List, to which can be attributed to the executed document. The values determined by (8) of the Article of the List and the values determined by (6) and (10) are substituted into the system of predicates constructed according to rule (11) and, according to the predicates that have taken the value "true", determine the case into which executed document. Further, using the values determined by (4) the document confidentiality label and the predicate for recognizing the confidentiality label of the selected case, substituting them into the system of predicates built according to rule (12) and according to the predicates that have the value "true", determine the possibility of distributing the executed document into the identified case ...
Отметим, что данный способ предназначен для обработки машиночитаемых текстов на естественном языке.Note that this method is intended for processing machine-readable natural language texts.
Сопоставительный анализ заявляемого решения с прототипом показывает, что предлагаемый способ отличается определением дела, в которое будет распределен исполненный документ, выполнением проверки, на предмет возможности распределения в дело документа с использованием правил (8, 9, 10, 11, 12), а также усовершенствованными правилами определения реквизита документа (1) и определения вида документа (2).A comparative analysis of the proposed solution with the prototype shows that the proposed method differs in the definition of the case in which the executed document will be distributed, in the performance of a check, for the possibility of distributing the document in the case using the rules (8, 9, 10, 11, 12), as well as improved rules for determining the details of the document (1) and determining the type of document (2).
Благодаря новой совокупности существенных признаков способ позволяет автоматизировать процесс распределения исполненных документов в дела СЭД, учитывая степени конфиденциальности документа и дела СЭД, в которое документ распределен, когда число меток конфиденциальности (степеней ограничения доступа) не ограничено.Thanks to the new set of essential features, the method allows automating the process of distributing executed documents in the EDMS files, taking into account the degree of confidentiality of the document and the EDMS file, in which the document is distributed, when the number of confidentiality labels (degrees of access restriction) is not limited.
Анализ уровня техники позволил установить, что аналоги, характеризующиеся совокупностью признаков, тождественных признакам заявленного технического решения, отсутствуют, что указывает на соответствие заявленного способа условию патентоспособности «новизна».The analysis of the prior art made it possible to establish that analogues characterized by a set of features that are identical to the features of the claimed technical solution are absent, which indicates that the claimed method meets the "novelty" condition of patentability.
Результаты поиска известных решений в данной и смежных областях техники с целью выявления признаков, совпадающих с отличительными от прототипа признаками заявленного объекта, показали, что они не следуют явным образом из уровня техники. Из уровня техники также не выявлена известность отличительных существенных признаков, обуславливающих тот же технический результат, который достигнут в заявленном способе. Следовательно, заявленное изобретение соответствует условию патентоспособности «изобретательский уровень».The results of the search for known solutions in this and related fields of technology in order to identify features that coincide with the distinctive features of the prototype of the features of the claimed object have shown that they do not follow explicitly from the prior art. The prior art also did not reveal the knowledge of the distinctive essential features that cause the same technical result that is achieved in the claimed method. Therefore, the claimed invention meets the "inventive step" requirement of patentability.
Автоматическая классификация электронных документов в системе электронного документооборота с автоматическим формированием дела осуществляется следующим образом:Automatic classification of electronic documents in the electronic document management system with automatic case formation is carried out as follows:
1. В режиме классификации. При появлении в блоке ввода 1 нового формализованного ЭД d он поступает в блок 2, в котором выявляют значения характеристик текста t участков документа и ключевых слов в них. Значения t и участков документа поступают в блок 3, где с помощью системы предикатов, построенных по правилу (1), распознают реквизиты документа z. Информация о распознанных реквизитах документа z поступает в блок 4, где по системе предикатов, построенной по правилу (2), осуществляют распознавание вида документа v.1. In classification mode. When a new formalized ED d appears in
В блоке 5 из поступившего от блока 2 документа d, используя сведения об определенном в блоке 4 виде документа ν, который, обладая установленным требованиями нормативных документов формуляром, задает места расположения и значения реквизитов документа, выявляют требуемые значения реквизитов, которые используются как метаданные документа. Из блока 5 документ d и соответствующие ему метаданные z поступают в блок 10, где документ учитывается по своим метаданным и организуется хранение его эталонной копии. Определенная в блоке 5 информативная часть документа d' поступает в блок 6, где слова преобразуются в словоформы, и поступают далее в блок 7, где в процессе работы системы происходит создание рабочего словаря из значимых слов.In
Полученные в блоке 6 словоформы d'' поступают также в блок 8, где производится расчет весов ƒw словоформ информативной части документа, попавших в рабочий словарь. Из блока 8 значения весов ƒw полученных словоформ поступают в блок 9, где происходит распознавание информационной области uβ путем вычисления значений предикатов системы предикатов, построенной по правилу (3). После чего данные об информационной области uβ, к которой относится документ, передаются в блок 10 и присоединяются к метаданным документа.The word forms d '' obtained in
В блоке 12 на основе поступивших из блока 10 реквизитов документа z и полученных в блоке 9 областей информационной ответственности uβ на основе системы предикатов, построенной по правилу (4), определяют соответствующую классифицируемому документу метку конфиденциальности mо. После чего данные о метке конфиденциальности передаются в блок 10 и присоединяются к метаданным документа.In
В блоке 14 на основе поступивших из блоков 10 и 12 данных при помощи системы предикатов, построенных по правилу (5), определяют исполнителя поступившего документа Zp, передают в блок 10, где сохраняют его для дальнейшей обработки, включая в набор метаданных, а также передают его в блок 13 для выбора адресата. В блоке 14 на основе данных, поступивших из блока 8 и 10, при помощи системы предикатов, построенных по правилу (6), определяют поручение исполнителю. В блоке 14 информативная часть документа проходит обработку с применением атомарных предикатов узнавания сроков исполнения. Все полученные данные объединяются в кортеж и передаются в блок 10, где добавляются в метаданные и присваиваются реквизиту «резолюция».In
Из блока 10 документ d и метаданные МД поступают в блок 13. В блоке 13 на основе значений, поступивших из блоков 10, формируют соответствующее метке конфиденциальности ограничение доступа mо к классифицируемому документу и направляют исполнителю.From
Далее через блок 15 происходит загрузка документа в информационную систему в соответствии с определенными классами.Further, through
Далее, после исполнения документа (выполнения всех указаний (поручений), определенных в резолюции) исполнителем из блока 15 в блок 16 передаются: метаданные о документе МД, находящиеся в системе (реквизиты, нанесенные на документ, вид документа, область информационной ответственности, к которой отнесен документ, сведения о метке конфиденциальности), информация об исполнителе (структурном подразделении организации), исполнившем документ, а также из блока 8 в блок 16, передают веса значимых слов ƒw, содержащихся в документе и при помощи системы предикатов, построенных по правилам (7, 8, 9, 10), определяют дело, в которое будет распределен исполненный документ. При помощи системы предикатов, построенной по правилу 11, проверяют соответствие уровня меток конфиденциальности исполненного документа md и дела mΔ, в которое распределяется исполненный документ. Полученные данные объединяются в кортеж и передаются в блок 10, где присваиваются реквизиту «отметка об исполнении и направлении в дело» Z30.Further, after the execution of the document (fulfillment of all instructions (instructions) defined in the resolution), the executor from
Из блока 10 документ d и метаданные МД поступают в блок 13. В блоке 13 на основе значений, поступивших из блоков 10, 16, формируют соответствующее метке конфиденциальности ограничение доступа к классифицируемому документу и направляют в соответствующее дело с учетом установленных ограничений.From
2. В режиме обучения.2. In training mode.
Режим обучения системой используется в следующих случаях: в случае отсутствия возможности распознавания системой предикатов реквизитов документа в блоке 3 по значениям переменных документа t и (в этом случае оператором системы через блок 11 вносятся изменения в систему предикатов блока 3 или определяется реквизит документа «вручную»); в случае отсутствия возможности распознавания системой предикатов вида документа в блоке 4 по значениям предикатов системы предикатов блока 3 (в этом случае оператором системы через блок 11 вносятся изменения в систему предикатов блока 4 или определяется вид документа «вручную»); в случае отсутствия возможности распознавания системой предикатов информационной области в блоке 9 по значениям весов значимых слов из рабочего словаря, извлеченных из информативной части документа (в этом случае оператором системы через блок 11 вносятся изменения в систему предикатов блока 9 или определяется информационная область документа «вручную»); в случае невозможности распознавания системой предикатов метки конфиденциальности документа в блоке 12 по значениям предикатов системы предикатов блока 9 и метаданным блока 10 (в этом случае оператором системы через блок И вносятся изменения в систему предикатов блока 12 или определяется метка конфиденциальности «вручную»); в случае внесения в проект резолюции изменений, в части, касающейся поручений, выбранных из списка готовых поручений, через блок 11 осуществляется автоматическое добавление скорректированных поручений в указанный список; в случае невозможности распознавания предикатом в блоке 16 дела, в которое должен быть распределен исполненный документ, по значениям, поступившим из блоков 10, 15 (в этом случае оператором системы через блок 11 вносятся изменения в системы предикатов блока 16 или определяется дело, в которое надо распределить исполненный документ, «вручную»).The learning mode is used by the system in the following cases: if the system does not recognize the predicates of the document details in block 3 by the values of the document variables t and (in this case, the operator of the system makes changes to the predicate system of block 3 through block 11, or defines the document attribute "manually"); if the system cannot recognize the predicates of the document type in block 4 by the values of the predicates of the predicate system of block 3 (in this case, the system operator makes changes to the predicate system of block 4 through block 11 or determines the document type “manually”); if the system cannot recognize the predicates of the information area in block 9 by the values of the weights of significant words from the working dictionary, extracted from the informative part of the document (in this case, the system operator makes changes to the predicate system of block 9 through block 11 or determines the information area of the document "manually"); in case of impossibility of recognition by the system of predicates of the confidentiality label of the document in block 12 by the values of the predicates of the predicate system of block 9 and the metadata of the block 10 (in this case, the system operator through the block AND makes changes to the predicate system of block 12 or determines the confidentiality label "manually"); in the event that changes are made to the draft resolution, in the part concerning instructions selected from the list of ready instructions, through block 11, the corrected instructions are automatically added to the specified list; in case of impossibility of recognition by the predicate in block 16 of the case in which the executed document should be distributed, according to the values received from blocks 10, 15 (in this case, the system operator through block 11 makes changes to the predicate systems of block 16 or determines the case in which it is necessary distribute the executed document, "manually").
Таким образом, способ позволяет автоматически классифицировать формализованные ЭД по электронным делам с учетом ограничений при обращении с конфиденциальными документами, чем достигается заявленный технический результат.Thus, the method makes it possible to automatically classify formalized ED for electronic affairs, taking into account the restrictions when handling confidential documents, thereby achieving the claimed technical result.
Claims (1)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2019139137A RU2726931C1 (en) | 2019-11-29 | 2019-11-29 | Method for automatic classification of electronic documents in an electronic document management system with automatic generation of electronic cases |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2019139137A RU2726931C1 (en) | 2019-11-29 | 2019-11-29 | Method for automatic classification of electronic documents in an electronic document management system with automatic generation of electronic cases |
Publications (1)
Publication Number | Publication Date |
---|---|
RU2726931C1 true RU2726931C1 (en) | 2020-07-16 |
Family
ID=71616631
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2019139137A RU2726931C1 (en) | 2019-11-29 | 2019-11-29 | Method for automatic classification of electronic documents in an electronic document management system with automatic generation of electronic cases |
Country Status (1)
Country | Link |
---|---|
RU (1) | RU2726931C1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN119357395A (en) * | 2024-12-26 | 2025-01-24 | 北京前往科技有限公司 | Electronic information data classification method, system and medium for archive management |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6327581B1 (en) * | 1998-04-06 | 2001-12-04 | Microsoft Corporation | Methods and apparatus for building a support vector machine classifier |
RU2254610C2 (en) * | 2003-09-04 | 2005-06-20 | Государственное научное учреждение научно-исследовательский институт "СПЕЦВУЗАВТОМАТИКА" | Method for automated classification of documents |
RU2647640C2 (en) * | 2015-12-07 | 2018-03-16 | федеральное государственное казенное военное образовательное учреждение высшего образования "Краснодарское высшее военное училище имени генерала армии С.М. Штеменко" Министерства обороны Российской Федерации | Method of automatic classification of confidential formalized documents in electronic document management system |
RU2692972C1 (en) * | 2018-07-10 | 2019-06-28 | Федеральное государственное казенное военное образовательное учреждение высшего образования "Краснодарское высшее военное училище имени генерала армии С.М. Штеменко" Министерство обороны Российской Федерации | Method for automatic classification of electronic documents in an electronic document management system with automatic generation of resolution props of a manager |
-
2019
- 2019-11-29 RU RU2019139137A patent/RU2726931C1/en active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6327581B1 (en) * | 1998-04-06 | 2001-12-04 | Microsoft Corporation | Methods and apparatus for building a support vector machine classifier |
RU2254610C2 (en) * | 2003-09-04 | 2005-06-20 | Государственное научное учреждение научно-исследовательский институт "СПЕЦВУЗАВТОМАТИКА" | Method for automated classification of documents |
RU2647640C2 (en) * | 2015-12-07 | 2018-03-16 | федеральное государственное казенное военное образовательное учреждение высшего образования "Краснодарское высшее военное училище имени генерала армии С.М. Штеменко" Министерства обороны Российской Федерации | Method of automatic classification of confidential formalized documents in electronic document management system |
RU2692972C1 (en) * | 2018-07-10 | 2019-06-28 | Федеральное государственное казенное военное образовательное учреждение высшего образования "Краснодарское высшее военное училище имени генерала армии С.М. Штеменко" Министерство обороны Российской Федерации | Method for automatic classification of electronic documents in an electronic document management system with automatic generation of resolution props of a manager |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN119357395A (en) * | 2024-12-26 | 2025-01-24 | 北京前往科技有限公司 | Electronic information data classification method, system and medium for archive management |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6728695B1 (en) | Method and apparatus for making predictions about entities represented in documents | |
CN108509482B (en) | Question classification method and device, computer equipment and storage medium | |
Ko et al. | Automatic text categorization by unsupervised learning | |
Sebastiani | Text categorization | |
US7031969B2 (en) | System and method for identifying relationships between database records | |
CN108170715B (en) | Text structuralization processing method | |
US20170300565A1 (en) | System and method for entity extraction from semi-structured text documents | |
US20070016571A1 (en) | Information retrieval | |
Bisandu et al. | Data clustering using efficient similarity measures | |
CN107045496A (en) | The error correction method and error correction device of text after speech recognition | |
RU2647640C2 (en) | Method of automatic classification of confidential formalized documents in electronic document management system | |
Bhat et al. | Sumitup: A hybrid single-document text summarizer | |
Malik et al. | Accurate information extraction for quantitative financial events | |
CN111930933A (en) | Detection case processing method and device based on artificial intelligence | |
Nutanong et al. | A scalable framework for stylometric analysis query processing | |
RU2726931C1 (en) | Method for automatic classification of electronic documents in an electronic document management system with automatic generation of electronic cases | |
CN112215002A (en) | A classification method of power system text data based on improved Naive Bayes | |
CN112036841A (en) | Policy analysis system and method based on intelligent semantic recognition | |
RU2692972C1 (en) | Method for automatic classification of electronic documents in an electronic document management system with automatic generation of resolution props of a manager | |
CN113254583B (en) | Document marking method, device and medium based on semantic vector | |
RU2759887C1 (en) | Method for automatic classification of formalized electronic graphic and text documents in the electronic document circulation system with automatic formation of electronic cases | |
Debnath et al. | NLP-NITMZ@ CLScisumm-18. | |
RU2546555C1 (en) | Method of automated classification of formalised documents in electronic document circulation system | |
CN111191430B (en) | Automatic table building method and device, computer equipment and storage medium | |
US20210357867A1 (en) | Method, system and computer-readable medium for information retrieval |