[go: up one dir, main page]

WO2011033653A1 - 用語統一支援装置 - Google Patents

用語統一支援装置 Download PDF

Info

Publication number
WO2011033653A1
WO2011033653A1 PCT/JP2009/066379 JP2009066379W WO2011033653A1 WO 2011033653 A1 WO2011033653 A1 WO 2011033653A1 JP 2009066379 W JP2009066379 W JP 2009066379W WO 2011033653 A1 WO2011033653 A1 WO 2011033653A1
Authority
WO
WIPO (PCT)
Prior art keywords
property
term
data
target
unit
Prior art date
Application number
PCT/JP2009/066379
Other languages
English (en)
French (fr)
Inventor
康隆 大嶽
Original Assignee
株式会社東芝
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社東芝 filed Critical 株式会社東芝
Priority to PCT/JP2009/066379 priority Critical patent/WO2011033653A1/ja
Publication of WO2011033653A1 publication Critical patent/WO2011033653A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Definitions

  • the present invention relates to a term unification support device.
  • PLIB Parts Library
  • PLIB is a “content” that describes specific product specifications in accordance with a structure and dictionary for defining “properties” that define data items for expressing specification data of each product and “classes” that define product classifications. Is an international standard that defines the structure for exchanging In ISO 1358-42, “attributes” corresponding to detailed items for explaining what a data item means are standardized.
  • a database for managing contents according to PLIB can be regarded as one of hierarchical databases.
  • the product specification document is mainly composed of “table data” and “supplemental description” for the table.
  • supplemental description for the table.
  • One method can be considered.
  • One is a method in which a sentence is parsed to extract a relationship between words, and an inconsistent term is detected in comparison with a “word-related term unification check rule” (see Patent Document 1).
  • One is a method of substituting the most commonly used term based on the frequency of use of the term (see Patent Document 2).
  • the present invention has been made in view of the above, and provides a term unification support device capable of supporting unification of terms used in supplementary descriptions for specification data into recommended words defined in a standard dictionary. Objective.
  • the present invention is a term unification support device, which is data defined by an attribute including a recommended word and a property defined by the attribute, an acquisition unit that acquires dictionary data for each property, and data
  • a first accepting unit that accepts an input of a technical document including specification data representing items in a matrix format and a supplementary description representing an explanation that supplements the data item; and accepting an input of the first term from terms used in the supplementary description
  • a second reception unit ; an extraction unit for extracting a first data item supplemented by using the first term from the specification data; and a first property corresponding to the first data item using the dictionary data
  • a first estimation unit that estimates the first property, and a property corresponding to the first term out of properties having a relationship with the first property using the dictionary data.
  • a second estimation unit for estimating the properties, by using the dictionary data characterized in that it comprises a verification unit for the second property matching with the recommended word and the first term owned.
  • the figure which illustrates the hardware constitutions of a term unification assistance apparatus The figure which illustrates the functional structure of a term unification assistance apparatus.
  • the figure which illustrates a technical document. The flowchart which shows the procedure of the process which registers an index.
  • the flowchart which shows the procedure of the process which estimates a supplement property The figure which shows the correspondence of the column in an specification data, and an attribute.
  • the flowchart which shows the procedure of the process which estimates object term property The flowchart which shows the procedure of the process of step S42.
  • the figure which shows the example of a display of a correction candidate The figure which shows the example of a display of supplementary description omission.
  • the term unification support device 10 includes a control unit 101 such as a CPU (Central Processing Unit) that controls the entire device, a ROM (Read Only Memory) 104 that stores various data and various programs, a RAM (Random Access Memory) 105, and the like.
  • a control unit 101 such as a CPU (Central Processing Unit) that controls the entire device, a ROM (Read Only Memory) 104 that stores various data and various programs, a RAM (Random Access Memory) 105, and the like.
  • the term unification support device 10 includes a display unit 103 that displays information, an operation unit 102 such as a keyboard and a mouse that accepts user instruction input, and a communication I / F (interface) that controls communication with an external device.
  • the term unification support apparatus 10 edits a technical document including specification data represented in a matrix format for each data item including at least one element and supplementary description representing a description supplementing the data item. It is connected to the document editing apparatus via a communication I / F.
  • FIG. 2 is a diagram illustrating a functional configuration of the term unification support apparatus 10.
  • the term unification support apparatus 10 includes a document reception unit 21, a target term reception unit 22, a supplement target extraction unit 23, a classification reception unit 24, a supplement target property estimation unit 25, a target term property estimation unit 26, and a vocabulary.
  • a collation unit 27, a collation result output unit 28, a supplementary description omission output unit 29, and a dictionary storage unit 30 are included.
  • the collation result output unit 28 and the supplementary description omission output unit 29 are generated on the main storage unit such as the RAM 105 when the control unit 101 executes the program.
  • the dictionary storage unit 30 is stored in the auxiliary storage unit 107, for example.
  • the dictionary storage unit 30 has a dictionary DB and an index table.
  • the dictionary DB stores dictionary data.
  • the dictionary data is defined by a class indicating the classification and hierarchy of products and a property that characterizes the class.
  • a property is defined by at least one attribute.
  • Products are provided to the market to satisfy users' needs and desires, and include not only tangible items but also services, experiences, events, people, places, assets, organizations, information, ideas, etc. Included in the product.
  • FIG. 3 is a diagram illustrating a data structure of the dictionary DB. In the figure, the dictionary DB has a hierarchical structure centered on classification (class).
  • the classification "COMPONENT” is the root class, "Semiconductor” and “General electronic components” exist as its child classes, and "General-purpose logic IC” as its child class in “Semiconductor” And “transistor”. That is, it is shown that “semiconductor” is subdivided into two categories “general-purpose logic IC” and “transistor”, and “transistor” is further subdivided into two categories “MOSFET” and “IGBT”. .
  • the hierarchical structure may have any number of layers.
  • the symbol written in parentheses (in this example, Cn, n is a number) is a code representing a class uniquely assigned in the dictionary storage unit 30, and is an identifier called “class BSU code” in the PLIB standard. It corresponds to.
  • each class defining a hierarchical structure has a unique property (a part surrounded by a dotted line in FIG. 3).
  • Each class inherits the properties defined in the higher class of the class.
  • the properties of class “MOSFET” are the properties defined in that class (“P3”, “P4”, “P5”, “P6”) and the properties defined in its upper class “transistor” (in this example, simplified) That is, the property defined by the class “semiconductor” (there is no simplification in this example) and the property defined by the class “COMPONENT” (“P0”).
  • a code (“property BSU code” or simply “BSU”) representing a property uniquely assigned in the dictionary DB is assigned to the property.
  • BSU code simply “BSU”
  • both the code representing the class and the code representing the property are handled as the BSU code.
  • FIG. 4 is a diagram illustrating dictionary data for each property. Each row except the top row is a record corresponding to each dictionary data for each property.
  • Each dictionary data includes a BSU code for identifying each property, a BSU code for identifying a class in which the property is defined (referred to as a definition class), and an attribute that defines the property of the property.
  • the attributes include, for example, “definition class” “BSU” “recommended name” “dependent property” “synonym” “symbol” “unit” “definition”.
  • the “dependent property” indicates a dependency relationship between the properties, and indicates that the property value is affected by the value of the property on the dependent side.
  • P3 is defined as a dependent property of P4, which indicates that “P3: DC drain current” is a value determined depending on “P4: channel temperature”. This also indicates that the property P3 and the property P6 have the same dependency.
  • attributes such as “data type” of a property and “source” indicating the source of definition of the property itself also exist in the PLIB.
  • the dictionary structure such as class parent / child structure, property and attribute type, dependency between properties, data type, etc.
  • PLIB Parts Library
  • the index table stores an index for each word element of each property or class.
  • FIG. 5 is a diagram illustrating an index table.
  • the index table includes “class / property classification (C / P)”, “BSU code”, “word element”, “attribute type”, and “weight” as an index for each word element for each property.
  • Class / property classification (C / P)” is for distinguishing between classes and properties.
  • the “word element” is a character string represented as a value of a specific attribute such as “recommended name”, “definition”, “synonym”, etc., for each word.
  • the “weight” is given according to the type of attribute.
  • This index is used for property estimation performed by the supplement target property estimation unit 25 described later. In this example, it is assumed that only properties are registered in the index table.
  • FIG. 6 is a diagram illustrating a technical document.
  • the technical document includes specification data expressed in a matrix format for each of a plurality of data items including elements such as “item name”, “symbol”, “rating”, and “unit”, and “Note 1”. ”And“ Note 2 ”, and supplementary description representing a supplementary explanation of the data item is included.
  • the top line of the specification data is a heading. “Note 1” in the supplementary description is a supplement to the explanation of the data item because “DC drain current” is linked to the data item of the specification data.
  • the target term accepting unit 22 accepts input of terms (referred to as target terms) that are used in supplementary descriptions included in the target document and that are designated and transmitted by the user in the document editing apparatus 11 and are to be collated. .
  • the classification receiving unit 24 receives an input of a product class related to the target document, which is designated and transmitted by the user in the document editing apparatus 11.
  • the supplementary target extracting unit 23 uses the target terms received by the target term accepting unit 22 in the supplementary description in the specification data included in the technical document accepted by the document accepting unit 21 to supplement the explanation.
  • the target data item (referred to as supplementary target item) is extracted.
  • the supplement target extraction unit 23 extracts a data item associated with the explanation in which the target term is used in the supplement description.
  • the supplement target property estimation unit 25 uses the supplement target items extracted by the supplement target extraction unit 23, the class that the classification reception unit 24 has received input, and dictionary data stored in the dictionary DB of the dictionary storage unit 30. Thus, it is estimated which dictionary data the supplement target item corresponds to in the dictionary DB, that is, which property the supplement target item corresponds to in the dictionary DB.
  • the target term property estimation unit 26 uses the property estimated by the supplement target property estimation unit 25 (referred to as a supplement target property) and the class received by the classification reception unit 24, and the target term reception unit 22 receives the input. Estimate the properties for the target terms (called target term properties).
  • the supplementary target property estimation unit 25 narrows down the target term property to a property that is related to the supplementary target property in the PLIB structure.
  • Search for There are the following two methods for searching for the target term property.
  • Method 1 When the property to be supplemented has no dependency relationship with other properties 1) Specify the class to which the property to be supplemented belongs 2) The class specified in 1) and the class having a vertical relationship with the class, that is, 1 ), A set of properties belonging to any of the class specified in (1), all classes below the class, and all classes above the class is defined as the search target Q. 3) Among the search targets Q, the “target term” is a keyword.
  • a property having a dependency relationship with the property to be supplemented that is, a property for which the property to be supplemented is defined as a “dependent property” and a property to be supplemented
  • the supplement target property estimation unit 25 that performs a similar search of dictionary data for each property using “target term” as a keyword in the search target R, using the index table as the search target R.
  • the property obtained as a result of the similar search executed by the method is output with ranking. The higher the ranking, the higher the degree of the target term property is estimated.
  • the vocabulary collating unit 27 collates the recommended word included in the target term property estimated by the target term property estimating unit 26 with the target term received by the target term receiving unit 22.
  • the collation result output unit 28 transmits the collation result of the vocabulary collation unit 27 to the document editing apparatus 11. Specifically, if the recommended word does not match the target term as a result of the collation by the vocabulary collating unit 27, the collation result output unit 28 displays the first collation result indicating the recommended word as a correction candidate for the target term. It is transmitted to the document editing apparatus 11.
  • all or part of the attributes related to the name are used in the supplementary description for the supplementary target item.
  • a property that is not included (referred to as a supplemental missing property) is searched, and a second matching result indicating a supplementary missing property recommendation word as a supplementary description missing is transmitted to the document editing apparatus 11 according to the search result.
  • the term unification support apparatus 10 stores each dictionary data illustrated in FIG. 3 as dicElem (i, j) in the main storage unit (step S1).
  • i represents a dictionary data record corresponding to each row except the top row
  • j represents an attribute corresponding to each column.
  • Step S4 Each of the character strings dic (i, j) represented as attribute values is analyzed for words (Step S4).
  • the character string is “junction temperature”. In this case, it is decomposed into “junction” and “temperature” by word analysis.
  • the term unification support apparatus 10 performs weighting according to the type of the attribute for all the word elements thus decomposed, and assigns the weight value (w (j)) for each property and each word element.
  • w (j) weight value for each property and each word element.
  • each index illustrated in FIG. 5 is registered in the index table for each word element.
  • a word element having a weight of “0” is not registered.
  • the index table in which the index is registered in this way is used in the term unification support process described below.
  • the data structure of the dictionary DB included in the dictionary storage unit 30 is as illustrated in FIGS.
  • the user designates a technical document (target document), designates a term (target term) to be collated among terms included in the supplementary description contained in the target document, and designates a class.
  • the document editing apparatus 11 transmits data including the designated target document, target term, and class to the term unification support apparatus 10.
  • the technical document illustrated in FIG. 5 is designated, “junction temperature” is designated as a target term, and “transistor” is designated as a class.
  • the class designation may be performed by, for example, a BSU code or a class name.
  • the term unification support device 10 When the term unification support device 10 receives the data transmitted from the document editing device 11, the term unification support device 10 receives the input of the target document by the function of the document reception unit 21, and inputs the target term by the function of the target term reception unit 22. A class input is received by the function of the reception and classification reception unit 24 (step S20). Next, the term unification support device 10 uses the target term whose input is accepted in step S20 among the specification data included in the subject document whose input is accepted in step S20 by the function of the supplementary target extraction unit 23. A target data item (supplementation target item) for which explanation is supplemented is extracted (step S21).
  • the supplement target item since the data item associated with “Note 1” for which explanation is supplemented by using “junction temperature” is “DC drain current”, this is the supplement target item. That is, the third line of the specification data included in the technical document illustrated in FIG. 6 is extracted as a supplement target item.
  • the term unification support apparatus 10 uses the function of the supplement target property estimation unit 25 to store the supplement target items extracted in step S2, the class accepted in step S1, and the dictionary DB of the dictionary storage unit 30. Using the stored dictionary data, it is estimated which dictionary data the supplement target item corresponds to in the dictionary DB, that is, which property the supplement target item corresponds to in the dictionary DB (step S22).
  • the term unification support apparatus 10 estimates which property in the dictionary DB corresponds to the supplement target item as follows. First, the term unification support apparatus 10 selects a property to be compared in the dictionary DB (step S30). Next, the term unification support device 10 applies the following rule, and calculates the score as the similarity for each column in which the attribute is estimated among the columns belonging to the supplement target item (step S31). (a) When the character string exactly matches the attribute in the dictionary data: 5 points (b) When the character string partially matches the attribute in the dictionary data: 1 point (c) No distinction is made regarding “name” (“recommended name” “synonym”)
  • step S32 When the similarity calculation is completed for all the columns (step S32: YES), the term unification support apparatus 10 selects the property having the highest total score and determines this as the similar property (step S33). This similar property is estimated as a property corresponding to the supplement target item (supplement target property).
  • the term unification support apparatus 10 uses the supplement target property estimated in step S22 and the class whose input is accepted in step S20 by the function of the target term property estimation unit 26, and in step S20.
  • a property (target term property) for the target term for which the input has been accepted is estimated (step S23).
  • the term unification support apparatus 10 refers to the “dependent property” in each dictionary data stored in the dictionary DB, and determines whether or not the supplement target property estimated in step S22 has a dependency relationship with another property. Judgment is made (step S40). That is, the term unification support apparatus 10 determines whether or not a property whose supplement target property is defined as “dependent property” is stored in the dictionary DB as dictionary data. If the determination result is affirmative (step S40: YES), the term unification support apparatus 10 first performs the processing according to [Method 2] described above, and first, the supplement target property and the property having a dependency relationship with the supplement target property. Is set as the search target R (step S41).
  • the term unification support apparatus 10 determines that the supplement target property estimated in step S22 has a dependency relationship with other properties, and therefore the supplement target property “P3” and the property “P4” that has a dependency relationship with the supplement target property. ”,“ P6 ”(“ P3 ”,“ P4 ”,“ P6 ”) are defined as the search target R.
  • the term unification support apparatus 10 estimates the property for the target term by performing a similar search of the property included in the search target R using the target term for which the input has been accepted in step S20 as a keyword, using the index table. (Step S42).
  • the detailed procedure of the process of step S42 is demonstrated using FIG.
  • the term unification support device 10 performs word analysis on the target term (step S50), and searches the index table for the property including the word element obtained as a result in the index table (step S51). Specifically, the target term “junction temperature” is broken down into word elements of “junction” and “temperature”. In the index table illustrated in FIG. 5, indexes IDX3 to IDX5 including these word elements are obtained as a result of the search.
  • the term unification support apparatus 10 groups the indexes obtained as a result of the search for each property, and calculates the sum of weights (score) (step S52).
  • the term unification support apparatus 10 ranks the calculation results for each property in descending order and outputs each property with a ranking (step S53). The higher the ranking, the higher the degree of the target term property is estimated.
  • the property “P4” is output as the first place, and this is estimated as the target term property.
  • the property “P1” of the dictionary data illustrated in FIG. 4 is not included even though the recommended name “junction temperature” is included as an attribute. It is in.
  • the property “P1” belongs to the class “general-purpose logic IC”.
  • the property corresponding to the supplement target item “DC drain current” for which explanation is supplemented using “junction temperature” is “P3”, and the class to which the property belongs is “MOFSET”. Therefore, the property “P4” belonging to the same class is estimated as the target term property, and the property “P1” is excluded from the target, so that the target term property is correctly estimated.
  • step S40 when the supplementary target property estimated in step S22 does not have a dependency relationship with other properties (step S40: NO), the term unification support apparatus 10 performs processing according to the above [Method 1].
  • the class to which the supplement target property belongs is specified (step S43).
  • the term unification support apparatus 10 determines a set of properties belonging to any of the class identified in step S43, all classes lower than the class, and all classes higher than the class as the search target Q (step S44). ).
  • the term unification support apparatus 10 estimates the target term property by performing a similar search of the property included in the search target Q using the index term using the target term that has been accepted in step S20 as a keyword ( Step S45).
  • the detailed procedure of step S45 is substantially the same as step S42, and is substantially the same as that described with reference to FIG.
  • the term unification support apparatus 10 collates the recommended word included in the target term property estimated in step S23 with the target term accepted in step S1 by the function of the vocabulary matching unit 27. (Step S24). If they do not match (step S25: NO), the term unification support apparatus 10 gives the document editing apparatus 11 a first matching result indicating the recommended word as a correction candidate for the target term by the function of the matching result output unit 28. Transmit (step S26).
  • the recommended word is “channel temperature”. This is not consistent with the subject term “junction temperature”.
  • the first collation result indicated by this “channel temperature” as a correction candidate is transmitted to the document editing apparatus 11. Then, when receiving the first collation result, the document editing apparatus 11 uses the first collation result to display “channel temperature” as a correction candidate for “junction temperature” as illustrated in FIG. To display.
  • the term unification support apparatus 10 uses the function of the supplementary description omission output unit 29 to execute the supplementary target item among the other properties.
  • a property (supplementary omission property) in which all or part of the attribute (“recommended name”, “synonym”, “definition”, etc.) relating to the name is not used is searched. If there is a supplemental missing property as a result of the search (step S27: YES), the term unification support apparatus 10 transmits a second collation result indicating the recommended word of the supplemental missing property as a supplemental description missing to the document editing apparatus 11. (Step S28).
  • the supplementary target property “P3” is defined as the “dependent property” of the properties “P4” and “P6”. Therefore, the supplement target property “P3” has a dependency relationship with the properties “P4” and “P6”.
  • the character string that is the value of the attribute related to the name such as the recommended word is not included in “Note 1” in the supplementary description. For this reason, the term unification support apparatus 10 transmits to the document editing apparatus 11 the second collation result indicating the recommended word of the property “P6” as the supplementary description omission in “Note 1”.
  • the document editing apparatus 11 Upon receiving the second collation result, the document editing apparatus 11 uses this to point out the possibility of a supplementary description omission in “P6: gate leakage current” in “Note 1” as illustrated in FIG.
  • the message is displayed on the display device.
  • the property that corresponds to the target data item (supplement target item) for which the term (target term) included in the supplementary description for the specification data supplements the explanation is estimated.
  • a property (target term property) corresponding to the target term is estimated, and correction candidates for the target term are presented.
  • various programs executed by the term unification support apparatus 10 may be stored on a computer connected to a network such as the Internet and provided by being downloaded via the network.
  • the various programs are recorded in a computer-readable recording medium such as a CD-ROM, a flexible disk (FD), a CD-R, a DVD (Digital Versatile Disk), etc. in a file that can be installed or executed.
  • the computer program product may be provided.
  • the term unification support device 10 is configured to have the dictionary DB.
  • the term unification support device 10 is not limited to this, and is configured such that other information processing devices have the dictionary DB. May access the dictionary DB via the other information processing apparatus to acquire the corresponding dictionary data.
  • the dictionary DB conforms to the PLIB.
  • the present invention is not limited to this, and the dictionary DB may be applied to a database other than the PLIB.
  • the direction corresponding to the attribute is assumed to be the column direction and the direction corresponding to the property is the row direction, but these may be reversed.
  • the term unification support apparatus 10 receives an input of a designated class by the function of the classification receiving unit 24, and estimates a supplement target property only for properties belonging to the class.
  • the class may not be specified, and in this case, the supplement target property may be estimated using all the dictionary data stored in the dictionary DB as a processing target.
  • the term unification support apparatus 10 determines whether or not the supplement target property has a dependency relationship with other properties when estimating the property for the target term by the function of the target term property estimation unit 26.
  • the process was divided into [Method 1] and [Method 2]. However, the processing may be performed only by [Method 1] without considering whether or not the supplement target property has a dependency relationship with other properties.
  • the term unification support apparatus 10 does not perform the processes of steps S40 to S41 but performs the processes of steps S43 to S45.
  • step S43 for the supplementary property “P3: DC drain current”, in the example of FIG. 4, the class is specified as “MOFSET” in step S43.
  • step S44 the corresponding properties are “P1”, “P3”, “P4”, “P5”, “P6”, and the search target Q is the properties “P1”, “P3”, “P4”, “P5”. , Defined as a set of “P6”.
  • step S45 after step S50 of FIG. 12, in step S51, indexes IDX1 to IDX5 including the word elements “junction” and “temperature” in the index table illustrated in FIG. 5 are obtained as a result of the search. It is done.
  • step S53 the property “P4” is output as the first and the property “P1” is output as the second, and these are estimated as candidates for the target term property.
  • step S24 of FIG. 8 each recommended word included in each target term property candidate estimated in step S23 (step S53 in FIG. 12) is compared with the target term received in step S1. If they do not match, in step S26, a first collation result indicating each recommended word as a correction candidate for the target term is transmitted to the document editing apparatus 11.
  • the first collation result recommended words that do not match the target term for the ranked properties of the plurality of ranks can be indicated as correction candidates.
  • the document editing apparatus 11 Upon receiving the first collation result, the document editing apparatus 11 uses the first collation result as the correction candidate 1 in the order of ranking, as shown in FIG. And “junction temperature” for the property “P1” as correction candidate 2 is displayed on the display device.
  • the threshold value of the score calculated in step S52 may be determined in advance, and the recommended word of the score property that is equal to or lower than the threshold value may not be a correction candidate even if it does not match the target term.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

 用語統一支援装置は、推奨語を含むアトリビュートと、該アトリビュートで定義されるプロパティとによって定義されるデータであって、プロパティ毎の辞書データを取得し、データ項目を行列形式で表す仕様データとデータ項目を補足する説明を表す補足記述とを含む技術文書と、補足記述で用いられる用語から第1用語との入力を受け付ける。そして、用語統一支援装置は、仕様データから第1用語が用いられて補足されている第1データ項目を抽出し、辞書データを用いて第1データ項目に相当する第1プロパティを推定し、辞書データを用いて第1プロパティと関係を有するプロパティの中から、第1用語に対応する第2プロパティを推定し、辞書データを用いて、第2プロパティが所有する推奨語と第1用語とを照合する。

Description

用語統一支援装置
 本発明は、用語統一支援装置に関する。
 従来、製品を製造したり販売したりするサプライヤ企業と、その製品を利用するユーザ企業との間で交換される技術文書には、製品カタログ、スペックシート、納入仕様書などがある。これらの技術文書において製品の仕様を表す仕様データはしばしば行列形式の表として表現される。その表中の1行(又は1列)は1つのデータ項目に相当するが、それが何を意味するのかを「項目名」「記号」「単位」などの各要素を詳細項目として用い説明した上で、「値」を記載するといった形式をとることが普通である。また、表中のデータ項目には「補足記述」が付与されることがある。例えば、データ項目がある電流値を示す場合、その測定条件として「注1)ジャンクション温度が150℃を超えることのない放熱条件でご使用下さい」といったようなものが補足記述である。
 一方、最近では、サプライヤ企業と、ユーザ企業とが一丸となり製品分類毎に標準的なデータ項目を定めた「辞書」を開発しており、データ項目の標準化や統一化もはかられるようになってきている。辞書の形式の1つとして、ISO13584(通称、PLIB:Parts Library)がある。PLIBは、各製品の仕様データを表現するためのデータ項目を定める「プロパティ」と製品分類を定める「クラス」とを定義するための構造及びその辞書に従って具体的な製品仕様を記述した「コンテンツ」を交換するための構造を定めた国際規格である。ISO13584-42では、データ項目が何を意味するかを説明する詳細項目に相当する「アトリビュート」を標準化している。また、PLIBに従ったコンテンツを管理するデータベースは、階層型データベースの1つととらえることができる。
 しかしながら、現在流通する技術文書においては、「項目名」「記号」「単位」や「補足記述」中で用いられる用語が、サプライヤ毎に微妙に異なる表現となっていることが依然として多い。このため、色々なサプライヤから受けた技術文書を利用する側のユーザ企業では一貫性がとれないなどの問題が発生している。技術文書で用いられる用語について、PLIBなどに従った標準的な辞書(標準辞書という)で定義された用語へ統一することが急務となっており、標準辞書で定義された用語にあわない語の検出やその修正が求められている。
 現在は、技術文書の作成者が文書上の語をキーワードとして辞書を類似検索することで、それが正しい語彙であるか否かを人手により検出することが行われている。しかし、標準辞書の構造を熟知していない作成者も多く、本当に推奨語が使えているのか判断しにくいケースが多かった。
 近年では、PLIB辞書の類似検索システムがいくつか提案されている。製品仕様文書は主に、「表データ」とそれに対する「補足記述」とから構成されるが、補足記述中の用語を標準辞書で定義された推奨語へ統一させるために、例えば、以下の2つの方法を適用することが考えられる。1つは、文章を構文解析して単語間の関係を抽出し、”語関係用語統一チェックルール”と照らし合わせて、不統一な用語を検出する方法である(特許文献1参照)。また1つは、用語の使用頻度に基づいて、最も一般的に使用される用語に置換する方法である(特許文献2参照)。
特開平5-298301号公報 特開2008-293200号公報
 しかし、特許文献1の方法では、用語統一の精度が、単語間の関係の抽出精度とチェックルールの品質とに左右されてしまう恐れがある。また特許文献2の方法では、”語関係用語統一チェックルール”の品質には左右されないものの、長文以外での利用が困難である。また、いずれの方法も製品の仕様文書がもつコンテキスト(文脈、前後関係、背景等)を生かすことができない恐れがあった。
 本発明は、上記に鑑みてなされたものであって、仕様データに対する補足記述で用いられる用語を標準辞書で定義された推奨語へ統一することを支援可能な用語統一支援装置を提供することを目的とする。
 本発明は、用語統一支援装置であって、推奨語を含むアトリビュートと、該アトリビュートで定義されるプロパティとによって定義されるデータであって、前記プロパティ毎の辞書データを取得する取得部と、データ項目を行列形式で表す仕様データと前記データ項目を補足する説明を表す補足記述とを含む技術文書の入力を受け付ける第1受付部と、前記補足記述で用いられる用語から第1用語の入力を受け付ける第2受付部と、前記仕様データから前記第1用語が用いられて補足されている第1データ項目を抽出する抽出部と、前記辞書データを用いて前記第1データ項目に相当する第1プロパティを推定する第1推定部と、前記辞書データを用いて前記第1プロパティと関係を有するプロパティの中から、前記第1用語に対応する第2プロパティを推定する第2推定部と、前記辞書データを用いて、前記第2プロパティが所有する前記推奨語と前記第1用語とを照合する照合部とを備えることを特徴とする。
 本発明によれば、仕様データに対する補足記述で用いられる用語を標準辞書で定義された推奨語へ統一することが支援可能になる。
用語統一支援装置のハードウェア構成を例示する図。 用語統一支援装置の機能的構成を例示する図。 辞書DBのデータ構造を例示する図。 プロパティ毎の辞書データを例示する図。 インデックステーブルを例示する図。 技術文書を例示する図。 インデックスを登録する処理の手順を示すフローチャート。 用語統一支援処理の手順を示すフローチャート。 補足対象プロパティを推定する処理の手順を示すフローチャート。 仕様データにおける列と、アトリビュートとの対応関係を示す図。 対象用語プロパティを推定する処理の手順を示すフローチャート。 ステップS42の処理の手順を示すフローチャート。 訂正候補の表示例を示す図。 補足記述漏れの表示例を示す図。 訂正候補の表示例を示す図。
 以下に添付図面を参照して、この発明にかかる用語統一支援装置の一実施の形態を詳細に説明する。
 まず、用語統一支援装置のハードウェア構成について図1を用いて説明する。用語統一支援装置10は、装置全体を制御するCPU(Central Processing Unit)等の制御部101と、各種データや各種プログラムを記憶するROM(Read Only Memory)104やRAM(Random Access Memory)105等の主記憶部と、各種データや各種プログラムを記憶するHDD(Hard Disk Drive)やCD(Compact Disk)ドライブ装置等の補助記憶部107と、これらを接続するバス108とを備えており、通常のコンピュータを利用したハードウェア構成となっている。また、用語統一支援装置10には、情報を表示する表示部103と、ユーザの指示入力を受け付けるキーボードやマウス等の操作部102と、外部装置の通信を制御する通信I/F(interface)とが有線又は無線により各々接続される。本実施の形態においては、用語統一支援装置10は、少なくとも1つの要素を含むデータ項目毎に行列形式で表す仕様データとデータ項目を補足する説明を表す補足記述とを含む技術文書の編集を行う文書編集装置と通信I/Fを介して接続される。
 次に、このようなハードウェア構成において、用語統一支援装置10の制御部101がROM104や補助記憶部107に記憶された各種プログラムを実行することにより実現される各種機能について具体的に説明する。図2は、用語統一支援装置10の機能的構成を例示する図である。用語統一支援装置10は、文書受付部21と、対象用語受付部22と、補足対象抽出部23と、分類受付部24と、補足対象プロパティ推定部25と、対象用語プロパティ推定部26と、語彙照合部27と、照合結果出力部28と、補足記述漏れ出力部29と、辞書記憶部30とを有する。これらのうち、文書受付部21と、対象用語受付部22と、補足対象抽出部23と、分類受付部24と、補足対象プロパティ推定部25と、対象用語プロパティ推定部26と、語彙照合部27と、照合結果出力部28と、補足記述漏れ出力部29とは、制御部101のプログラム実行時にRAM105などの主記憶部上に生成されるものである。辞書記憶部30は、例えば補助記憶部107に記憶されるものである。
 辞書記憶部30は、辞書DBと、インデックステーブルとを有する。辞書DBは辞書データを記憶する。辞書データは、製品の分類と階層を示すクラスと、クラスを特徴付けるプロパティによって定義される。またプロパティは少なくとも1つのアトリビュートによって定義される。製品とは、ユーザのニーズや欲求を満たすために、市場へと提供されるものであり、有形のものだけでなく、サービス、経験、イベント、人、場所、資産、組織、情報、アイデアなどが製品に含まれる。図3は、辞書DBのデータ構造を例示する図である。同図では、辞書DBは、分類(クラス)を中心とした階層構造を有していることが示されている。同図に示される階層構造においては、「COMPONENT」という分類をルートクラスとし、その子クラスとして「半導体」と「一般電子部品」とが存在し、さらに「半導体」にその子クラスとして「汎用ロジックIC」と「トランジスタ」とが存在する。即ち、「半導体」は「汎用ロジックIC」「トランジスタ」という2つの分類に細分化され、「トランジスタ」はさらに「MOSFET」と「IGBT」という2つの分類に細分化されることが示されている。階層構造は何層であっても構わない。尚、()内に書かれた記号(この例ではCn、nは数字)は、辞書記憶部30内で唯一につけられたクラスを表すコードであり、PLIB規格では「クラスBSUコード」と呼ぶ識別子に相当する。
 図3に示されるように、階層構造を定義するクラスには、それぞれ固有のプロパティ(図3中、点線で囲まれた部分)が定義される。各クラスにおいては、当該クラスの上位クラスで定義されたプロパティを継承する。例えば、クラス「MOSFET」が持つプロパティは、当該クラスで定義されたプロパティ(「P3」「P4」「P5」「P6」)と、その上位クラス「トランジスタ」で定義されたプロパティ(この例では簡略化したために無い)と、クラス「半導体」で定義されたプロパティ(この例では簡略化したために無い)と、クラス「COMPONENT」で定義されたプロパティ(「P0」)ということになる。尚、クラスの場合と同様にプロパティにおいても辞書DB内で唯一につけられたプロパティを表すコード(「プロパティBSUコード」又は単に「BSU」)が付与される。以降では、上述したクラスを表すコード及びプロパティを表すコードを共にBSUコードとして取り扱う。
 図4は、プロパティ毎の辞書データを例示する図である。1番上の行を除く各行がプロパティ毎の各辞書データに対応したレコードである。各辞書データは、各プロパティを識別するためのBSUコードと、当該プロパティが定義されたクラス(定義クラスという)を識別するためのBSUコードと、プロパティの性質を定義するアトリビュートとを含む。アトリビュートとしては、同図に示されるように、例えば、「定義クラス」「BSU」「推奨名」「被依存プロパティ」「シノニム」「シンボル」「単位」「定義」とがある。「被依存プロパティ」とは、プロパティ間の依存関係を示すものであり、そのプロパティの値が依存する側のプロパティの値によって影響を受けるプロパティであることを示す。例えば、P4の被依存プロパティとしてP3を定めているが、これは「P3:DCドレイン電流」は「P4:チャネル温度」に依存して定まる値であることを示している。プロパティP3とプロパティP6に関しても同様の依存関係があることを示している。尚、本実施の形態では利用しないがプロパティの「データ型」や、プロパティ自体の定義の出典を示す「出典」といったアトリビュートもPLIBでは存在する。以上のようにクラスの親子構造、プロパティとそのアトリビュートの種類、プロパティ間の依存関係、データ型の種類など辞書の構造を定めたデータモデルの1つとして、前述した製品部品ライブラリの交換フォーマットの国際標準であるISO13584/Parts Library(PLIB)がある。尚、本実施の形態においては、辞書がPLIBモデルに従った場合の適用例を用い説明するが、PLIB以外のデータベースへ適用しても良い。
 インデックステーブルは、各プロパティやクラスの単語要素毎にインデックスを記憶する。図5は、インデックステーブルを例示する図である。同図に示されるように、インデックステーブルは、各プロパティについて単語要素毎にインデックスとして、「クラス/プロパティ区分(C/P)」「BSUコード」「単語要素」「アトリビュートの種類」「重み」を記憶する。「クラス/プロパティ区分(C/P)」とは、クラス又はプロパティかを区別するためのものである。「単語要素」とは、例えば「推奨名」「定義」「シノニム」などの特定のアトリビュートの値として表される文字列が単語毎に分解されたものである。「重み」とは、アトリビュートの種類に応じて付けられる。このインデックスは、後述する補足対象プロパティ推定部25が行うプロパティの推定に用いられる。なお、この例ではプロパティのみをインデックステーブルへの登録するものとして説明する。
 図2の説明に戻る。文書受付部21は、文書編集装置11から送信された技術文書(対象文書という)の入力を受け付ける。図6は、技術文書を例示する図である。同図に示されるように、技術文書には、「項目名」「記号」「定格」「単位」などの要素を含む複数のデータ項目毎に行列形式で表された仕様データと、「注1」や「注2」としてデータ項目を補足する説明を表す補足記述とが含まれている。仕様データのうち、一番上の行は、見出しである。補足記述における「注1」は、仕様データのデータ項目のうち、「DCドレイン電流」にリンクが付けられているため、このデータ項目に対する説明の補足である。補足記述における「注2」は、仕様データのデータ項目のうち、「許容損失」にリンクが付けられているため、このデータ項目に対する説明の補足である。このように、技術文書においては、補足記述と仕様データにおけるデータ項目とが関連付けされている。
 対象用語受付部22は、対象文書に含まれる補足記述で用いられる用語であって、文書編集装置11においてユーザにより指定されて送信され且つ照合の対象である用語(対象用語という)の入力を受け付ける。分類受付部24は、文書編集装置11においてユーザにより指定されて送信された、対象文書に関する製品のクラスの入力を受け付ける。補足対象抽出部23は、文書受付部21が入力を受け付けた技術文書に含まれる仕様データのうち、補足記述において、対象用語受付部22が入力を受け付けた対象用語が用いられて説明の補足がされている対象のデータ項目(補足対象項目という)を抽出する。具体的には、補足対象抽出部23は、補足記述において当該対象用語が用いられている説明と関連付けられているデータ項目を抽出する。
 補足対象プロパティ推定部25は、補足対象抽出部23が抽出した補足対象項目と、分類受付部24が入力を受け付けたクラスと、辞書記憶部30の有する辞書DBに記憶された辞書データとを用いて、当該補足対象項目が辞書DBにおいてどの辞書データに相当するか、即ち、当該補足対象項目が辞書DBにおいてどのプロパティに相当するかを推定する。対象用語プロパティ推定部26は、補足対象プロパティ推定部25が推定したプロパティ(補足対象プロパティという)と、分類受付部24が入力を受け付けたクラスとを用いて、対象用語受付部22が入力を受け付けた対象用語に対するプロパティ(対象用語プロパティという)を推定する。
 具体的には、補足対象プロパティは、対象用語プロパティに関連するプロパティであると考えられるため、補足対象プロパティ推定部25は、補足対象プロパティとPLIB構造上関連を持つプロパティに絞って対象用語プロパティを検索する。当該対象用語プロパティの検索の方法には以下の2種類の方法がある。
[方法1]補足対象プロパティが他のプロパティと依存関係を有さない場合
1)補足対象プロパティが属するクラスを特定
2)1)で特定したクラス及び当該クラスと上下関係を有するクラス、即ち、1)で特定したクラス、当該クラスの下位の全てのクラス及び当該クラスの上位の全てのクラスのいずれかに属するプロパティの集合を検索対象Qと定める
3)検索対象Qのうち「対象用語」をキーワードとしてプロパティ毎の辞書データの類似検索をインデックステーブルを用いて行なう
[方法2]補足対象プロパティが他のプロパティと依存関係を有する場合
1)補足対象プロパティと依存関係を有するプロパティ、即ち、補足対象プロパティが「被依存プロパティ」として定められているプロパティ及び補足対象プロパティの集合を検索対象Rと定める
2)検索対象Rのうち「対象用語」をキーワードとしてプロパティ毎の辞書データの類似検索をインデックステーブルを用いて行なう
補足対象プロパティ推定部25は、以上のいずれかの方法によって実行した類似検索の結果得られたプロパティをランキング付きで出力する。このランキングが上位である程、対象用語プロパティである度合が高いプロパティとして推定される。
 語彙照合部27は、対象用語プロパティ推定部26が推定した対象用語プロパティに含まれる推奨語と、対象用語受付部22が入力を受け付けた対象用語とを照合する。照合結果出力部28は、語彙照合部27の照合の結果を文書編集装置11に送信する。具体的には、語彙照合部27の照合の結果、推奨語と、対象用語とが一致しない場合、照合結果出力部28は、当該推奨語を当該対象用語の訂正候補として示す第1照合結果を文書編集装置11に送信する。補足記述漏れ出力部29は、補足対象プロパティ推定部25が推定した補足対象プロパティが他のプロパティと依存関係を有する場合、即ち、当該補足対象プロパティが辞書データにおいて他のプロパティの「被依存プロパティ」として定められている場合、当該他のプロパティのうち、補足対象項目に対する補足記述においてその名称に関するアトリビュート(「推奨名」「短縮名称」「シノニム」「定義」など)の全部又は一部が用いられていないプロパティ(補足漏れプロパティという)を検索し、検索の結果に応じて、補足漏れプロパティの推奨語を補足記述漏れとして示す第2照合結果を文書編集装置11に送信する。
 次に、本実施の形態にかかる用語統一支援装置10の行う処理の手順について説明する。まず、各プロパティの単語要素毎のインデックスをインデックステーブルへ登録する処理の手順について図7を用いて説明する。まず、用語統一支援装置10は、図3に例示される各辞書データをdicElem(i,j)として主記憶部に記憶する(ステップS1)。但し、iは一番上の行を除く各行に対応する辞書データのレコードを表し、jは各列に対応するアトリビュートを表している。用語統一支援装置10は、dicElem(i,j)の全ての辞書データの名称に関するアトリビュート(ここでは「推奨名(j=3)」「シノニム(j=5)」とする)の全てに対して(ステップS2~S3)、アトリビュートの値として表される文字列dic(i,j)を各々単語解析する(ステップS4)。例えば、図4においてiが「1」であり、jが「3」(推奨名)については、その文字列は「ジャンクション温度」である。この場合、単語解析により「ジャンクション」と「温度」とに分解される。そして、用語統一支援装置10は、このように分解した全ての単語要素に対して、アトリビュートの種類に応じた重み付けを行い、この重みの値(w(j))を、プロパティ毎及び単語要素毎に「クラス・プロパティ分類」「BSUコード」「単語要素」「アトリビュートの種類」と共にインデックスとしてインデックステーブルへ登録する(ステップS5)。本実施の形態では、重みとして、アトリビュートの種類毎に以下の値を用いるものとする。
「推奨名」:1.0
「シノニム」:0.8
その他のアトリビュート:0
 この処理の結果、図4に例示される各プロパティについては、図5に例示される各インデックスが単語要素毎にインデックステーブルに登録される。但し、同図に示されるように、重みが「0」となる単語要素については登録されない。このようにインデックスが登録されたインデックステーブルは、以下で説明する用語統一支援処理で用いられる。
 次に、用語統一支援処理の手順について図8を用いて説明する。尚、辞書記憶部30の有する辞書DBのデータ構造は、図3~4に例示した通りであるとする。文書編集装置11においてユーザが、技術文書(対象文書)を指定し、当該対象文書に含まれる補足記述に含まれる用語のうち、照合の対象となる用語(対象用語)を指定し、クラスを指定すると、指定された対象文書、対象用語及びクラスを含むデータを文書編集装置11は用語統一支援装置10に送信する。ここでは、例えば、図5に例示された技術文書が指定され、「ジャンクション温度」が対象用語として指定され、「トランジスタ」がクラスとして指定されるとする。尚、クラスの指定は、例えば、BSUコードによって行っても良いし、クラスの名称によって行っても良い。
 用語統一支援装置10は、文書編集装置11から送信された当該データを受信すると、文書受付部21の機能により、対象文書の入力を受け付け、対象用語受付部22の機能により、対象用語の入力を受け付け、分類受付部24の機能により、クラスの入力を受け付ける(ステップS20)。次いで、用語統一支援装置10は、補足対象抽出部23の機能により、ステップS20で入力が受け付けられた対象文書に含まれる仕様データのうち、ステップS20で入力が受け付けられた対象用語が用いられて説明の補足がされている対象のデータ項目(補足対象項目)を抽出する(ステップS21)。ここでは、「ジャンクション温度」が用いられて説明が補足されている「注1」と関連付けられているデータ項目は、「DCドレイン電流」であるから、これが補足対象項目となる。即ち、図6に例示された技術文書に含まれる仕様データのうち3行目が補足対象項目として抽出される。そして、用語統一支援装置10は、補足対象プロパティ推定部25の機能により、ステップS2で抽出された補足対象項目と、ステップS1で入力が受け付けられたクラスと、辞書記憶部30の有する辞書DBに記憶された辞書データとを用いて、補足対象項目が辞書DBにおいてどの辞書データに相当するか、即ち、当該補足対象項目が辞書DBにおいてどのプロパティに相当するかを推定する(ステップS22)。
 ここで、ステップS22で補足対象項目に相当するプロパティ(補足対象プロパティ)を推定する処理の詳細な手順を図9を用いて説明する。この処理は、アトリビュートを推定する第1処理と、類似するプロパティ(類似プロパティという)を検索する第2処理とに大別される。第1処理においては、仕様データにおける列と、辞書DBにおけるプロパティに含まれるアトリビュートとの対応関係が、図10に例示されるように、編集者により以下の通り予め指定されているものとする。
一列目:アトリビュート「推奨名」
二列目:アトリビュート「シンボル」
三列目:該当なし
四列目:アトリビュート「単位」
 そして、第2処理で、用語統一支援装置10は、以下のようにして、補足対象項目が辞書DBにおけるどのプロパティに相当するかを推定する。まず、用語統一支援装置10は、辞書DBにおいて比較対象のプロパティを選択する(ステップS30)。次いで、用語統一支援装置10は、以下のルールを適用して、補足対象項目に属する各列のうち、アトリビュートが推定された列毎に点数を類似度として計算する(ステップS31)。
(a)辞書データにおける当該アトリビュートに文字列が完全一致する場合:5点
(b)辞書データにおける当該アトリビュートに文字列が部分一致する場合:1点
(c)「名称」(「推奨名」「シノニム」)に関しては区別しない
 全ての列について類似度の計算が終了すると(ステップS32:YES)、用語統一支援装置10は、合計の点数が最も高いプロパティを選択して、これを類似プロパティとして決定する(ステップS33)。この類似プロパティが、即ち、補足対象項目に相当するプロパティ(補足対象プロパティ)として推定される。
 具体的には、図4に例示されたプロパティ毎の辞書データに対して、補足対象項目である「DCドレイン電流」についての類似度の計算結果は以下の通りである。
類似度(P3)=5+5+5=15  #推奨名、シンボル、単位が完全一致
類似度(P6)=1+0+0=1  #推奨名が部分一致
プロパティ「P3」,「P6」以外のプロパティに対しては、類似度は全て0となる。
従って、補足対象プロパティは、クラス「MOSFET」で定義された「P3:DCドレイン電流」であると推定される。
 図8の説明に戻る。ステップS22の後、用語統一支援装置10は、対象用語プロパティ推定部26の機能により、ステップS22で推定された補足対象プロパティと、ステップS20で入力が受け付けられたクラスとを用いて、ステップS20で入力が受け付けられた対象用語に対するプロパティ(対象用語プロパティ)を推定する(ステップS23)。
 ここで、ステップS23で対象用語プロパティを推定する処理の詳細な手順を図11を用いて説明する。まず、用語統一支援装置10は、辞書DBに記憶された各辞書データにおける「被依存プロパティ」を参照して、ステップS22で推定した補足対象プロパティが他のプロパティと依存関係を有するか否かを判断する(ステップS40)。即ち、用語統一支援装置10は、補足対象プロパティが「被依存プロパティ」として定められているプロパティが辞書データとして辞書DBに記憶されているか否かを判断する。当該判断結果が肯定的である場合(ステップS40:YES)、用語統一支援装置10は、上述の[方法2]により処理を行なうべく、まず、補足対象プロパティ及び補足対象プロパティと依存関係を有するプロパティの集合を検索対象Rと定める(ステップS41)。
 補足対象プロパティである「P3:DCドレイン電流」については、図4の例では、該当のプロパティは「P4」,「P6」となる。従って、ここでは、用語統一支援装置10は、ステップS22で推定した補足対象プロパティが他のプロパティと依存関係を有するため、補足対象プロパティ「P3」と当該補足対象プロパティと依存関係を有するプロパティ「P4」,「P6」との集合(「P3」,「P4」,「P6」)を検索対象Rと定める。
 次いで、用語統一支援装置10は、ステップS20で入力が受け付けられた対象用語をキーワードとして、検索対象Rに含まれるプロパティの類似検索をインデックステーブルを用いて行なうことにより、対象用語に対するプロパティを推定する(ステップS42)。ここで、ステップS42の処理の詳細な手順について図12を用いて説明する。用語統一支援装置10は、対象用語を単語解析し(ステップS50)、この結果得られた単語要素を含むインデックスを、検索対象Rに含まれるプロパティについてインデックステーブルにおいて検索する(ステップS51)。具体的には、対象用語「ジャンクション温度」については、「ジャンクション」と「温度」との各単語要素に分解される。図5に例示されるインデックステーブルでは、これらの各単語要素を含むインデックスIDX3~IDX5が検索の結果得られる。そして、用語統一支援装置10は、検索の結果得られたインデックスをプロパティ毎にグルーピングし、重みの総和(得点)を計算する(ステップS52)。インデックスIDX3~IDX5については、プロパティ「P4」にグルーピングされる。プロパティPnの得点をPoint(Pn)とすると、プロパティ「P4」ついての計算結果は以下の通りとなる。
Point(P4)=1.0+0.8+0.8=2.6
 次いで、用語統一支援装置10は、プロパティ毎の計算結果を値の高い順にランキングして、各プロパティをランキング付きで出力する(ステップS53)。このランキングが上位である程、対象用語プロパティである度合が高いプロパティとして推定される。上述の例では、プロパティ「P4」が一位として出力され、これが対象用語プロパティとして推定される。尚、ここでの留意点は、図4に例示された辞書データのプロパティ「P1」については、推奨名「ジャンクション温度」がアトリビュートとして含まれているにもかかわらず、これは対象外となる点にある。プロパティ「P1」はクラス「汎用ロジックIC」に属するものである。一方、「ジャンクション温度」が用いられて説明の補足がされている補足対象項目「DCドレイン電流」に相当するプロパティは「P3」であり、これの属するクラスは、「MOFSET」である。このため、これと同じクラスに属するプロパティ「P4」が対象用語プロパティとして推定され、プロパティ「P1」が対象外となることで、対象用語プロパティが正しく推定されている。
 図11の説明に戻る。ステップS40で、ステップS22で推定した補足対象プロパティが他のプロパティと依存関係を有さない場合(ステップS40:NO)、用語統一支援装置10は、上述の[方法1]により処理を行なうべく、補足対象プロパティが属するクラスを特定する(ステップS43)。そして、用語統一支援装置10は、ステップS43で特定したクラス、当該クラスの下位の全てのクラス及び当該クラスの上位の全てのクラスのいずれかに属するプロパティの集合を検索対象Qと定める(ステップS44)。次いで、用語統一支援装置10は、ステップS20で入力が受け付けられた対象用語をキーワードとして、検索対象Qに含まれるプロパティの類似検索をインデックステーブルを用いて行なうことにより、対象用語プロパティを推定する(ステップS45)。ステップS45の処理の詳細な手順については、ステップS42と略同様であり、図12を用いて説明したものと略同様であるため、その説明を省略する。
 図8の説明に戻る。ステップS23の後、用語統一支援装置10は、語彙照合部27の機能により、ステップS23で推定された対象用語プロパティに含まれる推奨語と、ステップS1で入力が受け付けられた対象用語とを照合する(ステップS24)。これらが一致しない場合(ステップS25:NO)、用語統一支援装置10は、照合結果出力部28の機能により、当該推奨語を当該対象用語の訂正候補として示す第1照合結果を文書編集装置11に送信する(ステップS26)。上述の例で、対象用語プロパティ「P4」については、図4に例示される辞書データでは、推奨語は「チャネル温度」である。これは対象用語「ジャンクション温度」とは一致しない。このため、この「チャネル温度」が訂正候補として示す第1照合結果が文書編集装置11に送信される。そして、文書編集装置11は、当該第1照合結果を受信すると、当該第1照合結果を用いて、図13に例示されるように、「チャネル温度」を「ジャンクション温度」の訂正候補として表示装置に表示させる。
 また、用語統一支援装置10は、ステップS22で推定された補足対象プロパティが他のプロパティと依存関係を有する場合、補足記述漏れ出力部29の機能により、当該他のプロパティのうち、補足対象項目に対する補足記述においてその名称に関するアトリビュート(「推奨名」「シノニム」「定義」など)の全部又は一部が用いられていないプロパティ(補足漏れプロパティ)を検索する。検索の結果、補足漏れプロパティがあった場合(ステップS27:YES)、用語統一支援装置10は、当該補足漏れプロパティの推奨語を補足記述漏れとして示す第2照合結果を文書編集装置11に送信する(ステップS28)。上述の例では、補足対象プロパティ「P3」については、プロパティ「P4」,「P6」の「被依存プロパティ」として定められている。このため、補足対象プロパティ「P3」は、プロパティ「P4」,「P6」と依存関係を有する。一方、図6に例示された対象文書では、プロパティ「P6」については、推奨語などの名称に関するアトリビュートの値である文字列は補足記述における「注1」に含まれていない。このため、用語統一支援装置10は、プロパティ「P6」の推奨語を「注1」における補足記述漏れとして示す第2照合結果を文書編集装置11に送信する。文書編集装置11は、当該第2照合結果を受信するとこれを用いて、図14に例示されるように、「注1」において「P6:ゲート漏れ電流」について補足記述漏れの可能性を指摘するメッセージを表示装置に表示させる。なお、被補足対象に表記上の揺らぎがあってもよい。例えば、ドレーン電流とドレイン電流などである。
 以上のように、製品の仕様を表す技術文書において、仕様データに対する補足記述に含まれる用語(対象用語)が説明の補足をしている対象のデータ項目(補足対象項目)に相当するプロパティを推定し、これを用いて、対象用語に対応するプロパティ(対象用語プロパティ)を推定して、対象用語の訂正候補を提示する。このため、技術文書の仕様データの補足記述において用いられる用語について、標準辞書に合わせた用語に修正することを支援することができ、標準辞書で定義したプロパティの推奨語への統一を支援することができる。また、補足記述における記述漏れをチェックして、記述漏れの可能性のあるプロパティを提示することができる。従って、技術文書を利用するユーザ企業とそれを提供するサプライ企業との間の意味解釈の齟齬をなくすことができ、技術文書の品質を向上させることができる。
[変形例]
 なお、本発明は前記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、前記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。また、以下に例示するような種々の変形が可能である。
 上述した実施の形態において、用語統一支援装置10で実行される各種プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。また当該各種プログラムを、インストール可能な形式又は実行可能な形式のファイルでCD-ROM、フレキシブルディスク(FD)、CD-R、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供するように構成しても良い。
 上述した各実施の形態において、用語統一支援装置10は、辞書DBを有するように構成したが、これに限らず、他の情報処理装置が辞書DBを有するように構成し、用語統一支援装置10は、当該他の情報処理装置を介して辞書DBにアクセスして該当の辞書データを取得するようにしても良い。
 また、上述した各実施の形態において、辞書DBはPLIBに従った場合の適用例を示したが、これに限らず、PLIB以外のデータベースへ適用するようにしても良い。
 上述した各実施の形態において、アトリビュートに対応する方向は列方向であるとし、プロパティに対応する方向は行方向であるとしたが、これらは逆であっても良い。
 また、上述した各実施の形態において、用語統一支援装置10は、分類受付部24の機能により、指定されたクラスの入力を受け付け、当該クラスに属するプロパティに限定して、補足対象プロパティを推定した。しかし、クラスが指定されなくても良く、この場合、辞書DBに記憶されている辞書データの全てを処理対象として補足対象プロパティを推定するようにしても良い。
 上述した実施の形態において、用語統一支援装置10は、対象用語プロパティ推定部26の機能により、対象用語に対するプロパティを推定する際に、補足対象プロパティが他のプロパティと依存関係を有するか否かによって、[方法1]及び[方法2]に分けて処理を行った。しかし、補足対象プロパティが他のプロパティと依存関係を有するか否かを考慮せずに、[方法1]によってのみ処理を行うようにしても良い。この場合、図11では、用語統一支援装置10は、ステップS40~41の処理を行なわず、ステップS43~S45の処理を行う。ステップS43では、補足対象プロパティである「P3:DCドレイン電流」については、図4の例では、ステップS43では、クラスは「MOFSET」と特定される。ステップS44では、該当のプロパティは「P1」,「P3」,「P4」,「P5」,「P6」となり、検索対象Qは、プロパティ「P1」,「P3」,「P4」,「P5」,「P6」の集合として定められる。ステップS45では、図12のステップS50の後、ステップS51では、図5に例示されるインデックステーブルにおいて、「ジャンクション」と「温度」との各単語要素を含むインデックスIDX1~IDX5が、検索の結果得られる。ステップS52では、インデックスIDX1~IDX5については、プロパティ「P1」,「P4」に各々グルーピングされる。プロパティPnの得点をPoint(Pn)とすると、各プロパティ「P1」,「P4」ついての計算結果は以下の通りとなる。
Point(P1)=1.0+1.0=2.0
Point(P4)=1.0+0.8+0.8=2.6
 従って、ステップS53では、プロパティ「P4」が一位、プロパティ「P1」が二位として出力され、これらが対象用語プロパティの候補として推定される。図8のステップS24では、ステップS23(図12のステップS53)で推定された各対象用語プロパティの候補に含まれる各推奨語と、ステップS1で入力が受け付けられた対象用語とが各々照合され、これらが一致しない場合、ステップS26では、各推奨語を当該対象用語の訂正候補として示す第1照合結果が文書編集装置11に送信される。ここでは、第1照合結果には、ランキングされた複数の順位のプロパティについて対象用語と一致しなかった推奨語が訂正候補として示されえる。文書編集装置11は、当該第1照合結果を受信すると、当該第1照合結果を用いて、図15に例示されるように、ランキングの順に、訂正候補1として、プロパティ「P4」について「チャネル温度」と、訂正候補2としてプロパティ「P1」について「ジャンクション温度」を表示装置に表示させる。尚、この例では、ランキングは二位までであるため、訂正候補は、2つであるが、ランキングのうち何位までを訂正候補とするかは、限定されない。例えば、ステップS52で計算する得点の閾値を予め定めておき、当該閾値以下の得点のプロパティの推奨語については、対象用語と一致しない場合であっても、訂正候補としないようにしても良い。
10 用語統一支援装置
11 文書編集装置
21 文書受付部
22 対象用語受付部
23 補足対象抽出部
24 分類受付部
25 補足対象プロパティ推定部
26 対象用語プロパティ推定部
27 語彙照合部
28 照合結果出力部
29 補足記述漏れ出力部
30 辞書記憶部
101 制御部
102 操作部
103 表示部
104 ROM
105 RAM
107 補助記憶部
108 バス

Claims (6)

  1.  推奨語を含むアトリビュートと、該アトリビュートで定義されるプロパティとによって定義されるデータであって、前記プロパティ毎の辞書データを取得する取得部と、
     データ項目を行列形式で表す仕様データと前記データ項目を補足する説明を表す補足記述とを含む技術文書の入力を受け付ける第1受付部と、
     前記補足記述で用いられる用語から第1用語の入力を受け付ける第2受付部と、
     前記仕様データから前記第1用語が用いられて補足されている第1データ項目を抽出する抽出部と、
     前記辞書データを用いて前記第1データ項目に相当する第1プロパティを推定する第1推定部と、
     前記辞書データを用いて前記第1プロパティと関係を有するプロパティの中から、前記第1用語に対応する第2プロパティを推定する第2推定部と、
     前記辞書データを用いて、前記第2プロパティが所有する前記推奨語と前記第1用語とを照合する照合部とを備える
    ことを特徴とする用語統一支援装置。
  2.  前記辞書データは、前記プロパティ間の依存関係を含み、
     前記第2推定部は、前記辞書データを用いて、前記第1プロパティと依存関係を有するプロパティの中から、前記第2プロパティを推定する
    ことを特徴とする請求項1に記載の用語統一支援装置。
  3.  前記照合の結果、前記推奨語と、前記第1用語とが一致しない場合、当該推奨語を示す第1照合結果を出力する第1出力部を更に備える
    ことを特徴とする請求項2に記載の用語統一支援装置。
  4.  前記プロパティは、前記推奨語に関する前記アトリビュートによって少なくとも記述され、
     前記辞書データを用いて、前記第1プロパティと依存関係を有するプロパティのうち、前記補足記述で前記名称に関するアトリビュートが用いられていない第3プロパティの前記推奨語を示す第2照合結果を出力する第2出力部を更に備える
    ことを特徴とする請求項3に記載の用語統一支援装置。
  5.  前記辞書データは、分類を示すクラス毎に前記プロパティが定義されており、
     前記技術文書に関する第1クラスの入力を受け付ける第3受付部とを更に備え、
     前記第1推定部は、前記辞書データを用いて、前記第1クラスに属するプロパティの中から、前記第1プロパティを推定する
    ことを特徴とする請求項4に記載の用語統一支援装置。
  6.  前記第2推定部は、前記第1プロパティが他のプロパティと依存関係を有さない場合、前記辞書データを用いて、前記第1クラス及び当該第1クラスと上下関係にあるクラスのいずれかに属する前記プロパティの中から、前記第2プロパティを推定する
    ことを特徴とする請求項5に記載の用語統一支援装置。
PCT/JP2009/066379 2009-09-18 2009-09-18 用語統一支援装置 WO2011033653A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2009/066379 WO2011033653A1 (ja) 2009-09-18 2009-09-18 用語統一支援装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2009/066379 WO2011033653A1 (ja) 2009-09-18 2009-09-18 用語統一支援装置

Publications (1)

Publication Number Publication Date
WO2011033653A1 true WO2011033653A1 (ja) 2011-03-24

Family

ID=43758279

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2009/066379 WO2011033653A1 (ja) 2009-09-18 2009-09-18 用語統一支援装置

Country Status (1)

Country Link
WO (1) WO2011033653A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06176018A (ja) * 1992-12-07 1994-06-24 Fuji Xerox Co Ltd 校正支援装置
JPH07325826A (ja) * 1994-05-31 1995-12-12 Meidensha Corp 日本語処理システム
JPH09259125A (ja) * 1996-03-27 1997-10-03 Hitachi Kokusai Business:Kk 文書作成支援システム及び用語辞書
JP2007026074A (ja) * 2005-07-15 2007-02-01 Toshiba Corp 部品情報表示装置、部品情報表示システム、部品情報表示プログラムおよび部品情報表示方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06176018A (ja) * 1992-12-07 1994-06-24 Fuji Xerox Co Ltd 校正支援装置
JPH07325826A (ja) * 1994-05-31 1995-12-12 Meidensha Corp 日本語処理システム
JPH09259125A (ja) * 1996-03-27 1997-10-03 Hitachi Kokusai Business:Kk 文書作成支援システム及び用語辞書
JP2007026074A (ja) * 2005-07-15 2007-02-01 Toshiba Corp 部品情報表示装置、部品情報表示システム、部品情報表示プログラムおよび部品情報表示方法

Similar Documents

Publication Publication Date Title
US7996437B2 (en) Program for mapping of data schema
US7814102B2 (en) Method and system for linking documents with multiple topics to related documents
US10296579B2 (en) Generation apparatus, generation method, and program
US8005815B2 (en) Search engine
US8229883B2 (en) Graph based re-composition of document fragments for name entity recognition under exploitation of enterprise databases
US20120254143A1 (en) Natural language querying with cascaded conditional random fields
Hornung et al. Recommendation based process modeling support: Method and user experience
CN109145110B (zh) 标签查询方法和装置
US7853595B2 (en) Method and apparatus for creating a tool for generating an index for a document
JP2016099741A (ja) 情報抽出支援装置、方法およびプログラム
CN111143370B (zh) 用于分析多个数据表之间关系的方法、设备和计算机可读存储介质
CN102227723A (zh) 辅助误译的检测的装置及方法
JP2010134709A (ja) 語彙誤り検出装置及び語彙誤り検出方法
US20230177362A1 (en) Risk assessment apparatus, risk assessment method, and program
CN112818005B (zh) 结构化数据的搜索方法、装置、设备及存储介质
Tang et al. iASA: learning to annotate the Semantic Web
JP2007102309A (ja) 自動分類装置
WO2011033653A1 (ja) 用語統一支援装置
JP2009043029A (ja) 関連db作成装置
JP2007172260A (ja) 文書ルール作成支援装置および文書ルール作成支援方法並びに文書ルール作成支援プログラム
US11100099B2 (en) Data acquisition device, data acquisition method, and recording medium
US20160283605A1 (en) Information extraction device, information extraction method, and display control system
JP4965766B2 (ja) 関係情報抽出装置および属性情報抽出装置
JP5330049B2 (ja) 検索装置、方法及びプログラム
WO2015125088A1 (en) Document characterization method

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 09849512

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 09849512

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP