[go: up one dir, main page]

RU2386178C2 - Method for preliminary processing of text - Google Patents

Method for preliminary processing of text Download PDF

Info

Publication number
RU2386178C2
RU2386178C2 RU2007143417/09A RU2007143417A RU2386178C2 RU 2386178 C2 RU2386178 C2 RU 2386178C2 RU 2007143417/09 A RU2007143417/09 A RU 2007143417/09A RU 2007143417 A RU2007143417 A RU 2007143417A RU 2386178 C2 RU2386178 C2 RU 2386178C2
Authority
RU
Russia
Prior art keywords
transcription
modeling
rules
text
transcriptional
Prior art date
Application number
RU2007143417/09A
Other languages
Russian (ru)
Other versions
RU2007143417A (en
Inventor
Михаил Николаевич Гусев (RU)
Михаил Николаевич Гусев
Ольга Борисовна Егорова (RU)
Ольга Борисовна Егорова
Валентин Александрович Смирнов (RU)
Валентин Александрович Смирнов
Original Assignee
Общество с Ограниченной Ответственностью "ВОКАТИВ"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Общество с Ограниченной Ответственностью "ВОКАТИВ" filed Critical Общество с Ограниченной Ответственностью "ВОКАТИВ"
Priority to RU2007143417/09A priority Critical patent/RU2386178C2/en
Publication of RU2007143417A publication Critical patent/RU2007143417A/en
Application granted granted Critical
Publication of RU2386178C2 publication Critical patent/RU2386178C2/en

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

FIELD: information technologies.
SUBSTANCE: invention makes it possible to produce all possible versions of initial text transcriptions, not resorting to analysis of text sounding. Rules of transcription modeling are applied to ideal transcriptions produced on the text basis, additional versions of transcriptions are obtained, to which rules of transcription modeling are also applied. Identical transcriptions are excluded from produced list of transcriptions, and transcriptions remained in the list are saved for further use.
EFFECT: improvement of preliminary text processing.
4 cl, 8 dwg, 1 tbl, 3 ex

Description

Изобретение относится к информационным технологиям, в частности к предварительной обработке текстовой информации, и может быть использовано при распознавании и синтезе речи, аннотировании баз данных, а также при автоматическом синхронном переводе с языка на язык и других областях знаний.The invention relates to information technology, in particular to the preprocessing of textual information, and can be used in speech recognition and synthesis, annotating databases, as well as in automatic simultaneous translation from language to language and other areas of knowledge.

Информационные технологии все больше и больше проникают в современную жизнь каждого человека. Особенно активно развиваются системы искусственного интеллекта, связанные с распознаванием образов, анализом изображений и распознаванием и синтезом речи и т.п.Information technology more and more penetrate the modern life of every person. Particularly actively developing artificial intelligence systems associated with pattern recognition, image analysis and speech recognition and synthesis, etc.

Речевые технологии находят все большее распространение в робототехнике, системах управления оборудованием, средствах коммуникаций и других областях человеческой деятельности.Speech technologies are becoming increasingly common in robotics, equipment control systems, communications, and other areas of human activity.

Распознавание речи - технология, позволяющая использовать естественный для человека речевой интерфейс для взаимодействия с электронной техникой. Технология распознавания речи предоставляет возможность распознавания отдельных слов или слитной человеческой речи, с последующим ее преобразованием в текст либо последовательность команд.Speech recognition is a technology that allows you to use a natural human speech interface to interact with electronic equipment. Speech recognition technology provides the ability to recognize individual words or continuous human speech, with its subsequent conversion to text or a sequence of commands.

Синтез речи - это технология обработки текстовой или числовой информации согласно установленным правилам произношения для конкретного языка и преобразование ее в синтезированный голос, по звучанию близкий к человеческому.Speech synthesis is a technology for processing textual or numerical information according to the established pronunciation rules for a particular language and converting it into a synthesized voice, sounding close to human.

Эффективность современных систем распознавания речи во многом зависит от степени точности представления фонетических явлений в языке с помощью математических структур. Для этой цели применяются большие звуковые базы данных, содержащие сотни часов записей речи множества дикторов и фонетическую транскрипцию этих записей, которая зачастую порождается автоматически по каноническим правилам. Однако в реальной речи правила могут нарушаться, а значит, математические структуры, полученные в результате обработки таких баз, не будут описывать речевой сигнал с высокой точностью.The effectiveness of modern speech recognition systems largely depends on the degree of accuracy of the representation of phonetic phenomena in a language using mathematical structures. For this purpose, large sound databases are used, containing hundreds of hours of speech recordings of many speakers and phonetic transcription of these recordings, which is often generated automatically according to canonical rules. However, in real speech, the rules may be violated, which means that the mathematical structures obtained as a result of processing such databases will not describe the speech signal with high accuracy.

Аллофонные звуковые базы, используемые в синтезе речи по тексту, постепенно утрачивают свою актуальность - роль аппаратных ограничений на производительность и доступные объемы памяти снижается, и на первое место выходит качество формируемого звукового сигнала.The allophonic sound bases used in text-to-speech synthesis are gradually losing their relevance - the role of hardware limitations on performance and available memory is reduced, and the quality of the generated audio signal comes first.

Известна система автоматического распознавания русской речи SIRIUS, в которую введен дополнительный уровень представления языка и речи - морфемный уровень. На основе правил словообразования русского языка были разработаны базы данных различных типов морфем, а также методы автоматической обработки текстов. При обработке тестов использовались модули транскрибирования и морфемной сегментации.A well-known system for automatic recognition of Russian speech SIRIUS, which introduced an additional level of representation of language and speech - morpheme level. Based on the rules of word formation of the Russian language, databases of various types of morphemes, as well as methods of automatic word processing, have been developed. When processing the tests, transcription and morpheme segmentation modules were used.

Модуль транскрибирования осуществляет преобразование текстов предметной области в фонетическую транскрипцию. На вход модуля поступают: набор предложений, составляющих тексты; словарь слов из этих предложений, разбитый на морфемные единицы; словарь словоформ, полученный из базовых форм слов русского языка с отметкой ударного слога (слогов), используемый фонетический алфавит и фонетические правила. Разбиение слова на морфемы осуществлялось путем подбора различных типов с учетом правил следования морфем в одном слове. Возможные пары типов морфем отмечались знаком «+», а недопустимые пары знаком «-». Отрицательная гипотеза разбиения слова на морфемы отбрасывалась и поиск продолжался дальше, пока не обнаруживался конец слова «STOP».The transcription module converts domain texts into phonetic transcription. The input of the module includes: a set of sentences that make up the texts; a dictionary of words from these sentences, broken down into morphemic units; a dictionary of word forms obtained from the basic forms of words of the Russian language with the mark of the stressed syllable (s), the phonetic alphabet used and the phonetic rules. The word was divided into morphemes by selecting various types, taking into account the rules for following morphemes in one word. Possible pairs of morpheme types were marked with a “+” sign, and invalid pairs with a “-” sign. The negative hypothesis of breaking the word into morphemes was rejected and the search continued on until the end of the word “STOP” was found.

Разработанные базы данных морфем использовались для создания морфемной модели языка, строящейся на основе статистики встречаемости различных пар морфем (А.Л.Ронжин, А.А.Карпов, И.В.Ли «Система автоматического распознавания русской речи SIRIUS», ЖУРНАЛ «Искусственный интеллект», №3, 2005).The developed morpheme databases were used to create a morpheme model of the language, based on the statistics of the occurrence of various pairs of morphemes (A.L. Ronzhin, A.A. Karpov, I.V. Li, “SIRIUS automatic speech recognition system for Russian speech”, “Artificial Intelligence MAGAZINE” ”, No. 3, 2005).

В результате такой обработки скорость распознавания и устойчивость к синтаксическим отклонениям в произнесенной фразе увеличились. Однако высокой точности распознавания достигнуть не удалось из-за собственных ошибок обработки текстов. Разбивка текста на морфемы, которые являются частью слова, затрудняет расстановку пауз. Россия является многонациональной страной, русскоговорящее население которой обладает большой вариативностью национальных акцентов и стилей произношения, что необходимо учитывать при обработке текстов. В системе автоматического распознавания русской речи SIRIUS это не было учтено.As a result of such processing, the recognition speed and resistance to syntactical deviations in the spoken phrase have increased. However, it was not possible to achieve high recognition accuracy due to own text processing errors. The breakdown of the text into morphemes, which are part of the word, makes it difficult to arrange pauses. Russia is a multinational country, the Russian-speaking population of which has great variability in national accents and pronunciation styles, which must be taken into account when processing texts. In the system of automatic recognition of Russian speech SIRIUS this was not taken into account.

Известен способ компиляционного фонемного синтеза русской речи и устройство для его реализации (патент РФ №2298234). Устройство содержит текстовый процессор, который выполняет следующие функции: нормализация текста; фонетическая транскрипция по разбивке слова на фонетические единицы по принципу приоритетов; идентификация звуковых единиц; селекция фонемосочетаний вида согласная-гласная-согласная-согласная (…СГСС…) и согласная-гласная-согласная (…СГСконечная); организация управления параметрами элементов компиляции и слоговым ударением.A known method of compilation phoneme synthesis of Russian speech and a device for its implementation (RF patent No. 2298234). The device contains a word processor that performs the following functions: text normalization; phonetic transcription by breaking the word into phonetic units according to the principle of priorities; identification of sound units; selection of consonant-vowel-consonant-consonant phono-combinations (... GHS ...) and consonant-vowel-consonant (... GHS final ); organization of control over the parameters of compilation elements and syllabic stress.

Предлагаемый способ реализуется следующим образом. Информация после текстового процессора, освобожденная от цифр и знаков пунктуации, представляет последовательность идентификаторов звуковых единиц, поступающую вместе с признаком ударения на вход акустической базы данных. Одновременно с этим текстовый процессор в результате селекции последовательности типов фонем вида …СГСС… и …СГСконечная вырабатывает признак на формирование фрагмента компиляции СГС, который поступает на блок формирования СГС.The proposed method is implemented as follows. The information after the word processor, freed from numbers and punctuation marks, represents a sequence of identifiers of sound units that comes with the stress sign at the input of the acoustic database. At the same time, the word processor as a result of selection of a sequence of phoneme types of the form ... GHS ... and ... GHS final generates a sign for the formation of the GHS compilation fragment, which is sent to the GHS generation block.

К недостаткам обработки текста по предложенному способу следует отнести плохое транскрибирование частей слов, т.к. не учитываются соотношения более высокого уровня, следовательно, могут некорректно проставляться словесные ударения, а фразовые просто не проставляются.The disadvantages of text processing by the proposed method include poor transcription of parts of words, because correlations of a higher level are not taken into account, therefore, verbal stresses may be incorrectly put down, and phrasal ones are simply not put down.

Кроме того, отсутствует информация о паузах, без обработки которых точность обработки текстов снижается.In addition, there is no information about pauses, without processing of which the accuracy of word processing is reduced.

Применение изобретения ограничено, т.к. оно направлено лишь на синтез с использованием заданной базы фонемных единиц.The use of the invention is limited because it is aimed only at synthesis using a given base of phoneme units.

Наиболее близким техническим решением к заявляемому техническому решению является способ предварительной обработки текста для синтеза украинской речи, который также можно использовать для предварительной обработки текстов и на других славянских или неславянских языках.The closest technical solution to the claimed technical solution is a method of text preprocessing for the synthesis of Ukrainian speech, which can also be used for text preprocessing in other Slavic or non-Slavic languages.

На первом этапе осуществляется очистка текстов от служебных знаков, не имеющих отношения к речи (знаки переноса строки, табличные знаки и т.д.), что приводит текст в нормализованный орфографический текст.At the first stage, texts are cleared from service characters that are not related to speech (line breaks, tabular characters, etc.), which leads the text to normalized spelling text.

На этом этапе осуществляются также следующие преобразования:At this stage, the following transformations are also carried out:

- всевозможных сокращений и аббревиатур в линейный текст;- all kinds of abbreviations and abbreviations in linear text;

- цифр в их орфографическое представление, например, 28453 преобразуется в двадцать восемь тысяч четыреста пятьдесят три;- numbers in their spelling representation, for example, 28453 is converted to twenty eight thousand four hundred fifty three;

- формул (математических, физических, химических и т.д.) в их орфографическое представление.- formulas (mathematical, physical, chemical, etc.) in their spelling representation.

Основное назначение блока пофразовой обработки текста состоит в его просодической разметке. Вначале осуществляется членение текста на фонетические периоды, затем на фразы и, наконец, на синтагмы. Фонетическим периодом называется наибольший участок речи, который единообразно оформлен с точки зрения интонации и ритмики. Обычно он соответствует такому отрезку текста, который называется в орфографии "абзацем". Далее этот текст делится на фразы. Фразы чаще всего соответствуют предложениям или части сложного предложения. Более сложная задача - членение фразы на синтагмы (если это необходимо, т.к. фраза может состоять только из одной синтагмы). Предложения в тексте могут быть очень длинными, обычно человек читает их не на одном дыхании, а разделяя на какие-то элементы по 3-4 слова, после которых допускается некоторая дыхательная пауза. После членения текста на синтагмы эти синтагмы должны быть промаркированы фразовыми ударениями. В зависимости от того, как разбить фразу на синтагмы, звучание текста может быть самым разным и даже вообще изменить смысл предложения. Поэтому во всех этих блоках желательно использовать всю информацию, весь арсенал лингвистики: лексику (словарь), морфологию, синтаксис и семантику.The main purpose of the phrasal processing block is its prosodic markup. First, the text is divided into phonetic periods, then into phrases, and finally into syntagmas. The phonetic period is the largest section of speech, which is uniformly decorated in terms of intonation and rhythm. Usually it corresponds to such a section of text, which is called a "paragraph" in spelling. Further this text is divided into phrases. Phrases most often correspond to sentences or parts of a complex sentence. A more difficult task is dividing the phrase into syntagmas (if necessary, because the phrase can consist of only one syntagma). Sentences in the text can be very long, usually a person reads them not in one breath, but dividing them into some 3-4 words each, after which some breathing pause is allowed. After dividing the text into syntagmas, these syntagmas should be marked with phrasal accents. Depending on how to break the phrase into syntagmas, the sound of the text can be very different and even change the meaning of the sentence. Therefore, in all of these blocks, it is desirable to use all the information, the entire arsenal of linguistics: vocabulary (dictionary), morphology, syntax and semantics.

На третьем этапе осуществляется обращение не ко всей фразе, а к каждому отдельному слову. Вначале осуществляется расстановка словесных ударений.At the third stage, the reference is made not to the whole phrase, but to each individual word. Initially, the arrangement of verbal stresses is carried out.

После того, как будут проставлены ударения в каждом слове текста, эти ударения нужно промаркировать. Маркировка ударений необходима потому, что, хотя большинство слов имеют полное (сильное) ударение, некоторые, например местоимения, - только частичное (слабое) ударение, некоторые слова, такие как предлоги и частицы, могут вообще не иметь ударений.After the stresses are put in each word of the text, these stresses must be marked. Marking of stresses is necessary because, although most words have full (strong) stress, some, for example, pronouns, only partial (weak) stress, some words, such as prepositions and particles, may not have stresses at all.

После маркировки ударений осуществляется процедура объединения слов в, так называемые, фонетические слова. Эта процедура заключается в объединении безударных слов со словами, у которых есть полное или частичное ударение, т.е. в объединении значащих слов со служебными: предлогами, частицами и союзами.After marking the stresses, the procedure of combining words into so-called phonetic words is carried out. This procedure consists in combining unstressed words with words that have full or partial stress, i.e. in the combination of meaningful words with official: prepositions, particles and unions.

Последний этап - это фонемное транскрибирование. Оно поддерживается своими правилами. Правила транскрибирования иначе называются правилами преобразования "буква - фонема". При оценке правил преобразования букв в звуки необходимо составить список слов, которые по этим правилам будут иметь неправильное произношение и должны быть представлены в виде словаря исключений. В словарь исключений вносятся и слова-термины. Имена собственные представляют особую проблему, поскольку их произношение часто определяется языком, лежащим в основе их правописания.The last stage is phonemic transcription. It is supported by its own rules. Transcription rules are otherwise referred to as letter-phoneme transformation rules. When evaluating the rules for converting letters to sounds, you need to make a list of words that, according to these rules, will have the wrong pronunciation and should be presented in the form of an exception dictionary. Terminology is also added to the exception dictionary. Proper names represent a particular problem because their pronunciation is often determined by the language underlying their spelling.

На выходе текстового процессора сформирована фонетическая запись транскрипции текста, которая далее оформляется наложением подходящего просодического контура для данного типа предложения на основании синтаксического анализа для разрешения некоторых фонетических неоднозначностей.At the output of the word processor, a phonetic record of the transcription of the text is formed, which is further formalized by overlaying a suitable prosodic contour for this type of sentence based on parsing to resolve some phonetic ambiguities.

Недостатком прототипа является то, что в результате для каждой синтагмы получается один вариант транскрипции (одно произнесение), а для всего предложения используется один вариант расстановки пауз, что сказывается на возможности качественного установления соответствия между транскрипционными символами и звуками, присутствующими в речевом сигнале, при реальном произнесении рассматриваемого фрагмента текста.The disadvantage of the prototype is that as a result, for each syntagma, one transcription option is obtained (one pronunciation), and for the whole sentence, one pause arrangement is used, which affects the possibility of a qualitative establishment of correspondence between transcription characters and sounds present in the speech signal, with real pronouncing the text fragment in question.

При дальнейшем использовании полученных идеальных транскрипций расхождение между реальным звуковым составом фрагмента звукозаписи речи и его идеальной транскрипцией сказывается на качестве распознавания и синтеза речи.With further use of the obtained ideal transcriptions, the discrepancy between the real sound composition of the speech recording fragment and its ideal transcription affects the quality of speech recognition and synthesis.

Технической задачей предлагаемого изобретения является устранение недостатков, присущих прототипу, путем введения вариативности в транскрипционное представление, за счет моделирования различных возможных (допустимых) вариантов произношения - транскрипционного моделирования.The technical task of the invention is to eliminate the disadvantages inherent in the prototype by introducing variability in the transcriptional representation, by modeling various possible (valid) pronunciation variants - transcriptional modeling.

Технический результат достигается тем, что в известный способ предварительной обработки текста, включающий приведение его в нормализованный орфографический текст путем преобразования сокращений и аббревиатур в линейный текст, преобразования формул в их орфографическое представление, членение текста на предложения и слова, маркировку фразовых и словесных ударений, объединение слов в синтагмы с последующим их транскрибированием - получением идеальных транскрипций, внесены дополнительные операции, а именно:The technical result is achieved by the fact that in a known method of preliminary processing of text, including bringing it into a normalized spelling text by converting abbreviations and abbreviations to linear text, converting formulas into their spelling representation, dividing text into sentences and words, marking phrasal and verbal stresses, combining words into syntagmas with their subsequent transcription - obtaining ideal transcriptions, additional operations have been introduced, namely:

- формируют правила транскрипционного моделирования;- form the rules of transcriptional modeling;

- применяют их к полученным идеальным транскрипциям для получения возможных вариантов транскрипций.- apply them to the resulting ideal transcriptions to obtain possible transcription variants.

Кроме того, длина синтагм может варьироваться от слова до предложения, а на границах слов могут проставляться символы пауз, с учетом которых формируют правила транскрипционного моделирования.In addition, the length of syntagms can vary from word to sentence, and pause characters can be affixed on the word boundaries, taking into account which form the rules of transcriptional modeling.

Необходимость транскрипционного моделирования объясняется тем, что произнесение слов и предложений обладает значительной вариативностью. Одно и то же слово, сказанное одним и тем же человеком, может состоять из разных наборов звуков, а в предложениях - паузы могут быть расставлены разным образом. Причины вариативности произнесения различны. Выделяют такие факторы, как стиль речи, степень формальности речи, наличие акцентов и диалектов, социально-экономические факторы, эмоциональное состояние, анатомические особенности диктора.The need for transcriptional modeling is explained by the fact that the pronunciation of words and sentences has significant variability. The same word spoken by the same person can consist of different sets of sounds, and in sentences - pauses can be arranged in different ways. The reasons for the variability of pronunciation are different. Factors such as style of speech, degree of formality of speech, presence of accents and dialects, socio-economic factors, emotional state, anatomical features of the speaker are distinguished.

Цель транскрипционного моделирования - сформировать максимально возможное количество вариантов произношения, для последующего выбора наиболее близкого к реально произнесенному диктором.The purpose of transcriptional modeling is to form the maximum possible number of pronunciation options, for the subsequent selection of the closest to the actual pronunciation of the speaker.

Транскрипционное моделирование основано на применении правил моделирования, список которых формируется как на основании знаний о допустимых отклонениях реального произношения от произносительной нормы, так и в результате сбора и обработки статистической информации. Такой двойной подход к формулированию правил позволяет строить транскрипции, наиболее близкие к произношениям, встречающимся в реальной жизни.Transcriptional modeling is based on the application of modeling rules, a list of which is formed both on the basis of knowledge about the permissible deviations of the real pronunciation from the pronunciation norm, and as a result of the collection and processing of statistical information. Such a double approach to the formulation of rules makes it possible to construct transcriptions that are closest to the pronunciations encountered in real life.

Все применяемые правила делятся на две больших группы: правила пропуска звуков, и правила замен звуков.All applicable rules are divided into two large groups: the rules for skipping sounds, and the rules for replacing sounds.

Правила пропуска звуков описывают ситуации, когда звук, который должен присутствовать при нормативном произнесении высказывания, не произносится. Правила замены звуков описывают ситуации, когда вместо звука, который должен быть произнесен при нормативном произнесении высказывания, произносится какой-то другой звук.The rules for skipping sounds describe situations where the sound that must be present during the normative utterance of a statement is not pronounced. The rules for replacing sounds describe situations where instead of the sound that should be uttered during the normative utterance of the utterance, some other sound is pronounced.

Можно определить правила вставки звуков, описывающие ситуации, в которых при произнесении высказывания в нем появляются дополнительные звуки, отсутствующие в нормативной реализации высказывания. Однако вставка звуков нехарактерна для русского языка, и правила вставки практически не используются.You can define the rules for inserting sounds that describe situations in which, when pronouncing a statement, additional sounds appear in it that are absent in the normative implementation of the statement. However, the insertion of sounds is uncharacteristic of the Russian language, and the rules of insertion are practically not used.

Для примера приведем несколько правил пропуска звуков (табл.1) и правил замен (табл.2). Приняты следующие обозначения: гласные: без цифр - ударные, 1 - безударные, @ - вторая степень редукции гласного «а».As an example, here are a few rules for skipping sounds (Table 1) and replacement rules (Table 2). The following notations are accepted: vowels: without numbers - drums, 1 - unstressed, @ - the second degree of reduction of the vowel "a".

Figure 00000001
Figure 00000001

Figure 00000002
Figure 00000002

Для моделирования различных способов паузации введена возможность варьирования длины синтагм на этапе обработке текста. Для этих же целей предусмотрена возможность маркировки границ слов, образующих синтагмы, символом паузы. Моделирование паузации позволяет значительно расширить количество вариантов реальных транскрипций. В этом случае требуется дополнение правил транскрипционного моделирования правилами, описывающими возможность различных вариантов расстановки пауз, и обработку сочетаний звуков на стыках слов.To simulate various pause methods, the possibility of varying the length of syntagms at the stage of text processing was introduced. For the same purposes, it is possible to mark the boundaries of words forming syntagmas with a pause symbol. Modeling pause can significantly expand the number of options for real transcriptions. In this case, it is necessary to supplement the rules of transcriptional modeling with rules that describe the possibility of various options for arranging pauses, and processing combinations of sounds at the junction of words.

Реализация предлагаемого способа обработки текстов и примеры его применения иллюстрируются следующими чертежами.The implementation of the proposed method of word processing and examples of its application are illustrated by the following drawings.

На фиг.1 приведена укрупненная блок-схема системы реализации предлагаемого способа. На фиг.2 приведен алгоритм работы блока транскрипционного моделирования. На фиг.3 приведен алгоритм применения правил при транскрипционном моделировании. На фиг.4 приведен алгоритм системы распознавания речи, использующей транскрипционное моделирование, а на фиг.5 - укрупненная блок-схема системы аннотирования речевой звуковой базы с применением транскрипционного моделирования. На фиг.6 показан алгоритм системы синтеза речи с применением транскрипционного моделирования. На фиг.7 приведен алгоритм поиска по звуковой базе, на фиг.8 приведены проценты распознавания речи с применением и без применения транскрипционного моделирования.Figure 1 shows an enlarged block diagram of a system for implementing the proposed method. Figure 2 shows the algorithm of the block transcriptional modeling. Figure 3 shows the algorithm for applying the rules in transcriptional modeling. Figure 4 shows the algorithm of a speech recognition system using transcriptional modeling, and figure 5 is an enlarged block diagram of a system for annotating a speech sound base using transcriptional modeling. Figure 6 shows the algorithm of a speech synthesis system using transcriptional modeling. Fig.7 shows the search algorithm for the sound base, Fig.8 shows the percentage of speech recognition with and without the use of transcriptional modeling.

Для лучшего понимания ниже приводим определение терминов, применяемых в описании изобретения.For a better understanding, the following is a definition of the terms used in the description of the invention.

База знаний - один или несколько специальным образом организованных файлов, хранящих систематизированную совокупность понятий, правил и фактов, относящихся к некоторой предметной области.A knowledge base is one or several specially organized files that store a systematic set of concepts, rules, and facts related to a certain subject area.

Основа слова - часть слова, выражающая его лексическое значение, при этом в склоняемых и спрягаемых словах имеются основа и окончание, а остальные слова содержат только основу.The basis of the word is the part of the word expressing its lexical meaning, while in the inflected and conjugated words there is a basis and an ending, and the rest of the words contain only the basis.

Поисковая система - система, выполняющая автоматический поиск информации по ключевым словам, темам и т.д.Search system - a system that automatically searches for information on keywords, topics, etc.

Словосочетание - это синтаксическая единица, образующаяся соединением двух или более слов на основе подчинительной связи - согласования, управления или примыкания - и тех лексико-грамматических отношений, которые порождаются этой связью.A phrase is a syntactic unit formed by combining two or more words on the basis of a subordinate connection - coordination, control or adjacency - and those lexical and grammatical relations that are generated by this connection.

Словоформа - данное слово в данной грамматической форме.Wordform - a given word in a given grammatical form.

Фонема - (от греч. phonema - звук) - это минимальная звуковая единица языка, линейно не членимая, служащая для образования звуковых оболочек значащих единиц и условно связанная со смыслом звукового строя языка, предельный элемент, выделяемый линейным членением речи.A phoneme - (from the Greek phonema - sound) is a minimal sound unit of a language that is not linearly divisible, used to form sound shells of significant units and conditionally associated with the meaning of the sound structure of the language, the ultimate element distinguished by linear division of speech.

Аллофон - (от греч. allos - иной, другой и phone - звук) - вариант, разновидность фонемы, обусловленная данным фонетическим окружением.Allophone - (from the Greek. Allos - different, different and phone - sound) - an option, a kind of phoneme, due to this phonetic environment.

Синтагма - (от греч. syntagma, буквально - «вместе построенное, соединенное») - фонетическое целое, выражающее единое смысловое целое в процессе речи-мысли. Минимальная единица при членении высказывания интонационными средствами. Может трактоваться как последовательность аллофонов от паузы до паузы.Syntagma - (from the Greek. Syntagma, literally - “together built, connected”) - a phonetic whole that expresses a single semantic whole in the process of speech and thought. The minimum unit when dividing the statement by intonational means. It can be interpreted as a sequence of allophones from pause to pause.

Транскрипция (слово «транскрипция» буквально значит "переписывание", от лат. trans- "через, пере-" + scribo "черчу, пишу") - особый вид записи речи, который используется для фиксации на письме особенностей ее звучания. Транскрипция описывает реальную или потенциальную возможную звуковую реализацию текста в терминах фонем и аллофонов. Существуют два основных вида транскрипции - фонематическая и фонетическая; первая отражает фонемный состав слова или последовательности слов, вторая - особенности реализации фонем в разных условиях.Transcription (the word "transcription" literally means "rewriting", from Latin trans- "through, re-" + scribo "I draw, I write") is a special type of speech recording that is used to fix the features of its sound on a letter. The transcription describes the real or potential possible sound realization of the text in terms of phonemes and allophones. There are two main types of transcription - phonemic and phonetic; the first reflects the phonemic composition of a word or a sequence of words, the second - features of the implementation of phonemes in different conditions.

Транскрипционный символ - знак или последовательность знаков, обозначающих фонему, аллофон или паузу в транскрипции синтагм.A transcriptional symbol is a sign or sequence of characters denoting a phoneme, allophone, or a pause in transcription of syntagm.

Транскрибирование - преобразование текстовой записи речи (например, последовательность слов, образующих синтагму) в последовательность транскрипционных символов (транскрипцию).Transcription is the transformation of a textual record of speech (for example, a sequence of words forming a syntagma) into a sequence of transcriptional characters (transcription).

Идеальная (каноническая) транскрипция - фонетическая транскрипция, соответствующая произносительной норме языка.An ideal (canonical) transcription is a phonetic transcription corresponding to the pronunciation norm of the language.

Интонационный тип - это тип соотношения тона, тембра, интенсивности и длительности звучащей речи, способный противопоставить несовместимые в одном контексте смысловые различия высказываний с одинаковым синтаксическим строением и лексическим составом или высказываний с разным синтаксическим строением, но одинаковым звуковым составом словоформ.The intonation type is a type of correlation of tone, timbre, intensity and duration of the sounding speech, capable of contrasting semantic differences of sentences with the same syntactic structure and lexical composition, or sentences with different syntactic structure, but the same sound composition of word forms, incompatible in one context.

На фиг.1 показано, что реализация способа предварительной обработки текста осуществляется блоками: 1.1 - текстовый процессор; 1.2 - транскриптор и 1.3 - модуль транскрипционного моделирования.Figure 1 shows that the implementation of the method of preliminary processing of the text is carried out in blocks: 1.1 - a word processor; 1.2 is a transcriptor; and 1.3 is a transcriptional modeling module.

Исходный текст поступает в текстовой процессор (блок 1.1), в котором происходит предварительная обработка исходного текста, включающая известные операции:The source text enters the word processor (block 1.1), in which the preliminary processing of the source text, including the known operations, takes place:

- приведение его в нормализованный орфографический текст путем преобразования сокращений и аббревиатур в линейный текст;- bringing it into a normalized spelling text by converting abbreviations and abbreviations to linear text;

- преобразования формул в их орфографическое представление;- transforming formulas into their spelling representation;

- членение текста на предложения и слова;- dividing the text into sentences and words;

- маркировку фразовых и словесных ударений;- marking of phrasal and verbal stresses;

- объединение слов в синтагмы.- combining words into syntagmas.

Каждая синтагма поступает на вход транскриптора (1.2), переводящего текст из орфографической формы записи в фонетическую транскрипцию, а также формирующего ее просодический образ.Each syntagma is fed to the input of the transcriptor (1.2), which translates the text from the spelling form of the recording into phonetic transcription, as well as forming its prosodic image.

Дополнительно в транскрипторе может быть предусмотрен режим «микропауз», при котором каждое слово, входящее в синтагму, обрабатывается отдельно, как если бы оно было окружено паузами, а в транскрипцию включается дополнительный символ микропаузы. Режим «микропауз» позволяет расширить возможности транскрипционного моделирования.Additionally, the micropause mode can be provided in the transcriptor, in which each word entering the syntagma is processed separately, as if it were surrounded by pauses, and an additional micropause symbol is included in the transcription. The micropause mode allows you to expand the capabilities of transcriptional modeling.

Процесс транскрипционного моделирования реализуется в блоке 1.3, который осуществляется по заданным правилам моделирования. В результате для каждой идеальной транскрипции формируется список реально возможных транскрипций.The transcriptional modeling process is implemented in block 1.3, which is carried out according to the specified modeling rules. As a result, for each ideal transcription, a list of really possible transcriptions is formed.

Алгоритм работы блока транскрипционного моделирования приведен на фиг.2. Отдельные операции алгоритма реализуются следующими модулями: 2.1 - загрузки правил транскрипционного моделирования; 2.2 - формирования текущего списка транскрипций; 2.3 - счетчик применяемых правил; 2.4 - проверки обязательности правила; 2.5 - формирования копии текущего списка транскрипций; 2.6 - применения правила к копии списка транскрипций; 2.7 - объединения списков (текущего и копии) транскрипций; 2.8 - применения правила к текущему списку транскрипций; 2.9 - поиска и исключения повторных транскрипций из списка; 2.10 - перевода транскрипций в текстовый формат.The algorithm of the block transcriptional modeling is shown in figure 2. Separate operations of the algorithm are implemented by the following modules: 2.1 - loading transcriptional modeling rules; 2.2 - formation of the current transcription list; 2.3 - counter applicable rules; 2.4 - validation of the rule; 2.5 - forming a copy of the current transcription list; 2.6 - applying the rule to a copy of the transcription list; 2.7 - combining lists (current and copy) of transcriptions; 2.8 - applying the rule to the current transcription list; 2.9 - search and exclusion of repeated transcriptions from the list; 2.10 - translation of transcriptions into text format.

Работа алгоритма транскрипционного моделирования осуществляется следующим образом. Правила моделирования задаются в виде текстового файла, который считывается в память и переводится во внутреннее представление (модуль 2.1). В общем случае каждое правило определяет транскрипционный символ, для которого оно применяется («центральный звук»), а также последовательность транскрипционных символов слева и справа от него. Также правило определяет новую последовательность, заменяющую исходную, смещение этой новой последовательности относительно центрального звука в исходной транскрипции и признак «обязательности» правила.The operation of the transcriptional modeling algorithm is as follows. The modeling rules are set in the form of a text file, which is read into memory and translated into the internal representation (module 2.1). In the general case, each rule defines a transcription symbol for which it is applied (“central sound”), as well as a sequence of transcription symbols to the left and to the right of it. The rule also defines a new sequence that replaces the original, the offset of this new sequence relative to the central sound in the original transcription, and the sign of the “binding” rule.

Последовательность применения правил задается либо специальным списком правил, либо порядком их объявления в файле правил.The sequence of application of the rules is specified either by a special list of rules or by the order of their declaration in the rules file.

Алгоритм транскрипционного моделирования применяется к каждой идеальной транскрипции, сформированной транскриптором. Идеальная транскрипция добавляется в текущий список транскрипций (модуль 2.2), после чего к текущему списку транскрипций по очереди применяются правила моделирования. За один шаг применяется одно правило моделирования. Модуль 2.3 обеспечивает выбор применяемого правила моделирования из списка и выполняет проверку: все ли правила моделирования были применены. Если правило моделирования обязательное (модуль 2.4), то оно применяется непосредственно к текущему списку транскрипций (модуль 2.8), если нет - то создается копия текущего списка транскрипций (модуль 2.5). В этом случае правило применяется к копии списка транскрипций (модуль 2.6), после чего результирующий список транскрипций добавляется к текущему списку (модуль 2.7). По мере применения правил список транскрипций увеличивается, и каждое следующее правило работает с обновленным текущим списком транскрипций.The transcriptional modeling algorithm is applied to each ideal transcription generated by the transcriptor. The ideal transcription is added to the current transcription list (module 2.2), after which the modeling rules are applied to the current transcription list in turn. In one step, one modeling rule is applied. Module 2.3 provides a selection of the applied modeling rule from the list and checks whether all modeling rules have been applied. If the modeling rule is mandatory (module 2.4), then it is applied directly to the current transcription list (module 2.8), if not, then a copy of the current transcription list is created (module 2.5). In this case, the rule is applied to the copy of the transcription list (module 2.6), after which the resulting transcription list is added to the current list (module 2.7). As the rules apply, the transcription list grows, and each subsequent rule works with the updated current transcription list.

Алгоритм применения правила к каждой транскрипции списка (к копии списка модуль 2.6 и к текущему списку модуль 2.8) показан на фиг.3. На фиг.3 приведены следующие модули, осуществляющие отдельные операции: 3.1 построения карты модификаций; 3.2 проверки наличия модификаций; 3.3 проверки обязательности применяемого правила; 3.4 обхода карты модификаций и применения правила к транскрипции; 3.5 формирования рабочего списка транскрипций; 3.6 организации циклов обхода карты модификаций и рабочего списка транскрипций; 3.7 применения правила к транскрипциям списка.The algorithm for applying the rule to each transcription of the list (to the copy of the list module 2.6 and to the current list module 2.8) is shown in Fig. 3. Figure 3 shows the following modules that perform individual operations: 3.1 constructing a map of modifications; 3.2 checks for modifications; 3.3 verification of the binding nature of the applicable rule; 3.4 bypassing the map of modifications and applying the rule to transcription; 3.5 formation of a transcription worklist; 3.6 organization of cycles of bypassing the map of modifications and the working list of transcriptions; 3.7 applying the rule to list transcriptions.

Алгоритм осуществляется в следующей последовательности.The algorithm is carried out in the following sequence.

На вход модуля 3.1 поступает транскрипция и правило транскрипционного моделирования. В модуле 3.1 строится карта применимости правила к транскрипции и подсчитывается количество возможных модификаций. Для этого каждый символ транскрипции сравнивается с центральным звуком правила. Если они совпадают, то выполняется сравнение контекстов. Если и контексты совпадают, то в карте применимости делается соответствующая отметка и увеличивается счетчик модификаций. Карта применимости - это массив флагов. Длина массива равна длине транскрипции. Каждый флаг соответствует траснкрипционному символу транскрипции. Если правило применимо к транскрипционному символу в данной позиции, то флаг установлен, если нет - флаг не установлен.At the input of module 3.1, transcription and the transcriptional modeling rule are received. In module 3.1, a map of the applicability of the rule to transcription is built and the number of possible modifications is calculated. For this, each transcription symbol is compared with the central sound of the rule. If they match, then context comparisons are performed. If the contexts coincide, then the corresponding mark is made in the applicability map and the counter of modifications is increased. An applicability map is an array of flags. The length of the array is equal to the length of the transcription. Each flag corresponds to a transcriptional transcription symbol. If the rule is applicable to the transcriptional character at this position, then the flag is set; if not, the flag is not set.

Если счетчик модификаций равен нулю (модуль 3.2), то работа алгоритма завершается и возвращает пустой список модифицированных транскрипций (выход, переход к фиг.2).If the counter of modifications is equal to zero (module 3.2), then the operation of the algorithm is completed and returns an empty list of modified transcriptions (exit, go to figure 2).

Если правило модификации является обязательным (модуль 3.3), то оно применяется ко всем транскрипционным символам, подлежащим модификации, согласно карте применимости (модуль 3.4), после чего возвращается единственная модифицированная транскрипция (выход, переход к фиг.2).If the modification rule is mandatory (module 3.3), then it applies to all transcriptional characters to be modified according to the applicability map (module 3.4), after which the only modified transcription is returned (exit, go to figure 2).

В модуле 3.5 формируется рабочий список транскрипций, содержащий исходную транскрипцию, в количестве, равном 2 в степени счетчик модификаций.In module 3.5, a working transcription list is generated containing the initial transcription in an amount equal to 2 to the power of the modification counter.

Далее организуются циклы обхода карты модификаций (просмотра установленных флагов) и рабочего списка транскрипций (модуль 3.6), и производятся изменения транскрипций рабочего списка (модуль 3.7). Когда внесены все изменения во все транскрипции (проверяются условия завершения циклов в модуле 3.6), осуществляется возврат рабочего списка транскрипций (выход, переход к фиг.2).Next, cycles of bypassing the modifications map (viewing the set flags) and the transcription worklist (module 3.6) are organized, and the transcriptions of the worklist are transformed (module 3.7). When all changes are made to all transcriptions (the conditions for completing cycles in module 3.6 are checked), the working list of transcriptions is returned (exit, go to figure 2).

После того, как применены все правила, из сформированного списка транскрипций исключаются все повторные транскрипции (модуль 2.9). Полученный список транскрипций и является результатом моделирования. Для удобства он может быть преобразован в текстовый вид и сохранен в файл (модуль 2.10).After all the rules have been applied, all repeated transcriptions are excluded from the generated transcription list (module 2.9). The resulting list of transcriptions is the result of modeling. For convenience, it can be converted into a text view and saved to a file (module 2.10).

Если идеальные транскрипции были сформированы в режиме микропауз, то при транскрипционном моделировании есть возможность описать несколько вариантов паузации. Для моделирования паузации требуется подготовить дополнительный комплект правил, обрабатывающий различные варианты расстановки пауз и изменение звуков на стыках слов.If ideal transcriptions were formed in the micropause mode, then with transcriptional modeling it is possible to describe several options for pausing. To simulate a pause, you need to prepare an additional set of rules that processes various options for arranging pauses and changing sounds at the junction of words.

В результате транскрипционного моделирования каждой синтагме будет сопоставлена не одна идеальная транскрипция, а целый список реально возможных транскрипций. Транскрипционное моделирование позволяет выбирать транскрипцию из списка, наиболее соответствующую звуковому сигналу, в то время как в известных решениях отсутствует сама возможность выбора.As a result of transcriptional modeling, not one ideal transcription will be compared to each syntagma, but a whole list of really possible transcriptions. Transcriptional modeling allows you to select the transcription from the list that is most appropriate for the audio signal, while the known solutions lack the very possibility of choice.

Ниже приводятся примеры применения транскрипционного моделирования, которые наиболее очевидны. Это распознавание речи, аннотирование речевых баз данных и синтез речи.The following are examples of the applications of transcriptional modeling that are most obvious. This is speech recognition, annotation of speech databases and speech synthesis.

Пример 1. Распознавание речиExample 1. Speech Recognition

Алгоритм работы системы распознавания речи (фиг.4) состоит из следующих блоков: обработки грамматики 4.1; текстового процессора 4.2; транскрипционного моделирования 4.3; формирования моделей высказываний 4.4; блока распознавания 4.5.The algorithm of the speech recognition system (figure 4) consists of the following blocks: processing grammar 4.1; word processor 4.2; transcriptional modeling 4.3; formation of patterns of statements 4.4; recognition block 4.5.

Входными данными системы распознавания речи являются: распознаваемая грамматика, база моделей звуков, распознаваемый звуковой сигнал и правила транскрипционного моделирования, которые поступают в соответствующие блоки.The input data of a speech recognition system are: a recognizable grammar, a base of sound models, a recognizable sound signal, and transcriptional modeling rules that enter the corresponding blocks.

Распознаваемая грамматика представляет собой список слов и список связей между ними. В простейшем случае грамматика представляет собой список отдельных команд. Система распознавания строит список всех возможных высказываний (блок 4.1), соответствующих этой грамматике. Для каждого высказывания с помощью текстового процессора, работа которого была описана (блок 4.2), порождается идеальная транскрипция.A recognized grammar is a list of words and a list of relationships between them. In the simplest case, a grammar is a list of individual commands. The recognition system builds a list of all possible statements (block 4.1) corresponding to this grammar. For each utterance using a word processor, the operation of which was described (block 4.2), ideal transcription is generated.

Затем в соответствии с алгоритмом транскрипционного моделирования (блок 4.3) из идеальных транскрипций (полученных ранее) для каждого высказывания формируется множество возможных вариантов транскрипций. Дополнительно транскрипции могут ранжироваться по степени их отклонения от идеального (или нормативного) варианта, чтобы в дальнейшем учитывать еще и вероятности появления каждой транскрипции.Then, in accordance with the transcriptional modeling algorithm (block 4.3), from the ideal transcriptions (obtained earlier) for each statement, a set of possible transcription options is formed. Additionally, transcriptions can be ranked by the degree of their deviation from the ideal (or normative) option, in order to further take into account the likelihood of each transcription.

Для каждой транскрипции из базы моделей звуков выбираются необходимые модели, и строится цепочка моделей звуков, образующая модель высказывания (блок 4.4). В результате для каждого возможного высказывания строится несколько моделей, соответствующих различным возможным способам его произнесения.For each transcription, the necessary models are selected from the database of sound models, and a chain of sound models is constructed that forms the utterance model (block 4.4). As a result, for each possible utterance, several models are constructed corresponding to various possible ways of pronouncing it.

Далее начинается собственно процесс распознавания (блок 4.5). Звуковой поток разделяется на фреймы, преобразуется в наборы параметров и сравнивается с моделями высказываний. Высказывание, модель которого оказывается наиболее похожей на распознаваемый звук, принимается за результат распознавания.Next, the recognition process itself begins (block 4.5). The sound stream is divided into frames, converted into sets of parameters and compared with utterance models. A statement whose model is most similar to a recognizable sound is taken as a recognition result.

Алгоритм транскрипционного моделирования, включенный в систему распознавания русской речи Vocative Russian ASR Engine (разработанной при участии авторов предлагаемого изобретения), позволяет повысить процент правильного распознавания высказываний.The transcriptional modeling algorithm included in the Russian speech recognition system Vocative Russian ASR Engine (developed with the participation of the authors of the present invention) allows to increase the percentage of correct speech recognition.

На диаграмме (фиг.8) представлены проценты правильного распознавания, полученные с применением (штрихованные колонки) и без применения (серые колонки) транскрипционного моделирования для ряда стандартных тестовых грамматик. Видно, что применение транскрипционного моделирования позволяет повысить процент правильно распознанных высказываний.The diagram (Fig. 8) shows the percent of correct recognition obtained using (dashed columns) and without using (gray columns) transcriptional modeling for a number of standard test grammars. It can be seen that the use of transcriptional modeling allows to increase the percentage of correctly recognized statements.

Пример 2. Аннотирование речевых баз данныхExample 2. Annotating voice databases

Одним из возможных применений транскрипционного моделирования является его использование в составе системы аннотирования речевой звуковой базы.One of the possible applications of transcriptional modeling is its use as part of a speech sound base annotation system.

Речевой корпус включает десятки (и даже сотни) часов записей диктора (или нескольких дикторов), поэтому аннотирование такой речевой звуковой базы занимает человекогоды и стоит очень дорого.The speech corpus includes dozens (and even hundreds) of hours of speaker recordings (or several speakers), therefore annotating such a speech sound base takes man-years and is very expensive.

Автоматизация процесса аннотирования речевых корпусов с применением транскрипционного моделирования позволяет значительно удешевить и ускорить процесс, за счет значительного сокращения доли ручного труда.Automation of the process of annotating speech bodies using transcriptional modeling allows you to significantly reduce the cost and speed up the process, due to a significant reduction in the share of manual labor.

На фиг.5 приведена блок-схема автоматизированной системы аннотирования речевой звуковой базы. Она включает: блок 5.1 предварительной обработки звукозаписей; текстовый процессор 5.2; блок 5.3 обучения моделей звуков; блок транскрипционного моделирования 5.4; систему распознавания речи 5.5; блок 5.6 коррекции меток; блок 5.7 формирования подробной аннотации и блок 5.8 автоматической проверки и коррекции аннотации.Figure 5 shows a block diagram of an automated system for annotating a speech sound base. It includes: block 5.1 preliminary processing of sound recordings; word processor 5.2; block 5.3 training models of sounds; block transcriptional modeling 5.4; speech recognition system 5.5; block correction labels; block 5.7 generating detailed annotations; and block 5.8 for automatically checking and correcting annotations.

В основе системы аннотирования лежат три основных компонента: система распознавания речи, текстовый процессор и система моделирования транскрипций. Применение транскрипционного моделирования определяется необходимостью построения и выбора транскрипции, наилучшим образом соответствующей звукозаписи речевого сигнала. Обработка речевого корпуса производится в несколько этапов. На вход блока 5.1 поступает звукозапись и тексты записанных фраз.The annotation system is based on three main components: a speech recognition system, a word processor, and a transcription modeling system. The use of transcriptional modeling is determined by the need to build and select the transcription that best suits the sound recording of the speech signal. The speech corpus is processed in several stages. At the input of block 5.1, sound recording and texts of recorded phrases are received.

На первом этапе (подготовительном) звукозапись разделяется на фразы. Каждая фраза записывается в отдельный звуковой файл с уникальным именем и передается на вход блока обучения моделей звуков (блок 5.3). В блоке 5.1 также формируется текстовый файл, в котором устанавливается соответствие между именами звуковых файлов и текстами фраз. Он поступает в текстовый процессор 5.2.At the first stage (preparatory), the sound recording is divided into phrases. Each phrase is recorded in a separate sound file with a unique name and transmitted to the input of the training block for sound models (block 5.3). In block 5.1, a text file is also formed in which a correspondence is established between the names of sound files and the texts of phrases. It enters the word processor 5.2.

На втором этапе с помощью текстового процессора формируются идеальные транскрипции записанных фраз; транскрипция каждой фразы сохраняется в отдельном файле, с названием, соответствующим названию звукового файла. Параллельно формируются предварительные модели звуков, используемые системой распознавания речи.At the second stage, using a word processor, ideal transcriptions of recorded phrases are formed; the transcription of each phrase is stored in a separate file, with a name corresponding to the name of the sound file. At the same time, preliminary sound models are used, which are used by the speech recognition system.

На третьем этапе на основе звуковых данных и идеальных транскрипций производится предварительное обучение системы распознавания речи (блок 5.3).At the third stage, on the basis of sound data and ideal transcriptions, preliminary training of the speech recognition system is carried out (block 5.3).

На четвертом этапе запускается алгоритм транскрипционного моделирования, который для каждой идеальной транскрипции формирует множество «реально-возможных» транскрипций (блок 5.4). Транскрипционное моделирование осуществляется по предлагаемому изобретению.At the fourth stage, the transcriptional modeling algorithm is launched, which for each ideal transcription generates many “really possible” transcriptions (block 5.4). Transcriptional modeling is carried out according to the invention.

Далее выполняется пятый, циклический этап, который осуществляется системой распознавания речи (блок 5.5) и включает в себя ряд пунктов, а именно:Next, the fifth, cyclic stage is carried out, which is carried out by the speech recognition system (block 5.5) and includes a number of points, namely:

1) выполняется распознавание каждого звукового файла в терминах реально-возможных транскрипций; для каждого звукового файла определяются наиболее вероятные реально-возможные транскрипции;1) recognition of each sound file in terms of realistically possible transcriptions is performed; for each sound file, the most probable real-possible transcriptions are determined;

2) для полученных результатов распознавания определяются границы отдельных звуков;2) for the obtained recognition results, the boundaries of individual sounds are determined;

3) модели звуков переобучаются на основе звуковых данных, и транскрипций, признанных наиболее вероятными в результате распознавания;3) sound models are retrained based on sound data and transcriptions recognized as the most likely as a result of recognition;

4) если это первый проход, то выполнение продолжается от пункта 1;4) if this is the first pass, then the execution continues from paragraph 1;

5) полученная разметка на звуки сравнивается с разметкой, полученной на предыдущем проходе, если разметка изменилась (критерий совпадения меток - является параметром модуля сравнения), то выполнение продолжается от пункта 1; если нет - считается, что достигнуто оптимальное разделение на звуки.5) the received markup for sounds is compared with the markup obtained in the previous pass, if the markup has changed (the criterion for matching marks is a parameter of the comparison module), then execution continues from point 1; if not, it is considered that the optimum separation of sounds is achieved.

Обычно требуется от трех до пяти проходов для достижения оптимальной разметки.Typically, three to five passes are required to achieve optimal marking.

На шестом этапе (блок 5.6) выполняется коррекция границ звуков, заключающаяся в переносе меток на начала периодов основного тона для вокализованных звуков, а также в уточнении границ между звонкими и глухими звуками. Коррекция необходима, т.к. система распознавания речи формирует границы с точностью до шага смещения окна.At the sixth stage (block 5.6), the correction of the boundaries of sounds is performed, which consists in transferring labels to the beginning of the periods of the fundamental tone for voiced sounds, as well as in clarifying the boundaries between voiced and deaf sounds. Correction is necessary because the speech recognition system forms boundaries with an accuracy of the window displacement step.

На последнем (седьмом) этапе формируется подробная аннотация звуковой базы, содержащая не только информацию о разбиении на аллофоны, но и информацию об интонационных контурах (блок 5.7).At the last (seventh) stage, a detailed annotation of the sound base is formed, containing not only information about splitting into allophones, but also information about the intonation contours (block 5.7).

При необходимости может быть выполнена дополнительная внутриаллофонная разметка на периоды основного тона, глухие смычки, и т.п., однако, для многих задач синтеза по базе слитной речи, или обучения систем распознавания речи, это излишне.If necessary, additional intraallophone marking can be performed for periods of the fundamental tone, dull bows, etc., however, for many synthesis tasks based on continuous speech, or training speech recognition systems, this is unnecessary.

Дополнительно, на последнем этапе, может быть выполнена ручная проверка и коррекция автоматического разбиения на звуки (блок 5.8).Additionally, at the last stage, manual verification and correction of automatic splitting into sounds can be performed (block 5.8).

Пример 3. Синтез речиExample 3. The synthesis of speech

Блок-схема для реализации синтеза речи приведена на фиг.6 и содержит следующие блоки: 6.1 - текстовый процессор; 6.2 - транскрипционного моделирования; 6.3 - поиска по базе для каждой фразы (предложения); 6.4 - выбора наиболее близкой транскрипции; 6.5 - выбора из базы фрагментов звукового сигнала; 6.6 - склейки звуковых фрагментов.The block diagram for the implementation of speech synthesis is shown in Fig.6 and contains the following blocks: 6.1 - a word processor; 6.2 - transcriptional modeling; 6.3 - database search for each phrase (sentence); 6.4 - selection of the closest transcription; 6.5 - selection from the database of fragments of an audio signal; 6.6 - gluing sound fragments.

На вход системы синтеза речи (на текстовый процессор - в блок 6.1) подается синтезируемый текст, а на входы блоков 6.3 и 6.5 - размеченная специальным образом звуковая база.The synthesized text is fed to the input of the speech synthesis system (to the word processor - to block 6.1), and the sound base marked out in a special way is fed to the inputs of blocks 6.3 and 6.5.

В текстовом процессоре осуществляется предварительная обработка текста и на выходе формируются идеальные транскрипции фраз текста и их интонационные типы. Далее, к полученным идеальным транскрипциям применяется транскрипционное моделирование (блок 6.2), осуществляемое согласно описанию предлагаемого изобретения.In the word processor, preliminary processing of the text is carried out and at the output ideal transcriptions of the text phrases and their intonation types are formed. Further, transcriptional modeling (block 6.2) is applied to the obtained ideal transcriptions, carried out according to the description of the invention.

Сформированный в результате транскрипционного моделирования список реальных транскрипций поступает в блок 6.3 - поиск по базе для каждой фразы.The list of real transcriptions generated as a result of transcriptional modeling goes to block 6.3 — a search in the database for each phrase.

При работе с базой слитной речи основная интеллектуальная нагрузка ложится на алгоритмы поиска и выбора из базы оптимальных фрагментов сигнала. При этом также используется транскрипционное моделирование. Рассмотрим подробнее, как и по каким критериям выполняется выбор звуковых фрагментов из базы.When working with the base of continuous speech, the main intellectual burden rests with the search algorithms and the selection of the optimal signal fragments from the database. It also uses transcriptional modeling. Let us consider in more detail how and by what criteria the selection of sound fragments from the database is performed.

1. К полученным на выходе текстового процессора идеальным транскрипциям применяется алгоритм транскрипционного моделирования, в результате чего строится список реальных транскрипций (как описано в предлагаемом изобретении).1. The transcriptional modeling algorithm is applied to the ideal transcriptions obtained at the output of the word processor, as a result of which a list of real transcriptions is constructed (as described in the present invention).

2. Для каждой транскрипции определяется коэффициент похожести на идеальную транскрипцию. Чем больше отличий, тем похожесть ниже.2. For each transcription, the coefficient of similarity to ideal transcription is determined. The more differences, the similarity is lower.

3. Для каждой транскрипции выполняется поиск по базе (блок 6.3), алгоритм которого показан на фиг.7. В результате определяется количество разрывов транскрипции и их качество. Качество разрывов определяется звуками, на которых происходит разрыв. Самое низкое качество у разрыва между гласными, самое высокое (единичное) - на паузе и стыках глухих согласных.3. For each transcription, a database search is performed (block 6.3), the algorithm of which is shown in Fig. 7. As a result, the number of transcription breaks and their quality are determined. The quality of the breaks is determined by the sounds at which the break occurs. The lowest quality is the gap between the vowels, the highest (single) - at the pause and joints of the deaf consonants.

4. Похожести транскрипций умножаются на качество разрывов.4. The similarities of transcriptions are multiplied by the quality of the breaks.

5. Выбирается транскрипция с самой высокой степенью похожести, для которой и формируется результирующий звуковой сигнал (блок 6.4).5. The transcription with the highest degree of similarity is selected, for which the resulting sound signal is generated (block 6.4).

6. Если в результате поиска оказывается, что похожести всех транскрипций равны нулю, то строится список транскрипций с минимальным количеством нулевых разрывов.6. If as a result of the search it turns out that the similarities of all transcriptions are equal to zero, then a list of transcriptions with a minimum number of zero gaps is built.

7. Выбирается транскрипция, наиболее похожая на идеальную транскрипцию по коэффициенту похожести, полученному на шаге 2.7. The transcription is selected that is most similar to the ideal transcription according to the similarity coefficient obtained in step 2.

При поиске по базе из просодических характеристик учитываются только инотационные типы (ИТ). Алгоритм поиска приведен на фиг.7.When searching the database from prosodic characteristics, only inotation types (IT) are taken into account. The search algorithm is shown in Fig.7.

На фиг.7 показаны модули, реализующие поиск транскрипции по базе: 7.1 - формирования списка цепочек с заданным ИТ; 7.2 - поиск наибольшего вхождения транскрипции в список; 7.3 - проверки нахождения вхождений для всех частей транскрипции; 7.4 - фиксации разрыва, и его типа; 7.5 - проверки возможности продолжения поиска и 7.6 - смещения указателя начала транскрипции.Figure 7 shows the modules that implement the search for transcription in the database: 7.1 - forming a list of chains with a given IT; 7.2 - search for the largest occurrence of transcription in the list; 7.3 - checking for occurrences for all parts of the transcription; 7.4 - fixation of the gap, and its type; 7.5 - checking the possibility of continuing the search and 7.6 - shifting the pointer to the beginning of transcription.

На вход алгоритма поступает транскрипция и ее интонационный тип. Реализация алгоритма осуществляется следующим образом.The transcription and its intonation type are input to the algorithm. The implementation of the algorithm is as follows.

1. Создается список всех элементов базы, имеющих искомый ИТ (блок 7.1).1. A list of all elements of the database that have the required IT is created (block 7.1).

2. Для каждой транскрипции ищется максимальное вхождение звуков от начала цепочки и от начал элементов списка (блок 7.2). Если найдено полное вхождение транскрипции (блок 7.3), то для нее поиск заканчивается.2. For each transcription, the maximum occurrence of sounds from the beginning of the chain and from the beginning of the list items is searched (block 7.2). If a complete occurrence of transcription is found (block 7.3), then the search ends for it.

3. Если транскрипция найдена частично, то фиксируется разрыв (блок 7.4), и поиск продолжается от точки разрыва, но уже без привязки к началам элементов списка.3. If the transcription is partially found, then the gap is fixed (block 7.4), and the search continues from the break point, but without reference to the beginning of the list items.

4. Пункт 3 повторяется до тех пор, пока не найдены все фрагменты транскрипции или не окажется так, что какой-то фрагмент транскрипции не может быть найден в списке (блок 7.5).4. Point 3 is repeated until all fragments of transcription are found or it turns out that some fragment of transcription cannot be found in the list (block 7.5).

5. Если в транскрипции существует фрагмент, отсутствующий в базе, осуществляется пропуск звука, и фиксируется разрыв с нулевым качеством (блок 7.6), после чего поиск продолжается с пункта 3.5. If there is a fragment in the transcription that is not in the database, sound is skipped and a gap with zero quality is recorded (block 7.6), after which the search continues from point 3.

При поиске по базе дополнительно может задаваться ограничение на качество разрывов, однако это может иногда приводить к тому, что ни для одной транскрипции не будет найдено ни одного вхождения. В этом случае следует повторить процедуру поиска с отмененными ограничениями на типы разрывов.When searching the database, an additional restriction can be set on the quality of the breaks, however, this can sometimes lead to the fact that no occurrences will be found for any transcription. In this case, the search procedure should be repeated with the restrictions on the types of gaps removed.

Особенность формирования речевого потока с использованием звуковой базы слитной речи состоит в минимизации изменений фрагментов сигнала, выбираемых из базы. В идеале модификация не требуется вовсе, однако на практике требуется обработка стыков фрагментов, для обеспечения гладкости стыковки.A feature of the formation of the speech stream using the sound base of continuous speech is to minimize changes in signal fragments selected from the base. Ideally, modification is not required at all, however, in practice, processing of the joints of fragments is required to ensure smoothness of the joint.

Простейшим алгоритмом, обеспечивающим такую гладкость, является «морф» стыков, заключающийся в построении плавного перехода от одного фрагмента к другому. Переходный участок строится как сумма отсчетов конца первого сигнала, убывающая по линейному закону, и начала отсчетов второго сигнала, возрастающих по обратному линейному закону. Морф стыков выполняется только при стыковке вокализованных фрагментов сигнала, а длина переходного участка равна средней длине периода основного тона.The simplest algorithm providing such smoothness is the “morph” of joints, which consists in building a smooth transition from one fragment to another. The transition section is constructed as the sum of samples of the end of the first signal, decreasing according to the linear law, and the beginning of samples of the second signal, increasing according to the inverse linear law. The morph of the joints is performed only when the voiced signal fragments are joined, and the length of the transition section is equal to the average length of the period of the fundamental tone.

Использование базы слитной речи позволяет формировать речевой поток с качеством, значительно превышающим качество речевого потока, формируемого на основе аллофонных баз.Using a continuous speech database allows you to create a speech stream with a quality significantly higher than the quality of the speech stream formed on the basis of allophone bases.

Как видно из примеров применения транскрипционного моделирования, оно значительно сокращает трудоемкость поиска в речевых звуковых базах и повышает качество распознавания и синтеза речи. В настоящее время способ предварительной обработки текста разработан для систем распознавания речи и аннотирования звуковых речевых баз, причем проведенные испытания показали целесообразность применения предлагаемого способа.As can be seen from the examples of the application of transcriptional modeling, it significantly reduces the complexity of the search in speech sound databases and improves the quality of speech recognition and synthesis. Currently, the text preprocessing method is developed for speech recognition systems and annotating sound speech bases, and the tests performed have shown the feasibility of using the proposed method.

Возможности его применения значительно шире и предлагаемое изобретение будет постепенно внедряться в другие области его возможного применения.The possibilities of its application are much wider and the invention will be gradually introduced into other areas of its possible application.

Claims (4)

1. Способ предварительной обработки текста посредством текстового процессора, включающий приведение его в нормализованный орфографический текст путем преобразования сокращений и аббревиатур в линейный текст, преобразования формул в их орфографическое представление, членение текста на предложения и слова, маркировку фразовых и словесных ударений, объединение слов в синтагмы с простановкой символов пауз в конце синтагм с последующим транскрибированием синтагм - получением идеальных транскрипций, отличающийся тем, что к полученным идеальным транскрипциям последовательно применяют правила транскрипционного моделирования, в результате чего получают дополнительные варианты транскрипций, к которым также применяют правила транскрипционного моделирования, из общего списка исходных и полученных дополнительных вариантов транскрипций исключают одинаковые транскрипции и сохраняют оставшиеся в списке транскрипции для дальнейшего использования.1. A method of preprocessing text using a word processor, including bringing it into normalized spelling text by converting abbreviations and abbreviations to linear text, converting formulas into their spelling representation, dividing text into sentences and words, marking phrasal and verbal stresses, combining words into syntagmas with the insertion of pause symbols at the end of the syntagm followed by transcription of the syntagm — obtaining ideal transcriptions, characterized in that For transcripts, the rules of transcriptional modeling are sequentially applied, as a result of which additional transcription variants are obtained, which also apply the rules of transcriptional modeling, the same transcriptions are excluded from the general list of source and received additional transcription variants and saved in the transcription list for future use. 2. Способ по п.1, отличающийся тем, что правила транскрипционного моделирования формируют с учетом правил пропуска и замены символов, отображающих соответствующие звуки, вставки и смещения новой последовательности относительного центрального звука.2. The method according to claim 1, characterized in that the rules of transcriptional modeling are formed taking into account the rules for skipping and replacing characters that display the corresponding sounds, inserts and offsets of a new sequence of relative central sound. 3. Способ по п.1, отличающийся тем, что длина синтагм в словах может варьироваться от одного слова до нескольких слов, составляющих предложение.3. The method according to claim 1, characterized in that the length of the syntagm in words can vary from one word to several words making up the sentence. 4. Способ по п.1, отличающийся тем, что если на границах слов, входящих в синтагмы, проставлены символы пауз, они учитываются при формировании правил транскрипционного моделирования. 4. The method according to claim 1, characterized in that if pause symbols are affixed to the boundaries of the words included in the syntagms, they are taken into account when forming the rules of transcriptional modeling.
RU2007143417/09A 2007-11-22 2007-11-22 Method for preliminary processing of text RU2386178C2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2007143417/09A RU2386178C2 (en) 2007-11-22 2007-11-22 Method for preliminary processing of text

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2007143417/09A RU2386178C2 (en) 2007-11-22 2007-11-22 Method for preliminary processing of text

Publications (2)

Publication Number Publication Date
RU2007143417A RU2007143417A (en) 2009-06-10
RU2386178C2 true RU2386178C2 (en) 2010-04-10

Family

ID=41023974

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2007143417/09A RU2386178C2 (en) 2007-11-22 2007-11-22 Method for preliminary processing of text

Country Status (1)

Country Link
RU (1) RU2386178C2 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2460154C1 (en) * 2011-06-15 2012-08-27 Александр Юрьевич Бредихин Method for automated text processing computer device realising said method
EA023695B1 (en) * 2012-07-16 2016-07-29 Ооо "Центр Речевых Технологий" Method for recognition of speech messages and device for carrying out the method
RU2632424C2 (en) * 2015-09-29 2017-10-04 Общество С Ограниченной Ответственностью "Яндекс" Method and server for speech synthesis in text
RU2769427C1 (en) * 2021-04-05 2022-03-31 Анатолий Владимирович Буров Method for automated analysis of text and selection of relevant recommendations to improve readability thereof

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Волошин В.Г и др. Проблемы предварительной обработки орфографического текста для синтеза украинской речи. Труды Международного семинара Диалог 2001 по компьютерной лингвистике и ее приложениям. 2001. *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2460154C1 (en) * 2011-06-15 2012-08-27 Александр Юрьевич Бредихин Method for automated text processing computer device realising said method
WO2012173516A1 (en) * 2011-06-15 2012-12-20 Bredikhin Aleksandr Yurevich Method and computer device for the automated processing of text
EA023695B1 (en) * 2012-07-16 2016-07-29 Ооо "Центр Речевых Технологий" Method for recognition of speech messages and device for carrying out the method
RU2632424C2 (en) * 2015-09-29 2017-10-04 Общество С Ограниченной Ответственностью "Яндекс" Method and server for speech synthesis in text
US9916825B2 (en) 2015-09-29 2018-03-13 Yandex Europe Ag Method and system for text-to-speech synthesis
RU2769427C1 (en) * 2021-04-05 2022-03-31 Анатолий Владимирович Буров Method for automated analysis of text and selection of relevant recommendations to improve readability thereof

Also Published As

Publication number Publication date
RU2007143417A (en) 2009-06-10

Similar Documents

Publication Publication Date Title
El-Imam Phonetization of Arabic: rules and algorithms
US6029132A (en) Method for letter-to-sound in text-to-speech synthesis
Auran et al. The Aix-MARSEC project: an evolutive database of spoken British English
Abate et al. An Amharic speech corpus for large vocabulary continuous speech recognition.
Halabi Modern standard Arabic phonetics for speech synthesis
Dutoit A short introduction to text-to-speech synthesis
Alsharhan et al. Evaluating the effect of using different transcription schemes in building a speech recognition system for Arabic
Lee Speech translation
RU2386178C2 (en) Method for preliminary processing of text
Ronzhin et al. Survey of russian speech recognition systems
Bailly et al. Advocating for text input in multi-speaker text-to-speech systems
AbuZeina et al. Cross-word modeling for Arabic speech recognition
Bonafonte et al. The UPC TTS system description for the 2008 blizzard challenge
Ekpenyong et al. Towards an unrestricted domain TTS system for African tone languages
IMRAN ADMAS UNIVERSITY SCHOOL OF POST GRADUATE STUDIES DEPARTMENT OF COMPUTER SCIENCE
Mihkla et al. Development of a unit selection TTS system for Estonian
JPH03245192A (en) Method for determining pronunciation of foreign language word
Kato et al. Multilingualization of speech processing
Winarti et al. Enhancing Indonesian Speech Synthesis: Embracing Naturalness and Expressiveness with Hidden Markov Models
Kaur et al. BUILDING AText-TO-SPEECH SYSTEM FOR PUNJABI LANGUAGE
Szymański et al. First evaluation of Polish LVCSR acoustic models obtained from the JURISDIC database
ラジコヲスキカツペル パエル A study on speech recognition and correction for non-native English speakers
Donnelly Concatenative Phonetic Synthesis for the Proto-Indo-European Language
FalDessai Development of a Text to Speech System for Devanagari Konkani
Dobrovolskyi et al. An approach to synthesis of a phonetically representative english text of minimal length

Legal Events

Date Code Title Description
MM4A The patent is invalid due to non-payment of fees

Effective date: 20111123

NF4A Reinstatement of patent

Effective date: 20140120

PC41 Official registration of the transfer of exclusive right

Effective date: 20140404

MM4A The patent is invalid due to non-payment of fees

Effective date: 20141123