TW202016767A

TW202016767A - 應用於智慧行動裝置的四縣腔客語輸入系統及建立方法

Info

Publication number: TW202016767A
Application number: TW107136284A
Authority: TW
Inventors: 黃豐隆
Original assignee: 國立聯合大學
Priority date: 2018-10-16
Filing date: 2018-10-16
Publication date: 2020-05-01

Abstract

一種應用於智慧行動裝置的四縣腔客語輸入系統及建立方法，透過使用26個羅馬拼音建立應用於智慧行動裝置中的四縣腔客語輸入系統，能夠打出其意的客語字、詞彙及句子，使用者可藉由輸入羅馬拼音轉換客語應用於日常，達到保存客家傳統及文化的功效。

Description

應用於智慧行動裝置的四縣腔客語輸入系統及建立方法

本創作為一種客語輸入系統及建立方法，尤指一種應用於智慧行動裝置的四縣腔客語輸入系統及建立方法。

由於科技蓬勃發展，個人電腦及智慧型手機越來越普及化，使用中文當作母語的我們，在系統內都會使用輸入法來當中文的輸入工具，目前手機內已建置各式各樣語言的輸入法軟體，例如：中文、台語、韓語及英文等；客語為台灣客家族群的母語，主要來源於中國大陸的粵東，因客家人口分布不同地區，而形成多種客語腔調，在台灣以五種所使用的腔調為主，分別為：四縣腔、海陸腔、大埔腔、饒平腔及詔安腔，客家族群為台灣第二大族群，約有四百二十萬人，由於社會環境變遷因數，讓客語傳承面臨著主要挑戰乃是客語能力不佳，導致客家文化不斷流失。

目前在個人電腦平台上，已經有教育部及客委會提供的客語拼音輸入法，例如：信望愛客語輸入法、教育部台灣客家語拼音輸入法及客語無聲調拼音輸入法，然而目前尚未有任何客語輸入法應用於手機平台中，因此根據上述缺失，先前技術仍有改善空間。

本發明揭露一種建立應用於智慧行動裝置的四縣腔客語輸入系統之方法，包括： A.建置一四縣腔客語辭典資料結構產品：蒐集複數客語文章以斷字及斷詞方式收集複數單字及複數詞彙，將上述單字及上述詞彙藉由輸入法框架(Input Method Framework,IMF)輸出上述單字及上述詞彙形成該四縣腔客語辭典資料結構產品，再藉由聚類分析(Cluster Analysis)將相似上述單字及各該詞彙的樣本聚集形成集群以達到分類目的；B.建構一四縣腔客語輸入程式模組：透過輸入法編輯器(Input Method Editor,IME)以26個羅馬拼音結合聲母、韻母及聲調建構該四縣腔客語輸入程式模組，該四縣腔客語輸入程式模組關聯該四縣腔客語辭典資料結構產品並形成一應用程式套件安裝於一智慧行動裝置內。

其中該四縣腔客語辭典資料結構產品內部更設有一單字拼音對照字庫、一前後詞對照詞庫及一縮寫詞拼音對照字庫，該單字拼音對照字庫、該前後詞對照詞庫及該縮寫詞拼音對照字庫均有四個欄位，分別為客語單字欄位、拼音欄位、字頻欄位及偏好欄位。

其中該四縣腔客語輸入程式模組更包括一無聲調輸入出模式、一使用者偏好輸入模式及一字詞首快速輸入模式。

其中所述聲調為六種聲調，分別為陰平、陽平、上聲、去聲、陰入及陽入。

本發明另提供一種應用於智慧行動裝置的四縣腔客語輸入系統，包括一四縣腔客語辭典資料結構產品及一四縣腔客語輸入程式模組；該四縣腔客語辭典資料結構產品包括內含一單字拼音對照字庫、一前後詞對照詞庫及一縮寫詞拼音對照字庫；該四縣腔客語輸入程式模組關聯該四縣腔客語辭典資料結構產品，並形成一應用程式套件安裝於一智慧行動裝置內。

本發明的優點如下：

1.四縣腔客語無聲調輸入出模式：讓使用者更快輸入及輸出四縣腔客語詞及客語文句。

2.使用者偏好輸入：目的讓使用者能依照自己偏好更快速將常用的字做輸出。

3.四縣腔客語詞字首快速輸入：藉由輸入縮寫詞的拼音對照字庫搜尋字母，快速得到該縮寫的客語詞，節省打字次數，提高文字輸入的較率。

10‧‧‧四縣腔客語辭典資料結構產品

101‧‧‧單字拼音對照字庫

102‧‧‧前後詞對照詞庫

103‧‧‧縮寫詞拼音對照字庫

20‧‧‧四縣腔客語輸入程式模組

201‧‧‧無聲調輸入出模式

202‧‧‧使用者偏好輸入模式

203‧‧‧字詞首快速輸入模式

40‧‧‧應用程式套件

60‧‧‧智慧行動裝置

圖1為本發明之方塊流程示意圖

圖2為本發明之系統架構圖

具體的實施方式而言，本發明係採用四縣腔的拼音方案為基礎研發客語，客語的語音音節分為兩個部分：1.聲母和韻母、2.聲調，聲母是指音節的第一個輔音，如表一客家語音拼音方案的聲母符號表，韻母則可分為韻頭、韻腹及韻尾，如表二的客語韻母符號表(單母音)，在音節結構中，只有聲調和韻腹是不可或缺的要素，其它則可有可無。

表一註解：1. bb可用於雲林詔安腔、南投國姓鄉及部份南部客家地區；2. r為摩擦音，僅用於部份南四縣腔；3. j、q、x可用於四縣腔及南四縣腔；4. zh、ch、sh、rh(ㄓ、ㄔ、ㄕ、ㄖ)用於海陸、饒平、詔安等三口腔，zh、ch、sh、rh(ㄐ、ㄑ、ㄒ、ㄖ)用於大埔腔。

表二註解：1. i、u可用於韻頭、韻婦以及韻尾；2. ee、oo僅用於詔安腔；3. er用於部分海陸腔、饒平腔；4. -m、-n、-ng用於陽聲韻尾(鼻音韻尾)；-b、-d、-g用於入聲韻尾(塞音韻尾；5. nn一般使用於詔安腔，但其他腔調亦偶可見，如：歪uainn+(大埔)；6. 轉音m、n、ng可視為韻腹，自成音節。如：(四縣)魚ng^ˇ。

在台灣的漢語方言都是聲調的語言，相同的拼音配上不同的聲調，則產生出不同意義，在國語部分使用了五種聲調，而在客語的四縣腔則使用了六種聲調，分別：陰平、陽平、上聲、去聲、陰入及陽入等；表三為客語的四縣腔聲調表。

表三註解：1.原音調號為5，本案依照調型「`」，系統內改為「4」來表示；2.原音調號為2，本案依照調型，系統內皆改為「1」來表示。

四縣腔客語讀雙疊詞或雙音節時，會有連音變調的問題，即前詞變調、後詞本調，表四為四縣腔連音變調的三種規則。

參閱圖1~圖2，並根據上述四縣腔的客語拼音、聲調及變調規則，本發明揭露一種建立應用於智慧行動裝置的四縣腔客語輸入系統之方法，包括：A.建置一四縣腔客語辭典資料結構產品10：蒐集複數客語文章以斷字及斷詞方式收集複數單字及複數詞彙，將上述單字及上述詞彙藉由輸入法框架(Input Method Framework,IMF)輸出上述單字及上述詞彙形成該四縣腔客語辭典資料結構產品10，再藉由聚類分析(Cluster Analysis)將相似上述單字及上述詞彙的樣本聚集形成集群以達到分類目的，其中該四縣腔客語辭典資料結構產品10內部更設有一單字拼音對照字庫101、一前後詞對照詞庫102及一縮寫詞拼音對照字庫103，其中該單字拼音對照字庫101、該前後詞對照詞庫102及該縮寫詞拼音對照字庫103均有四個欄位，分別為客語單字欄位、拼音欄位、字頻欄位及偏好欄位；B.建構一四縣腔客語輸入程式模組20：透過輸入法編輯器(Input Method Editor,IME)以26個羅馬拼音結合聲母、韻母及聲調建構該四縣腔客語輸入程式模組20，該四縣腔客語輸入程式模組20關聯該四縣腔客語辭典資料結構產品10並形成一應用程式套件40安裝於一智慧行動裝置60內，並於該智慧行動裝置60的軟件庫(SQLite)中以資料表的方式呈現，其中該四縣腔客語輸入程式模組20更包括一無聲調輸入出模式201、一使用者偏好輸入模式202及一字詞首快速輸入模式203。

步驟B中所述之資料表以下舉例所示：該單字拼音對照字庫101的資料表如表五所示，含有9361個字數，包含了Val、Key、Cnt、Pref四個欄位，分別代表了客語單字(Val)、拼音(Key)、字頻(Cnt)、偏好(Pref)，根據使用者輸入查詢此資料表，藉由輸入的客語拼音，查詢資料表拼音(Key)的欄位，列出所有可能的字詞，並依照字頻和使用者偏好輸入計算優先權重，然後按照優先權重進行排序；在字頻(Cnt)是將所有蒐集的文章以字為單位，進行斷詞所統計出的數量；在偏好(Pref)則是記錄使用者習慣輸出的字詞；該前後詞對照詞庫102資料表，如表六所示，有32453個詞彙數，則包含了Uniq、Prev、Next、Cnt及Pref五個欄位，分別代表了客語詞彙(Uniq)、上一個詞(Prev)、下一個詞(Next)、次數總和(Cnt)及偏好(Pref)，使用者在輸入字詞時，會依照上一個詞(prev)的欄位在資料庫內做搜尋，並預測出下一個詞(next)出現的最高機率做排序提供使用者輸出，並訓練出二元語法(bi-gram)；然而次數總和(cnt)是藉由客家委員會蒐集來的客語詞，以詞為單位在大量文章以進行斷詞，所統計出在文章內該詞會出現的次數；在偏好(pref)是紀錄使用者所使用該詞彙的頻率，並將常使用的詞依照優先權重進行排序，並提供使用者更快的輸出。

表五、該單字拼音對照字庫101

參閱表七，於該縮寫詞拼音對照字庫103搜尋字母，快速得到該縮寫的客語詞，節省打字次數。此功能引用該縮寫詞對照字庫103，在資料表包含了詞彙(val)、字首縮寫拼音(key)、拼音(pinyin)、詞頻(part)及偏好(pref)等五個欄位，輸入法將輸入的縮寫字母在詞庫內以key欄位作為搜尋條件，並將搜尋到的結果會產生候選字及候選詞彙，提供使用者選擇並輸出。

參閱圖1，本發明另揭露一種應用於智慧行動裝置的四縣腔客語輸入系統，包括一四縣腔客語辭典資料結構產品10及一四縣腔客語輸入程式模組20；該四縣腔客語辭典資料結構產品10包括內含一單字拼音對照字庫101、一前後詞對照詞庫102及一縮寫詞拼音對照字庫103；該四縣腔客語輸入程式模組20關聯該四縣腔客語辭典資料結構產品10，並形成一應用程式套件40安裝於一智慧行動裝置60內。

101‧‧‧單字拼音對照字庫

102‧‧‧前後詞對照詞庫

103‧‧‧縮寫詞拼音對照字庫

20‧‧‧四縣腔客語輸入程式模組

Claims

一種建立應用於智慧行動裝置的四縣腔客語輸入系統之方法，包括：A.建置一四縣腔客語辭典資料結構產品：蒐集複數客語文章以斷字及斷詞方式收集複數單字及複數詞彙，將上述單字及上述詞彙藉由輸入法框架(Input Method Framework,IMF)輸出上述單字及上述詞彙形成該四縣腔客語辭典資料結構產品，再藉由聚類分析(Cluster Analysis)將相似上述單字及上述詞彙的樣本聚集形成集群以達到分類目的；B.建構一四縣腔客語輸入程式模組：透過輸入法編輯器(Input Method Editor,IME)以26個羅馬拼音結合聲母、韻母及聲調建構該四縣腔客語輸入程式模組，該四縣腔客語輸入程式模組關聯該四縣腔客語辭典資料結構產品並形成一應用程式套件安裝於一智慧行動裝置內。
如申請專利範圍第1項所述之建立應用於智慧行動裝置的四縣腔客語輸入系統之方法，其中該四縣腔客語辭典資料結構產品內部設有一單字拼音對照字庫、一前後詞對照詞庫及一縮寫詞拼音對照字庫。
如申請專利範圍第2項所述之建立應用於智慧行動裝置的四縣腔客語輸入系統之方法，其中該單字拼音對照字庫、該前後詞對照詞庫及該縮寫詞拼音對照字庫均有四個欄位，分別為客語單字欄位、拼音欄位、字頻欄位及偏好欄位。
如申請專利範圍第1項所述之建立應用於智慧行動裝置的四縣腔客語輸入系統之方法，其中該四縣腔客語輸入程式模組更包括一無聲調輸入出模式、一使用者偏好輸入模式及一字詞首快速輸入模式。
一種應用於智慧行動裝置的四縣腔客語輸入系統，包括：一四縣腔客語辭典資料結構產品及一四縣腔客語輸入程式模組；該四縣腔客語辭典資料結構產品包括內含一單字拼音對照字庫、一前後詞對照詞庫及一縮寫詞拼音對照字庫；該四縣腔客語輸入程式模組關聯該四縣腔客語辭典資料結構產品，並形成一應用程式套件安裝於一智慧行動裝置內。