TWI376681B

TWI376681B - Speech understanding system for semantic object synchronous understanding implemented with speech application language tags, and computer readable medium for recording related instructions thereon

Info

Publication number: TWI376681B
Application number: TW093114299A
Authority: TW
Inventors: Kuansan Wang
Original assignee: Microsoft Corp
Priority date: 2003-05-29
Filing date: 2004-05-20
Publication date: 2012-11-11
Also published as: US20040243393A1; JP2004355630A; CN100578614C; CA2467220C; RU2349969C2; MY142974A; KR20040103445A; ZA200403492B; EP1482481A1; BRPI0401850A; HK1071466A1; BRPI0401850B1; JP4768970B2; ATE398325T1; EP1482481B1; US7200559B2; EP1970897A1; TW200515369A; KR101042119B1; RU2004116304A

Description

Γ376681 九、發明說明：【發明所屬之技術領域】本發明與在一個電腦系統中資訊的存取及截取相關。本發明尤指使用識別和理解的資訊存取有關。【先前技術】最近，進步的技術已經允許使用者藉由提供語音命令在一電腦系統存取資訊。當接收使用者命令時，電腦系統執行對使用者輸入的語音識別，並進一步處理該輸入以確定使用者的意圖，以使電腦系統執行一所欲行動。在一些情況下，由使用者提供的輸入是不完全的或不確定的，其將需要電腦系統自使用者請求進一步的資訊，不論是以視覺的或聽覺的提示形式。因此能夠在使用者和電腦系統之間建立對話，其中每一回合提供問題、答案和/ 或確認，直到使用者的意圖確定並且能夠執行一行動為止。在其他情況下，產生此類對話是用於與電腦系統相互作用的較佳模式。語音應用語言標記（SALT)已經被導入以對現代使用者介面設計，以協助作為一可實行的輸入/輸出形態的語音。SALT的設計目標係為了使一般語音任務易於程式化，亦允許可直接理解的進一步能力。SALT係為許多應用設計。例如，其一為電話基礎的，僅藉由語音對話與使用者互動的純語音應用。 SALT包括語音輸入和輸出的物件（”聽"和”提示"），其 5 1376681 具有一模式設計為整合技術以偵測使用者回合的開始和結束。同樣地，許多語音應用程式所使用的使用者介面要求使用者發出信號以表示使用者回合的開始。一些電腦系統包括可穿戴電腦（wearable computers)、語音可用形態或多形態的（語音輸入，被提供以用於由一例如滑鼠的輸入裝置所選擇的攔位）裝置和其他無需眼睛的應用程式。然而，在每一種此類環境中，仍呈現使用者與電腦系統回合的簡潔定義。然而在參與者之間的人類談話通常不是簡潔的、回合制的對話。而是談話能夠包括一參與者的確認、證明、提問，等等，而其他人所提供的資訊可能大大地影響、輕微地影響或甚至於影響講話者提供資訊的模式。人類講話者使用談話的自然形式。同樣地，電話系統使用全雙工技術允許這樣的談話發生。相對地，對話基礎的介面在一使用者和一電腦系統之間使用一種嚴格回合制的模式操作，其使電腦系統在處理和採取後續行動之前，等待使用者對話的結束。雖然簡單回饋（例如，像是在一個電腦螢幕前進的一連串小點之視覺指示）可能提供這個使用者電腦系統至少在處理某事的某種保證，但是直到該使用者完成他/她的回合及電腦系統回應時，才知道電腦系統所理解的程度。因此，需要改進基於識別及理解的一電腦系統。此類改進提供一種易於由使用者利用更自然方式存取資訊的系統或方法" 6 Γ376681 【發明内容】一種提供一語音輸入模式之方法和系統，其當音訊標題仍在處理時，能動態報告部分語意分析。能以立即回報使用者的一種結果評價語意分析。所得之效果是傳統上由系統回合執行之任務，現在由使用者回合執行，因而出現一種與語音對話之回合制屬性相差極大的差異。通常，本發明的一種態樣包括一電腦實作方法，用以與一電腦系統互動。該方法包括從使用者處接收輸入，以及截取用於處理的輪入。而後在其後或同時在輸入上執行識別，以確定語意資訊屬於輸入和輸出這個語意物件的一第一部分。語意物件包括欲由電腦應用處理的格式之資料，該電腦應用係依據所識別的輸入（例如，文字、加密文字、壓縮文字、等等），以及第一部分的語意資訊。如上所述，當繼續載取該輸入之後的部分時，執行識別並輸出語意物件。能夠用例如語音的聽覺輸入以及非聽覺的輸入執行這個方法，例如，視覺輸入或手寫識別。上述方法能夠以含有可由電腦裝置讀取指令之一電腦可讀媒體實作，當實作時，使該電腦裝置控制資訊和執行該方法。在一進一步的實施例中，該電腦可讀媒體能夠包括指令，其用以建立一語言模型以執行識別和理解。該語言模型係依據識別的輸入以一種格式提供資料，以及提供接收的輸入之語意資訊。 7 1376681 【實施方式】第1圖是一個資料表示系統1 0的方塊圖，用以依音輸入呈現資料。系統10包括一個語音介面模組12 語音識別和理解模組1 4和一資料呈現模組1 6。一使以聲音查詢形式對語音介面模組1 2提供輸入。語音介組12從一使用者搜集語音資訊和提供指示它的信號。由語音介面模組1 2收集到輸入語音以後，語音識別和的模組1 4使用一語音識別器識別該語音，以及亦執行理解，其中，當仍在截取音訊語音輸入時，在本發明態樣中，提供目前為止接收的輸入的部分語意分析。部分語意分析典型上包括所接收的輸入文字（或指示輸入文宇的資料），也確定了語意資訊，該部分語析被提供至能夠採取許多不同形式之一應用模組16 如，在一個實施例中，應用模組 16可以是個人資訊器，用以寄送、接收和回覆電子郵件、安排會議等等照該方法，該使用者能夠提供聽覺命令以執行這些任更重要的是，雖然應用模組1 6能夠提供互動式回饋3 在接收到部分語意分析資訊時，對其採取行動，從而該使用者應用模組1 6的一高度互動式介面。例如，在聲音操作模式中，輸出2 0能夠包含回到使用者的聽述，然而，當然有可能執行其他與該應用有關的任務使用該部分語.意分析或語意物件，以執行應用中的對輯。例如，對話邏輯可以依據一或更多語意物件，顯選擇（或多數的或一個清單的選擇）給使用者。據聲、 —^ 用者面模在已理解語音之一其他意分。例管理。依務。 W或提供一純覺陳 o "vj* 話邏示一 8 Γ376681 如此允許系統1 〇基於部分表達，亦即在使用者回束以前，立即表示報告結果。換句話說，藉由使用用告和執行通常與系統回合相關之任務的回送通道之溝一使用者和一系統回合的定義是模糊的。最傳統的對究，尤其基於人類對人類的對話，經常視回送通道溝非侵入式的回饋，其僅傳送例如確定、否定、或中立的簡單信號。然而，由輸出20提供的回饋有可能可以更多的資訊，以致於對正在進行的使用者談話造成一入，其可能或可能不造成該使用者清楚表達該使用者圖或方向。然而，該方法在使用者和系統1 0之間提供實的人類對話，在許多種情況下並不會讓人覺得厭煩讓使用者更舒適，並逐漸確定將能達成使用者的願望關於這點，應該注意的是本發明並不侷限於一個音操作環境，而能夠基於部分語意分析或物件的處理含回饋至使用者的其他形式。例如，在上述應用中， 1 6執行電子郵件任務，輸出2 0能夠包含視覺回饋，例在來自使用者包含"send e-mail to Bob”的一連續指令啟動僅基於如"send e-mail"的接收片語之一電子郵組，其中，處理"to Bob”的片語可能使該應用模組在貯存18中存取更進一步的資訊，並取得名字為”Bob" 名清單。據以檢查該清單，使用者只要確認所欲接 "Bob Green"就可以將其選取，因為系統為部分表示 Green"提供了另一個語意物件，其當由應用接收和時，將導致"Bob Green"被選取。合結以報通，話研通為確認搭載點侵的意更真，且〇純聲，包模組如，中，件模資料的人收者 "Bob 處理 9 1376681 如上所述，應用模組16可以採用本發明下述有利之許多種形式，而不受到侷限，應用模組1 6 提供使用者的語音輸入的原文輸出的一個口述：而，藉由處理部分輸入或輸入的片語之語意輸入得更精確的轉譯。雖然上文中就含有聲音命令之來自使用者論，也能夠把本發明的許多態樣應用於例如手寫手勢或視覺指示之其他輸入形式。因為賦予了處理部分語意分析或物件的廣泛通常描述能夠在上述系統1 0中作用的計算裝置用的。那些熟知該項技藝者應了解，系統1 0的元在一單一電腦之内，或分佈在使用網路連結和通一個分散式計算環境。現下參考第2圖，在元件3 0說明例如一個資置之一行動裝置的一例示性形式（PIM、PDA或类然而，本發明亦思及能夠使用下文中討論的其他實施。例如，電話和/或資料管理裝置也可受益於相較於習知之可攜式個人資訊管理裝置及其他可裝置，此類裝置具有較佳的功能。第2圖說明了一資料管理行動裝置30的例开該行動裝置30包括一外罩32並具有包括一顯示I 使用者介面，其與一個尖筆33共同作用，使用一示幕。該尖筆33係用於以指定的方向按壓或接 3 4以選擇欄位、以選擇性地使移動一游標的一態樣可能也可能是模組。然，能夠獲的輸入而、ETMF、適用性，也許是有件可能位訊協定的料管理裝頁似者）。計算裝置本發明。攜式電子 :性形式， i 34 的一觸控式顯觸顯示器個開始位 10 ^/0081 np 2相反地藉由例如手勢或手寫提供命令資訊。選地裝置30上包括一或更多按鈕35，用以瀏覽。此也能夠提供例如旋輪、捲軸或類似者之的其他輸入機應該/主忍的疋本發明並不揭限於輸入機制的這式。例如，輸入的另一個形式能夠包括藉由例如電腦的視覺輸入》現下參考第3圖，一方塊圖說明包括行動裝置3〇能性元件。一中央處理單元（cpu)5〇實作軟體控制功 CPU 50與顯示器34連接，以使依據控制軟體產生的與圖像出現在顯示器34。一擴音器43能夠以數位至轉換器59連接至CPU 5〇,以提供一聽覺輸出。由使下載或輸入到行動裝置3〇裡的資料係儲存在一非揮讀取/寫入隨機存取記憶體貯存54，其雙向連接至 5〇。隨機存取記憶體（RAM) 54為由CPU 50執行的供揮發性貯存，及為暫時性資料（例如，登錄值）提供設定選擇的預設值及其他參數係儲存在一個唯讀 (r〇m)58中。也能夠用R〇M 58來儲存用於控制行 3 〇的基本功能和其他的作業系統核心功能（例如，體元件至RAM 54)之裝置作業系統軟體。 R A Μ 5 4也以翻々，μ丄 ^

乂於在用來儲存應用程式的PC 碟機的功能的模式，作為程式碼之儲存器。應該注意儘管使用非揮發性記憶儲存程式碼，其亦可選擇性在不用以執行該程式k揮發性記憶中。藉由與CPU 50連接之無線收發器52能夠由行擇性外，制。些形視訊的功能。文字類比用者發性 CPU 令提 !存。憶體裝置載軟之硬丨是，健存裝置 11 1376681 發送/接收無線信號。如果需要的話，亦可以提供一選擇性的溝通介面60，用以自一電腦（例如，桌上型電腦）或從連線的網路直接下載資料。因此，介面60能夠包括各種形式的溝通裝置，例如，紅外線連結、數據機、網路卡、或其他類似者。行動裝置30包括一話筒29、和類比至數位轉換器37, 及儲存在貯存54之一選擇性的識別程式（語音、DTMF、手寫、手勢或電腦視訊）。舉一示例，為回應來自裝置30之一使用者的聽覺資訊、指令或命令，話筒29提供語音信號，其係由A/D轉換器3 7數位化。語音識別程式能夠在數位化語音信號上執行正規化和/或特徵抽取功能，以獲得中間語音識別結果。使用無線收發器5 2或溝通介面6 0，語音資料能夠被傳遞至將在下文中討論並以第6圖的結構說明的一遠端識別伺服器204。而後回傳識別結果至行動裝置3 0，以在其上呈現（例如，視覺者和/或聽覺者），和最終傳輸至一網頁伺服器202(第6圖），其中以客戶端/伺服器關係操作該網頁伺服器202和行動的裝置3 0。能夠把類似處理用於其他形式的輸入。例如，手寫入輸入可以在裝置 30上以預先處理或不預先處理而數位化。如同語音資料，此類形式之輸入可以被傳輸至識別伺服器2 0 4，以用於識別，其中識別結果被回傳到裝置3 0和 /或網頁伺服器202之至少一者。同樣地，DTMF資料、手勢資料和視覺性資料能夠同樣地被處理。依據輸入的形式，裝置30(和將在下文中討論的其他客戶端形式）將包括 12 Γ376681 例如照相機的必要硬體作視覺輸入。第4圖是一個可攜式電話8 0之例示性實施例的平面視圖。該電話80包括一顯示器82和袖珍鍵盤84。通常，第 3圖的方塊圖適用於第4圖的電話，雖然可能需要執行其他功能所必需的附加電路系統。例如，第3圖的實施例需要一個作為電話所必需的收發器；然而，此類電路系統並不適用於本發明。除在上述的可攜式或行動計算裝置以外，亦應理解本發明能夠用於許多其他計算裝置，例如，一般桌上型電腦。例如，當其他傳統輸入裝置（例如，一個完全阿爾法數字的鍵盤）太難於操作時，本發明允許使用者以有限的實體能力輸入或鍵入文字到電腦裡。本發明亦可操作於各種其他一般目的或特別目的的計算系統、環境或設定。可能適於使用本發之習知的計算系統、環境、和/或設定之示例包含但不侷限於常規電話（沒有螢幕）、個人電腦、伺服器電腦、手持式或膝上式裝置、平板式電腦、多處理器系統、微處理器基礎的系統、機上盒、可程式消費性電子產品、包含任何上述系統或裝置之分散式計算環境，及其他類似者。下文中，在第5圖概述一般目的電腦120。然而，電腦1 20亦是一合適計算環境的示例並非就發明功能或使用範圍設下任何限制。該電腦120不該視為有任何相依或需要關聯於其中所述之元件的結合或任一者。可以使用由一電腦執行之電腦可執行指令（例如，程式 13 1376681 模組）的一般文字描述本發明》通常，程式模組包括常式、程式、物件、元件、資料結構、等等’其執行特定任務或實作特定抽象資料類型。本發明亦可實施於分散式計鼻環境，其中由遠端處理裝置執行任務，該遠端處理裝置係藉由溝通網路連接。在一分散式計算環境中’程式模組可能位於本地端和遠端的電腦儲存媒體中，其包括記憶儲存裝置。由程式執行的任務和模組係以圖示之輔助描述於下文中。那些熟知該項技藝者能夠實作該敘述及圖示為處理器可執行指令，其無夠以任何形式寫入一電腦可讀媒體。參考第5圖，電腦120的元件可能包括，但不偈限於一處理單元1 4 0、〆系統記憶體1 5 0及一系統匯流排1 4 1，其耦接各種系統元件包括系統記憶體至處理單元1 40 °系統匯流排1 4 1可以是任何若干種類的匯流排結構’包括一記憶體匯流排或記憶體管理器、一週邊匯流排、和使用許多匯流排結構的任一者之一本地匯流排。舉一示例而非限制，此類結構包括工業標準結構（IS A)匯流排、通用序列匯流排（USB)、微通道結構（MCA)匯流排、加強ISA(EISA)匯流排、視訊電子標準協會（VESA)本地端匯流排、及也稱作多層構架（Mezzanine)匯流排之週邊元件連接（PCI)匯流排。電腦1 20通常包括許多電腦可讀媒體。電腦可讀媒體可能是任何可用的媒體，其可由電腦丨2〇存取並且包括揮發性和非揮發性媒體’和可移除式和不可移除式媒體。舉一示例而非限制，電腦可讀媒體可能包括電腦儲存媒體和溝通媒體。電腦儲存媒體包括揮發性和非揮發性可移除 14 υ-/0()81 式和不可移除式媒體，其以任彳任竹方法或技術實作，用於資訊之貯存，例如電腦可讀指合 M7 、身料結構、程式模組或其他的資料。電腦儲存媒體包括作 υ促1-不侷限於RAM、ROM、 EEPROM、快閃記憶體或其他印格 ^ 把·疋憶體技術、CD-ROM、數位影音光碟（DVD)或其他的光磾儲 70 ’保存器、磁卡式盒、磁帶、磁碟儲存或其他的磁性儲存步番 I®•’或能夠用來儲存所欲資訊以及能夠被電腦120存取之杯和1_甘l 疋任何其他媒體。溝通媒體通常使用電腦可讀# „ %卿J项才曰令、資料結構、程式模組或在一調制資料信號中的立 J '、他的資料，例如，一載波或其他的傳輸機制，以及包括任佃咨仕何資訊傳遞媒體。術語「調制資料信號」意指具有一戎P^ ,次更多它的特徵，其以設定或改變之方式將訊息編譯於信號中。叛 _ r 舉一不例而非限制，溝通媒體包括有線媒體（例如’有蝮姻致十古k 另深洞路或直接連線連結）以及無線媒體（例如，聲音、FR、紅外線及其他無線媒體）。上述任何者之結合亦應包含在電腦可讀媒體的範圍之内。系統記憶體150包括揮發性和/或非揮發性的記憶體形式之電腦健存媒冑’例如’唯讀記憶（R0M)151和隨機存取記憶（RAM)152。一個基本輸入/輸出系統 153(BI〇S)(含有幫助在電腦元件之間傳送資訊的基本常式，例如在起動階段）通常係儲存在r〇m 151。ram ι52 通常含有可立即存取和/或可由處理單元14〇立即操作的資料和/或私式模組。舉一示例而非限制，第5圖說明作業系統154、應用程式155、其他程式模組156、和程式資料 157 〇 15 1376681 電腦120也可能包括其他可移除/不可移除的揮發性/ 非揮發性電腦儲存媒體。僅為示例，第5圖說明一硬碟機 161，其讀取自或寫入不可移除的、非揮發性磁性媒體中；一磁碟機 171，其讀取自或寫入一可移除、非揮發性磁碟 172;和一光碟機175，其讀取自或寫入一可移除的、非揮發性光碟176，例如，一 CD ROM或其他的光學媒體。其他的可移除/不可移除、揮發性/非揮發性電腦儲存媒體（其可用於示例性的操作環境，但無限制）包含卡帶卡式盒、快閃記憶卡、數位影音光碟、數位視訊帶、固態RAM、固態 ROM等等。硬碟機161通常藉由不可移除的記憶體介面（例如，介面1 60)連接到系統匯流排1 4 1，而磁碟機1 7 1和光碟機1 75通常藉由可移除記憶體介面（例如介面1 70)連接到系統匯流排1 4 1上。上文所討論的並以第5圖說明的相關的電腦儲存媒體為電腦1 2 0提供電腦可讀指令、資料結構、程式模組的其他的資料的儲存。在第5圖，例如，圖示硬碟機161儲存作業系統1 64、應用程式1 65、其他程式模組1 66、和程式資料 1 6 7。特別說明的是，這些元件可能相同或不同於作業系統154、應用程式155、其他程式模組156、和程式資料1 5 7。作業系統1 6 4、應用程式1 6 5、其他程式模組1 6 6、和程式資料1 6 7在這裡被給定不同的號碼，以至少說明它們是不同的。一使用者可能藉由例如鍵盤1 8 2、話筒1 8 3及指向裝置181(如滑鼠，軌跡球或觸控盤）的輸入裝置輸入命令和 16 Γ376681 資訊到電腦120裡。其他輸入裝置（未見於圖示）可能包括操縱桿、遊戲墊、衛星碟、掃描器、或其他類似者。這些和其他的輸入裝置經常藉由使用者輸入介面180連接至處理單元1 4 0，又使用者輸入介面1 8 0係連接至系統匯流排但是可能由其他介面和匯流排結構連接，例如，平行埠、遊戲埠或一通用序列匯流排（USB )。一監視器1 84或其他類型的顯示裝置亦藉由一介面（例如，一視訊介面 185)連接至系統匯流排 1 41。除監視器以外，電腦也可能包括例如擴音器187和印表機186的其他週邊輸出裝置，其可能藉由一輸出週邊介面188連接。電腦120可能在使用邏輯連結連接至一或更多遠端電腦之網路環境中操作，例如遠端電腦 1 94。遠端電腦1 94 可以是個人電腦、手持裝置、伺服器、路由器、網路電腦、一點裝置或其他普通的網路節點，和通常包括上述與個人電腦120相關之許多或所有元件。第5圖圖示的邏輯連接包括區域網路（LAN) 191 和廣域網路（WAN) 193，但是也可能包括其他網路。此類網路環境常見於辦公室、企業級電腦網路、内部網路及網際網路。當用於一 LAN網路裱境時，電腦1 20係藉由一個網路介面或接合器190連接至LAN191 。當用於一個WAN網路環境時，電腦 120通常包括數據機 192或其他用以在 WAN193上建立溝通的工具，如網際網路。數據機192(可以是内部或外部的）可能藉由使用者輸入介面180或其他適當機制連接至系統匯流排 1 4 1。在一網路環境中，所述 17 =电腦⑶或其部分相關之程式模傑存裝置中1 -示例而非限制，第 194上的遠端應用程式195。人們將 " 連接是例示性的，亦可使用在：:：*，“ 他工具。使用在電腦之間建立淳 200,盆為土政啊只丞规的識別及資 202 明之一示例。一般而言，儲存中的資訊可以藉由例如行動裝代表其他形式的計算裝…旦有依給或電替罝，、’、虿依輸入形愛綦、麥克風、照相機、觸控盤等等)之客戶或藉由其中資訊是以聽覺要求之電話80’ , 產生之音調以回應音調之降低及其中來自網之資訊只以語音傳回給使用者。你战π他例干，結構200是統—的，不論戶端1 〇〇或使用語音識別由電話8〇獲得資訊，伺服器204能夠支援操作的任一模呀式。此外，操作係使用公知的標記語言之撼、彍充（例如 XHTML、cHTML、XML、WML、楚 &、 I # )。因此服器202上储存的資訊也能夠藉由以μ、+.诚μ 11:1从上述標記之公知圖形使用者介面（GUI)方法存取。藉由使記語言的擴充，在網頁伺服器202上編輯更加存在的其他應用也易於修改以包括聲音識別。一般而言，客戶端100執行HTML網頁者，通常如206所指示者，其係由網頁伺服器在遠端記憶在遠端電腦所示的網路通連結的其截取之結構網頁伺服器 12〇(本文中所需之顯示 100存取， I由電話 80 伺服器202 是否藉由客一單一識別結構200之 1 HTML ' ，在網頁伺語言為基礎用公知的標容易，目前腳本或類似 2 02以瀏覽 18 Γ376681 器提能是戶端之指由客語言其中希望如果 1 00 者介至網網頁伺服指的實體服器中於複雜網路服器能夠中，供°當需要例如語音資料之聲音識別時語音資料（可數位化的音訊信號或語音特徵，其中音訊信號係由客 1 00預先處理’如上文所述）被以文法或語言模型220 不提供至識別伺服器204以用於語音識別期間（可能戶端100提供）。選擇性地，語音伺服器204可能包括模型220。識別伺服器2〇4的執行能夠有許多形式，之一已陳述如上，但是’通常包括識別器211。如果或適當的話’提供識別的結果並傳回至客戶端1〇〇。需要的話’可以使用文字至語音模組222以對客戶端提供口述的文字。在編輯經過識別和任何圖形化使用面（如果有使用的話）的資訊時，客戶端1〇〇傳送訊息頁伺服器202供進一步的處理，並接收進一步的HTML /腳本，如果必要的話。如第6圖所示，客戶端1 〇〇、網頁伺服器2 〇 2和識別器204 —般藉由網路205相連及分別尋址，本發明中是廣域網路如網際網路。因此，任何上述裝置不需要上相鄰接。尤其是網頁伺服器202不需要包括識別伺 204»依照該方法，在網頁伺服器202的編輯能夠集應用，而希望它不需要編輯者知道識別伺服器204的事物。最好是，識別伺服器204可獨立設計和連接至 205，從而不需要進一步變化就能更新和改進網頁伺 202。網頁伺服器202也能夠包括一個編輯機制，其動態地產生客戶端標記和腳本。在一進一步的實施例網頁伺服器202、識別伺服器204和客戶端1〇〇可能 19 1376681 依據實作機器的能力而結合β例如，如果該客戶端1〇〇包括—般目的電腦，例如一個人電腦，客戶端可能包括該識别伺服器204。同樣地，如果需要的話，網頁伺服器2〇2 和識別伺服器204能夠被整合到一單一機器裡。藉由電話80對網頁词服器202之存取包括電話到有線或無線電話網路208的連接，依序是，連接電話8〇到第三者閘道器210。閘道器210連接電話8〇到電話聲音割覽器212。電話聲音瀏覽器212包括一媒體伺服器214，其提供一電話介面和聲音瀏覽器216。例如客戶端1〇〇，電話聲音劉覽器212自網頁伺服器202接收HTml網頁/腳本或其他類似者。在一個實施例中，HTML·網頁/腳本之形式與提供給客戶端100之HTML網頁/腳本類似。依照該方法’網頁祠服器202不必分別支援客戶端ι〇〇和電話8〇，或甚至於分別支援標準的GUI客戶端，尚能夠使用普通的標記語言。此外，例如客戶端1〇〇 ’由電話8〇發送之聽覺信號的聲音識別係由聲音瀏覽器2丨6經由網路2〇5或經由專線207(例如’使用TCP/IP)提供給識別伺服器2〇4。網頁伺服器202識別伺服器204和電話聲音劉覽器212能夠實施於任何合適的計算環境（例如，—般目的桌上型電腦），如第5圖所示。在系統1 0中具有上述各種環境及結構功能，本文提供系統10各種元件之更詳盡叙述及功能。第7圖說明語音識別和理解模組1 4的方塊圖。從語音介面模組1 2得到的輸入語音被送到語音識別和理解模組1 4。語音識別和理解模 20 1376681 組1 4包括一個識別引擎3 Ο 6，其具有一個相關的語言模型 310。當接收到輸入時，識別引擎306使用語言模型310 以識別可能的表面語意結構，以表示來自輸入之每一片語，提供部分語意分析或物件。與系統不同的是，等待使用者完成表示從而處理接收到的完成輸入，模組14只依據目前所接收到的持續提供語意物件。識別引擎306提供至少一個基於部分表示之表面語意輸出物件。在一些實施例中，識別引擎3 0 6能夠為每一個選擇結構提供多於一個選擇表面語意物件。儘管已第7圖中說明其提供語音輸入，本發明亦能夠用於手寫識別、手勢識別或圖形使用者介面（其使用者使用鍵盤或其他輸入裝置與其互動）。在這些其他實施例中，一如在該項技藝中眾所周知的，用一個合適的識別引擎代替語音識別器306。對於圖形使用者介面，一個文法器（其具有語言模型），例如，藉由一輸入盒而與使用者輸入相關。據此，一使用者輸入之處理係藉由一個一致的方法，而不需因為輸入模式而大幅修正。如上所述之互動式對話也包括使用SALT(語音應用語言標記）或其他語音、手寫及型態識別APIs(應用程式介面）實作，基於部分語意分析或物件，由系統1 0回饋的其他型式之資訊，該些識別APIs支援一個語言模型架構，其能夠基於一選定企劃提供語意資訊以用於一給定的應用和語意物件同步解譯。SALT是一個建構標準，用於，例如，從個人電腦、電話、平板電腦和無線行動裝置存取資訊、應 21 1376681 用和網頁服務。但是，也能夠用於應用介面而不需與一網路互相連接。SALT擴充，例如，HTML、XHTML和XML 的既有標記語5 » SALT1.0的規格可以在http://www.SALTfomm.org 找到。應該法意的是SALT能夠依據使用者輸入提供語意資訊，例如從語音伺服器204 ,其中在表示完成以後，此類Μ訊形成提供給資料呈現模組16的物件；然而如下所述此夠以不預先考慮的模式使用SALT ,以提供部分語意刀析或物件。使用SALT擴充、或在其他的類似擴充，以支援高度互動式事件驅動的使用者互動。在此舉出使用SALT之一示例，salt 物件能用以執行語音識別和理解任務。這是因為檢視點及公式之設計將語音理解視為型態識別問題，如同語音識別一般。兩者皆致力於自可能結果之集合找出一型態。對於語音識別’部尋找的模式是一串文字，然而對於理解而言，卻是一意物件樹。_值姑·立. S識別任務以一個語言模型在編寫可能的文字字串時，指導尋找程序。在一個類似樣式中，一語音理解任務能夠導引相同的搜尋弓！擎，以用—個語意模型：寫合適的語意物件樹。例如-個語言模型，其經常意味者-專門詞索和從該專門詞棄項目編寫片語片斷的規則’一個語意模型意味著土耆斤有》口思物件的一辭典和編寫它們的規則。識別結果是一語意物件樹。 _個文子子串時’理解結果則是，雖然有可能延伸N'gram以回傳-個結構化的尋找結果，大多數典划的注立 !的。。曰理解應用係基於機率上下文無關文 22 1376681 而則部語的

法（PCFG)，其中設計者能夠規定編寫語意物件的規則，無需大量的樹庫（tree-bank)註解訓練資料。指定此類規的一種方法使每一 P CFG規則與指引搜尋引擎如何轉換分P C F G分析樹為語意物件樹的產生指示有關。在微軟音應用介面（SAPI)(其亦是能夠用於本發明的語音 API 一示例）所載的一示例，其格式顯示如下： <rule name="nyc"> <list> <phrase>new york ?city</phrase> <phrase>?the big apple</phrase> <output> 〈city location〉 <city>New York</city> <state>New York</state> <country>USA</country> </city_location> 〈/output〉 </rule> <rule name=’’NewMeeting’’> <ruleref min="0" name=,,CarrierPhrase"/> <ruleref max=,,inf" name="ApptProperty"/> 23 1376681 <output> <NewMeeting> <DateTime> <xsl:apply-templates select=，7/Date”/> <xsl:apply-templates select=”//Timen/> <xsl:apply-templates select=’’//Duration”/> </DateTime> <Invitees> <xsl:apply-templates select=5V/Person"/> </Invitees> </NewMeeting> </output> </rule> <rule name=nApptProperty"/> <list> 〈ruleref name=’’Date’’/> <ruleref name=”Duration’7> <ruleref Tiame=’’Time 丨’/> <ruleref name=55Person" max==5,inf7/> <ruleref name=MApptSubjectn/> 24 Γ376681 </rule> 這文法部分包含三種規則。第一個勺市的名稱。該例中的<01^卩1^>標 ’前端名字"nyc"列出籤包圍用於建構語意件的規則。當則呼叫它們。時’則產生一搜尋路徑存在著由標記所標示之文法節點

在這種情況下，當搜尋路徑存在著"nyc"規适意物件（用<city_l〇cati〇n>元件以xML 不）。該語意物件依序由三個語意物件：城市名、州和國縮寫所組成。 "α意物件的組成也可能是一個動態程序，例如，安新會議。例如’當使用者完成指定例如日期（date)、時 (time)、持續時間（durati〇n)及參加者（attendees)的會議質時’將產生一個NewMeeting語意物件。能夠用樣板其他語意物件作為元件貼入NewMeeting語意物件裡。能夠把相同的原理應用於本文中未記述的其他規則。舉示例’ 一表示「安排與Li Deng和Alex Acero為時一時的會議於1月1曰"將產生下文中的語意物件：紐物 j 則表名排間性將也小 <NewMeeting> <DateTime> <Date>01/01/2003</Date> <Duration>3600</Duration> 25 Γ376681 </DateTime> <Invitees> <Person>Li Deng</Person> <Person>Alex Acero</Person> 〈/Invitees〉 </NewMeeting> 在實際的應用中，改進 PCFG範務。因此，除此之外，想要能夠使用Τ' 能性片語，其未載有重要的語意資訊但具有可調整大小的變化（例如，「我可以我…」、「請告訴我」）。在一個實施例包括一個語意語言模型，其結合PCFG 略異於一統一語言模型，其亦可使用。傳統類別N-gram的自然延伸，除了它j 模型化為一個別標記之 CFG部分（而單）。識別器3 0 6使用該模型仍然產生必的文字字串。統一的語言模型被設計為學結構以幫助文字轉譯。另一方面，語意語言模型意之目的識別器來找尋語意結構（其通常較易由此，相反於在N-gram裡嵌入CFG部分應於一 N-gram關係之特別PCFG前端 N-gram。在微軟SAPI文法格式中，可以ΐ 圍是令人氣餒的任丨-gram去模型化功通常在語法結構上 ...」、「你可以告訴中，語言模型 3 1 0 與N-gram。該技術該統一語言模型係 L許欲在N-gram中非只是一個文字清須在之後文法分析整合包含某種語言在於使用解碼器或 PCFG所截取）。因，藉由產生一個對，用 PCFG來包含 3 — XML<citation> 26 Γ376681 標籤來標示，如同

LCFG〈dictation max=" inf"/> RCFG 其中，LCFG和RCFG分別標示嵌入N-gram的内容的左邊和右邊。如果進入一正常非終端的話，搜尋程序視〈dictation〉標籤為一標記並擴展為 N-gram。標籤上的’’max”屬性指定可被N-gram消耗的文字最大數量。在 N-gram之内，藉由以PCFG修改後退（backoff)N-gram計算文字字串機率，尤其是， P(w„ | w„.i, w /ί-2 5 * · * )=XP(w „.i\Ngram, wn.\, w„.2,...) + {\-X)P{wn I RCFG)P{RCFG \ wn.x, wn.2,...) (1) 其中 λ是 N-gram修改權重，而 P(PCFG I Wn-丨，...）使用 N-gram的後退機率，即，wn被視為如同它是詞彙文字的結果。在一實施例中，依據是否已經達到最大N-gram文字字串大小，及該文字是否在CFG的範圍内，設定術語 P(wn | RCFG)為二元值。因為來自PCFG的文字通常具有一較高的機率，實際上屬於被CFG涵蓋的範圍之路徑傾向於獲得它們的N-gram配對，即便當最大N-gram文字計數被設定為無限。除了程式化片語，嵌入的N-gram亦可用於具有一口述類屬性之模型化語意物件。例如，會議物件是我們任務的模型 <rule name = " ApptSubj ect"> <p> 〈dictation max = ’’inf"/> </p> 27 1376681 在"Semantic modeling for dialog systems in a pattern recognition frame work" (Proc. ASRU-2001, Trento Italy, 2 001)中，K. Wang詳述了語意語言模型，其中將該文獻與本文併呈於上。本發明的進一步態樣包含SALT list物件的新用法。 SALT提供一套XML元件，其具有相關的屬性和d〇M物件性質、事件和方法，可與來源標記文件一起應用一語音介面於一來源網頁。一般而言，該主要元件包含： <prompt...>用於語音合成結構和提示播放〈listen .··>用於語音識別器設定’識別執行和後處理及記錄 <dtmf .··>用於DTMF的設定和控制 <smex ...>用於與平台元件之一般目的溝通該listen和dtmf物件亦包含gramniar及bind控制：〈grammar ···>用於指定輸入文法資源。 <bind ·.·>用於處理識別結果。 1 i s t e η元件能夠包括一 "m 〇 d e"屬性以識別三種模式之識別’其指導識別伺服器（例如，204)如何並且何時回傳結果。結果的回傳意味著提供，，onReco”事件或，，凝固"適當地啟動"bind"元件。在一第一模式t ，"automatic”（語音平台，而非應用）控制何時停止識別程序。該模式已提供給電話或免手持領域。一旦獲得識別結果，和/或在一個時期的靜默過後，語 28 音平台自勒I H - 助地停止識別器並回傳它的結果，其能夠藉由 bind元件與摘a '週§欄位關聯。在操作的第二模式中，"single" ’ 一識別結果的回傳係由明確的”,, Ρ呼叫所控制。該stop呼叫對應於例如使用者的"p e n - Ή η丨丨*·,. ρ寧件’並且該模式被用於多模式環境，其中的裝置允哞往_ Α Α ° m η輪入。但是，使用者通常藉由例如尖筆3.3 的使用（第]阁、、斤1圖），控制何者及何時選擇欄位。 "Β識別益操作的一第三模式是"multiple mode"。該操作模式传© # 、你用於—"open-microphone"或在口述方面。一般而。’在該操作模式中’每隔—段間隔回傳識別結果直到接到明綠的St〇p呼叫，或與未確認輸入或超過聽（listen) 的一個最大時間相關的其他時間超過時。一般而言，在該操作模式’對確認的每一片語而言，發出一"onReco"事件並且回傳結果直到接收到stop()呼叫為止。然而本發明其他態樣的操作模式能夠藉由允許它們只要超過語言界標立即回報的方式，提供搜尋引擎向使用者揭示更為互動的能力之方法。基於時間同步解譯的搜尋運算係為眾人公知並能夠以直接的模式用於該模式。在H.

Ney, S. Ortmanns 的"Dynamic programming search for continuous speech recognition, "(IEEE Signal Processing Magazine, pp. 64-83 , 1 999)描述了一種此類運算。對於語音識別而言，通常語言界標與一文字或片語邊界一致。因此只要它們是可獲得的，就能夠用一 SALT multiple模式識別來動態地顯示文字字串假設。一個UI效果在許多商 29 Γ376681 業式已對解模把位介入序饋子圍結性替對之意元口述軟體中是常見的，然而，在本發明中，能夠將語意物件的例子當作語言界標並回報理解函數的回應，亦以動態模式回到它們上應用設計者而言，有如SALT正在執行語意〇將該操作模式與多模式方面比較更易於理式方面中，一使用者指示一欄位，例如，藉該尖筆指向並放置於輸入欄位裡。當該使用般欄位中並表達一精確的語句以一單一句，然而使用者的眼睛和手需要專注於該「鍵面，這種設計在許多情況下並不適當。此外並講話」待徵係一豐富回送通道溝通，其在下顯示處理條及體積，但是就速度和品質而只對講話語言處理提供非常簡略的線索。對就更有可能產生問題，其中錯誤可以傳播，最終需要花費更多的心力去驗證及校正識果。因為從可用性研究看來，似乎較長的句差異因素，其顯示語音的用途並非僅是鍵盤，滿足UI體驗對於把語音用作可實行形態必要的。為了增進人類-電腦間的感覺，使其成為達緊密合作仗伴，藉由儘快報告部分語意分析物件同步理解是有效的。在一實施例中，藉由件的multiple模式用於SALT可達成。尤其 multiple 模，即，提供的應用。它物件同步理解它。在多由在講話時者能夠鍵入填入許多欄入並講話」，雖然「鍵講話語言程論，那些回於較長的句至較廣的範別及理解的子是一關鍵的加強或代的成功是絕成共同目標或物件，語把 listen(聽）是對於已指 30 Γ376681 定一個multiple模式之listen元件並且之後為欲識別之輸入語音指定的所有識別文法。結果的指派亦是在listen物件中指定。例如，用以截取必要資訊之HTML輸入程式碼，例如，日期、時間、位置、標題及會議人員、等等。用以產生一新的會議可能採取下列型式：〈listen mode= “multiple"…〉〈grammar src=”subject.grm"/> 〈grammar src=ndate.grmn/> 〈grammar src=”time—duration·grmn/> 〈grammar src=n’attendees. grmn/> <bind targetElement=f!subject" value=7/ApptSubject’7> <bind targetElement=!tdate" value=n//DateTime"/> <bind targetElement="start time" value=!l//start_time// targetElement=nend time" value=,V/end_time" targetElement==f, duration1' value="//DateTime/duration,V> </listen> 31 1376681 多個文法器以一回到進入點的空值轉變迴圈為識別編寫一平行搜尋空間。在該模式中，一旦一文法器退出，SALT 允許listen物件產生一事件。當下面的音訊集合和識別正在進行時，事件分叉出一平行處理，以呼叫序列中的bind 指示，從而當一語音指令仍在對具有欄位的視覺呈現之一應用敘說時，產生效果給使用者，其填滿表格中相關欄位。對於免用視覺的應用程式之使用者介面，可能需要伴隨的語音輸出。在這種情況下，SALT prompt物件可用於給定立即的回饋。例如，下列的SALT prompt物件可用於基於資料欄位之動態内容同步回應，而該語音同步化可用於觸發額外的bind指令如下： <prompt id="say_date"> on〈value targetElement="date”/> </prompt> <listen ...> <bind targetElement"date" value="//date" targetElement="say_date" targetMethod="Start7> </listen> 32 Γ376681 純粹效果是使用者覺得他/她正在與另一人講話，不只是草草記下，而是重複所聽到的，如同「在下週二（1〇/29 2 0 0 2)兩點（下午兩點開始）持續二小時（期間：二小時）安排會議（新會議）」’其中在括號内所提供的該句子表示回到使用者的聽覺和/或視覺提示（其亦被同步化）。應該注意的是SALT允許設計者連接訂製的識別事件管理器，其執行精密的計算，超越SALT bind指令的簡單指派。在上例中，可以在語意文法器完成日期正規化，然而該語意文法器不能有助於進一步的參考解析（例如，”安排L i D e n g和他的經理的會議"）。在此類例子中，可以實作計算為可甴適當管理器存取的腳本（script)物件，以存取用以確認不明確參考的儲存資料。此類計算係敘述於κ· Wang，"A plan based dialog system with probabilistic inferences" Proc. ICSLP-2000, Beijing China, 2000 及歐洲專利EP 1199630A2，2002年4月24曰公告"，在此參照其全文併呈。應該注意的是’儘管多模式操作對於listen物件存在’在現有實作中，該模式只提供接收輸入的文字，例如在口述方面。然而’在本發明的該態樣中，當接收輸入時部分結果不僅是文字，而且尚包括屬於文字的對應語意資訊’並因此該輸出包括部分語意分析或物件，其能夠如上所述般提供使用者更佳品質回饋，其為電腦能夠適當理解所接收者。依據接收部分語意分析或物件之應用的精密 33 1376681 度，依據所接收的部分語意分析系統提供確認、選擇、修正及澄清回給使用者。雖然已知多模型應用包括多個文法器以允許使用者講話，及據此有能力提供被指示的資訊，在多種模式操作中使用listen元件會更好，因為它提供給使用者較高的理解的指示。在一純語音的應用中，產生一自然形式的對話，然而如果使用視覺呈現的話，依據使用者目前所提供者之部分語意分析及當使用者繼續講話時，一應用可以開始處理（講話動作、顯示過渡結果結果或選擇，例如，經由跳出式視窗）。儘管係參照特定實施例描述本發明，習知該項技藝者將了解任何未背離本發明範圍及精神之形式上及細節上之改變皆屬本發明之範疇。【圖式簡單說明】第1圖是一種資料表示系統的方塊圖。第2圖是操作環境的一計算裝置的一平面視圖。第3圖是第2圖計算裝置的一方塊圖。第4圖是一電話的一平面視圖。第5圖是一般目的電腦的一方塊圖。第 6圖是用於一客戶端/服務器系統之一結構的方塊圖。第7圖是語音識別和理解的模組的方塊圖。 34 Γ376681 【主要元件符號說明】 10系統 1 2語音介面模組 1 4語音識別及理解模組 1 6應用模組 18資料 20輸出 29麥克風 30元件 32外罩 33尖筆 34顯示器 35按鈕 3 6袖珍鍵盤 37 A/D轉換器 43擴音器

50 CPU 5 2無線收發器 54 RAM記憶體 58 ROM 5 9 D/A轉換器 60溝通介面 80電話 82顯示器 35 Γ376681 84袖珍鍵盤 100客戶端 120電腦 140處理單元 1 4 1系統匯流排 1 5 0系統記憶體

151 ROM

152 RAM 153 BIOS 154作業系统 1 5 5應用程式 1 5 6其他程式模組 1 5 7程式資料 1 6 0不可移除非揮發性記憶體介面 161硬碟機 164作業系統 1 6 5應用程式 166其他程式模組 1 6 7程式資料 1 70可移除非揮發性記憶體介面 171磁碟機 1 7 2可移除非揮發性磁碟 175光碟機 176可移除非揮發性光碟 36 1376681 180使用者輸入介面 181指向裝置 1 82鍵盤 1 83話筒 1 8 4監視器 1 8 5視訊介面 1 8 6印表機 187擴音器 1 88輸出週邊介面 1 9 0網路介面 1 9 1 區域網路 192數據機 1 9 3廣域網路 1 94遠端電腦 195遠端應用程式 200用於網頁基礎的識別及資料截取之結構 202網頁伺服器 204識別伺服器 2 0 5網路 206網頁語音可用控制/樣版 2 0 7專線 208公用電話網路 2 1 0第三者閘道器 2 11識別器 37 Γ376681 212電話聲音瀏覽器 2 1 4媒體伺服器 2 1 6聲音瀏覽器 220語言模型 222語音模組 3 0 6語音識別器 3 1 0語言模型

Claims

Γ376681 十、申請專利範圍： 1. 一種語音理解系統，包含：一語言模型，其包含一 N-gram語言模型及一上下文無關之文法語言模型之組合，該語言模型儲存與欲識別的文字及語意資訊相關之資訊；一模組，其適用於自一使用者接收輸入，及截取該輸入以用於處理，該模組更適用於接收與該輸入的識別相關的 SALT應用程式介面，該模組可設定以處理該 SALT應用程式介面及該輸入，以確定與一第一部分的該輸入相關的語意資訊，及藉由存取該語言模型以輸出一語意物件，其包含該第一部分的文字及語意資訊，其中該語意物件的識別及輸出之執行係在持續截取該輸入後續部分時執行。 2. 如申請專利範圍第1項所述之系統，其中該語言模型包括一統一語言模型。 3. 如申請專利範圍第1項所述之系統，其中該語言模型包括一語意語言模型。 4. 如申請專利範圍第1、2或3項所述之系統，其中該模組適用於在一多數模式識別 SALT的一聽（listen)物件，以在持續截取該輸入的爾後部分時，執行識別和輸出該語意物件。 5. 如申請專利範圍第4項所述之系統，其中該模組適用於識別文法物件，以定義該語言模型的一搜尋空間。 39 1376681 6. 如申請專利範圍第1、2或3項所述之系統，其中組適用於識別文法物件，以定義該語言模型的一搜間。 7. 一種包含電腦裝置可讀指令之電腦可讀取媒體，當時使該電腦裝置藉由執行下列步驟控制資訊，包招接收來自一使用者的輸入，及截取該輸入用理；接收S ALT應用程式介面，以識別一語言模型行識別及理解，該語言模型適用於提供所識別的輸字，及該接收的輸入之語意資訊；藉由存取該語言模型處理該輸入，以對該輸入識別，以確定與該輸入的一第一部分相關之語意賀以及輸出一語意物件，其包含該識別的輸入的文字該第一部分的語意資訊，其中該語意物件的識別及之執行係在持續截取該輸入爾後部分時執行。 8. 如申請專利範圍第7項所述之電腦可讀取媒體，其理包括在一多數模式中識別SALT的一聽物件，以續截取該輸入爾後部分時，執行識別和輸出該語件。 9. 如申請專利範圍第8項所述之電腦可讀取媒體，其收SALT應用程式界面包括識別文法物件，以定義言模型的一搜尋空間。 10. 如申請專利範圍第7項所述之電腦可讀取媒體，其該模尋空實作於處以執入文執行訊，，及輸出中處在持意物中接該語中接 40 1376681 收S A LT應用程式界面包括識別文法物件，以定義該語言模型的搜尋空間。 41