TWI661363B

TWI661363B - 智慧型機器人及人機交互方法

Info

Publication number: TWI661363B
Application number: TW106132484A
Authority: TW
Inventors: 張學琴
Original assignee: 鴻海精密工業股份有限公司
Priority date: 2017-08-05
Filing date: 2017-09-21
Publication date: 2019-06-01
Also published as: CN109389005A; US10482886B2; TW201911127A; US20190043511A1

Abstract

本發明涉及一種智慧型機器人及人機交互方法。該方法應用在該智慧型機器人中。該方法包括步驟：從獲取的語音資訊及圖像資訊中識別一目標物件；確定出與該目標物件對應的基本資訊及相關事件資訊，並將該目標物件的基本資訊與該相關事件資訊進行關聯；從該目標物件對應的相關事件資訊中提取關鍵資訊；根據所提取的關鍵資訊利用神經網路分析演算法確定該目標物件的情緒類別，根據所提取的關鍵資訊檢索預設的公共基礎知識庫，並利用深度學習演算法根據檢索結果及該目標物件的情緒類別確定出一回饋模型；及執行該回饋模型。

Description

智慧型機器人及人機交互方法

本發明涉及機器人領域，尤其涉及一種智慧型機器人及人機交互方法。

現有技術中，機器人與人之間的交互主要涉及簡單的人機對話，或在人的指令下完成特定的工作內容。然而，能夠使機器人從社會的倫理道德、法律法規、天文地理及人際關係(如，家庭關係、同事關係、朋友關係)等方面深入地理解用戶的情感和情緒的問題並與用戶進行交互的方案卻很少。

鑒於以上內容，有必要提供一種智慧型機器人及人機交互方法以深入地理解用戶的情感和情緒的問題並與用戶進行交互。

一種智慧型機器人，包括攝像單元、語音採集單元、輸出單元及處理單元，該處理單元用於：獲取來自該語音採集單元獲取的語音資訊及該攝像單元獲取的圖像資訊；從獲取的語音資訊及圖像資訊中識別一目標物件；確定出與該目標物件對應的基本資訊及相關事件資訊，並將該目標物件的基本資訊與該相關事件資訊進行關聯；從該目標物件對應的相關事件資訊中提取關鍵資訊；根據所提取的關鍵資訊利用神經網路分析演算法確定該目標物件的情緒類別，根據所提取的關鍵資訊檢索預設的公共基礎知識庫以獲取與該關鍵資訊相關聯的檢索結果，並利用深度學習演算法根據該檢索結果及該目標物件的情緒類別確定出一回饋模型，其中，該回饋模型是指用於控制該智慧型機器人與該目標物件進行交互的指令集；及藉由該輸出單元執行該回饋模型。

優選地，該處理單元從該語音資訊中識別一聲紋特徵及從該圖像資訊中識別臉部特徵，並根據該聲紋特徵及該臉部特徵識別對應的目標物件。

優選地。該處理單元控制該語音採集單元採集該目標物件的語音資訊作為該目標物件的相關事件資訊。

優選地，該處理單元識別所獲取的語音資訊，將所識別的語音資訊轉化為文本資料，提取出該文本資料中的關鍵資訊，並將該文本資料中的關鍵資訊作為該相關事件的關鍵資訊。

優選地，該處理單元控制該攝像單元獲取該目標物件的圖片資訊作為該目標物件的相關事件資訊。

優選地，該處理單元獲取該圖片資訊中包含的面部表情資訊及肢體動作特徵資訊，對所獲取的面部表情資訊進行面部表情特徵提取後確定出面部表情特徵參數，對所獲取的肢體動作資訊進行肢體特徵提取後確定出肢體特徵參數，並將該面部表情特徵參數及肢體特徵參數作為該相關事件資訊的關鍵資訊。

優選地，該處理單元還用於設定該智慧型機器人的情感方向，該處理單元從該目標物件的相關事件資訊中提取關鍵資訊，根據所提取的關鍵資訊利用神經網路分析演算法確定該目標物件的情緒類別，根據所提取的關鍵資訊檢索預設的公共基礎知識庫，並利用深度學習演算法根據檢索結果、該目標物件的情緒類別及設定的該智慧型機器人的情感方向確定出對應的回饋模型。

優選地，該輸出單元包括語音輸出單元及表情輸出單元，該執行模組藉由控制該語音輸出單元輸出語音資訊，及藉由該表情輸出單元輸出表情動作的方式執行該回饋模型。

一種人機交互方法，應用在一智慧型機器人中，該方法包括步驟：獲取一語音採集單元獲取的語音資訊：獲取一攝像單元獲取的圖像資訊；從獲取的語音資訊及圖像資訊中識別一目標物件；確定出與該目標物件對應的基本資訊及相關事件資訊，並將該目標物件的基本資訊與該相關事件資訊進行關聯；從該目標物件對應的相關事件資訊中提取關鍵資訊；根據所提取的關鍵資訊利用神經網路分析演算法確定該目標物件的情緒類別，根據所提取的關鍵資訊檢索預設的公共基礎知識庫以獲取與該關鍵資訊相關聯的檢索結果，並利用深度學習演算法根據該檢索結果及該目標物件的情緒類別確定出一回饋模型，其中，該回饋模型是指用於控制該智慧型機器人與該目標物件進行交互的指令集；及藉由一輸出單元執行該回饋模型。

優選地，該方法在步驟“從獲取的語音資訊及圖像資訊中識別一目標物件”還包括：從該語音資訊中識別一聲紋特徵及從該圖像資訊中識別臉部特徵，並根據該聲紋特徵及該臉部特徵識別對應的目標物件。

優選地，該方法在步驟“確定出與該目標物件對應的基本資訊及相關事件資訊，並將該目標物件的基本資訊與該相關事件資訊進行關聯”中包括：控制該語音採集單元採集該目標物件的語音資訊作為該目標物件的相關事件資訊。

優選地，該方法還包括步驟：識別所獲取的語音資訊，將所識別的語音資訊轉化為文本資料，提取出該文本資料中的關鍵資訊，並將該文本資料中的關鍵資訊作為該相關事件的關鍵資訊。

優選地，該方法在步驟“確定出與該目標物件對應的基本資訊及相關事件資訊，並將該目標物件的基本資訊與該相關事件資訊進行關聯”中包括：控制該攝像單元獲取該目標物件的圖片資訊作為該目標物件的相關事件資訊。

優選地，該方法還包括步驟：獲取該圖片資訊中包含的面部表情資訊及肢體動作特徵資訊，對所獲取的面部表情資訊進行面部表情特徵提取後確定出面部表情特徵參數，對所獲取的肢體動作資訊進行肢體特徵提取後確定出肢體特徵參數，並將該面部表情特徵參數及肢體特徵參數作為該相關事件資訊的關鍵資訊。

優選地，該方法還包括步驟：藉由控制一語音輸出單元輸出語音資訊，及藉由一表情輸出單元輸出表情動作的方式執行該回饋模型。

本案中的智慧型機器人及人機交互方法能夠深入地理解用戶的情感和情緒的問題並與用戶進行交互，提高了用戶的體驗感。

1‧‧‧人機交互系統

2‧‧‧智慧型機器人

3‧‧‧伺服器

22‧‧‧攝像單元

23‧‧‧語音採集單元

24‧‧‧壓力感測器

25‧‧‧輸出單元

26‧‧‧味道感測器

27‧‧‧通訊單元

28‧‧‧處理單元

29‧‧‧存儲單元

251‧‧‧語音輸出單元

252‧‧‧表情輸出單元

253‧‧‧運動驅動單元

254‧‧‧顯示單元

101‧‧‧感知模組

102‧‧‧識別模組

103‧‧‧分析模組

104‧‧‧執行模組

105‧‧‧設置模組

T1‧‧‧基本資訊表

S501~S506‧‧‧步驟

圖1為本發明一實施方式中人機交互系統的應用環境圖。

圖2為本發明一實施方式中智慧型機器人的功能模組圖。

圖3為本發明一實施方式中人機交互系統的功能模組圖。

圖4為本發明一實施方式中基本資訊表的示意圖。

圖5為本發明一實施方式中人機交互方法的流程圖。

請參考圖1，所示為本發明一實施方式中人機交互系統1的應用環境圖。該人機交互系統1應用在一智慧型機器人2中。該智慧型機器人2與一伺服器3通訊連接。該人機交互系統1用於控制該智慧型機器人2與用戶進行交互。

請參考圖2，所示為本發明一實施方式中智慧型機器人2的功能模組圖。該智慧型機器人2包括攝像單元22、語音採集單元23、壓力感測器24、輸出單元25、味道感測器26、通訊單元27、處理單元28及存儲單元29。該攝像單元22攝取智慧型機器人2周圍環境的圖像並將攝取的圖像傳送給處理單元28。例如，該攝像單元22可以攝取智慧型機器人2周圍的人、動物或靜止物體的畫面，及將獲取的人、動物或靜止物體的畫面傳送給該處理單元28。本實施方式中，該攝像單元22可以為一攝像頭、3D光場相機等。該語音採集單元23用於接收智慧型機器人2周圍的語音資訊並將接收的語音資訊傳送給處理單元28。在本實施方式中，該語音採集單元23可以為麥克風、麥克風陣列等。該壓力感測器24用於檢測用戶對該智慧型機器人2的按壓力資訊及將檢測出的按壓力資訊傳送給處理單元28。

該輸出單元25包括語音輸出單元251、表情輸出單元252、運動驅動單元253及顯示單元254。該語音輸出單元251用於在該處理單元28的控制下輸出語音資訊。在本實施方式中，該語音輸出單元251可以為揚聲器。表情輸出單元252用於在該處理單元28的控制下輸出表情動作。在一實施方式中，該表情輸出單元252包括設於機器人頭部可開合的眼簾和嘴巴及設於眼簾內可轉動的眼球。該運動驅動單元253用於在該處理單元28的控制下控制該智慧型機器人2的控制下驅動該智慧型機器人2移動。在一實施方式中，該運動驅動單元253包括兩軸或四軸驅動輪。該顯示單元254用於顯示表情圖像，如高興、苦惱、憂鬱表情等。該味道感測器26用於檢測氣味資訊。該通訊單元27用於供該智慧型機器人2與一伺服器3(如圖1所示)通訊連接。在一實施方式中，該通訊單元27可以為WIFI通訊模組、Zigbee通訊模組及Blue Tooth通訊模組。

該存儲單元29用於存儲該智慧型機器人2的程式碼及資料資料。例如，該存儲單元29可以存儲預設人臉圖像、預設語音及人機交互系統1。本實施方式中，該存儲單元29可以為該智慧型機器人2的內部存儲單元，例如該智慧型機器人2的硬碟或記憶體。在另一實施方式中，該存儲單元29也可以為該智慧型機器人2的外部存放裝置，例如該智慧型機器人2上配備的插接式硬碟，智慧存儲卡(Smart Media Card,SMC)，安全數位(Secure Digital,SD)卡，快閃記憶體卡(Flash Card)等。

本實施方式中，該處理單元28可以為一中央處理器(Central Processing Unit,CPU)，微處理器或其他資料處理晶片，該處理單元28用於執行軟體程式碼或運算資料。

請參考圖3，所示為本發明一實施方式中人機交互系統1的功能模組圖。本實施方式中，該人機交互系統1包括一個或多個模組，所述一個或者多個模組被存儲於該存儲單元29中，並被該處理單元28所執行。人機交互系統1包括感知模組101、識別模組102、分析模組103、執行模組104及設置模組105。在其他實施方式中，該人機交互系統1為內嵌在該智慧型機器人2中的程式段或代碼。

該感知模組101獲取來自該語音採集單元23獲取的語音資訊及該攝像單元22獲取的圖像資訊。

該識別模組102用於從獲取的語音資訊及圖像資訊中識別一目標物件。在一實施方式中，該識別模組102對獲取的語音資訊進行語音信號預處理，例如進行去噪處理，使得語音辨識時更加準確。在一實施方式中，該識別模組102從語音資訊中識別一聲紋特徵及從圖像資訊中識別臉部特徵，並根據該聲紋特徵及該臉部特徵識別該目標物件。該目標物件包括人及動物。例如，該存儲單元29中存儲一第一對應關係表(圖中未示)，該第一對應關係表中定義了聲紋特徵、臉部特徵及目標物件的對應關係，該識別模組102根據識別出的聲紋特徵、臉部特徵及該第一對應關係表確定該目標物件。在另一實施方式中，該識別模組102也可以僅從獲取的語音資訊中識別該目標物件。例如，該存儲單元29中存儲一第二對應關係表(圖中未示)，該第二對應關係表中定義了聲紋特徵及目標物件的對應關係。該識別模組102根據識別出的聲紋特徵及該第二對應關係表確定該目標物件。在其他實施方式中，該識別模組102也可以僅從獲取的圖像資訊中識別該目標物件。例如，該存儲單元29中存儲一第三對應關係表(圖中未示)。該第三對應關係表中定義該臉部特徵與該目標物件的對應關係，該識別模組102根據識別出的臉部特徵及該第三對應關係表確定該目標物件。在一實施方式中，該識別模組102將獲取的圖像與存儲在存儲單元29中的圖片集進行比對確定出獲取的圖像中的臉部特徵，該識別模組102根據識別出的臉部特徵及該第三對應關係表確定該目標物件。

在一實施方式中，該目標物件還包括靜止物體，例如桌子，椅子，房子等物體。該識別模組102還用於將藉由從該攝像單元22中獲取的圖片與一存儲在存儲單元29中的圖片集進行比對，並根據比對結果確定出該圖片中包含的靜止物體。其中，該圖片集中的每一幅圖片對應包含一靜止物體。例如，該識別模組102將獲取的圖片與存儲的圖片集進行比對後確定該圖片中的物體與存儲的圖片集中一幅圖片所包含的房子一致時，該識別模組102識別出該獲取的圖片中的目標物件為房子。

該識別模組102還用於確定出與該目標物件相關的資訊，例如，基本資訊及相關事件資訊，並將該目標物件的基本資訊與該相關事件資訊進行關聯。在一實施方式中，所述相關的資訊包括，但不限於，該目標物件的基本資訊、及與該目標物件相關的事件資訊。在一實施方式中，當目標物件為人時，該目標物件的基本資訊包括，但不限於，用戶的姓名、年齡、身高、體重、體型(例如，大體型、中體型、小體型)。當目標物件為物體時，該目標物件的基本資訊包括，但不限於，目標物件的名稱、位置、功能屬性等。例如，該存儲單元29存儲一基本資訊表T1(參考圖4)，該基本資訊表T1定義了目標物件與基本資訊的對應關係。該識別模組102根據該目標物件及該基本資訊表T1確定出與該目標物件對應的基本資訊。

在一實施方式中，與該目標物件相關的事件資訊可以是指發生在某個時間或某個地點的與該目標物件相關的事件。在一實施方式中，當識別出目標物件時，該識別模組102控制該語音採集單元23採集該目標物件的語音資訊作為該目標物件的相關事件資訊。在另一實施方式中，當識別出目標物件時，該識別模組102控制該攝像單元22獲取該目標物件的圖片資訊作為相關事件資訊。在其他實施方式中，當識別出目標物件時，該識別模組102同時將藉由語音採集單元23採集的語音資訊及藉由攝像單元22攝取的圖片資訊作為該目標物件的相關事件資訊。

該分析模組103用於從該目標物件對應的相關事件資訊中提取關鍵資訊。例如，當該目標物件的相關事件資訊為語音資訊時，該分析模組103識別所獲取的語音資訊，將所識別的語音資訊轉化為文本資料，提取出該文本資料中的關鍵資訊，及將該文本資料中的關鍵資訊作為該相關事件的關鍵資訊。本實施方式中，該文本資料中的關鍵資訊包括關鍵字、關鍵字、或關鍵語句。當該當目標物件的相關事件資訊為圖片資訊時，該分析模組103獲取該圖片資訊中包含的面部表情資訊及肢體動作特徵資訊，對所獲取的面部表情資訊進行面部表情特徵提取後確定出面部表情特徵參數，對所獲取的肢體動作資訊進行肢體特徵提取後確定出肢體特徵參數，並將該面部表情特徵參數及肢體特徵參數作為該相關事件資訊的關鍵資訊。

該分析模組103根據所提取的關鍵資訊利用神經網路分析演算法確定該目標物件的情緒類別，根據所提取的關鍵資訊檢索預設的公共基礎知識庫以獲取與該關鍵資訊相關聯的檢索結果，並利用深度學習演算法根據該檢索結果及該目標物件的情緒類別確定出一回饋模型。本實施方式中，該回饋模型是指用於控制該智慧型機器人2與該目標物件進行交互的指令集。本實施方式中，該公共基礎知識庫可以包括，但不限於人文倫理知識庫、法律法規知識庫、道德情操知識庫、宗教知識庫、天文地理知識庫。在一實施方式中，該公共基礎知識庫存儲在該智慧型機器人2的存儲單元29中。該智慧型機器人2可以直接訪問該存儲單元29中的公共基礎知識庫。在其他實施方式中，該公共基礎知識庫存儲在伺服器3中。該智慧型機器人2藉由通訊單元27訪問該伺服器3中的公共基礎知識庫。

本實施方式中，該深度學習演算法包括，但不限於，“神經詞袋模型”、“遞迴神經網路”、“迴圈神經網路”、“卷積神經網路”。本實施方式中，該目標物件的情緒類別包括高興、悲傷、憤怒、平和、暴躁等情緒。例如，當用戶微笑著對智慧型機器人2說“這些花真漂亮啊！”時，該感知模組101藉由該語音採集單元23獲取使用者的語音資訊，及藉由該攝像單元22獲取包含使用者的圖像資訊。該識別模組102根據使用者的語音資訊識別出使用者的聲紋特徵及根據使用者的圖像資訊識別出使用者的臉部特徵。該識別模組102根據該識別出的聲紋特徵及臉部特徵識別出目標物件為使用者。該識別模組102確定出使用者的基本資訊，及將使用者發出的語音資訊“這些花真漂亮啊！”及使用者微笑的圖像資訊作為使用者的相關事件資訊，並將使用者的基本資訊與使用者的相關事件資訊進行關聯。該分析模組103從使用者發出的語音資訊“這些花真漂亮啊！”提取出關鍵資訊為“花”、“漂亮”，及從使用者微笑的圖像資訊中提取出關鍵資訊為“微笑表情”。該分析模組103根據所提取的該些關鍵資訊“花、漂亮、微笑表情”利用神經網路分析演算法確定該目標物件的情緒類別為高興。該分析模組103根據所提取的上述關鍵資訊檢索預設的公共基礎知識庫，並利用深度學習演算法根據檢索結果及高興的情緒類別確定出對應的回饋模型。

在一實施方式中，該設置模組105用於設定該智慧型機器人2的情感方向。在一實施方式中，該設定的情感方向包括勵志型、安慰型、諷刺型、幽默型等。該分析模組103從該目標物件的相關事件資訊中提取關鍵資訊，根據所提取的關鍵資訊利用神經網路分析演算法確定該目標物件的情緒類別，根據所提取的關鍵資訊檢索預設的公共基礎知識庫，並利用深度學習演算法根據檢索結果、該目標物件的情緒類別及該設定的智慧型機器人2的情感方向確定出對應的回饋模型。本實施方式中，該情緒類別包括，但不限於，高興、憤怒、悲傷、愉快等情緒。

在一實施方式中，該感知模組101還用於藉由該壓力感測器24感測用戶輸入的按壓力，及藉由該味道感測器26檢測該智慧型機器人2周圍環境的氣味資訊。該分析模組103還用於根據所提取的關鍵資訊檢索預設的公共基礎知識庫以獲取與該關鍵資訊相關聯的檢索結果，並利用深度學習演算法根據該檢索結果、該目標物件的情緒類別、該感測的按壓力及該感測的氣味資訊確定出對應的回饋模型。

該執行模組104用於藉由該輸出單元25執行該回饋模型。在一實施方式中，該執行模組104藉由該輸出單元25輸出語音資訊及輸出表情動作的方式來執行該回饋模型以實現該智慧型機器人2與目標物件之間的交互。具體的，該執行模組104藉由語音輸出單元251輸出語音資訊、藉由表情輸出單元252輸出表情動作的方式執行該回饋模型。例如，當用戶微笑著對智慧型機器人2說“這些花真漂亮啊！”時，該識別模組102識別出該目標物件為使用者。該分析模組103從使用者發出的語音資訊“這些花真漂亮啊！”提取出關鍵資訊為“花”、“漂亮”，及從使用者微笑的圖像資訊中提取出關鍵資訊為“微笑表情”。該分析模組103根據所提取的該些關鍵資訊“花、漂亮、微笑表情”利用神經網路分析演算法確定該目標物件的情緒類別為高興。該分析模組103根據所提取的關鍵資訊“花、漂亮、微笑表情”檢索預設的公共基礎知識庫，並利用深度學習演算法根據檢索結果及高興的情緒類別確定出對應的回饋模型。該回饋模型為控制該智慧型機器人2輸出語音資訊“這些花真的很漂亮，我也很喜歡！”及輸出笑容的表情動作的指令。該執行模組104藉由語音輸出單元251輸出“這些花真的很漂亮，我也很喜歡！”的語音資訊及藉由表情輸出單元252控制設於智慧型機器人2頭部中的眼簾和嘴巴開合及設於眼簾內的眼球轉動輸出笑容表情動作，從而實現該智慧型機器人2與用戶進行交互。

在其他實施方式中，該執行模組104還藉由運動驅動單元253控制該智慧型機器人2以預設移動的方式及控制該顯示單元254顯示一預設表情圖像的方式來執行該回饋模型以實現該智慧型機器人2與目標物件之間的交互。

請參考圖5，所示為本發明一實施方式中人機交互方法的流程圖。該方法應用在智慧型機器人2中。根據不同需求，該流程圖中步驟的順序可以改變，某些步驟可以省略或合併。該方法包括如下步驟。

S501：獲取來自語音採集單元23獲取的語音資訊及攝像單元22獲取的圖像資訊。

S502：從獲取的語音資訊及圖像資訊中識別一目標物件。

在一實施方式中，該智慧型機器人2對獲取的語音資訊進行語音信號預處理，例如進行去噪處理，使得語音辨識時更加準確。在一實施方式中，該智慧型機器人2從語音資訊中識別一聲紋特徵及從圖像資訊中識別臉部特徵，並根據該聲紋特徵及該臉部特徵識別該目標物件。該目標物件包括人及動物。在一實施方式中，該目標物件還包括靜止物體，例如桌子，椅子，房子等物體。該智慧型機器人2還用於將藉由從該攝像單元22中獲取的圖片與一存儲在存儲單元29中的圖片集進行比對，並根據比對結果確定出該圖片中包含的靜止物體。

S503：確定出與該目標物件對應的基本資訊及相關事件資訊，並將該目標物件的基本資訊與該相關事件資訊進行關聯。

在一實施方式中，所述相關資訊包括，但不限於，該目標物件的基本資訊、及與該目標物件相關的事件資訊。在一實施方式中，當目標物件為人時，該目標物件的基本資訊包括，但不限於，用戶的姓名、年齡、身高、體重、體型(例如，大體型、中體型、小體型)。當目標物件為物體時，該目標物件的基本資訊包括，但不限於，目標物件的名稱、位置、功能屬性等。例如，該存儲單元29存儲一基本資訊表T1(參考圖4)，該基本資訊表T1定義了目標物件與基本資訊的對應關係。該智慧型機器人2根據該目標物件及該基本資訊表T1確定出與該目標物件對應的基本資訊。

在一實施方式中，與該目標物件相關的事件資訊可以是指發生在某個時間或某個地點的與該目標物件相關的事件。該智慧型機器人2可以控制該語音採集單元23採集該目標物件的語音資訊作為該目標物件的相關事件資訊。在另一實施方式中，該智慧型機器人2可以控制該攝像單元22獲取該目標物件的圖片資訊作為相關事件資訊。在其他實施方式中，該智慧型機器人2同時將藉由語音採集單元23採集的語音資訊及藉由攝像單元22攝取的圖片資訊作為該目標物件的相關事件資訊。

S504：從該目標物件對應的相關事件資訊中提取關鍵資訊。

例如，當該目標物件的相關事件資訊為語音資訊時，該智慧型機器人2識別所獲取的語音資訊，將所識別的語音資訊轉化為文本資料，提取出該文本資料中的關鍵資訊，及將該文本資料中的關鍵資訊作為該相關事件的關鍵資訊。當該當目標物件的相關事件資訊為圖片資訊時，該智慧型機器人2獲取該圖片資訊中包含的面部表情資訊及肢體動作特徵資訊，對所獲取的面部表情資訊進行面部表情特徵提取後確定出面部表情特徵參數，對所獲取的肢體動作資訊進行肢體特徵提取後確定出肢體特徵參數，並將該面部表情特徵參數及肢體特徵參數作為該相關事件資訊的關鍵資訊。

S505：根據所提取的關鍵資訊利用神經網路分析演算法確定該目標物件的情緒類別，根據所提取的關鍵資訊檢索預設的公共基礎知識庫以獲取與該關鍵資訊相關聯的檢索結果，並利用深度學習演算法根據該檢索結果及該目標物件的情緒類別確定出一回饋模型。

本實施方式中，該回饋模型是指用於控制該智慧型機器人2與該目標物件進行交互的指令集。本實施方式中，該公共基礎知識庫可以包括，但不限於人文倫理知識庫、法律法規知識庫、道德情操知識庫、宗教至少庫、天文地理知識庫。在一實施方式中，該公共基礎知識庫存儲在該智慧型機器人2的存儲單元29中。該智慧型機器人2可以直接訪問該存儲單元29中的公共基礎知識庫。在其他實施方式中，該公共基礎知識庫存儲在伺服器3中。該智慧型機器人2藉由通訊單元27訪問該伺服器3中的公共基礎知識庫。

本實施方式中，該深度學習演算法包括，但不限於，“神經詞袋模型”、“遞迴神經網路”、“迴圈神經網路”、“卷積神經網路”。本實施方式中，該目標物件的情緒類別包括高興、悲傷、憤怒、平和、暴躁等情緒。例如，當用戶微笑著對智慧型機器人2說“這些花真漂亮啊！”時，該對智慧型機器人2藉由該語音採集單元23獲取使用者的語音資訊，及藉由該攝像單元22獲取包含使用者的圖像資訊。該對智慧型機器人2根據使用者的語音資訊識別出使用者的聲紋特徵及根據使用者的圖像資訊識別出使用者的臉部特徵。該對智慧型機器人2根據該識別出的聲紋特徵及臉部特徵識別出目標物件為使用者。該對智慧型機器人2確定出使用者的基本資訊，及將使用者發出的語音資訊“這些花真漂亮啊！”及使用者微笑的圖像資訊作為使用者的相關事件資訊，並將使用者的基本資訊與使用者的相關事件資訊進行關聯。該對智慧型機器人2從使用者發出的語音資訊“這些花真漂亮啊！”提取出關鍵資訊為“花”、“漂亮”，及從使用者微笑的圖像資訊中提取出關鍵資訊為“微笑表情”。該對智慧型機器人2根據所提取的該些關鍵資訊“花、漂亮、微笑表情”利用神經網路分析演算法確定該目標物件的情緒類別為高興。該對智慧型機器人2根據所提取的上述關鍵資訊檢索預設的公共基礎知識庫，並利用深度學習演算法根據檢索結果及高興的情緒類別確定出對應的回饋模型。

S506：藉由輸出單元25執行該回饋模型。

在一實施方式中，該智慧型機器人2藉由該輸出單元25輸出語音資訊及輸出表情動作的方式來執行該回饋模型以實現該智慧型機器人2與目標物件之間的交互。具體的，該智慧型機器人2藉由語音輸出單元251輸出語音資訊、藉由表情輸出單元252輸出表情動作的方式執行該回饋模型。例如，當用戶微笑著對智慧型機器人2說“這些花真漂亮啊！”時，該智慧型機器人2識別出該目標物件為使用者。該智慧型機器人2從使用者發出的語音資訊“這些花真漂亮啊！”提取出關鍵資訊為“花”、“漂亮”，及從使用者微笑的圖像資訊中提取出關鍵資訊為“微笑表情”。該智慧型機器人2根據所提取的該些關鍵資訊“花、漂亮、微笑表情”利用神經網路分析演算法確定該目標物件的情緒類別為高興。該智慧型機器人2根據所提取的關鍵資訊“花、漂亮、微笑表情”檢索預設的公共基礎知識庫，並利用深度學習演算法根據檢索結果及高興的情緒類別確定出對應的回饋模型。該回饋模型為控制該智慧型機器人2輸出語音資訊“這些花真的很漂亮，我也很喜歡！”及輸出笑容的表情動作的指令。該智慧型機器人2藉由語音輸出單元251輸出“這些花真的很漂亮，我也很喜歡！”的語音資訊及藉由表情輸出單元252控制設於智慧型機器人2頭部中的眼簾和嘴巴開合及設於眼簾內的眼球轉動輸出笑容表情動作，從而實現該智慧型機器人2與用戶進行交互。

在其他實施方式中，該智慧型機器人2還藉由運動驅動單元253控制該智慧型機器人2以預設移動的方式及控制該顯示單元254顯示一預設表情圖像的方式來執行該回饋模型以實現該智慧型機器人2與目標物件之間的交互。

在一實施方式中，該方法還包括步驟：設定該智慧型機器人的情感方向；從該目標物件的相關事件資訊中提取關鍵資訊；根據所提取的關鍵資訊利用神經網路分析演算法確定該目標物件的情緒類別；根據所提取的關鍵資訊檢索預設的公共基礎知識庫；及並利用深度學習演算法根據檢索結果、該目標物件的情緒類別及該設定的智慧型機器人2的情感方向確定出對應的回饋模型。在一實施方式中，該設定的情感方向包括勵志型、安慰型、諷刺型、幽默型等。

在一實施方式中，該方法還包括步驟：藉由壓力感測器24感測用戶輸入的按壓力；藉由該味道感測器26檢測智慧型機器人2周圍環境的氣味資訊；及根據所提取的關鍵資訊檢索預設的公共基礎知識庫，並利用深度學習演算法根據檢索結果、該目標物件的情緒類別、該感測的按壓力及該感測的氣味資訊確定出對應的回饋模型。

綜上所述，本發明符合發明專利要件，爰依法提出專利申請。惟，以上所述者僅為本發明之較佳實施方式，舉凡熟悉本案技藝之人士，於爰依本發明精神所作之等效修飾或變化，皆應涵蓋於以下之申請專利範圍內。

Claims

一種智慧型機器人，包括攝像單元、語音採集單元、輸出單元及處理單元，其改良在於，該處理單元用於：獲取來自該語音採集單元獲取的語音資訊及該攝像單元獲取的圖像資訊；從獲取的語音資訊及圖像資訊中識別一目標物件；確定出與該目標物件對應的基本資訊及相關事件資訊，並將該目標物件的基本資訊與該相關事件資訊進行關聯，其中，將該目標物件的語音資訊及圖片資訊作為該目標物件的相關事件資訊；從該目標物件對應的語音資訊及圖片資訊中提取關鍵資訊；根據從所述語音資訊及所述圖片資訊中提取出的關鍵資訊利用神經網路分析演算法確定該目標物件的情緒類別，根據所提取的關鍵資訊檢索預設的公共基礎知識庫以獲取與該關鍵資訊相關聯的檢索結果，並利用深度學習演算法根據該檢索結果、該目標物件的情緒類別及該智慧型機器人預先設定的情感方向確定出一回饋模型，其中，該回饋模型是指用於控制該智慧型機器人與該目標物件進行交互的指令集；及藉由該輸出單元執行該回饋模型。
如申請專利範圍第1項所述的智慧型機器人，其中，該處理單元從該語音資訊中識別一聲紋特徵及從該圖像資訊中識別臉部特徵，並根據該聲紋特徵及該臉部特徵識別對應的目標物件。
如申請專利範圍第1項所述的智慧型機器人，其中，該處理單元識別所獲取的語音資訊，將所識別的語音資訊轉化為文本資料，提取出該文本資料中的關鍵資訊，並將該文本資料中的關鍵資訊作為該相關事件的關鍵資訊。
如申請專利範圍第1項所述的智慧型機器人，其中，該處理單元獲取該圖片資訊中包含的面部表情資訊及肢體動作特徵資訊，對所獲取的面部表情資訊進行面部表情特徵提取後確定出面部表情特徵參數，對所獲取的肢體動作資訊進行肢體特徵提取後確定出肢體特徵參數，並將該面部表情特徵參數及肢體特徵參數作為該相關事件資訊的關鍵資訊。
如申請專利範圍第1項所述的智慧型機器人，其中，該處理單元還用於設定該智慧型機器人的情感方向為勵志型、安慰型、諷刺型或幽默型。
如申請專利範圍第1項所述的智慧型機器人，其中，該輸出單元包括語音輸出單元及表情輸出單元，該執行模組藉由控制該語音輸出單元輸出語音資訊，及藉由該表情輸出單元輸出表情動作的方式執行該回饋模型。
一種人機交互方法，應用在一智慧型機器人中，其改良在於，該方法包括步驟：獲取一語音採集單元獲取的語音資訊：獲取一攝像單元獲取的圖像資訊；從獲取的語音資訊及圖像資訊中識別一目標物件；確定出與該目標物件對應的基本資訊及相關事件資訊，並將該目標物件的基本資訊與該相關事件資訊進行關聯，其中，將該目標物件的語音資訊及圖片資訊作為該目標物件的相關事件資訊；從該目標物件對應的語音資訊及圖片資訊中提取關鍵資訊；根據從所述語音資訊及所述圖片資訊中提取出的關鍵資訊利用神經網路分析演算法確定該目標物件的情緒類別，根據所提取的關鍵資訊檢索預設的公共基礎知識庫以獲取與該關鍵資訊相關聯的檢索結果，並利用深度學習演算法根據該檢索結果、該目標物件的情緒類別確定出一回饋模型及該智慧型機器人預先設定的情感方向，其中，該回饋模型是指用於控制該智慧型機器人與該目標物件進行交互的指令集；及藉由一輸出單元執行該回饋模型。
如申請專利範圍第7項所述的人機交互方法，其中，該方法在步驟“從獲取的語音資訊及圖像資訊中識別一目標物件”還包括：從該語音資訊中識別一聲紋特徵及從該圖像資訊中識別臉部特徵，並根據該聲紋特徵及該臉部特徵識別對應的目標物件。
如申請專利範圍第7項所述的人機交互方法，其中，該方法還包括步驟：識別所獲取的語音資訊，將所識別的語音資訊轉化為文本資料，提取出該文本資料中的關鍵資訊，並將該文本資料中的關鍵資訊作為該相關事件的關鍵資訊。
如申請專利範圍第7項所述的人機交互方法，其中，該方法還包括步驟：獲取該圖片資訊中包含的面部表情資訊及肢體動作特徵資訊，對所獲取的面部表情資訊進行面部表情特徵提取後確定出面部表情特徵參數，對所獲取的肢體動作資訊進行肢體特徵提取後確定出肢體特徵參數，並將該面部表情特徵參數及肢體特徵參數作為該相關事件資訊的關鍵資訊。
如申請專利範圍第7項所述的人機交互方法，其中，該方法還包括步驟：藉由控制一語音輸出單元輸出語音資訊，及藉由一表情輸出單元輸出表情動作的方式執行該回饋模型。