TW202219850A - 建模系統、建模裝置及建模方法 - Google Patents
建模系統、建模裝置及建模方法 Download PDFInfo
- Publication number
- TW202219850A TW202219850A TW109138577A TW109138577A TW202219850A TW 202219850 A TW202219850 A TW 202219850A TW 109138577 A TW109138577 A TW 109138577A TW 109138577 A TW109138577 A TW 109138577A TW 202219850 A TW202219850 A TW 202219850A
- Authority
- TW
- Taiwan
- Prior art keywords
- data set
- model
- source
- modeling
- parameter set
- Prior art date
Links
- 238000010276 construction Methods 0.000 title abstract 5
- 238000012549 training Methods 0.000 claims abstract description 94
- 238000000034 method Methods 0.000 claims abstract description 22
- 238000013503 de-identification Methods 0.000 claims abstract description 16
- 230000009466 transformation Effects 0.000 claims description 17
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 230000001131 transforming effect Effects 0.000 claims 6
- 230000005540 biological transmission Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/211—Schema design and management
- G06F16/212—Schema design and management with details for data modelling support
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一種建模系統、裝置及方法。建模系統包含至少一第一來源裝置、至少一第二來源裝置及一建模裝置。建模裝置自各第一來源裝置接收對應的去識別資料集,自各第二來源裝置接收對應的來源模型的參數集,依據預設資料規格將該至少一去識別資料集對齊以產生至少一對齊資料集,以該至少一對齊資料集將原始模型訓練為代訓模型,根據該至少一參數集及代訓模型的代訓參數集產生至少一更新參數集,以該至少一更新參數集其中之一更新該代訓模型,且傳送該至少一更新參數集至該至少一第二來源裝置。各第二來源裝置根據對應的更新參數集更新對應的來源模型。
Description
本發明係關於一種建模系統、建模裝置及建模方法。具體而言,本發明係關於一種利用多來源的資料集與模型的參數集以建置模型的系統、裝置及方法。
隨著大數據時代的來臨,愈來愈多的企業會收集各種資料來建置不同應用領域的模型,再利用所建置的模型作出業務上的決策(例如:銀行業者會基於使用者的銀行存款及消費行為建置模型,再利用所建置的模型決定是否給予使用者信用貸款)。然而,企業自有的資料的廣度與深度相當有限。以廣度而言,任何企業都只會擁有某些面向的資料(例如:銀行業者只會有使用者的存款、貸款、信用卡額度等資料,而不會有使用者的消費行為、罰單繳納狀況等資料)。以深度而言,任何企業所擁有的資料的筆數也只是浩瀚資料中的極小一部份(例如:銀行業只會有某些使用者的資料,而不會有所有使用者的資料)。因此,結合多方(例如:跨領域、跨單位)資料以作出更精準的決策、創造更多的價值,勢必為未來的趨勢。
資料擁有方大致可被區分為兩類。第一類資料擁有方具有自己的模型(例如:具有建模的能力,因此可訓練出自己所要使用的模型),但這些資料擁有方在運用其自身的資料建模時,常常會發現缺少一些關鍵性的資料,因而所建置出來的模型不夠精準。第二類資料擁有方則不具有自己的模型(例如:不具有建模的能力,因此無法訓練出自己所要使用的模型),因而往往在擁有大量資料的情況下不知如何具體運用。然而,不論是哪一類的資料擁有方,其所擁有的資料往往具有個人身分(例如:姓名、身份證字號)或其他需要被保護的資訊(例如:地址、收入),因此無法隨意地釋出資料。
有鑑於此,如何在避免侵害個資的情況下,利用不同資料擁有方的資料以建置更精準的模型,為本領域亟需解決的技術問題。
本發明的一目的在於提供一種建模系統。該建模系統包含至少一第一來源裝置、至少一第二來源裝置及一建模裝置。各該至少一第一來源裝置具有一去識別資料集,且各該至少一第二來源裝置具有一來源模型。該建模裝置自各該至少一第一來源裝置接收對應的該去識別資料集,且自各該至少一第二來源裝置接收對應的該來源模型的一參數集。該建模裝置依據一預設資料規格將該至少一去識別資料集對齊以產生至少一對齊資料集,且以該至少一對齊資料集將一原始模型訓練為一代訓模型。該建模裝置根據該至少一參數集及該代訓模型的一代訓參數集產生至少一更新參數集,且以該更新參數集其中之一更新該代訓模型。該建模裝置向各該至少一第二來源裝置傳送該至少一更新參數集其中之一,且各該至少一第二來源裝置根據對應的該更新參數集更新對應的該來源模型。該至少一來源模型、該原始模型及該代訓模型皆符合一預設架構。
本發明的另一目的在於提供一種建模裝置。該建模裝置包含一收發介面及一處理器,且二者電性連接。該收發介面自至少一第一來源裝置的每一個接收一去識別資料集,且自至少一第二來源裝置的每一個接收一來源模型的一參數集。該處理器依據一預設資料規格將該至少一去識別資料集對齊以產生至少一對齊資料集,且以該至少一對齊資料集將一原始模型訓練為一代訓模型。該處理器根據該至少一參數集及該代訓模型的一代訓參數集產生至少一更新參數集,且以該更新參數集其中之一更新該代訓模型。該收發介面還向各該至少一第二來源裝置傳送該至少一更新參數集其中之一,俾各該至少一第二來源裝置根據對應的該更新參數集更新對應的該來源模型。該至少一來源模型、該原始模型及該代訓模型皆符合一預設架構。
本發明的再一目的在於提供一種建模方法。該建模方法包含下列步驟:(a)由一建模裝置自至少一第一來源裝置的每一個接收一去識別資料集,(b)由該建模裝置自至少一第二來源裝置的每一個接收一來源模型的一參數集,(c)由該建模裝置依據一預設資料規格將該至少一去識別資料集對齊以產生至少一對齊資料集,(d)由該建模裝置以該至少一對齊資料集將一原始模型訓練為一代訓模型,(e)由該建模裝置根據該至少一參數集及該代訓模型的一代訓參數集產生至少一更新參數集,(f)由該建模裝置以該至少一更新參數集其中之一更新該代訓模型,(g)由該建模裝置向各該至少一第二來源裝置傳送該至少一更新參數集其中之一,以及(h)由各該至少一第二來源裝置根據對應的該更新參數集更新對應的該來源模型。該至少一來源模型、該原始模型及該代訓模型皆符合一預設架構。
本發明所提供的建模技術(至少包含系統、裝置及方法)利用至少一第一來源裝置(亦即,不具有建模能力的資料擁有方)各自的一去識別資料集以及至少一第二來源裝置(亦即,具有建模能力的資料擁有方)各自的一來源模型的一參數集來建置模型。具體而言,本發明所提供的建模技術依據一預設資料規格將該至少一去識別資料集對齊以產生至少一對齊資料集,且以該至少一對齊資料集將一原始模型訓練為一代訓模型。本發明所提供的建模技術還根據該至少一參數集及該代訓模型的一代訓參數集產生至少一更新參數集,且以該更新參數集其中之一更新該代訓模型。本發明所提供的建模技術還會提供該至少一更新參數集給該至少一第二來源裝置,使各該至少一第二來源裝置根據對應的該更新參數集更新對應的該來源模型。
藉由前述運作/步驟,該至少一第一來源裝置也會有相對應的該代訓模型可以使用,且該代訓模型以及該至少一第二來源裝置的該至少一來源模型在更新時係利用到彼此的資料。因此,本發明所提供的建模技術能在避免侵害個資的情況下,利用不同資料擁有方的資料建置出更精準的模型。
以下結合圖式闡述本發明的詳細技術及實施方式,俾使本發明所屬技術領域中具有通常知識者能理解所請求保護的發明的技術特徵。
以下將透過實施方式來解釋本發明所提供的建模系統、建模裝置及建模方法。然而,該等實施方式並非用以限制本發明需在如該等實施方式所述的任何環境、應用或方式方能實施。因此,關於以下實施方式的說明僅在於闡釋本發明的目的,而非用以限制本發明的範圍。應理解,在以下實施方式及圖式中,與本發明非直接相關的元件已省略而未繪示。此外,圖式中各元件的尺寸以及元件間的尺寸比例僅為便於繪示及說明,而非用以限制本發明的範圍。
本發明的第一實施方式為一建模系統1,其架構示意圖係描繪於第1圖。建模系統1包含一建模裝置11、二個第一來源裝置21、23及三個第二來源裝置31、33、35。建模裝置11可以是伺服器、工作站電腦或是其他具有足夠運算能力的電腦/計算機,第一來源裝置21、23為不具有建模能力但擁有資料的資料擁有方的電腦裝置,而第二來源裝置31、33、35為具有建模能力的資料擁有方的電腦裝置。需說明者,前述第一來源裝置的個數與第二來源裝置的個數僅為舉例說明而已。本發明未限制一建模系統中的第一來源裝置的個數,只要為正整數即可。類似的,本發明未限制一建模系統中的第二來源裝置的個數,只要為正整數即可。
建模裝置11包含一收發介面111及一處理器113,且處理器113電性連接至收發介面111。收發介面111可為本發明所屬技術領域中具有通常知識者所知的一有線傳輸介面或一無線傳輸介面,其係用於連接至一網路(例如:一網際網路、一區域網路)且可在該網路收送訊號及資料。處理器113可為各種處理器、中央處理單元(Central Processing Unit;CPU)、微處理器(Microprocessor Unit;MPU)、數位訊號處理器(Digital Signal Processor;DSP)或本發明所屬技術領域中具有通常知識者所知悉的其他計算裝置。建模裝置11還可包含一儲存器115以儲存運作時的代訓模型110、各種資料集或/及各種參數集。儲存器115可為一記憶體、一通用串列匯流排(Universal Serial Bus;USB)碟、一隨身碟、一光碟(Compact Disk;CD)、一數位多工光碟(Digital Versatile Disc;DVD)、一硬碟(Hard Disk Drive;HDD)或本發明所屬技術領域中具有通常知識者所知的任何其他具有相同功能的非暫態儲存媒體或裝置。
於本實施方式中,建模裝置11會協助第一來源裝置21、23將一原始模型(未繪示)訓練為一代訓模型110,且會協助第二來源裝置31、33、35訓練他們分別擁有的來源模型310、330、350。前述的原始模型、代訓模型110及來源模型310、330、350皆符合同一預設架構,且該預設架構可為任何一種能以資料訓練以達成某一目的(例如:辨識、分析)的模型的架構(例如:任一種機器學習模型的架構)。於本實施方式中,第二來源裝置31、33、35在與建模裝置11協同運作前不知建模裝置11所要採用的模型的預設架構100,因此建模裝置11的收發介面111會傳送預設架構100至第二來源裝置31、33、35。在某些實施方式中,若第二來源裝置31、33、35在與建模裝置11協同運作前已知建模裝置11所要採用的模型的預設架構,則建模裝置11的收發介面111不需傳送預設架構100至第二來源裝置31、33、35。
以下將詳述建模裝置11如何與第一來源裝置21、23及第二來源裝置31、33、35協同運作以利用所有的資料集訓練出代訓模型110及來源模型310、330、350。
第一來源裝置21、23分別具有可提供給他人使用且已不具有能識別出特定個人資訊的去識別資料集212、232。在某些實施方式中,第一來源裝置21、23係分別將原始資料集210、230(可能具有特定個人資訊)進行至少一轉換以產生去識別資料集212、232。舉例而言,一第一來源裝置(可為第一來源裝置21或/及第一來源裝置23)可將自己所擁有的原始資料集轉換至一第一座標空間(未繪示)以產生一第一轉換資料集(未繪示),再以該第一轉換資料集作為該第一去識別資料集。再舉例而言,一第一來源裝置(可為第一來源裝置21或/及第一來源裝置23)可將自己所擁有的原始資料集轉換至一第一座標空間以產生一第一轉換資料集,將該第一轉換資料集進行第二次轉換至一第二座標空間以產生一第二轉換資料集,再以該第二轉換資料集作為該去識別資料集。
需說明者,第一來源裝置所執行的任一次的轉換可包含投影、抽樣、編碼或/及擾動。此外,第一來源裝置21將原始資料集210轉換為去識別資料集212的方式與第一來源裝置23將原始資料集230轉換為去識別資料集232的方式可相同,亦可不相同。
建模裝置11的收發介面111從第一來源裝置21、23分別接收去識別資料集212、232。由於去識別資料集212、232來自於不同的裝置,其所包含的資料的項目可能不同,且資料的記錄格式或/及單位可能不同。為訓練出精準的代訓模型110,建模裝置11的處理器113依據一預設資料規格將去識別資料集212、232各自對齊以分別產生一對齊資料集。舉例而言,建模裝置11的處理器113可執行以下運作的一或多個:(a)依據該預設資料規格,決定去識別資料集212、232各自所包含的至少一欄位的每一個的一欄位名稱,(b)依據該預設資料規格,將去識別資料集212、232各自所包含的複數個資料正規化,以及(c)將去識別資料集212、232各自所包含的該等資料的複數個時間戳對齊。接著,建模裝置11的處理器113以該等對齊資料集將一原始模型訓練為代訓模型110。
第二來源裝置31、33、35分別具有符合該預設架構的來源模型310、330、350。第二來源裝置31、33、35具有建模能力,因此第二來源裝置31、33、35可分別利用自己的原始資料集訓練來源模型310、330、350。建模裝置11的收發介面111從第二來源裝置31、33、35分別接收來源模型310、330、350的參數集312、332、352。接著,建模裝置11的處理器113根據參數集312、332、352及代訓模型110的一代訓參數集(未繪示)產生至少一更新參數集(未繪示)。建模裝置11的處理器113再以該至少一更新參數集其中之一更新代訓模型110。此外,建模裝置11的收發介面111向第二來源裝置31、33、35個別地傳送該至少一更新參數集其中之一。第二來源裝置31、33、35再根據對應的更新參數集更新對應的來源模型310、330、350。
為便於理解,茲舉一具體範例詳細說明。於該具體範例中,建模裝置11所採用的該預設架構為一機器學習模型的架構,且建模裝置11係採橫向聯盟式學習(horizontal federated learning)。建模裝置11的收發介面111從第二來源裝置31、33、35所分別接收的參數集312、332、352為來源模型310、330、350所分別具有的全部梯度值或一部分的梯度值(gradients)。建模裝置11的處理器113根據參數集312、332、352及代訓模型110的代訓參數集產生一更新參數集120,且更新參數集120、122、124包含複數個聚合梯度值(aggregated gradients)。建模裝置11的處理器113係以更新參數集120更新代訓模型110,且建模裝置11的收發介面111向第二來源裝置31、33、35個別地傳送更新參數集120、122、124。第二來源裝置31、33、35再分別根據更新參數集120、122、124更新來源模型310、330、350。在某些實施方式中,更新參數集120、122、124也可能是相同的參數集。
茲再舉一具體範例詳細說明。於該具體範例中,建模裝置11所採用的該預設架構為一機器學習模型的架構,且建模裝置11係採縱向聯盟式學習(vertical federated learning)。建模裝置11的收發介面111從第二來源裝置31、33、35所分別接收的參數集312、332、352為來源模型310、330、350所分別具有的全部梯度值或一部分的梯度值,甚至還可包含損失值(loss value)。建模裝置11的處理器113根據參數集312、332、352及代訓模型110的代訓參數集產生複數組更新參數集。建模裝置11的處理器113係以該等更新參數集其中之一更新代訓模型110。建模裝置11的收發介面111向第二來源裝置31、33、35分別傳送更新參數集140、142、144,俾第二來源裝置31、33、35分別根據更新參數集140、142、144更新來源模型310、330、350。
之後,若建模裝置11的收發介面111從第一來源裝置21、23分別接收到其他的去識別資料集,建模裝置11的處理器113會依據該預設資料規格將本次所接到的各個去識別資料集對齊以產生一對齊資料集,再以本次所產生的對齊資料集繼續訓練代訓模型110。此外,若建模裝置11的收發介面111從第二來源裝置31、33、35分別接收到更新後的來源模型310、330、350的參數集,建模裝置11的處理器113會根據本次所接收到的來源模型310、330、350的參數集與代訓模型110的代訓參數集產生至少一更新參數集,且以本次所產生的更新參數集其中之一更新代訓模型110。之後,建模裝置11的收發介面111向各第二來源裝置31、33、35個別地傳送本次所產生的更新參數集其中之一,俾第二來源裝置31、33、35分別根據對應的更新參數集更新來源模型310、330、350。依據上述說明,本發明所屬技術領域中具有通常知識者應能理解建模裝置11可不斷地重複前述運作以提高代訓模型110與來源模型310、330、350的精準度,茲不贅言。
於本實施方式中,為確保資訊內容不外洩,參數集312、332、352與更新參數集120、140、142、144係以一加密模式於建模裝置11及對應的第二來源裝置31、33、35間傳輸。在其他實施方式中,若建模裝置11、第一來源裝置21、23及第二來源裝置31、33、35設置於資訊安全的環境,則參數集312、332、352與更新參數集120、140、142、144可不以加密模式於建模裝置11及對應的第二來源裝置31、33、35間傳輸。
茲提供一具體應用實例以利了解建模系統1所能達成的具體功效。於該具體應用實例中,建模系統1包含建模裝置11、一個第一來源裝置及二個第二來源裝置。第一來源裝置屬於一網站公司,其不具有建模能力,但具有如第2A圖所示的原始資料集D1。該二個第二來源裝置皆具有建模能力,但分屬一第一銀行及一第二銀行。屬於該第一銀行的第二來源裝置具有如第2B圖所示的原始資料集D2,而屬於該第二銀行的第二來源裝置具有如第2C圖所示的原始資料集D3。針對一使用者(例如:使用者「林慶餘」)申請信用貸款的情況,採用習知技術與採用本發明的建模系統1將會有不同的結果。
依據習知技術,第一銀行可利用自己的原始資料集D2建立一第一徵信模型,但因原始資料集D2的深度與廣度有限,因此該第一徵信模型在評估是否給予使用者「林慶餘」信用貸款時,無法考慮做出較為精準的決定。類似的,依據習知技術,第二銀行可利用自己的原始資料集D3建立一第二徵信模型,但因原始資料集D3的深度與廣度有限,因此該第二徵信模型在評估是否給予使用者「林慶餘」信用貸款時,亦無法作出較為精準的決定。
若採用本發明的建模系統1,建模裝置11會利用第一來源裝置所提供的去識別資料集(亦即,將原始資料集D1轉換後所得的去識別資料集)來訓練一代訓模型,且會依據該代訓模型的一代訓練參數集、第一銀行的第一徵信模型的參數集與第二銀行的第二徵信模型的參數集來產生至少一更新參數集,再利用這些更新參數集更新該代訓模型、第一徵信模型與第二徵信模型。藉此,代訓模型、第一徵信模型與第二徵信模型在更新時都有間接地利用到所有的原始資料集D1、D2、D3。在所利用的原始資料集的廣度與深度都大幅地提高的情況下,代訓模型、第一徵信模型與第二徵信模型皆能作出較為精準的決定。
本發明的第二實施方式為一建模方法,其主要流程圖係描繪於第3圖。該建模方法適用於一建模系統(例如:前述實施方式中的建模系統1),其中該建模系統包含一建模裝置、至少一第一來源裝置及至少一第二來源裝置。於本實施方式中,該建模方法包含步驟S301至步驟S315。
於步驟S301,由該建模裝置自各該至少一第一來源裝置接收一去識別資料集。在某些實施方式中,在該步驟S301前,各該第一來源裝置先執行一步驟以將一原始資料集轉換至一第一座標空間以產生一轉換資料集,再以該轉換資料集作為該去識別資料集。在某些實施方式中,在該步驟S301前,各該第一來源裝置先執行一步驟以將一原始資料集轉換至一第一座標空間以產生一第一轉換資料集,再執行一步驟以將該第一轉換資料集進行第二次轉換至一第二座標空間以產生一第二轉換資料集,再以該第二轉換資料集作為該去識別資料集。
於步驟S303,由該建模裝置依據一預設資料規格將該至少一去識別資料集對齊以產生至少一對齊資料集。在某些實施方式中,該步驟S303係對各該至少一去識別資料集執行以下步驟以產生對應的該對齊資料集:(a)依據該預設資料規格,決定該第一去識別資料集所包含的至少一欄位的每一個的一欄位名稱,(b)依據該預設資料規格,將該第一去識別資料集所包含的複數個資料正規化,以及(c)將該等資料的複數個時間戳對齊。之後,於步驟S305,由該建模裝置以該至少一對齊資料集將一原始模型訓練為一代訓模型。
另外,於步驟S307,由該建模裝置自各該至少一第二來源裝置接收一來源模型的一參數集。需說明者,本發明未限制步驟S301~ S305與步驟S307間的執行順序;換言之,建模方法可先執行步驟S307再執行步驟S301~ S305,可先執行步驟S301~ S305再執行步驟S307,亦可再執行步驟S301~ S305的過程執行步驟S307。
於步驟S309,由該建模裝置根據該至少一參數集及該代訓模型的一代訓參數集產生至少一更新參數集。接著,於步驟S311,由該建模裝置以該至少一更新參數集其中之一更新該代訓模型。於步驟S313,由該建模裝置向各該至少一第二來源裝置傳送該至少一更新參數集其中之一。需說明者,本發明未限制步驟S311與步驟S313的順序;換言之,建模方法可先執行步驟S311再執行步驟S313,可先執行步驟S313再執行步驟S311,亦可同時執行步驟S311與步驟S313。於步驟S315,由各該至少一第二來源裝置根據對應的該更新參數集更新對應的該來源模型。
需說明者,在本實施方式中,該至少一來源模型、該原始模型及該代訓模型皆符合一預設架構。另需說明者,建模方法可重複地執行步驟S301~步驟S315以提高該代訓模型與該至少一來源模型的精準度,茲不贅言。
除了上述步驟,第二實施方式還能執行建模系統1所能執行的所有運作及步驟,具有同樣的功能,且達到同樣的技術效果。本發明所屬技術領域中具有通常知識者可直接瞭解第二實施方式如何基於上述的建模系統1以執行此等運作及步驟,具有同樣的功能,並達到同樣的技術效果,故不贅述。
需說明者,於本發明專利說明書及申請專利範圍中,某些用語(包含:來源裝置、去識別資料集、參數集、對齊資料集、代訓參數集、更新參數集、座標空間、轉換資料集)前被冠以「第一」或「第二」,該等「第一」及「第二」係用來區隔該等用語彼此不同。
綜上所述,本發明所提供的建模技術(至少包含系統、裝置及方法)利用至少一第一來源裝置(亦即,不具有建模能力的資料擁有方)各自的一去識別資料集以及至少一第二來源裝置(亦即,具有建模能力的資料擁有方)各自的一來源模型的一參數集來建置模型。具體而言,本發明所提供的建模技術依據一預設資料規格將該至少一去識別資料集對齊以產生至少一對齊資料集,且以該至少一對齊資料集將一原始模型訓練為一代訓模型。本發明所提供的建模技術還根據該至少一參數集及該代訓模型的一代訓參數集產生至少一更新參數集,且以該更新參數集其中之一更新該代訓模型。本發明所提供的建模技術還會提供該至少一更新參數集給該至少一第二來源裝置,使各該至少一第二來源裝置根據對應的該更新參數集更新對應的該來源模型。
藉由前述運作/步驟,該至少一第一來源裝置也會有相對應的該代訓模型可以使用,且該代訓模型以及該至少一第二來源裝置的該至少一來源模型在更新時係利用到彼此的資料。因此,本發明所提供的建模技術能在避免侵害個資的情況下,利用不同資料擁有方的資料建置出更精準的模型。
上述各實施方式係用以例示性地說明本發明的部分實施態樣,以及闡釋本發明的技術特徵,而非用來限制本發明的保護範疇及範圍。任何本發明所屬技術領域中具有通常知識者可輕易完成的改變或均等性的安排均屬於本發明所主張的範圍,本發明的權利保護範圍以申請專利範圍為準。
1:建模系統
11:建模裝置
100:預設架構
110:代訓模型
111:收發介面
113:處理器
115:儲存器
120、122、124、140、142、144:更新參數集
21、23:第一來源裝置
210、230:原始資料集
212、232:去識別資料集
31、33、35:第二來源裝置
310、330、350:來源模型
312、332、352:參數集
第1圖描繪本發明的某些實施方式的建模系統1的架構示意圖。
第2A圖、第2B圖及第2C圖描繪本發明的一具體應用實例中的原始資料集D1、D2、D3的示意圖。
第3圖描繪本發明的某些實施方式的建模方法的流程圖。
無
1:建模系統
11:建模裝置
100:預設架構
110:代訓模型
111:收發介面
113:處理器
115:儲存器
120、122、124、140、142、144:更新參數集
21、23:第一來源裝置
210、230:原始資料集
212、232:去識別資料集
31、33、35:第二來源裝置
310、330、350:來源模型
312、332、352:參數集
D1、D2、D3:原始資料集
S301~S315:步驟
Claims (20)
- 一種建模裝置,包含: 一收發介面,自至少一第一來源裝置的每一個接收一第一去識別資料集,且自至少一第二來源裝置的每一個接收一來源模型的一第一參數集;以及 一處理器,電性連接至該收發介面,依據一預設資料規格將該至少一第一去識別資料集對齊以產生至少一第一對齊資料集,以該至少一第一對齊資料集將一原始模型訓練為一代訓模型,根據該至少一第一參數集及該代訓模型的一第一代訓參數集產生至少一第一更新參數集, 其中,該處理器還以該至少一第一更新參數集其中之一更新該代訓模型,該收發介面還向各該至少一第二來源裝置傳送該至少一第一更新參數集其中之一,俾各該至少一第二來源裝置根據對應的該第一更新參數集更新對應的該來源模型, 其中,該至少一來源模型、該原始模型及該代訓模型皆符合一預設架構。
- 如請求項1所述的建模裝置,其中該收發介面還自各該至少一第一來源裝置接收一第二去識別資料集,且自各該至少一第二來源裝置接收對應的該來源模型的一第二參數集, 其中,該處理器還依據該預設資料規格將該至少一第二去識別資料集對齊以產生至少一第二對齊資料集,以該至少一第二對齊資料集訓練更新後的該代訓模型,根據該至少一第二參數集及該代訓模型的一第二代訓參數集產生至少一第二更新參數集,且以該至少一第二更新參數集其中之一更新該代訓模型, 其中,該收發介面還傳送該至少一第二更新參數集至該至少一第二來源裝置,俾各該至少一第二來源裝置根據對應的該第二更新參數集組更新對應的該來源模型。
- 如請求項1所述的建模裝置,其中各該第一來源裝置藉由執行以下運作以產生對應的該第一去識別資料集: 將一原始資料集轉換至一第一座標空間以產生一第一轉換資料集,以及 以該第一轉換資料集作為該第一去識別資料集。
- 如請求項1所述的建模裝置,其中各該第一來源裝置藉由執行以下運作以產生對應的該第一去識別資料組: 將一原始資料集轉換至一第一座標空間以產生一第一轉換資料集, 將該第一轉換資料集進行第二次轉換至一第二座標空間以產生一第二轉換資料集,以及 以該第二轉換資料集作為該第一去識別資料集。
- 如請求項1所述的建模裝置,其中該收發介面還傳送該預設架構至各該至少一第二來源裝置。
- 如請求項1所述的建模裝置,其中各該第一參數集與各該至少一第一更新參數集係以一加密模式於該收發介面及對應的該第二來源裝置間傳輸。
- 如請求項1所述的建模裝置,其中該處理器係對各該至少一第一去識別資料集執行以下運作: 依據該預設資料規格,決定該第一去識別資料集所包含的至少一欄位的每一個的一欄位名稱, 依據該預設資料規格,將該第一去識別資料集所包含的複數個資料正規化,以及 將該等資料的複數個時間戳對齊。
- 一種建模系統,包含: 至少一第一來源裝置,其中各該至少一第一來源裝置具有一第一去識別資料集; 至少一第二來源裝置,其中各該至少一第二來源裝置具有一來源模型;以及 一建模裝置,自各該至少一第一來源裝置接收對應的該第一去識別資料集,自各該至少一第二來源裝置接收對應的該來源模型的一第一參數集,依據一預設資料規格將該至少一第一去識別資料集對齊以產生至少一第一對齊資料集,以該至少一第一對齊資料集將一原始模型訓練為一代訓模型,根據該至少一第一參數集及該代訓模型的一第一代訓參數集產生至少一第一更新參數集,以該至少一第一更新參數集其中之一更新該代訓模型,且向各該至少一第二來源裝置傳送該至少一第一更新參數集其中之一, 其中,各該至少一第二來源裝置根據對應的該第一更新參數集更新對應的該來源模型, 其中,該至少一來源模型、該原始模型及該代訓模型皆符合一預設架構。
- 如請求項8所述的建模系統,其中該建模裝置還自各該至少一第一來源裝置接收一第二去識別資料集,且自各該至少一第二來源裝置接收對應的該來源模型的一第二參數集, 其中,該建模裝置還依據該預設資料規格將該至少一第二去識別資料集對齊以產生至少一第二對齊資料集,以該至少一第二對齊資料集訓練更新後的該代訓模型,根據該至少一第二參數集及該代訓模型的一第二代訓參數集產生至少一第二更新參數集,以該至少一第二更新參數集其中之一更新該代訓模型,且向各該至少一第二來源裝置傳送該至少一第一更新參數集其中之一, 其中,各該至少一第二來源裝置還根據對應的該第二更新參數集更新對應的該來源模型。
- 如請求項8所述的建模系統,其中各該第一來源裝置藉由執行以下運作以產生對應的該第一去識別資料集: 將一原始資料集轉換至一第一座標空間以產生一第一轉換資料集,以及 以該第一轉換資料集作為該第一去識別資料集。
- 如請求項8所述的建模系統,其中各該第一來源裝置藉由執行以下運作以產生對應的該第一去識別資料集: 將一原始資料集轉換至一第一座標空間以產生一第一轉換資料集, 將該第一轉換資料集進行第二次轉換至一第二座標空間以產生一第二轉換資料集,以及 以該第二轉換資料集作為該第一去識別資料集。
- 如請求項8所述的建模系統,其中該建模裝置還傳送該預設架構至各該至少一第二來源裝置。
- 如請求項8所述的建模系統,其中各該第一參數集與各該至少一第一更新參數集係以一加密模式於該建模裝置及對應的該第二來源裝置間傳輸。
- 如請求項8所述的建模系統,其中該建模裝置係對各該至少一第一去識別資料集執行以下運作: 依據該預設資料規格,決定該第一去識別資料集所包含的至少一欄位的每一個的一欄位名稱, 依據該預設資料規格,將該第一去識別資料集所包含的複數個資料正規化,以及 將該等資料的複數個時間戳對齊。
- 一種建模方法,包含下列步驟: (a)由一建模裝置自至少一第一來源裝置的每一個接收一第一去識別資料集; (b)由該建模裝置自至少一第二來源裝置的每一個接收一來源模型的一第一參數集; (c)由該建模裝置依據一預設資料規格將該至少一第一去識別資料集對齊以產生至少一第一對齊資料集; (d)由該建模裝置以該至少一第一對齊資料集將一原始模型訓練為一代訓模型; (e)由該建模裝置根據該至少一第一參數集及該代訓模型的一第一代訓參數集產生至少一第一更新參數集; (f)由該建模裝置以該至少一第一更新參數集其中之一更新該代訓模型; (g)由該建模裝置向各該至少一第二來源裝置傳送該至少一第一更新參數集其中之一;以及 (h)由各該至少一第二來源裝置根據對應的該第一更新參數集更新對應的該來源模型, 其中,該至少一來源模型、該原始模型及該代訓模型皆符合一預設架構。
- 如請求項15所述的建模方法,還包含下列步驟: 由該建模裝置自各該至少一第一來源裝置接收一第二去識別資料集; 由該建模裝置自各該至少一第二來源裝置接收對應的該來源模型的一第二參數集; 由該建模裝置依據該預設資料規格將該至少一第二去識別資料集對齊以產生至少一第二對齊資料集; 由該建模裝置以該至少一第二對齊資料集訓練更新後的該代訓模型; 由該建模裝置根據該至少一第二參數集及該代訓模型的一第二代訓參數集產生至少一第二更新參數集; 由該建模裝置以該至少一第二更新參數集其中之一更新該代訓模型; 由該建模裝置向各該至少一第二來源裝置傳送該至少一第一更新參數集其中之一;以及 由各該至少一第二來源裝置根據對應的該第二更新參數集更新對應的該來源模型。
- 如請求項15所述的建模方法,還包含下列步驟: 由各該第一來源裝置執行以下步驟以產生對應的該第一去識別資料集: 將一原始資料集轉換至一第一座標空間以產生一第一轉換資料集;以及 以該第一轉換資料集作為該第一去識別資料集。
- 如請求項15所述的建模方法,還包含下列步驟: 由各該第一來源裝置執行以下步驟以產生對應的該第一去識別資料集: 將一原始資料集轉換至一第一座標空間以產生一第一轉換資料集; 將該第一轉換資料集進行第二次轉換至一第二座標空間以產生一第二轉換資料集;以及 以該第二轉換資料集作為該第一去識別資料集。
- 如請求項15所述的建模方法,還包含下列步驟: 由該建模裝置傳送該預設架構至各該至少一第二來源裝置。
- 如請求項15所述的建模方法,其中該步驟(c)係由該建模裝置對各該至少一第一去識別資料集執行以下步驟: 依據該預設資料規格,決定該第一去識別資料集所包含的至少一欄位的每一個的一欄位名稱; 依據該預設資料規格,將該第一去識別資料集所包含的複數個資料正規化;以及 將該等資料的複數個時間戳對齊。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW109138577A TW202219850A (zh) | 2020-11-05 | 2020-11-05 | 建模系統、建模裝置及建模方法 |
CN202011262207.8A CN114443611A (zh) | 2020-11-05 | 2020-11-12 | 建模系统、建模装置及建模方法 |
US17/107,625 US20220138590A1 (en) | 2020-11-05 | 2020-11-30 | Model construction system, model construction apparatus, and model construction method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW109138577A TW202219850A (zh) | 2020-11-05 | 2020-11-05 | 建模系統、建模裝置及建模方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
TW202219850A true TW202219850A (zh) | 2022-05-16 |
Family
ID=81362200
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW109138577A TW202219850A (zh) | 2020-11-05 | 2020-11-05 | 建模系統、建模裝置及建模方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220138590A1 (zh) |
CN (1) | CN114443611A (zh) |
TW (1) | TW202219850A (zh) |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130080398A1 (en) * | 2011-09-23 | 2013-03-28 | Dataguise Inc. | Method and system for de-identification of data within a database |
US9123054B1 (en) * | 2014-07-17 | 2015-09-01 | Mastercard International Incorporated | Method and system for maintaining privacy in scoring of consumer spending behavior |
CN109716346A (zh) * | 2016-07-18 | 2019-05-03 | 河谷生物组学有限责任公司 | 分布式机器学习系统、装置和方法 |
CN110168580B (zh) * | 2017-01-10 | 2022-10-04 | 华为技术有限公司 | 使用分布式系统训练分类器模型时的容错恢复系统和方法 |
CN107316083B (zh) * | 2017-07-04 | 2021-05-25 | 北京百度网讯科技有限公司 | 用于更新深度学习模型的方法和装置 |
SE1850734A1 (en) * | 2018-06-15 | 2019-12-16 | Avident It Ab | Method for de-identifying data |
CN109189825B (zh) * | 2018-08-10 | 2022-03-15 | 深圳前海微众银行股份有限公司 | 横向数据切分联邦学习建模方法、服务器及介质 |
TWI697851B (zh) * | 2019-05-03 | 2020-07-01 | 宏碁股份有限公司 | 電子裝置與模型更新方法 |
CN111428881B (zh) * | 2020-03-20 | 2021-12-07 | 深圳前海微众银行股份有限公司 | 识别模型的训练方法、装置、设备及可读存储介质 |
-
2020
- 2020-11-05 TW TW109138577A patent/TW202219850A/zh unknown
- 2020-11-12 CN CN202011262207.8A patent/CN114443611A/zh active Pending
- 2020-11-30 US US17/107,625 patent/US20220138590A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
CN114443611A (zh) | 2022-05-06 |
US20220138590A1 (en) | 2022-05-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113711536B (zh) | 从区块链网络中提取数据 | |
Al Nuaimi et al. | Applications of big data to smart cities | |
WO2021114911A1 (zh) | 用户风险评估方法及装置、电子设备、存储介质 | |
EP3923207A2 (en) | Clustering techniques for machine learning models | |
CN112288573B (zh) | 一种构建风险评估模型的方法、装置及设备 | |
US12061671B2 (en) | Data compression techniques for machine learning models | |
CN113923225B (zh) | 基于分布式架构的联邦学习平台、方法、设备和存储介质 | |
WO2021138271A1 (en) | Creating predictor variables for prediction models from unstructured data using natural language processing | |
Bajaj et al. | Big data–the new era of data | |
CN112149706B (zh) | 模型训练方法、装置、设备和介质 | |
CN114139450A (zh) | 一种基于隐私保护的评分卡建模方法及装置 | |
CN116976884A (zh) | 一种基于云存储与nfc的交易数据处理方法 | |
CN112598311A (zh) | 一种风险操作识别模型构建方法、风险操作识别方法 | |
US12015691B2 (en) | Security as a service for machine learning | |
TW202219850A (zh) | 建模系統、建模裝置及建模方法 | |
CN117375839A (zh) | 一种基于区块链的碳计量数据共享方法和系统 | |
Sprenkamp et al. | Overcoming intergovernmental data sharing challenges with federated learning | |
Rivas et al. | Simulafed: an enhanced federated simulated environment for privacy and security in health | |
Lv et al. | Viability criteria for a switched system on bounded polyhedron | |
Samuel | A layered architectural approach to understanding distributed cryptographic ledgers | |
CN115829729B (zh) | 一种基于三链架构的供应链金融信用评价系统及方法 | |
Ou | Research on university education management system based on big data | |
US20210218713A1 (en) | First processing apparatus to be connected to a second processing apparatus, and non-transitory computer readable medium | |
CN119293819A (zh) | 一种金融数据的数据加密方法、装置、设备及存储介质 | |
CN114298328A (zh) | 数据源质量评估方法、装置、设备及计算机可读存储介质 |