TW201322022A - 分散式資料流處理方法及其系統 - Google Patents
分散式資料流處理方法及其系統 Download PDFInfo
- Publication number
- TW201322022A TW201322022A TW101107358A TW101107358A TW201322022A TW 201322022 A TW201322022 A TW 201322022A TW 101107358 A TW101107358 A TW 101107358A TW 101107358 A TW101107358 A TW 101107358A TW 201322022 A TW201322022 A TW 201322022A
- Authority
- TW
- Taiwan
- Prior art keywords
- processing
- data
- data stream
- real
- parallel
- Prior art date
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 13
- 230000010354 integration Effects 0.000 claims abstract description 16
- 238000000034 method Methods 0.000 claims abstract description 14
- 230000011218 segmentation Effects 0.000 claims description 28
- 230000008569 process Effects 0.000 claims description 4
- 230000004044 response Effects 0.000 abstract description 4
- 238000004364 calculation method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000007405 data analysis Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 230000010076 replication Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000005206 flow analysis Methods 0.000 description 1
- 239000012530 fluid Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000010223 real-time analysis Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24568—Data stream processing; Continuous queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申請提供了一種分散式資料流處理方法,該方法包括:將原始資料流分割成即時資料流和歷史資料流;並行處理該即時資料流和該歷史資料流,並分別產生各自的處理結果;以及將所產生的處理結果進行整合。本申請還提供了一種分散式資料流處理裝置,該裝置包括:資料識別模組,用於將原始資料流分割成即時資料流和歷史資料流;並行處理模組,用於並行處理該即時資料流和該歷史資料流,並分別產生各自的處理結果;以及資料整合模組,用於將所產生的處理結果進行整合。本申請使得大資料量的即時計算成為可能,即時資料流的運算能夠最大限度地以分散式並行處理,同時保證了大資料量處理和高即時性,提高了系統的反應速度。
Description
本申請係關於分散式資料處理,尤其關於一種用於處理大資料量的分散式資料流處理方法及其系統。
目前,資料流處理成為資料探勘、資料分析的主要方式。例如,網站日誌就是一個大資料量的資料流。再例如,電子商務網站中不斷增加的商品發佈資訊,不斷增加的手機簡訊發送記錄等等。這樣的資料流具有如下特點:(1)數據量大;(2)每條資訊中,具有要分析特徵的ID(識別字);(3)具有時間屬性,即時序性。
資料流分析通常要求即時、快速,使得系統能夠根據具體用戶當前行為做出即時回應。例如,日誌的即時分析可以把握用戶的當前狀態,最近的訪問行為,可以有效地提高推薦的精準度,或即時地反作弊。而如何快速分析資料流,尤其是在資料量很大的情況下,滿足即時要求一直是技術上的難點。
通常,現有的分散式資料流處理系統的基本原理如圖1所示,原始資料流S被分配給多個功能模組F。多個功能模組F同時進行處理,並將處理後的結果都發送給資料整合模組I,由資料整合模組I進行整合並輸出整合後的資料。然而在現有的分散式資料流處理系統中存在如下缺陷:
(1)對資料流進行處理時,當資料量非常大的時候,資料處理、資料分析變得十分耗時。而現有的分散式資料流處理系統一般採用共用儲存模式,即,不同模組之間,尤其是上下游模組之間交互資料的方式是模組A的結果放到儲存(資料庫,文件等)中,然後模組B到儲存中讀取資料,由此實現模組A和模組B的資料交互,這種模式不能即時計算,只能做到準即時。也就是說,當速度成為瓶頸,大部分現有的處理技術不能滿足即時資料流的增長速度,資料延遲比較大,使得資料分析只能離線進行,導致資料分析、資料探勘延遲,不能對用戶的當前或近期行為做出反應。
(2)對於大資料量的處理,分散式平行計算已經成為趨勢。而現有的平行計算系統,基本上都僅限於功能複製的架構,即,系統實現平行計算的方法是所有的運算模組是同樣的功能,運行同樣的程式,只是運算資料的不同部分,以此達到平行計算的目的,因此無法實現更細粒度的並行,也無法實現模組化和模組的熱插拔,並且不利於維護。
本申請提供了一種分散式資料流處理方法,該方法包括:將原始資料流分割成即時資料流和歷史資料流;並行處理該即時資料流和該歷史資料流,並分別產生各自的處理結果;以及將所產生的處理結果進行整合。
較佳地,在處理該即時資料流的步驟中,對該即時資料流按維度切分並進行並行處理。
較佳地,處理該即時資料流的步驟包括:將該即時資料流切分成多個資料塊;並行地將該多個資料塊的每一個切分成多個資料單元,然後將該多個資料單元分別發送給多個不同的功能模組進行並行處理;以及將並行處理的結果進行匯總。
較佳地,在處理該歷史資料流的步驟中,對該歷史資料流按維度切分並進行並行處理。
本申請還提供了一種分散式資料流處理裝置,該裝置包括:資料識別模組,用於將原始資料流分割成即時資料流和歷史資料流;並行處理模組,用於並行處理該即時資料流和該歷史資料流,並分別產生各自的處理結果;以及資料整合模組,用於將所產生的處理結果進行整合。
較佳地,該並行處理模組在處理該即時資料流時,對該即時資料流按維度切分並進行並行處理。
較佳地,處理該即時資料處理系統包括:橫向切分模組,用於將該即時資料流切分成多個資料塊;多個縱向切分模組,用於並行地將該多個資料塊的每一個切分成多個資料單元,然後將該多個資料單元分別發送給多個不同的功能模組進行並行處理;以及結果匯總模組,用於將並行處理的結果進行匯總。
較佳地,該並行處理模組在處理該歷史資料流時,對該歷史資料流按維度切分並進行並行處理。
根據本申請的分散式資料流處理方法,透過按時序性和按維度對資料流進行多次分割和切分,即利用時序性,採用多層結構,對資料分時段處理,使用新的分散式架構,利用不同維度,對資訊流進行縱向切分。使得大資料量的即時計算成為可能。即時資料流的運算能夠最大限度地以分散式並行處理,同時保證了大資料量處理和高即時性,提高了系統的反應速度。
下面將結合圖2至圖5詳細描述本申請的上述精神和實質。
雖然下面以網站日誌資料流為例來描述本申請的系統和方法的實施方式,可以理解,本申請也可以用來處理個性化推薦、即時反作弊、商品發佈、手機簡訊發送、科學計算等系統的資料流。
以網站日誌資料流為例,圖2示例性示出了本申請的大資料量分散式資料流處理系統的一個實施例的示意圖。
圖2中的大資料量分散式資料流處理系統包括:資料識別模組10;30天以前資料處理系統20;即時資料處理系統30;30天以內資料處理系統40;以及資料整合模組50。可以理解,這些模組可以由一台電腦或類似的具有計算或處理能力的設備、或多台這樣的設備形成的網路、或這樣的設備的一部分硬體或軟體來實現。
圖3示例性示出了與圖2中的大資料量分散式資料流
處理系統相對應的本申請的大資料量分散式資料流處理方法的流程圖。下面結合圖2和圖3來描述本申請的一個實施例。
在步驟S100,獲取原始資料流100。
在步驟S101,原始資料流100被資料識別模組10獲取後,資料識別模組10識別原始資料流100中的資料是即時資料、還是30天以內的資料、或是30天以前的資料,從而將原始資料流100按時序性分割成30天以前資料流200、即時資料流300以及30天以內資料流400。30天以前資料流200被發送至30天以前資料處理系統20,即時資料流300被發送至即時資料處理系統30,以及30天以內資料流400被發送至30天以內資料處理系統40。
在步驟S102,30天以前資料處理系統20進行30天以前資料處理,將處理結果發送到資料整合模組50。在步驟S103,即時資料處理系統30進行即時資料處理,將處理結果發送到資料整合模組50。在步驟S104,30天以內資料處理系統40進行30天以內資料處理,將處理結果發送到資料整合模組50。步驟S102、步驟S103和步驟S104並行執行。
在步驟S105,資料整合模組50將接收到的處理結果進行整合,並輸出整合後的資料。
可以理解,儘管在這裏,原始資料流100被資料識別模組10分割成30天以前資料流200、即時資料流300以及30天以內資料流400這樣的由三個時間限度區分的不
同部分,本領域技術人員能夠根據實際情況以其他時間限度來分割原始資料流100。例如,將原始資料流100分割成更少或更多的時間段(相應地,大資料量分散式資料流處理系統包含更少或更多的資料處理系統),或採用不同於30天的時間限度,或根據實際需求來定義將被看作是“即時”的時間範圍。
透過上面的實施例可以看到,本申請的大資料量分散式資料流處理方法基本上分為按時序性分割、資料處理、資料整合這樣的三個階段。
在按時序性分割階段,由於系統日誌是時刻添加的,因此,首先由資料識別模組10將即時資料流300分發到即時處理系統30;對於歷史資料(例如30天以前資料流200以及30天以內資料流400),由於它們已經儲存為文件,所以發送到歷史文件處理系統(例如30天以前資料處理系統20以及30天以內資料處理系統40)。
在資料處理階段,歷史處理系統和即時處理系統並行地處理不同時段的資料。
在資料整合階段,不同時段的資料並行處理完畢後的結果都被發送到資料整合模組50,這些結果被整合後,就可以輸出,以對外提供服務。
在本實施例中,按時序性對系統和資料進行分割,非常有利於處理具有時序性的大資料量的資料流,這是本申請處理海量資料的一個基礎。
設想資料流的每條資訊都有時間戳的,則從最開始的
資料到現在的資料(仍然在增長中),就是全量的資料流了。把某時間點定為分隔點的話,則可以把這全量的(或者說全部的)資料分為歷史資料和即時資料。對於全量的資料流,我們可以分析出,一定時段前的歷史資料,在某個時間點前已經存在。例如一天前的資料是不需要即時計算的,所以可以離線計算,只需要將其計算結果和其他模組(例如即時處理模組)的結果整合即可。
按歷史資料和即時計算分別處理,對歷史資料離線計算,可以極大地減輕即時計算的壓力。使即時資料能夠被更快地計算。同時,歷史資料可以得到更精細的計算。
本申請按時序性分割資料,使不同時段的資料處理可以並行進行,從而保證了即時資料的高回應性能。
為了進一步提高即時資料處理系統的性能,本申請還提出了將資料的資訊單元(即資料塊)按維度(在本申請中,“維度”一詞用來區分不同屬性或類型的資料,即不同維度的資料由不同類型功能模組來處理)進一步切分到各個功能模組(即不同類型的功能模組)。下面將以即時資料處理系統30為例來進行說明。
圖4示例性示出了圖2中的即時處理系統30的一個實施例的示意圖。
如圖4所示,即時處理系統30包括:一個橫向(在本申請中,“橫向”一詞僅是為了便於標識這一層次的切分,而非方向上的概念)切分模組400;多個(N個)縱向(在本申請中,“縱向”一詞僅是為了便於標識這一層
次的切分,而非方向上的概念)切分模組500;多個(N個)功能模組群組600,其中每個功能模組群組600包含多個(M個)功能模組;以及結果匯總模組700。
圖5示例性示出了與圖4中的即時處理系統30相對應的本申請的即時處理方法的流程圖。下面結合圖4和圖5來描述本申請的即時處理系統的一個實施例。
在步驟S200,獲取即時資料流300。
在步驟S201,橫向切分模組800將獲取的即時資料流300切分成多個資料塊(1、2、3...N...),(這一步驟中的切分即所謂的橫向切分),並將所切分的資料塊分別發送給多個(N個)縱向切分模組500。如圖4所示,將第1個資料塊發送給第1個縱向切分模組500,將第2個資料塊發送給第2個縱向切分模組500,以此類推,將第N個資料塊發送給第N個縱向切分模組500。可以理解,考慮到資料流雖然是無限的,但卻是流動的,而多個(N個)縱向切分模組500中的每一個在處理完一個資料塊後可以被重複使用,因此,縱向切分模組500的數量設置可以視資料流的流量大小而定。
在步驟S202,每個縱向切分模組500將所接收的一個資料塊切分成多個(視實際情況,可多至M個)資料單元(這一步驟中的切分即所謂的按維度縱向切分),並將所切分的多個資料單元分別發送給一個功能模組群組600中的多個(相應於資料單元的數量,多至M個)不同的功能模組。
如圖4中所示,第1個縱向切分模組500將資料塊1切分成M個資料單元,並將第1個資料單元發送至第1個功能模組群組600的第1個功能模組,將第2個資料單元發送至第1個功能模組群組600的第2個功能模組,以此類推,將第M個資料單元發送至第1個功能模組群組600的第M個功能模組。
以此類推,如果即時資料流300的資料流量足夠大,第2個縱向切分模組500將資料塊2切分成M個資料單元,並將第1個資料單元發送至第2個功能模組群組600的第1個功能模組,將第2個資料單元發送至第2個功能模組群組600的第2個功能模組,以此類推,將第M個資料單元發送至第2個功能模組群組600的第M個功能模組。
以此類推,如果即時資料流300的資料流量足夠大,可以存在更多的資料塊、縱向切分模組500、功能模組群組600、以及功能模組。可以理解,縱向切分模組500、功能模組群組600、以及功能模組群組600中的功能模組的數量設置分別可以視需要而定。
步驟S202和步驟S203並行執行。
在步驟S203,每個功能模組對所接收的資料單元進行處理,並將處理後的結果發送給結果匯總模組700。
在步驟S204,結果匯總模組700將所接收的結果進行匯總,並輸出匯總後的資料。
透過本實施例的描述,可以看到,首先,即時資
料流會被橫向切分,分配到各個處理器(例如縱向切分模組500)上,各個處理器的功能是一樣的。這些處理器並行處理,極大地提高了處理速度。
然後,縱向切分模組500對資料塊按維度縱向切分,即從資料塊中提取出不同維度的資料單元,然後相應維度的資料單元被發送到相應的功能處理模組(即功能模組),由各個功能處理模組並行處理。
以網站日誌資料流為原始資料流為例,網站日誌資料流首先被橫向切分成多個日誌資訊資料塊,每個日誌資訊資料塊被分配到一個相應的縱向切分模組500上。然後,各縱向切分模組500對相應的日誌資訊資料塊按維度縱向切分,例如,從日誌資訊資料塊中提取商品資訊送到商品處理單元,提取關鍵字資訊送到關鍵字處理單元。這樣一來,各個資訊單元被分解為更細粒度的元素,分發到各個功能單元,並行處理。例如,作為處理即時網站日誌資料流的功能單元,例如,商品資訊解析模組解析商品資訊,訪問路徑模組解析訪問路徑,各個模組並行處理。然後,用戶和商品資訊被送到推薦功能模組,用戶和訪問路徑資訊被送到反作弊模組,各個模組也是並行處理的。
最後,各個功能模組處理的結果,都發送到整合器(例如結果匯總模組700,或進一步也包括資料整合模組50)上,由整合器對結果整合(匯總)處理。
以上以即時資料處理系統為例描述了本申請對資料進行切分。可以理解,對於歷史資料的處理系統,可以採用
類似的架構。不同的是,由於歷史資料處理採用週期性運行的方式,所以可以使用低成本的集群分散式運算系統。
透過上面的描述,可以看到,本申請不是像現有的分散式資料流處理系統那樣採用共用儲存模式,而是透過按時序性和按維度對資料流進行多次分割和切分,即利用時序性,採用多層結構,對資料分時段處理,使用新的分散式架構,利用不同維度,對資訊流進行縱向切分,而非如現有的平行計算系統那樣僅限於功能複製的架構,也就是說,本發明實現平行計算的方法並非是所有的運算模組是同樣的功能,運行同樣的程式,只是運算資料的不同部分。因此本發明能夠實現更細粒度的並行,也能夠實現模組化和模組的熱插拔,並且有利於維護。
本發明使得大資料量的即時計算成為可能。即時資料流的運算能夠最大限度地以分散式並行處理,同時保證了大資料量處理和高即時性,提高了系統的反應速度。
根據本申請的大資料量分散式資料流處理方法可以由具有運算處理能力的單個或多個處理設備,如單個或多個電腦,運行電腦可執行指令來實現。根據本申請的大資料量分散式資料流處理系統可以為單個或多個處理設備,如單個或多個電腦,其中的各個模組或單元可以為該處理設備運行電腦可執行指令時具有相應功能的設備元件。根據本申請的一個實施例,可以使用JAVA、SQL等語言在linux、Windows等系統下來實現上述大資料量分散式資料流處理方法及其系統。
雖然已參照典型實施例描述了本申請,但應當理解,所用的術語是說明和示例性、而非限制性的術語。由於本申請能夠以多種形式具體實施而不脫離發明的精神或實質,所以應當理解,上述實施例不限於任何前述的細節,而應在隨附之申請專利範圍所限定的精神和範圍內廣泛地解釋,因此落入申請專利範圍或其等效範圍內的全部變化和改型都應為隨附之申請專利範圍所涵蓋。
10‧‧‧資料識別模組
20‧‧‧30天以前資料處理系統
30‧‧‧即時資料處理系統
40‧‧‧30天以內資料處理系統
50‧‧‧資料整合模組
100‧‧‧原始資料流
200‧‧‧30天以前資料流
300‧‧‧即時資料流
400‧‧‧30天以內資料流
800‧‧‧橫向切分模組
500‧‧‧縱向切分模組
600‧‧‧功能模組群組
700‧‧‧結果匯總模組
下面將參照所附附圖來描述本申請的實施例,其中:圖1示例性示出了現有技術的分散式資料流處理系統的示意圖;圖2示例性示出了本申請的大資料量分散式資料流處理系統的一個實施例的示意圖;圖3示例性示出了與圖2中的大資料量分散式資料流處理系統相對應的本申請的大資料量分散式資料流處理方法的流程圖;圖4示例性示出了圖2中的即時處理系統30的一個實施例的示意圖;以及圖5示例性示出了與圖4中的即時處理系統30相對應的本申請的即時處理方法的流程圖。
10‧‧‧資料識別模組
20‧‧‧30天以前資料處理系統
30‧‧‧即時資料處理系統
40‧‧‧30天以內資料處理系統
50‧‧‧資料整合模組
100‧‧‧原始資料流
200‧‧‧30天以前資料流
300‧‧‧即時資料流
400‧‧‧30天以內資料流
Claims (8)
- 一種分散式資料流處理方法,該方法包括:將原始資料流分割成即時資料流和歷史資料流;並行處理該即時資料流和該歷史資料流,並分別產生各自的處理結果;以及將所產生的處理結果進行整合。
- 根據申請專利範圍第1項所述的方法,其中,在處理該即時資料流的步驟中,對該即時資料流按維度切分並進行並行處理。
- 根據申請專利範圍第2項所述的方法,其中,處理該即時資料流的步驟包括:將該即時資料流切分成多個資料塊;並行地將該多個資料塊的每一個切分成多個資料單元,然後將該多個資料單元分別發送給多個不同的功能模組進行並行處理;以及將並行處理的結果進行匯總。
- 根據申請專利範圍第1項所述的方法,其中,在處理該歷史資料流的步驟中,對該歷史資料流按維度切分並進行並行處理。
- 一種分散式資料流處理裝置,該裝置包括:資料識別模組,用於將原始資料流分割成即時資料流和歷史資料流;並行處理模組,用於並行處理該即時資料流和該歷史資料流,並分別產生各自的處理結果;以及 資料整合模組,用於將所產生的處理結果進行整合。
- 根據申請專利範圍第5項所述的裝置,其中,該並行處理模組在處理該即時資料流時,對該即時資料流按維度切分並進行並行處理。
- 根據申請專利範圍第6項所述的裝置,其中,處理該即時資料處理系統包括:橫向切分模組,用於將該即時資料流切分成多個資料塊;多個縱向切分模組,用於並行地將該多個資料塊的每一個切分成多個資料單元,然後將該多個資料單元分別發送給多個不同的功能模組進行並行處理;以及結果匯總模組,用於將並行處理的結果進行匯總。
- 根據申請專利範圍第5項所述的裝置,其中,該並行處理模組在處理該歷史資料流時,對該歷史資料流按維度切分並進行並行處理。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110378247.3A CN103136217B (zh) | 2011-11-24 | 一种分布式数据流处理方法及其系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
TW201322022A true TW201322022A (zh) | 2013-06-01 |
Family
ID=48468027
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW101107358A TW201322022A (zh) | 2011-11-24 | 2012-03-05 | 分散式資料流處理方法及其系統 |
Country Status (5)
Country | Link |
---|---|
US (2) | US9250963B2 (zh) |
EP (1) | EP2783293A4 (zh) |
JP (1) | JP6030144B2 (zh) |
TW (1) | TW201322022A (zh) |
WO (1) | WO2013078231A1 (zh) |
Families Citing this family (93)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9100904B2 (en) * | 2012-09-13 | 2015-08-04 | First Principles, Inc. | Data stream division to increase data transmission rates |
US9438385B2 (en) | 2012-09-13 | 2016-09-06 | First Principles, Inc. | Data stream division to increase data transmission rates |
CN104298556B (zh) | 2013-07-17 | 2018-01-09 | 华为技术有限公司 | 流处理单元的分配方法及装置 |
CN103595795B (zh) * | 2013-11-15 | 2016-10-05 | 北京国双科技有限公司 | 分布式数据的处理方法和装置 |
US9146764B1 (en) | 2014-09-30 | 2015-09-29 | Amazon Technologies, Inc. | Processing event messages for user requests to execute program code |
US9600312B2 (en) | 2014-09-30 | 2017-03-21 | Amazon Technologies, Inc. | Threading as a service |
US9678773B1 (en) | 2014-09-30 | 2017-06-13 | Amazon Technologies, Inc. | Low latency computational capacity provisioning |
US9715402B2 (en) | 2014-09-30 | 2017-07-25 | Amazon Technologies, Inc. | Dynamic code deployment and versioning |
US9323556B2 (en) | 2014-09-30 | 2016-04-26 | Amazon Technologies, Inc. | Programmatic event detection and message generation for requests to execute program code |
US10048974B1 (en) | 2014-09-30 | 2018-08-14 | Amazon Technologies, Inc. | Message-based computation request scheduling |
US9830193B1 (en) | 2014-09-30 | 2017-11-28 | Amazon Technologies, Inc. | Automatic management of low latency computational capacity |
TWI530808B (zh) * | 2014-12-04 | 2016-04-21 | 知意圖股份有限公司 | 即時提供信息查詢的資訊系統與方法 |
US9537788B2 (en) | 2014-12-05 | 2017-01-03 | Amazon Technologies, Inc. | Automatic determination of resource sizing |
US9588790B1 (en) | 2015-02-04 | 2017-03-07 | Amazon Technologies, Inc. | Stateful virtual compute system |
US9733967B2 (en) | 2015-02-04 | 2017-08-15 | Amazon Technologies, Inc. | Security protocols for low latency execution of program code |
US9785476B2 (en) | 2015-04-08 | 2017-10-10 | Amazon Technologies, Inc. | Endpoint management system and virtual compute system |
US9930103B2 (en) | 2015-04-08 | 2018-03-27 | Amazon Technologies, Inc. | Endpoint management system providing an application programming interface proxy service |
CN105228131B (zh) * | 2015-11-05 | 2018-07-31 | 上海斐讯数据通信技术有限公司 | 运算数据的协助处理方法、系统及终端设备 |
KR101701224B1 (ko) * | 2015-11-30 | 2017-02-01 | 고려대학교 산학협력단 | 객체 모델 기반 실시간 스트림 데이터 분산 병렬 처리 시스템 |
CN105630869B (zh) * | 2015-12-15 | 2019-02-05 | 北京奇虎科技有限公司 | 一种语音数据的存储方法和装置 |
US9811434B1 (en) | 2015-12-16 | 2017-11-07 | Amazon Technologies, Inc. | Predictive management of on-demand code execution |
US10013267B1 (en) | 2015-12-16 | 2018-07-03 | Amazon Technologies, Inc. | Pre-triggers for code execution environments |
US10754701B1 (en) | 2015-12-16 | 2020-08-25 | Amazon Technologies, Inc. | Executing user-defined code in response to determining that resources expected to be utilized comply with resource restrictions |
US10002026B1 (en) | 2015-12-21 | 2018-06-19 | Amazon Technologies, Inc. | Acquisition and maintenance of dedicated, reserved, and variable compute capacity |
US11989096B2 (en) * | 2015-12-21 | 2024-05-21 | Ab Initio Technology Llc | Search and retrieval data processing system for computing near real-time data aggregations |
US9910713B2 (en) | 2015-12-21 | 2018-03-06 | Amazon Technologies, Inc. | Code execution request routing |
US10067801B1 (en) | 2015-12-21 | 2018-09-04 | Amazon Technologies, Inc. | Acquisition and maintenance of compute capacity |
US10162672B2 (en) * | 2016-03-30 | 2018-12-25 | Amazon Technologies, Inc. | Generating data streams from pre-existing data sets |
US11132213B1 (en) | 2016-03-30 | 2021-09-28 | Amazon Technologies, Inc. | Dependency-based process of pre-existing data sets at an on demand code execution environment |
US10891145B2 (en) | 2016-03-30 | 2021-01-12 | Amazon Technologies, Inc. | Processing pre-existing data sets at an on demand code execution environment |
US10282229B2 (en) | 2016-06-28 | 2019-05-07 | Amazon Technologies, Inc. | Asynchronous task management in an on-demand network code execution environment |
US10102040B2 (en) | 2016-06-29 | 2018-10-16 | Amazon Technologies, Inc | Adjusting variable limit on concurrent code executions |
US10203990B2 (en) | 2016-06-30 | 2019-02-12 | Amazon Technologies, Inc. | On-demand network code execution with cross-account aliases |
US10277708B2 (en) | 2016-06-30 | 2019-04-30 | Amazon Technologies, Inc. | On-demand network code execution with cross-account aliases |
US10884787B1 (en) | 2016-09-23 | 2021-01-05 | Amazon Technologies, Inc. | Execution guarantees in an on-demand network code execution system |
US10061613B1 (en) | 2016-09-23 | 2018-08-28 | Amazon Technologies, Inc. | Idempotent task execution in on-demand network code execution systems |
US11119813B1 (en) | 2016-09-30 | 2021-09-14 | Amazon Technologies, Inc. | Mapreduce implementation using an on-demand network code execution system |
CN107566450B (zh) * | 2017-08-02 | 2020-08-28 | 北京奇艺世纪科技有限公司 | 一种实时用户行为的数据处理方法、装置及电子设备 |
US10564946B1 (en) | 2017-12-13 | 2020-02-18 | Amazon Technologies, Inc. | Dependency handling in an on-demand network code execution system |
US10303492B1 (en) | 2017-12-13 | 2019-05-28 | Amazon Technologies, Inc. | Managing custom runtimes in an on-demand code execution system |
US10831898B1 (en) | 2018-02-05 | 2020-11-10 | Amazon Technologies, Inc. | Detecting privilege escalations in code including cross-service calls |
US10733085B1 (en) | 2018-02-05 | 2020-08-04 | Amazon Technologies, Inc. | Detecting impedance mismatches due to cross-service calls |
US10353678B1 (en) | 2018-02-05 | 2019-07-16 | Amazon Technologies, Inc. | Detecting code characteristic alterations due to cross-service calls |
US10572375B1 (en) | 2018-02-05 | 2020-02-25 | Amazon Technologies, Inc. | Detecting parameter validity in code including cross-service calls |
US10725752B1 (en) | 2018-02-13 | 2020-07-28 | Amazon Technologies, Inc. | Dependency handling in an on-demand network code execution system |
US10776091B1 (en) | 2018-02-26 | 2020-09-15 | Amazon Technologies, Inc. | Logging endpoint in an on-demand code execution system |
CN108400992B (zh) * | 2018-03-06 | 2020-05-26 | 电信科学技术第五研究所有限公司 | 一种流式通信数据协议解析软件框架实现系统及方法 |
KR102024040B1 (ko) * | 2018-04-27 | 2019-09-24 | 주식회사 명인정밀 | 다기능 줄자 |
CN108897613A (zh) * | 2018-05-07 | 2018-11-27 | 广西英腾教育科技股份有限公司 | 数据处理方法、系统及计算机设备 |
US10853115B2 (en) | 2018-06-25 | 2020-12-01 | Amazon Technologies, Inc. | Execution of auxiliary functions in an on-demand network code execution system |
US10649749B1 (en) | 2018-06-26 | 2020-05-12 | Amazon Technologies, Inc. | Cross-environment application of tracing information for improved code execution |
US11146569B1 (en) | 2018-06-28 | 2021-10-12 | Amazon Technologies, Inc. | Escalation-resistant secure network services using request-scoped authentication information |
US10949237B2 (en) | 2018-06-29 | 2021-03-16 | Amazon Technologies, Inc. | Operating system customization in an on-demand network code execution system |
US11099870B1 (en) | 2018-07-25 | 2021-08-24 | Amazon Technologies, Inc. | Reducing execution times in an on-demand network code execution system using saved machine states |
US11243953B2 (en) | 2018-09-27 | 2022-02-08 | Amazon Technologies, Inc. | Mapreduce implementation in an on-demand network code execution system and stream data processing system |
US11099917B2 (en) | 2018-09-27 | 2021-08-24 | Amazon Technologies, Inc. | Efficient state maintenance for execution environments in an on-demand code execution system |
US11204926B2 (en) | 2018-10-31 | 2021-12-21 | International Business Machines Corporation | Storing partial tuples from a streaming application in a database system |
US11943093B1 (en) | 2018-11-20 | 2024-03-26 | Amazon Technologies, Inc. | Network connection recovery after virtual machine transition in an on-demand network code execution system |
US10884812B2 (en) | 2018-12-13 | 2021-01-05 | Amazon Technologies, Inc. | Performance-based hardware emulation in an on-demand network code execution system |
CN109597842A (zh) * | 2018-12-14 | 2019-04-09 | 深圳前海微众银行股份有限公司 | 数据实时计算方法、装置、设备及计算机可读存储介质 |
US11010188B1 (en) | 2019-02-05 | 2021-05-18 | Amazon Technologies, Inc. | Simulated data object storage using on-demand computation of data objects |
US11861386B1 (en) | 2019-03-22 | 2024-01-02 | Amazon Technologies, Inc. | Application gateways in an on-demand network code execution system |
US11119809B1 (en) | 2019-06-20 | 2021-09-14 | Amazon Technologies, Inc. | Virtualization-based transaction handling in an on-demand network code execution system |
US11190609B2 (en) | 2019-06-28 | 2021-11-30 | Amazon Technologies, Inc. | Connection pooling for scalable network services |
US11115404B2 (en) | 2019-06-28 | 2021-09-07 | Amazon Technologies, Inc. | Facilitating service connections in serverless code executions |
US11159528B2 (en) | 2019-06-28 | 2021-10-26 | Amazon Technologies, Inc. | Authentication to network-services using hosted authentication information |
WO2021026775A1 (zh) * | 2019-08-13 | 2021-02-18 | 深圳鲲云信息科技有限公司 | 神经网络数据流加速方法、装置、计算机设备及存储介质 |
US10908927B1 (en) | 2019-09-27 | 2021-02-02 | Amazon Technologies, Inc. | On-demand execution of object filter code in output path of object storage service |
US11394761B1 (en) | 2019-09-27 | 2022-07-19 | Amazon Technologies, Inc. | Execution of user-submitted code on a stream of data |
US11386230B2 (en) | 2019-09-27 | 2022-07-12 | Amazon Technologies, Inc. | On-demand code obfuscation of data in input path of object storage service |
US11055112B2 (en) | 2019-09-27 | 2021-07-06 | Amazon Technologies, Inc. | Inserting executions of owner-specified code into input/output path of object storage service |
US11106477B2 (en) | 2019-09-27 | 2021-08-31 | Amazon Technologies, Inc. | Execution of owner-specified code during input/output path to object storage service |
US11250007B1 (en) | 2019-09-27 | 2022-02-15 | Amazon Technologies, Inc. | On-demand execution of object combination code in output path of object storage service |
US11023416B2 (en) | 2019-09-27 | 2021-06-01 | Amazon Technologies, Inc. | Data access control system for object storage service based on owner-defined code |
US11263220B2 (en) | 2019-09-27 | 2022-03-01 | Amazon Technologies, Inc. | On-demand execution of object transformation code in output path of object storage service |
US11550944B2 (en) | 2019-09-27 | 2023-01-10 | Amazon Technologies, Inc. | Code execution environment customization system for object storage service |
US10996961B2 (en) | 2019-09-27 | 2021-05-04 | Amazon Technologies, Inc. | On-demand indexing of data in input path of object storage service |
US11656892B1 (en) | 2019-09-27 | 2023-05-23 | Amazon Technologies, Inc. | Sequential execution of user-submitted code and native functions |
US11416628B2 (en) | 2019-09-27 | 2022-08-16 | Amazon Technologies, Inc. | User-specific data manipulation system for object storage service based on user-submitted code |
US11023311B2 (en) | 2019-09-27 | 2021-06-01 | Amazon Technologies, Inc. | On-demand code execution in input path of data uploaded to storage service in multiple data portions |
US11360948B2 (en) | 2019-09-27 | 2022-06-14 | Amazon Technologies, Inc. | Inserting owner-specified data processing pipelines into input/output path of object storage service |
US11119826B2 (en) | 2019-11-27 | 2021-09-14 | Amazon Technologies, Inc. | Serverless call distribution to implement spillover while avoiding cold starts |
US10942795B1 (en) | 2019-11-27 | 2021-03-09 | Amazon Technologies, Inc. | Serverless call distribution to utilize reserved capacity without inhibiting scaling |
US11714682B1 (en) | 2020-03-03 | 2023-08-01 | Amazon Technologies, Inc. | Reclaiming computing resources in an on-demand code execution system |
US11188391B1 (en) | 2020-03-11 | 2021-11-30 | Amazon Technologies, Inc. | Allocating resources to on-demand code executions under scarcity conditions |
US11775640B1 (en) | 2020-03-30 | 2023-10-03 | Amazon Technologies, Inc. | Resource utilization-based malicious task detection in an on-demand code execution system |
US11593270B1 (en) | 2020-11-25 | 2023-02-28 | Amazon Technologies, Inc. | Fast distributed caching using erasure coded object parts |
US11550713B1 (en) | 2020-11-25 | 2023-01-10 | Amazon Technologies, Inc. | Garbage collection in distributed systems using life cycled storage roots |
US11762945B2 (en) * | 2020-12-10 | 2023-09-19 | International Business Machines Corporation | Syncing streams by intelligent collection and analysis |
US11388210B1 (en) * | 2021-06-30 | 2022-07-12 | Amazon Technologies, Inc. | Streaming analytics using a serverless compute system |
US11968280B1 (en) | 2021-11-24 | 2024-04-23 | Amazon Technologies, Inc. | Controlling ingestion of streaming data to serverless function executions |
US12015603B2 (en) | 2021-12-10 | 2024-06-18 | Amazon Technologies, Inc. | Multi-tenant mode for serverless code execution |
CN114363435B (zh) * | 2021-12-31 | 2023-12-12 | 广东柯内特环境科技有限公司 | 环境数据监测处理方法 |
Family Cites Families (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5155851A (en) | 1989-05-15 | 1992-10-13 | Bell Communications Research, Inc. | Routing an incoming data stream to parallel processing stations |
JPH04167079A (ja) | 1990-10-31 | 1992-06-15 | Toshiba Corp | 画像処理装置 |
US6665684B2 (en) * | 1999-09-27 | 2003-12-16 | Oracle International Corporation | Partition pruning with composite partitioning |
US6850947B1 (en) * | 2000-08-10 | 2005-02-01 | Informatica Corporation | Method and apparatus with data partitioning and parallel processing for transporting data for data warehousing applications |
US6931390B1 (en) * | 2001-02-27 | 2005-08-16 | Oracle International Corporation | Method and mechanism for database partitioning |
US7213025B2 (en) * | 2001-10-16 | 2007-05-01 | Ncr Corporation | Partitioned database system |
US8090751B2 (en) * | 2002-02-05 | 2012-01-03 | Hewlett-Packard Development Company, L.P. | Operational data store |
US7340467B2 (en) * | 2003-04-15 | 2008-03-04 | Microsoft Corporation | System and method for maintaining a distributed database of hyperlinks |
US20040249644A1 (en) * | 2003-06-06 | 2004-12-09 | International Business Machines Corporation | Method and structure for near real-time dynamic ETL (extraction, transformation, loading) processing |
US7602725B2 (en) * | 2003-07-11 | 2009-10-13 | Computer Associates Think, Inc. | System and method for aggregating real-time and historical data |
US7457872B2 (en) | 2003-10-15 | 2008-11-25 | Microsoft Corporation | On-line service/application monitoring and reporting system |
US7644050B2 (en) * | 2004-12-02 | 2010-01-05 | International Business Machines Corporation | Method and apparatus for annotation-based behavior extensions |
US7428555B2 (en) * | 2005-04-07 | 2008-09-23 | Google Inc. | Real-time, computer-generated modifications to an online advertising program |
US7418394B2 (en) | 2005-04-28 | 2008-08-26 | Dolby Laboratories Licensing Corporation | Method and system for operating audio encoders utilizing data from overlapping audio segments |
JP4687253B2 (ja) | 2005-06-03 | 2011-05-25 | 株式会社日立製作所 | ストリームデータ処理システムのクエリ処理方法 |
US8055575B2 (en) * | 2005-10-14 | 2011-11-08 | Financial Intergroup Holdings, Ltd. | Central counterparty for data management |
US8565799B2 (en) * | 2007-04-04 | 2013-10-22 | Qualcomm Incorporated | Methods and apparatus for flow data acquisition in a multi-frequency network |
US20110276993A1 (en) | 2007-04-06 | 2011-11-10 | Ferguson Kenneth H | Media Content Programming Control Method and Apparatus |
CN101286150B (zh) | 2007-04-10 | 2010-09-15 | 阿里巴巴集团控股有限公司 | 生成更新参数的方法和装置、展示相关关键词的方法和装置 |
US8069190B2 (en) | 2007-12-27 | 2011-11-29 | Cloudscale, Inc. | System and methodology for parallel stream processing |
US7882087B2 (en) * | 2008-01-15 | 2011-02-01 | At&T Intellectual Property I, L.P. | Complex dependencies for efficient data warehouse updates |
US8688622B2 (en) * | 2008-06-02 | 2014-04-01 | The Boeing Company | Methods and systems for loading data into a temporal data warehouse |
CN101639769B (zh) * | 2008-07-30 | 2013-03-06 | 国际商业机器公司 | 在多处理器系统上对数据集进行划分及排序的方法和装置 |
FR2936626B1 (fr) | 2008-09-30 | 2011-03-25 | Commissariat Energie Atomique | Dispositif de traitement en parallele d'un flux de donnees |
CN101464884B (zh) | 2008-12-31 | 2011-09-28 | 阿里巴巴集团控股有限公司 | 一种分布式任务系统及应用该系统的数据处理方法 |
US8380702B2 (en) * | 2009-03-10 | 2013-02-19 | Oracle International Corporation | Loading an index with minimal effect on availability of applications using the corresponding table |
ES2579304T3 (es) * | 2009-05-04 | 2016-08-09 | Orange | Procedimiento de tratamiento de flujos en una red de comunicación |
US8788928B2 (en) | 2009-07-15 | 2014-07-22 | Clandscale, Inc. | System and methodology for development of stream processing applications utilizing spreadsheet interface |
US20110035272A1 (en) * | 2009-08-05 | 2011-02-10 | Yahoo! Inc. | Feature-value recommendations for advertisement campaign performance improvement |
EP2583168B1 (en) * | 2010-06-15 | 2017-11-08 | Ab Initio Technology LLC | Dynamically loading graph-based computations |
JP5818394B2 (ja) * | 2011-11-10 | 2015-11-18 | トレジャー データ, インク.Treasure Data, Inc. | 大量データプラットフォームを操作するシステム及び方法 |
US9367501B2 (en) * | 2011-11-10 | 2016-06-14 | International Business Machines Corporation | Dynamic streaming data dispatcher |
-
2012
- 2012-03-05 TW TW101107358A patent/TW201322022A/zh unknown
- 2012-11-19 US US13/681,271 patent/US9250963B2/en active Active
- 2012-11-20 JP JP2014537381A patent/JP6030144B2/ja active Active
- 2012-11-20 WO PCT/US2012/066113 patent/WO2013078231A1/en active Application Filing
- 2012-11-20 EP EP12806741.0A patent/EP2783293A4/en not_active Ceased
-
2015
- 2015-12-21 US US14/977,484 patent/US9727613B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US9250963B2 (en) | 2016-02-02 |
US20130139166A1 (en) | 2013-05-30 |
US20160179898A1 (en) | 2016-06-23 |
JP2014531092A (ja) | 2014-11-20 |
JP6030144B2 (ja) | 2016-11-24 |
WO2013078231A1 (en) | 2013-05-30 |
US9727613B2 (en) | 2017-08-08 |
CN103136217A (zh) | 2013-06-05 |
EP2783293A1 (en) | 2014-10-01 |
EP2783293A4 (en) | 2016-06-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TW201322022A (zh) | 分散式資料流處理方法及其系統 | |
Aly et al. | M3: Stream processing on main-memory mapreduce | |
CN106648904B (zh) | 一种流式数据处理自适应速率控制方法 | |
Zeitler et al. | Massive scale-out of expensive continuous queries | |
CN108021809A (zh) | 一种数据处理方法及系统 | |
KR20150063233A (ko) | 로그 데이터 처리 방법 및 이를 수행하는 시스템 | |
Alwidian et al. | Big data ingestion and preparation tools | |
CN105989163A (zh) | 数据实时处理方法及系统 | |
CN105677489A (zh) | 离散流处理模型下批次间隔大小的动态设置系统及方法 | |
CN114372084A (zh) | 面向传感流数据的实时处理系统 | |
US20190220532A1 (en) | Data processing with nullable schema information | |
CN114691356A (zh) | 数据并行处理方法、装置、计算机设备及可读存储介质 | |
Sathya et al. | Application of Hadoop MapReduce technique to Virtual Database system design | |
WO2016019729A1 (zh) | 一种动态调度方法、系统及计算机存储介质 | |
Liu et al. | GPU-assisted hybrid network traffic model | |
CN104123266A (zh) | 一种数吉赫兹采样率下的极低延迟快速傅里叶变换方法 | |
CN103136217B (zh) | 一种分布式数据流处理方法及其系统 | |
Alazeez et al. | TPICDS: A two-phase parallel approach for incremental clustering of data streams | |
US11442792B2 (en) | Systems and methods for dynamic partitioning in distributed environments | |
CN114238328A (zh) | 数据分页查询方法、装置、设备及存储介质 | |
Vakali et al. | A distributed framework for early trending topics detection on big social networks data threads | |
CN104965891A (zh) | 基于分布式流计算实现跨多关系数据库排序的方法及系统 | |
Koroliuk et al. | Queuing systems with semi-Markov flow in average and diffusion approximation schemes | |
WO2018036336A1 (zh) | 一种数据处理方法和装置 | |
KR101865317B1 (ko) | 데이터 분산처리 시스템을 위한 빅 데이터의 전처리 장치 및 방법 |