JP6885193B2 - 並列処理装置、ジョブ管理方法、およびジョブ管理プログラム - Google Patents
並列処理装置、ジョブ管理方法、およびジョブ管理プログラム Download PDFInfo
- Publication number
- JP6885193B2 JP6885193B2 JP2017095200A JP2017095200A JP6885193B2 JP 6885193 B2 JP6885193 B2 JP 6885193B2 JP 2017095200 A JP2017095200 A JP 2017095200A JP 2017095200 A JP2017095200 A JP 2017095200A JP 6885193 B2 JP6885193 B2 JP 6885193B2
- Authority
- JP
- Japan
- Prior art keywords
- job
- node
- nodes
- area
- execution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
- G06F9/5038—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the execution order of a plurality of tasks, e.g. taking priority or time dependency constraints into consideration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/48—Program initiating; Program switching, e.g. by interrupt
- G06F9/4806—Task transfer initiation or dispatching
- G06F9/4843—Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
- G06F9/4881—Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
- G06F9/4887—Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues involving deadlines, e.g. rate based, periodic
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5061—Partitioning or combining of resources
- G06F9/5066—Algorithms for mapping a plurality of inter-dependent sub-tasks onto a plurality of physical CPUs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5061—Partitioning or combining of resources
- G06F9/5077—Logical partitioning of resources; Management or configuration of virtualized resources
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multi Processors (AREA)
- Hardware Redundancy (AREA)
Description
図1Aおよび図1Bは、実施の形態にかかるジョブ管理方法の一実施例を示す説明図である。図1において、並列処理装置101は、複数のノードNに実行させるジョブを管理するコンピュータ(いわゆる、管理ノード)である。ノードNは、並列計算機システムの構成要素であり、並列計算を行うコンピュータ(いわゆる、計算ノード)である。ジョブは、ユーザがコンピュータに依頼する仕事の単位である。ジョブとしては、例えば、科学技術計算などの大規模な計算を行うジョブが挙げられる。
つぎに、図1に示した並列処理装置101を含む並列計算機システム200のシステム構成例について説明する。
図3は、並列処理装置101のハードウェア構成例を示すブロック図である。図3において、並列処理装置101は、CPU(Central Processing Unit)301と、メモリ302と、I/F(Interface)303と、ディスクドライブ304と、ディスク305と、を有する。また、各構成部は、バス300によってそれぞれ接続される。
つぎに、並列処理装置101が有するノード管理テーブル220の記憶内容について説明する。ノード管理テーブル220は、例えば、図3に示したメモリ302、ディスク305などの記憶装置により実現される。
つぎに、並列処理装置101が有するジョブ管理テーブル230の記憶内容について説明する。ジョブ管理テーブル230は、例えば、図3に示したメモリ302、ディスク305などの記憶装置により実現される。
つぎに、並列処理装置101が用いる問題ノード一覧情報600の具体例について説明する。
図7は、並列処理装置101の機能的構成例を示すブロック図である。図7において、並列処理装置101は、取得部701と、受付部702と、算出部703と、分割部704と、割当制御部705と、を含む構成である。取得部701〜割当制御部705は制御部となる機能であり、具体的には、例えば、図3に示したメモリ302、ディスク305などの記憶装置に記憶されたプログラムをCPU301に実行させることにより、または、I/F303により、その機能を実現する。各機能部の処理結果は、例えば、メモリ302、ディスク305などの記憶装置に記憶される。より具体的には、各機能部は、例えば、並列処理装置101のジョブスケジューラにより実現することができる。
つぎに、並列処理装置101のジョブ管理処理手順について説明する。ジョブ管理処理は、例えば、定期的に実行されることにしてもよく、新たなジョブJが投入される、あるいは、投入済みのいずれかのジョブJの実行が完了したことに応じて実行されることにしてもよい。また、ノードNの位置情報は、ノード管理テーブル220に記憶されているとする。
算出した前記実行規模が大きいジョブから順に、複数のノードが配置された領域を区分けして分割された複数のエリアのうち、故障可能性が高い問題ノードの数が少ないエリアからジョブを割り当てる、
制御部を有することを特徴とする並列処理装置。
前記ジョブの割り当てを行う際に、前記問題ノードを含まないノード群を選択して前記ジョブの割り当てを行う、
ことを特徴とする付記1に記載の並列処理装置。
前記複数のエリアの全てについて前記問題ノードを含まないノード群を選択した前記ジョブの割り当てができないときは、前記問題ノードの数が最小となるようにノード群を選択して前記ジョブの割り当てを行う、
ことを特徴とする付記2に記載の並列処理装置。
算出した前記実行規模が大きいジョブから順に、複数のノードが配置された領域を区分けして分割された複数のエリアのうち、故障可能性が高い問題ノードの数が少ないエリアからジョブを割り当てる、
処理をコンピュータが実行することを特徴とするジョブ管理方法。
算出した前記実行規模が大きいジョブから順に、複数のノードが配置された領域を区分けして分割された複数のエリアのうち、故障可能性が高い問題ノードの数が少ないエリアからジョブを割り当てる、
処理をコンピュータに実行させることを特徴とするジョブ管理プログラム。
200 並列計算機システム
201 クライアント装置
210 ネットワーク
220 ノード管理テーブル
230 ジョブ管理テーブル
300 バス
301 CPU
302 メモリ
303 I/F
304 ディスクドライブ
305 ディスク
600 問題ノード一覧情報
701 取得部
702 受付部
703 算出部
704 分割部
705 割当制御部
A エリア
AR ノードエリア
N ノード
Claims (5)
- 実行待ちの各ジョブの実行に使用されるノード数と、前記各ジョブの実行にかかる実行予定時間とに基づいて、前記各ジョブの実行規模を算出し、
算出した前記実行規模が大きいジョブから順に、複数のノードが配置された領域を区分けして分割された複数のエリアのうち、故障可能性が高い問題ノードの数が少ないエリアを選択し、選択した前記エリア内のノード群にジョブを割り当てる、
制御部を有することを特徴とする並列処理装置。 - 前記制御部は、
前記ジョブの割り当てを行う際に、前記複数のノードそれぞれの使用状態を示す情報を参照して、前記ジョブの実行に使用されるノード数に基づいて、選択した前記エリアにおいて、前記問題ノードを含まない、前記ジョブを割り当て可能なノード群を探索し、
前記ノード群が探索された場合に、当該ノード群を選択して前記ジョブの割り当てを行う、
ことを特徴とする請求項1に記載の並列処理装置。 - 前記制御部は、
前記複数のエリアの全てについて前記問題ノードを含まないノード群を選択した前記ジョブの割り当てができないときは、選択した前記エリアにおいて、前記問題ノードの数が最小となるように、前記ジョブを割り当て可能なノード群を探索し、
前記ノード群が探索された場合に、当該ノード群を選択して前記ジョブの割り当てを行う、
ことを特徴とする請求項2に記載の並列処理装置。 - 実行待ちの各ジョブの実行に使用されるノード数と、前記各ジョブの実行にかかる実行予定時間とに基づいて、前記各ジョブの実行規模を算出し、
算出した前記実行規模が大きいジョブから順に、複数のノードが配置された領域を区分けして分割された複数のエリアのうち、故障可能性が高い問題ノードの数が少ないエリアを選択し、選択した前記エリア内のノード群にジョブを割り当てる、
処理をコンピュータが実行することを特徴とするジョブ管理方法。 - 実行待ちの各ジョブの実行に使用されるノード数と、前記各ジョブの実行にかかる実行予定時間とに基づいて、前記各ジョブの実行規模を算出し、
算出した前記実行規模が大きいジョブから順に、複数のノードが配置された領域を区分けして分割された複数のエリアのうち、故障可能性が高い問題ノードの数が少ないエリアを選択し、選択した前記エリア内のノード群にジョブを割り当てる、
処理をコンピュータに実行させることを特徴とするジョブ管理プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017095200A JP6885193B2 (ja) | 2017-05-12 | 2017-05-12 | 並列処理装置、ジョブ管理方法、およびジョブ管理プログラム |
US15/964,424 US11023281B2 (en) | 2017-05-12 | 2018-04-27 | Parallel processing apparatus to allocate job using execution scale, job management method to allocate job using execution scale, and recording medium recording job management program to allocate job using execution scale |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017095200A JP6885193B2 (ja) | 2017-05-12 | 2017-05-12 | 並列処理装置、ジョブ管理方法、およびジョブ管理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018194875A JP2018194875A (ja) | 2018-12-06 |
JP6885193B2 true JP6885193B2 (ja) | 2021-06-09 |
Family
ID=64097936
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017095200A Active JP6885193B2 (ja) | 2017-05-12 | 2017-05-12 | 並列処理装置、ジョブ管理方法、およびジョブ管理プログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US11023281B2 (ja) |
JP (1) | JP6885193B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018235124A1 (ja) * | 2017-06-19 | 2018-12-27 | 三菱電機株式会社 | 分散配置装置、分散配置システム、および、分散配置方法 |
US10776160B2 (en) * | 2017-12-28 | 2020-09-15 | Mcgraw Hill Llc | Management of sequenced execution of service tasks in a multi-service system |
US11042416B2 (en) * | 2019-03-06 | 2021-06-22 | Google Llc | Reconfigurable computing pods using optical networks |
CN110928659B (zh) * | 2019-11-20 | 2022-12-06 | 哈尔滨工程大学 | 一种具有自适应功能的数值水池系统远程多平台接入方法 |
CN114489855B (zh) * | 2022-01-27 | 2024-06-21 | 北京索为系统技术股份有限公司 | 流程节点控制方法、装置、计算机设备 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3959516B2 (ja) * | 2001-08-06 | 2007-08-15 | インターナショナル・ビジネス・マシーンズ・コーポレーション | ネットワークシステム、cpu資源プロバイダ、クライアント装置、処理サービスの提供方法、およびプログラム |
US8336040B2 (en) * | 2004-04-15 | 2012-12-18 | Raytheon Company | System and method for topology-aware job scheduling and backfilling in an HPC environment |
JP4781089B2 (ja) * | 2005-11-15 | 2011-09-28 | 株式会社ソニー・コンピュータエンタテインメント | タスク割り当て方法およびタスク割り当て装置 |
JP4611922B2 (ja) * | 2006-03-28 | 2011-01-12 | 富士通株式会社 | 制御プログラム、制御方法および制御装置 |
US7631169B2 (en) * | 2007-02-02 | 2009-12-08 | International Business Machines Corporation | Fault recovery on a massively parallel computer system to handle node failures without ending an executing job |
US8381220B2 (en) * | 2007-10-31 | 2013-02-19 | International Business Machines Corporation | Job scheduling and distribution on a partitioned compute tree based on job priority and network utilization |
EP2455863A4 (en) * | 2009-07-16 | 2013-03-27 | Hitachi Ltd | MANAGEMENT SYSTEM FOR PROVIDING INFORMATION DESCRIBING A RECOVERY METHOD CORRESPONDING TO A FUNDAMENTAL CAUSE OF FAILURE |
US8484354B2 (en) * | 2009-11-02 | 2013-07-09 | Beaumaris Networks, Inc. | Distributed resource management |
JP5325827B2 (ja) | 2010-03-31 | 2013-10-23 | 株式会社日立製作所 | ジョブスケジュールシステム、ジョブスケジュール管理方法及びプログラム。 |
JP6221588B2 (ja) | 2013-09-30 | 2017-11-01 | 富士通株式会社 | 情報処理システム、管理装置制御プログラム及び情報処理システムの制御方法 |
-
2017
- 2017-05-12 JP JP2017095200A patent/JP6885193B2/ja active Active
-
2018
- 2018-04-27 US US15/964,424 patent/US11023281B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2018194875A (ja) | 2018-12-06 |
US11023281B2 (en) | 2021-06-01 |
US20180329752A1 (en) | 2018-11-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6885193B2 (ja) | 並列処理装置、ジョブ管理方法、およびジョブ管理プログラム | |
US10826980B2 (en) | Command process load balancing system | |
US20200042392A1 (en) | Implementing Affinity And Anti-Affinity Constraints In A Bundled Application | |
JP2017016541A (ja) | 情報処理装置、並列計算機システム、ジョブスケジュール設定プログラムおよびジョブスケジュール設定方法 | |
US20200285510A1 (en) | High precision load distribution among processors | |
US20160371011A1 (en) | Assigning device adaptors to use to copy source extents to target extents in a copy relationship | |
JP5104855B2 (ja) | 負荷分散プログラム、負荷分散方法、及びストレージ管理装置 | |
CN112799606A (zh) | Io请求的调度方法及装置 | |
JP5515889B2 (ja) | 仮想マシンシステム、自動マイグレーション方法および自動マイグレーションプログラム | |
JP2023183342A (ja) | ジョブスケジューラおよびジョブスケジューリング方法 | |
CN105164629B (zh) | 计算机系统及其层级存储的控制方法 | |
US10394615B2 (en) | Information processing apparatus and job management method | |
JP2000148515A (ja) | メモリスケジューリング方法及びメモリスケジューリングプログラムを格納する記憶媒体 | |
US10783096B2 (en) | Storage system and method of controlling I/O processing | |
JP7238616B2 (ja) | 並列処理装置、ジョブ管理プログラム、及びジョブ管理方法 | |
JP2015176218A (ja) | 演算処理装置、演算処理装置の制御方法、及び演算処理装置の制御プログラム | |
US9218275B2 (en) | Memory management control system, memory management control method, and storage medium storing memory management control program | |
JP2001236253A (ja) | 複数の記録媒体を利用してデータをバックアップする装置および方法 | |
JP6524733B2 (ja) | 並列演算装置、並列演算システム、およびジョブ制御プログラム | |
US20170147408A1 (en) | Common resource updating apparatus and common resource updating method | |
JP2009110183A (ja) | 計算機の起動方法及び計算機システム | |
JP2000235551A (ja) | データベース並列検索制御方法および記録媒体 | |
JP6303584B2 (ja) | データ処理装置、計算機システム、データ処理方法およびデータ処理プログラム | |
CN119597491A (zh) | 一种gpu资源隔离方法、系统、介质及产品 | |
JP2009217357A (ja) | ファイルスペース追加システム、ファイルスペース追加方法、及びファイルスペース追加プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200213 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210113 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210209 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210331 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210413 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210426 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6885193 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |