[go: up one dir, main page]

CN116389280A - 一种网络拓扑结构获取方法、装置、设备及介质 - Google Patents

一种网络拓扑结构获取方法、装置、设备及介质 Download PDF

Info

Publication number
CN116389280A
CN116389280A CN202310573372.2A CN202310573372A CN116389280A CN 116389280 A CN116389280 A CN 116389280A CN 202310573372 A CN202310573372 A CN 202310573372A CN 116389280 A CN116389280 A CN 116389280A
Authority
CN
China
Prior art keywords
node
configuration protocol
host configuration
graphics processor
dynamic host
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310573372.2A
Other languages
English (en)
Inventor
肖麟阁
阚宏伟
郝锐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Inspur Smart Computing Technology Co Ltd
Original Assignee
Guangdong Inspur Smart Computing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Inspur Smart Computing Technology Co Ltd filed Critical Guangdong Inspur Smart Computing Technology Co Ltd
Priority to CN202310573372.2A priority Critical patent/CN116389280A/zh
Publication of CN116389280A publication Critical patent/CN116389280A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/12Discovery or management of network topologies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • H04L61/50Address allocation
    • H04L61/5007Internet protocol [IP] addresses
    • H04L61/5014Internet protocol [IP] addresses using dynamic host configuration protocol [DHCP] or bootstrap protocol [BOOTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/16Implementation or adaptation of Internet protocol [IP], of transmission control protocol [TCP] or of user datagram protocol [UDP]
    • H04L69/164Adaptation or special uses of UDP protocol
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/26Special purpose or proprietary protocols or architectures

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Computing Systems (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种网络拓扑结构获取方法、装置、设备及介质,涉及分布式异构计算系统领域。各图形处理器节点专属的网络通信模块中集成的动态主机配置协议客户端从主机节点的预先存储的多个互联网协议地址中获取到了对应的图形处理器节点的互联网协议地址,并发送包含获取到的互联网协议地址的信息至主机节点,实现了各图形处理器节点在分布式计算系统的网络中的自动注册,以及通过主机节点发送的依据各动态主机配置协议客户端发送的信息建立的节点表,使得各图形处理器节点能够根据节点表确定分布式计算系统中的网络拓扑结构,不需要依赖与该图形处理器连接的中央处理器才能实现图形处理器在网络上的注册,提高了网络拓扑的灵活性和可扩展性。

Description

一种网络拓扑结构获取方法、装置、设备及介质
技术领域
本发明涉及分布式异构计算系统领域,特别是涉及一种网络拓扑结构获取方法、装置、设备及介质。
背景技术
在传统的分布式异构计算系统中,单个节点中一般存在中央处理器(CentralProcessing Unit,CPU)、图形处理器(Graphics Processing Unit,GPU)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)等多种异构计算设备,这些设备通常是以节点中的CPU为中心,完成计算和通信过程。
GPU作为一个不含任何传统操作系统和软件栈的异构计算设备,不能像主机CPU那样主动的跨芯片访问网络接口控制器(Network Interface Controller,NIC)、通过NIC主动的在网络上注册自己的节点信息。在相关技术中,有的节点内的异构计算引擎不具有专属的通信模块,需要节点上的GPU和CPU共享一个NIC,由CPU负责在网络拓扑上注册本节点内部的所有异构计算引擎或者通过CPU执行厂商提供的代码在网络拓扑上注册自己的信息,限制了节点内异构计算引擎在网络拓扑中的归属方和注册排布方式;为了加速各种神经网络的计算速度,为每个异构计算引擎内部配备了专属的网络通信模块,在外通信时大多数情况下不再需要跨芯片将数据传递至CPU所属的NIC进行发送,但是,在节点内部,异构计算节点仍然通过高速串行计算机扩展总线标准(Peripheral Component InterconnectExpress,PCIe)连接到CPU,由CPU负责在网络拓扑上注册本节点内部的所有异构计算引擎。对于基于算网融合而实现的、各计算引擎独立通信的分布式异构计算系统来说,由CPU负责在网络拓扑上注册本节点内部的所有异构计算引擎严重限制了网络拓扑的灵活性和可扩展性。
由此可见,提供一种网络拓扑获取方法,实现GPU节点的自适应自动组网是本领域人员亟需解决的技术问题。
发明内容
本发明的目的是提供一种网络拓扑结构获取方法、装置、设备及介质,用于实现GPU节点的自适应自动组网。
为解决上述技术问题,本发明提供一种网络拓扑结构获取方法,应用于基于算网融合的分布式计算系统中的主机节点,其中,所述分布式计算系统中的各节点为所述主机节点或图形处理器节点,所述主机节点中包含动态主机配置协议服务器,所述图形处理器节点专属的网络通信模块中集成有动态主机配置协议客户端,所述方法包括:
在接收到各所述动态主机配置协议客户端发送的动态主机配置协议广播消息的情况下,将互联网协议地址分配至各所述动态主机配置协议客户端;其中,所述动态主机配置协议服务器中预先存储有多个所述互联网协议地址;
接收各所述动态主机配置协议客户端发送的信息;其中,所述信息中至少包括所述互联网协议地址、各所述图形处理器节点对应的唯一编码;
根据各所述动态主机配置协议客户端发送的所述信息建立节点表;
将所述节点表分别发送至各所述图形处理器节点,以便于各所述图形处理器节点根据所述节点表确定所述分布式计算系统中的所述网络拓扑结构。
一方面,所述接收各所述动态主机配置协议客户端发送的信息包括:
接收各所述动态主机配置协议客户端通过基于用户数据报协议的协议封装的所述信息;其中,所述基于用户数据报协议的协议为在所述用户数据报协议的数据内容中设置的协议,所述基于用户数据报协议的协议中至少包括初始源唯一编码、目标源唯一编码、数据传输长度、校验和;
对应地,所述根据各所述动态主机配置协议客户端发送的所述信息建立节点表包括:
对各所述动态主机配置协议客户端通过所述基于用户数据报协议的协议封装的所述信息进行解析并获取解析后的信息;
根据所述解析后的信息建立所述节点表。
另一方面,所述根据各所述动态主机配置协议客户端发送的所述信息建立节点表包括:
根据各所述动态主机配置协议客户端发送的信息确定各所述动态主机配置协议客户端对应的所述图形处理器节点的状态信息;
根据各所述动态主机配置协议客户端发送的信息、各所述图形处理器节点的状态信息建立所述节点表。
另一方面,所述分布式计算系统中包含多个主机节点;在所述将互联网协议地址分配至各所述动态主机配置协议客户端之前,还包括:
从所述多个主机节点中选取目标主机节点,以便于在所述目标主机节点中执行所述网络拓扑结构获取方法的步骤;其中,所述目标主机节点为所述互联网协议地址保持不变的所述主机节点;
获取所述目标主机节点对应的互联网信息协议地址;
将所述目标主机节点对应的互联网协议地址发送至普通主机节点;其中,所述普通主机节点为所述主机节点中除所述目标主机节点外的剩余的主机节点。
另一方面,在所述将所述节点表分别发送至各所述图形处理器节点之后,还包括:
在接收到新的动态主机配置协议客户端发送的动态主机配置协议广播消息的情况下,将所述互联网协议地址分配至所述新的动态主机配置协议客户端;
接收新的动态主机配置协议客户端发送的信息;
根据所述新的动态主机配置协议客户端发送的信息将目标图形处理器节点中的各所述节点表更新为包含所述新的动态主机配置协议客户端对应的新的图形处理器节点信息的节点表;其中,所述目标图形处理器节点为所有的所述图形处理器节点或所有的所述图形处理器节点中的部分所述图形处理器节点。
另一方面,所述根据所述新的动态主机配置协议客户端发送的信息将目标图形处理器节点中的各所述节点表更新为包含所述新的动态主机配置协议客户端对应的新的图形处理器节点信息的节点表包括:
自开始接收所述新的动态主机配置协议客户端发送的信息开始,若第一预设时长内接收到多次所述新的动态主机配置协议客户端发送的信息,则从所述第一预设时长结束的时刻开始获取第二预设时长内接收到的所述新的动态主机配置协议客户端发送的信息;
根据所述第一预设时长内所述新的动态主机配置协议客户端发送的信息和所述第二预设时长内所述新的动态主机配置协议客户端发送的信息将所述目标图形处理器节点中的各所述节点表更新为包含所述新的动态主机配置协议客户端对应的所述新的图形处理器节点信息的节点表。
另一方面,还包括:
获取所述普通主机节点发送的所述基于用户数据报协议的协议封装的数据包;其中,所述数据包中至少包含待请求的图形处理器节点的数量、所述普通主机节点的信息;
根据解析后的所述数据包的内容以及所述图形处理器节点的状态信息确定为所述普通主机节点待返回的数据包;其中,所述待返回的数据包中至少包括所述图形处理器节点的所述互联网协议地址以及与所述互联网协议地址对应的唯一编码;
将所述待返回的数据包发送至所述普通主机节点。
另一方面,在所述将所述待返回的数据包发送至所述普通主机节点之后,还包括:
根据所述待返回的数据包更新位于所述目标主机节点中的所述节点表并获取更新后的节点表。
另一方面,本发明还提供一种网络拓扑结构获取方法,应用于基于算网融合的分布式计算系统中的各图形处理器节点,其中,所述分布式计算系统中的各节点为主机节点或所述图形处理器节点,所述主机节点中包含动态主机配置协议服务器,所述图形处理器节点专属的网络通信模块中集成有动态主机配置协议客户端,所述方法包括:
发送动态主机配置协议广播消息至所述主机节点;
获取所述主机节点分配的互联网协议地址;其中,所述动态主机配置协议服务器中预先存储有多个所述互联网协议地址;
通过所述动态主机配置协议客户端发送信息至所述主机节点;其中,所述信息中至少包括所述互联网协议地址、各所述图形处理器节点对应的唯一编码;
获取所述主机节点发送的节点表;其中,所述节点表为所述主机节点根据各所述动态主机配置协议客户端发送的信息建立的;
根据所述节点表确定所述分布式计算系统中的所述网络拓扑结构。
另一方面,本发明还提供一种网络拓扑结构获取装置,应用于基于算网融合的分布式计算系统中的主机节点,其中,所述分布式计算系统中的各节点为所述主机节点或图形处理器节点,所述主机节点中包含动态主机配置协议服务器,所述图形处理器节点专属的网络通信模块中集成有动态主机配置协议客户端,包括:
分配模块,用于在接收到各所述动态主机配置协议客户端发送的动态主机配置协议广播消息的情况下,将互联网协议地址分配至各所述动态主机配置协议客户端;其中,所述动态主机配置协议服务器中预先存储有多个所述互联网协议地址;
接收模块,用于接收各所述动态主机配置协议客户端发送的信息;其中,所述信息中至少包括所述互联网协议地址、各所述图形处理器节点对应的唯一编码;
建立模块,用于根据各所述动态主机配置协议客户端发送的所述信息建立节点表;
发送模块,用于将所述节点表分别发送至各所述图形处理器节点,以便于各所述图形处理器节点根据所述节点表确定所述分布式计算系统中的所述网络拓扑结构。
另一方面,本发明还提供一种网络拓扑结构获取设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现上述的网络拓扑结构获取方法的步骤。
另一方面,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述的网络拓扑结构获取方法的步骤。
本发明所提供的一种网络拓扑结构获取方法,应用于基于算网融合的分布式计算系统中的主机节点,该方法中,各图形处理器节点专属的网络通信模块中集成的动态主机配置协议客户端从主机节点的预先存储的多个互联网协议地址中获取到了对应的图形处理器节点的互联网协议地址,并发送包含获取到的图形处理器节点的互联网协议地址的信息至主机节点,实现了各图形处理器节点在分布式计算系统的网络中的自动注册,以及通过主机节点发送的依据各动态主机配置协议客户端发送的信息建立的节点表,使得各图形处理器节点能够根据节点表确定分布式计算系统中的网络拓扑结构,不需要依赖与该图形处理器连接的中央处理器才能实现图形处理器在网络上的注册,提高了网络拓扑的灵活性和可扩展性;其次,本发明提供的分布式计算系统中各节点为主机节点或图形处理器节点,即一个节点为主机节点或图形处理器节点,实现了图形处理器与所属的主机的解耦,且各图形处理器节点具有专属的网络通信模块,消除了PCIe与主机CPU的物理绑定所造成的网络拓扑的限制;另外,通过图形处理器节点的唯一标识,在节点表中可以根据唯一编码快速找到各图形处理器节点的互联网协议地址,能够提高各图形处理器节点自行组网的效率。
此外,本发明还提供一种网络拓扑结构获取装置、网络拓扑结构获取设备以及计算机可读存储介质,与上述提到的网络拓扑结构获取方法具有相同或相对应的技术特征,效果同上。
附图说明
为了更清楚地说明本发明实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种分布式计算系统的示意图;
图2为本发明实施例提供的一种主机节点的后台服务程序的示意图;
图3为本发明实施例提供的一种GPU节点的硬件结构示意图;
图4为本发明实施例提供的一种网络拓扑结构获取方法的流程图;
图5为本发明实施例提供的一种RLTL协议在整个网络协议栈中的位置和组成部分的示意图;
图6为本发明实施例提供的一种通信独立的分布式异构计算系统的网络拓扑发现工作过程的示意图;
图7为本发明的一实施例提供的网络拓扑结构获取装置的结构图;
图8为本发明另一实施例提供的网络拓扑结构获取设备的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下,所获得的所有其他实施例,都属于本发明保护范围。
本发明的核心是提供一种网络拓扑结构获取方法、装置、设备及介质,用于实现GPU节点的自适应自动组网。图1为本发明实施例提供的一种分布式计算系统的示意图,如图1所示,该分布式计算系统中包含目标主机节点1、普通主机节点2、图形处理器节点3,其中,目标主机节点1和普通主机节点2均为CPU节点,目标主机节点1为运行后台服务程序的节点,普通主机节点2为向目标主机节点1进行数据请求的节点。图2为本发明实施例提供的一种主机节点的后台服务程序的示意图,在目标主机节点1中,外部数据通过传统的网络协议栈在管理库中进行解析和封装等操作,经过网络拓扑管理中的动态主机配置协议(Dynamic Host Configuration Protocol,DHCP)服务器为图形处理器节点分配该节点的互联网协议(Internet Protocol,IP)地址实现GPU节点在网络上的自动注册,在得到所有的GPU节点在网络注册的信息后,实现了网络拓扑发现。图3为本发明实施例提供的一种GPU节点的硬件结构示意图,为GPU提供网络功能支持的iRDMA模块建立在传统的以太网协议栈之上,并提供了类似于远程直接内存访问(Remote Direct Memory Access,RDMA)的远程内存访问的功能,在GPU节点中,通过动态主机配置协议客户端(简称DHCP客户端)以及基于用户数据报协议的协议自定义协议引擎实现对数据包的解析、封装、校验等,需要说明的是,本实施例中将基于用户数据报协议的协议称为可靠的轻量级协议(Reliable LightweightTransport Protocol,RLTL)。在DHCP客户端专属的网络通信模块中集成上电自启动的DHCP客户端,配合上层主机的后台服务程序以及图形处理器节点端的RLTL解析引擎、DHCP客户端以及节点表等,使得每个GPU计算引擎在网络中具备完全独立自主通信的能力,可以自由的地以单个GPU计算引擎的形式进行组网,消除了通过PCIe与CPU主机的物理绑定所造成的网络拓扑的限制,极大地提升了算网融合的分布式计算系统的灵活性和可扩展性。
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。图4为本发明实施例提供的一种网络拓扑结构获取方法的流程图,应用于基于算网融合的分布式计算系统中的主机节点,其中,分布式计算系统中的各节点为主机节点或图形处理器节点,主机节点中包含动态主机配置协议服务器,图形处理器节点专属的网络通信模块中集成有动态主机配置协议客户端,该方法包括:
S10:在接收到各动态主机配置协议客户端发送的动态主机配置协议广播消息的情况下,将互联网协议地址分配至各动态主机配置协议客户端。
其中,动态主机配置协议服务器中预先存储有多个互联网协议地址。
各GPU节点中的DHCP客户端会在GPU节点上电时,自动发送DHCP广播消息,在主机节点的后台服务程序中的DHCP服务器的协助下,各GPU节点会获得本节点在网络中的IP地址。需要说明的是,DHCP服务器为GPU分配的IP地址会随着租约情况确定,使得当前GPU节点的IP地址变化或者保持不变。但是,只要保证同一时刻不同GPU节点对应的IP地址不同即可。
S11:接收各动态主机配置协议客户端发送的信息;其中,信息中至少包括互联网协议地址、各图形处理器节点的唯一编码。
各GPU节点会获得本节点在网络中的IP地址后,自动向后台服务程序发送包含当前GPU节点的IP地址的信息,主机端接收各DHCP客户端发送的信息。在信息中除了当前GPU节点的IP地址外,还包含当前GPU节点的唯一编码(Identity Document,ID)。
S12:根据各动态主机配置协议客户端发送的信息建立节点表。
S13:将节点表分别发送至各图形处理器节点,以便于各图形处理器节点根据节点表确定分布式计算系统中的网络拓扑结构。
在获取到各动态主机配置协议客户端发送的信息后,将信息存储在后台服务程序中。根据各DHCP客户端发送的信息建立节点表,如ID-IP。此外,为了能够根据节点表直观了解到各GPU节点的状态以及方便根据节点表进行资源请求、分配等,在实施中,节点表中除了包含ID-IP外,还可以包含各GPU节点的状态。
具体地,根据各动态主机配置协议客户端发送的信息建立节点表包括:
根据各动态主机配置协议客户端发送的信息确定各动态主机配置协议客户端对应的图形处理器节点的状态信息;
根据各动态主机配置协议客户端发送的信息、各图形处理器节点的状态信息建立节点表。
表1为本发明实施例提供的GPU节点表,如表1所示,GPU节点表中包含各GPU的ID、对应的IP以及对应的GPU状态。实际中,节点表中除了GPU的ID、IP、GPU状态的信息外,还可以包含GPU的其它信息,对此不作限定。
表1GPU节点表
GPU ID GPU IP GPU状态
GPU ID1 GPU IP1 GPU状态
GPU ID2 GPU IP2 GPU状态
GPU IDN GPU IPN GPU状态
在建立好节点表后,将节点表发送至各图形处理器节点,在一段时间范围内,如果该节点表中某个GPU节点的ID所对应的IP地址或者其它信息发生了变化,主机节点则会向所有的其它GPU节点发送信息,以更新其它GPU节点中的节点表,当某个GPU节点需要与其它节点通信时,能根据对方的ID快速地找到对应的IP地址。
本发明实施例所提供的一种网络拓扑结构获取方法,应用于基于算网融合的分布式计算系统中的主机节点,该方法中,各图形处理器节点专属的网络通信模块中集成的动态主机配置协议客户端从主机节点的预先存储的多个互联网协议地址中获取到了对应的图形处理器节点的互联网协议地址,并发送包含获取到的图形处理器节点的互联网协议地址的信息至主机节点,实现了各图形处理器节点在分布式计算系统的网络中的自动注册,以及通过主机节点发送的依据各动态主机配置协议客户端发送的信息建立的节点表,使得各图形处理器节点能够根据节点表确定分布式计算系统中的网络拓扑结构,不需要依赖与该图形处理器连接的中央处理器才能实现图形处理器在网络上的注册,提高了网络拓扑的灵活性和可扩展性;其次,本实施例提供的分布式计算系统中各节点为主机节点或图形处理器节点,即一个节点为主机节点或图形处理器节点,实现了图形处理器与所属的主机的解耦,且各图形处理器节点具有专属的网络通信模块,消除了PCIe与主机CPU的物理绑定所造成的网络拓扑的限制;另外,通过图形处理器节点的唯一标识,在节点表中可以根据唯一编码快速找到各图形处理器节点的互联网协议地址,能够提高各图形处理器节点自行组网的效率。
为了建立可靠的链路,传统的方法是采用传输控制协议(Transmission ControlProtocol,TCP)。然而,由于TCP协议的复杂性,在硬件上实现该协议的功能会消耗大量FPGA资源,并且与用户数据报协议(User Datagram Protocol,UDP)相比,数据路径上的延迟更高。因此,本实施例中基于用户数据报协议的协议,即上文中描述的RLTL协议以提高iRDMA模块在UDP网络下传输效率。
接收各动态主机配置协议客户端发送的信息包括:
接收各动态主机配置协议客户端通过基于用户数据报协议的协议封装的信息;其中,基于用户数据报协议的协议为在用户数据报协议的数据内容中设置的协议,基于用户数据报协议的协议中至少包括初始源唯一编码、目标源唯一编码、数据传输长度、校验和;
对应地,根据各动态主机配置协议客户端发送的信息建立节点表包括:
对各动态主机配置协议客户端通过基于用户数据报协议的协议封装的信息进行解析并获取解析后的信息;
根据解析后的信息建立节点表。
RLTL协议提供了实现可靠的传输所必须的功能,包括超时/乱序重传、流量控制和拥塞管理等。图5为本发明实施例提供的一种RLTL协议在整个网络协议栈中的位置和组成部分的示意图。如图5所示,RLTL协议位于UDP协议的数据内容(AYLOADP)之中,即它是一个应用层的协议。包含了帧类型(frame type)、帧序号(frame number)、flags(标识位)、源ID(src id)、目的ID(dest addr)、传输长度(transfer length)和循环冗余校核(CyclicRedundancy Check,CRC)校验和(checksum)等字段。其中帧类型用于区分该帧的主要功能,例如GPU节点的DHCP请求、节点间的数据搬移、节点间的指令控制、数据应答等;源ID和目的ID则表示了该帧的发送方节点和接收方节点的唯一标识(节点的ID信息是固定的);当帧的功能是进行数据搬移时,源地址和目的地址代表了数据的来源地址和目的地地址;CRC校验和则是提供了错误校验的功能。
各图形处理器节点在获取到本节点在网络中的IP地址后,最后向后台服务程序发送一条使用RLTL协议封装的FINAL消息,该消息的RLTL协议中包含了本节点唯一ID等一系列信息,配合IP头(IP Header)中的IP地址,一起存储在后台服务程序中,完成在网络中的自动注册。
在整个网络中,存在一台服务器作为后台服务程序的运行主机。该后台服务程序会自动接收网络中的所有GPU节点的DHCP注册信息和FINAL消息,对信息进行解析,并根据这些信息实时维护和更新一个节点表,该节点表包含了网络中每个GPU节点的ID信息和对应的IP地址。
本实施例提供的方法中,通过RLTL协议提高了iRDMA模块在UDP网络下传输效率以及实现了数据的可靠性传输。
在实施中,分布式计算系统中包含多个主机节点。在整个网络中,通常存在一台服务器作为后台服务程序的运行主机,因此,本实施例中将运行后台服务程序的主机称为目标主机节点,将其余的主机节点称为普通主机节点。在将互联网协议地址分配至各动态主机配置协议客户端之前,还包括:
从多个主机节点中选取目标主机节点,以便于在目标主机节点中执行网络拓扑结构获取方法的步骤;其中,目标主机节点为互联网协议地址保持不变的主机节点;
获取目标主机节点对应的互联网信息协议地址;
将目标主机节点对应的互联网协议地址发送至普通主机节点;其中,普通主机节点为主机节点中除目标主机节点外的剩余的主机节点。
图6为本发明实施例提供的一种通信独立的分布式异构计算系统的网络拓扑发现工作过程的示意图,如图6所示,包含准备阶段(第一阶段)、上电阶段(第二阶段)、工作阶段(第三阶段)。
对于运行后台服务程序的节点即目标主机节点,在准备阶段,作为DHCP服务器的后台服务程序需要事先在某一个主机节点中启动,该主机节点的IP地址一般不进行改动;此外,通过一次性的配置,将运行后台服务程序的主机节点的IP地址向其他主机节点明示,以便于其他主机节点在稍后的操作中向后台服务程序请求获取网络中的GPU节点的地址信息。
在上电阶段(第二阶段),所有GPU节点中的DHCP客户端会自动通过DHCP协议和FINAL消息(由RLTL Protocol Engine完成打包封装)完成本节点的IP地址的获取和在网络上的注册,该操作除了依赖于常规的DHCP协议,还主要依赖于FINAL消息中封装的RLTL协议的帧类型字段、源ID字段,帧类型字段表明该消息是一个FINAL消息,源ID字段给出了发送该消息的GPU节点的唯一身份ID标识;同时,后台服务程序借助常规的网络协议栈(NetworkProtocol Stack)完成DHCP协议的握手操作;由于RLTL协议是用户层的自定义协议,因此后台服务程序会调用能解析和封装RTLT协议的管理库对接收到的信息进行处理,以了解发送方的意图,对FINAL信息来说,它会得到网络中所有的GPU节点的ID-IP地址对信息;然后后台服务程序会为每个GPU节点维护一个状态信息,该状态信息代表了该GPU节点的一些状态信息,例如,该GPU节点可用、该GPU节点正忙、该GPU节点不可用等,最终完成网络拓扑结构发现。
在上电阶段后,进入工作阶段(第三阶段),针对不同节点,工作阶段有不同的任务,因此,在将节点表分别发送至各图形处理器节点之后,还包括:
在接收到新的动态主机配置协议客户端发送的动态主机配置协议广播消息的情况下,将互联网协议地址分配至新的动态主机配置协议客户端;
接收新的动态主机配置协议客户端发送的信息;
根据新的动态主机配置协议客户端发送的信息将目标图形处理器节点中的各节点表更新为包含新的动态主机配置协议客户端对应的新的图形处理器节点信息的节点表;其中,目标图形处理器节点为所有的图形处理器节点或所有的图形处理器节点中的部分图形处理器节点。
a)对运行后台服务程序的主机节点来说,该节点会在工作阶段实时监测,以添加网络中新增的GPU节点的信息(即某一些GPU节点会在整个网络已经完成上电等初始化过程后再加入到网络中)。
在实施中,为避免网络阻塞,根据新的动态主机配置协议客户端发送的信息将目标图形处理器节点中的各节点表更新为包含新的动态主机配置协议客户端对应的新的图形处理器节点信息的节点表包括:
自开始接收新的动态主机配置协议客户端发送的信息开始,若第一预设时长内接收到多次新的动态主机配置协议客户端发送的信息,则从第一预设时长结束的时刻开始获取第二预设时长内接收到的新的动态主机配置协议客户端发送的信息;
根据第一预设时长内新的动态主机配置协议客户端发送的信息和第二预设时长内新的动态主机配置协议客户端发送的信息将目标图形处理器节点中的各节点表更新为包含新的动态主机配置协议客户端对应的新的图形处理器节点信息的节点表。
对于第一预设时长、第二预设时长不作限定。本实施例中对于短时间内节点表有多次变化,不会进行多次同步,而是将一段时间内的总变化进行一次性同步,以避免网络拥塞。
b)对GPU节点来说,在工作阶段,每个GPU节点如果接收到来自后台服务程序的同步更新消息(由RLTL协议的帧类型字段标识),则会将由RLTL Protocol Engine解析得到的变化信息保存在节点内部的节点表中。
在实施中,还包括:
获取普通主机节点发送的基于用户数据报协议的协议封装的数据包;其中,数据包中至少包含待请求的图形处理器节点的数量、普通主机节点的信息;
根据解析后的数据包的内容以及图形处理器节点的状态信息确定为普通主机节点待返回的数据包;其中,待返回的数据包中至少包括图形处理器节点的互联网协议地址以及与互联网协议地址对应的唯一编码;
将待返回的数据包发送至普通主机节点。
在将待返回的数据包发送至普通主机节点之后,还包括:
根据待返回的数据包更新位于目标主机节点中的节点表并获取更新后的节点表。
在上述的a)中描述了在工作节点目标主机节点的任务,b)中描述了GPU节点的任务,本实施例中,对于普通主机节点在工作阶段执行的任务如下:
c)对于某一个普通的主机节点来说,当主机节点的用户需要申请一定数量的GPU节点资源以进行计算时,会根据配置阶段所配置的后台服务程序所在的IP地址,向该IP地址发送RLTL协议封装过的包,RLTL协议的帧类型字段表明了该普通节点的意图,即请求一定数量的GPU节点资源(假设为N),而IP协议中的源IP地址则向后台服务程序表示了请求源的信息。
后台服务程序会向请求源节点的主机返回一个RLTL协议封装过的包,该包的RLTL协议的payload字段按照一定的格式存储了N个GPU节点的信息,包括N个设备的ID,N个设备的ID对应的IP地址等;并且后台服务程序会更新本节点中存储的对应的GPU节点的状态信息,表示这些GPU节点已经被使用和占用对象,以防止被其它主机申请。
本发明实施例提供的方法中,通过在上层主机的后台服务程序和GPU硬件中,集成封装和解析自定义的RLTL协议(位于用户层)的功能,实现了UDP协议下的可靠性传输,且与现有主流网络协议栈的部署高度兼容;
通过使用自定义的RLTL协议的ID字段,实现了范围内的每个GPU节点的唯一身份标识,并且该标识与上层主机的DHCP服务器为该GPU节点分配的IP地址一一对应,实现了对IP地址的快速查表;
通过在GPU专属的网络通信模块中集成上电自启动的DHCP客户端,配合上层主机的后台服务程序、GPU端的RLTL解析引擎以及节点表,使得每个GPU计算引擎在网络中具备完全独立自主通信的能力,可以自由的地以单个GPU计算引擎的形式进行组网,消除了通过PCIe与CPU主机的物理绑定所造成的网络拓扑的限制。
上文中描述了一种应用于主机节点的网络拓扑结构获取方法,本实施例还提供一种应用于各图形处理器节点的网络拓扑结构获取方法。本实施例提供的一种网络拓扑结构获取方法,应用于基于算网融合的分布式计算系统中的各图形处理器节点,其中,分布式计算系统中的各节点为主机节点或图形处理器节点,主机节点中包含动态主机配置协议服务器,图形处理器节点专属的网络通信模块中集成有动态主机配置协议客户端,该方法包括:
发送动态主机配置协议广播消息至主机节点;
获取主机节点分配的互联网协议地址;其中,动态主机配置协议服务器中预先存储有多个互联网协议地址;
通过动态主机配置协议客户端发送信息至主机节点;其中,信息中至少包括互联网协议地址、各图形处理器节点对应的唯一编码;
获取主机节点发送的节点表;其中,节点表为主机节点根据各动态主机配置协议客户端发送的信息建立的;
根据节点表确定分布式计算系统中的网络拓扑结构。
本实施例提供的应用于各图形处理器节点的网络拓扑结构获取方法与上文中描述的应用于主机节点的网络拓扑结构获取方法具有相同或相对应的技术特征,上文中已对应用于主机节点的网络拓扑结构获取方法进行了详细地描述,此处对于应用于各图形处理器节点的网络拓扑结构获取方法的实施例不再赘述,并且具有与上述提到的应用于主机节点的网络拓扑结构获取方法相同的有益效果。
在上述实施例中,对于网络拓扑结构获取方法进行了详细描述,本发明还提供网络拓扑结构获取装置、网络拓扑结构获取设备对应的实施例。需要说明的是,本发明从两个角度对装置部分的实施例进行描述,一种是基于功能模块的角度,另一种是基于硬件的角度。
本实施例提供一种网络拓扑结构获取装置,应用于基于算网融合的分布式计算系统中的主机节点,其中,分布式计算系统中的各节点为主机节点或图形处理器节点,主机节点中包含动态主机配置协议服务器,图形处理器节点专属的网络通信模块中集成有动态主机配置协议客户端。图7为本发明的一实施例提供的网络拓扑结构获取装置的结构图。本实施例基于功能模块的角度,包括:
分配模块10,用于在接收到各动态主机配置协议客户端发送的动态主机配置协议广播消息的情况下,将互联网协议地址分配至各动态主机配置协议客户端;其中,动态主机配置协议服务器中预先存储有多个互联网协议地址;
接收模块11,用于接收各动态主机配置协议客户端发送的信息;其中,信息中至少包括互联网协议地址、各图形处理器节点对应的唯一编码;
建立模块12,用于根据各动态主机配置协议客户端发送的信息建立节点表;
发送模块13,用于将节点表分别发送至各图形处理器节点,以便于各图形处理器节点根据节点表确定分布式计算系统中的网络拓扑结构。
由于装置部分的实施例与方法部分的实施例相互对应,因此装置部分的实施例请参见方法部分的实施例的描述,这里暂不赘述,且效果同上。
接收模块11包括:
第一接收模块,用于接收各动态主机配置协议客户端通过基于用户数据报协议的协议封装的信息;其中,基于用户数据报协议的协议为在用户数据报协议的数据内容中设置的协议,基于用户数据报协议的协议中至少包括初始源唯一编码、目标源唯一编码、数据传输长度、校验和;
建立模块12包括:
解析及获取模块,用于对各动态主机配置协议客户端通过基于用户数据报协议的协议封装的信息进行解析并获取解析后的信息;
第一建立模块,用于根据解析后的信息建立节点表。
建立模块12包括:
第一确定模块,用于根据各动态主机配置协议客户端发送的信息确定各动态主机配置协议客户端对应的图形处理器节点的状态信息;
第二建立模块,用于根据各动态主机配置协议客户端发送的信息、各图形处理器节点的状态信息建立节点表。
分布式计算系统中包含多个主机节点;还包括:
选取模块,用于从多个主机节点中选取目标主机节点,以便于在目标主机节点中执行网络拓扑结构获取方法的步骤;其中,目标主机节点为互联网协议地址保持不变的主机节点;
第一获取模块,用于获取目标主机节点对应的互联网信息协议地址;
第一发送模块,用于将目标主机节点对应的互联网协议地址发送至普通主机节点;其中,普通主机节点为主机节点中除目标主机节点外的剩余的主机节点。
还包括:
分配模块,用于在接收到新的动态主机配置协议客户端发送的动态主机配置协议广播消息的情况下,将互联网协议地址分配至新的动态主机配置协议客户端;
第二接收模块,用于接收新的动态主机配置协议客户端发送的信息;
更新模块,用于根据新的动态主机配置协议客户端发送的信息将目标图形处理器节点中的各节点表更新为包含新的动态主机配置协议客户端对应的新的图形处理器节点信息的节点表;其中,目标图形处理器节点为所有的图形处理器节点或所有的图形处理器节点中的部分图形处理器节点。
更新模块包括:
第二获取模块,用于自开始接收新的动态主机配置协议客户端发送的信息开始,若第一预设时长内接收到多次新的动态主机配置协议客户端发送的信息,则从第一预设时长结束的时刻开始获取第二预设时长内接收到的新的动态主机配置协议客户端发送的信息;
第一更新模块,用于根据第一预设时长内新的动态主机配置协议客户端发送的信息和第二预设时长内新的动态主机配置协议客户端发送的信息将目标图形处理器节点中的各节点表更新为包含新的动态主机配置协议客户端对应的新的图形处理器节点信息的节点表。
还包括:
第三获取模块,用于获取普通主机节点发送的基于用户数据报协议的协议封装的数据包;其中,数据包中至少包含待请求的图形处理器节点的数量、普通主机节点的信息;
第二确定模块,用于根据解析后的数据包的内容以及图形处理器节点的状态信息确定为普通主机节点待返回的数据包;其中,待返回的数据包中至少包括图形处理器节点的互联网协议地址以及与互联网协议地址对应的唯一编码;
第二发送模块,用于将待返回的数据包发送至普通主机节点。
还包括:
第二更新模块,用于根据待返回的数据包更新位于目标主机节点中的节点表并获取更新后的节点表。
本实施例还提供一种网络拓扑结构获取装置,应用于基于算网融合的分布式计算系统中的各图形处理器节点,其中,分布式计算系统中的各节点为主机节点或图形处理器节点,主机节点中包含动态主机配置协议服务器,图形处理器节点专属的网络通信模块中集成有动态主机配置协议客户端,该装置包括:
第三发送模块,用于发送动态主机配置协议广播消息至主机节点;
第四获取模块,用于获取主机节点分配的互联网协议地址;其中,动态主机配置协议服务器中预先存储有多个互联网协议地址;
第四发送模块,用于通过动态主机配置协议客户端发送信息至主机节点;其中,信息中至少包括互联网协议地址、各图形处理器节点对应的唯一编码;
第五获取模块,用于获取主机节点发送的节点表;其中,节点表为主机节点根据各动态主机配置协议客户端发送的信息建立的;
第三确定模块,用于根据节点表确定分布式计算系统中的网络拓扑结构。
本实施例提供的网络拓扑结构获取装置与上文中描述的网络拓扑结构获取方法具有相同或相对应的技术特征,效果同上。
图8为本发明另一实施例提供的网络拓扑结构获取设备的结构图。本实施例基于硬件角度,如图8所示,网络拓扑结构获取设备包括:
存储器20,用于存储计算机程序;
处理器21,用于执行计算机程序时实现如上述实施例中所提到的网络拓扑结构获取方法的步骤。
其中,处理器21可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器21可以采用数字信号处理器(Digital Signal Processor,DSP)、FPGA、可编程逻辑阵列(Programmable Logic Array,PLA)中的至少一种硬件形式来实现。处理器21也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU;协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器21可以集成有GPU,GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器21还可以包括人工智能(Artificial Intelligence,AI)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器20可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器20还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。本实施例中,存储器20至少用于存储以下计算机程序201,其中,该计算机程序被处理器21加载并执行之后,能够实现前述任一实施例公开的网络拓扑结构获取方法的相关步骤。另外,存储器20所存储的资源还可以包括操作系统202和数据203等,存储方式可以是短暂存储或者永久存储。其中,操作系统202可以包括Windows、Unix、Linux等。数据203可以包括但不限于上述所提到的网络拓扑结构获取方法所涉及到的数据等。
在一些实施例中,网络拓扑结构获取设备还可包括有显示屏22、输入输出接口23、通信接口24、电源25以及通信总线26。
本领域技术人员可以理解,图8中示出的结构并不构成对网络拓扑结构获取设备的限定,可以包括比图示更多或更少的组件。
本发明实施例提供的网络拓扑结构获取设备,包括存储器和处理器,处理器在执行存储器存储的程序时,能够实现如下方法:网络拓扑结构获取方法,效果同上。
最后,本发明还提供一种计算机可读存储介质对应的实施例。计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述方法实施例(可以是主机节点侧对应的方法、也可以是图形处理器节点侧对应的方法,还可以是主机节点侧和图形处理器节点侧对应的方法)中记载的步骤。
可以理解的是,如果上述实施例中的方法以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明提供的计算机可读存储介质包括上述提到的网络拓扑结构获取方法,效果同上。
以上对本发明所提供的一种网络拓扑结构获取方法、装置、设备及介质进行了详细介绍。说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (12)

1.一种网络拓扑结构获取方法,其特征在于,应用于基于算网融合的分布式计算系统中的主机节点,其中,所述分布式计算系统中的各节点为所述主机节点或图形处理器节点,所述主机节点中包含动态主机配置协议服务器,所述图形处理器节点专属的网络通信模块中集成有动态主机配置协议客户端,所述方法包括:
在接收到各所述动态主机配置协议客户端发送的动态主机配置协议广播消息的情况下,将互联网协议地址分配至各所述动态主机配置协议客户端;其中,所述动态主机配置协议服务器中预先存储有多个所述互联网协议地址;
接收各所述动态主机配置协议客户端发送的信息;其中,所述信息中至少包括所述互联网协议地址、各所述图形处理器节点对应的唯一编码;
根据各所述动态主机配置协议客户端发送的所述信息建立节点表;
将所述节点表分别发送至各所述图形处理器节点,以便于各所述图形处理器节点根据所述节点表确定所述分布式计算系统中的所述网络拓扑结构。
2.根据权利要求1所述的网络拓扑结构获取方法,其特征在于,所述接收各所述动态主机配置协议客户端发送的信息包括:
接收各所述动态主机配置协议客户端通过基于用户数据报协议的协议封装的所述信息;其中,所述基于用户数据报协议的协议为在所述用户数据报协议的数据内容中设置的协议,所述基于用户数据报协议的协议中至少包括初始源唯一编码、目标源唯一编码、数据传输长度、校验和;
对应地,所述根据各所述动态主机配置协议客户端发送的所述信息建立节点表包括:
对各所述动态主机配置协议客户端通过所述基于用户数据报协议的协议封装的所述信息进行解析并获取解析后的信息;
根据所述解析后的信息建立所述节点表。
3.根据权利要求2所述的网络拓扑结构获取方法,其特征在于,所述根据各所述动态主机配置协议客户端发送的所述信息建立节点表包括:
根据各所述动态主机配置协议客户端发送的信息确定各所述动态主机配置协议客户端对应的所述图形处理器节点的状态信息;
根据各所述动态主机配置协议客户端发送的信息、各所述图形处理器节点的状态信息建立所述节点表。
4.根据权利要求1至3任意一项所述的网络拓扑结构获取方法,其特征在于,所述分布式计算系统中包含多个主机节点;在所述将互联网协议地址分配至各所述动态主机配置协议客户端之前,还包括:
从所述多个主机节点中选取目标主机节点,以便于在所述目标主机节点中执行所述网络拓扑结构获取方法的步骤;其中,所述目标主机节点为所述互联网协议地址保持不变的所述主机节点;
获取所述目标主机节点对应的互联网信息协议地址;
将所述目标主机节点对应的互联网协议地址发送至普通主机节点;其中,所述普通主机节点为所述主机节点中除所述目标主机节点外的剩余的主机节点。
5.根据权利要求4所述的网络拓扑结构获取方法,其特征在于,在所述将所述节点表分别发送至各所述图形处理器节点之后,还包括:
在接收到新的动态主机配置协议客户端发送的动态主机配置协议广播消息的情况下,将所述互联网协议地址分配至所述新的动态主机配置协议客户端;
接收新的动态主机配置协议客户端发送的信息;
根据所述新的动态主机配置协议客户端发送的信息将目标图形处理器节点中的各所述节点表更新为包含所述新的动态主机配置协议客户端对应的新的图形处理器节点信息的节点表;其中,所述目标图形处理器节点为所有的所述图形处理器节点或所有的所述图形处理器节点中的部分所述图形处理器节点。
6.根据权利要求5所述的网络拓扑结构获取方法,其特征在于,所述根据所述新的动态主机配置协议客户端发送的信息将目标图形处理器节点中的各所述节点表更新为包含所述新的动态主机配置协议客户端对应的新的图形处理器节点信息的节点表包括:
自开始接收所述新的动态主机配置协议客户端发送的信息开始,若第一预设时长内接收到多次所述新的动态主机配置协议客户端发送的信息,则从所述第一预设时长结束的时刻开始获取第二预设时长内接收到的所述新的动态主机配置协议客户端发送的信息;
根据所述第一预设时长内所述新的动态主机配置协议客户端发送的信息和所述第二预设时长内所述新的动态主机配置协议客户端发送的信息将所述目标图形处理器节点中的各所述节点表更新为包含所述新的动态主机配置协议客户端对应的所述新的图形处理器节点信息的节点表。
7.根据权利要求4所述的网络拓扑结构获取方法,其特征在于,还包括:
获取所述普通主机节点发送的所述基于用户数据报协议的协议封装的数据包;其中,所述数据包中至少包含待请求的图形处理器节点的数量、所述普通主机节点的信息;
根据解析后的所述数据包的内容以及所述图形处理器节点的状态信息确定为所述普通主机节点待返回的数据包;其中,所述待返回的数据包中至少包括所述图形处理器节点的所述互联网协议地址以及与所述互联网协议地址对应的唯一编码;
将所述待返回的数据包发送至所述普通主机节点。
8.根据权利要求7所述的网络拓扑结构获取方法,其特征在于,在所述将所述待返回的数据包发送至所述普通主机节点之后,还包括:
根据所述待返回的数据包更新位于所述目标主机节点中的所述节点表并获取更新后的节点表。
9.一种网络拓扑结构获取方法,其特征在于,应用于基于算网融合的分布式计算系统中的各图形处理器节点,其中,所述分布式计算系统中的各节点为主机节点或所述图形处理器节点,所述主机节点中包含动态主机配置协议服务器,所述图形处理器节点专属的网络通信模块中集成有动态主机配置协议客户端,所述方法包括:
发送动态主机配置协议广播消息至所述主机节点;
获取所述主机节点分配的互联网协议地址;其中,所述动态主机配置协议服务器中预先存储有多个所述互联网协议地址;
通过所述动态主机配置协议客户端发送信息至所述主机节点;其中,所述信息中至少包括所述互联网协议地址、各所述图形处理器节点对应的唯一编码;
获取所述主机节点发送的节点表;其中,所述节点表为所述主机节点根据各所述动态主机配置协议客户端发送的信息建立的;
根据所述节点表确定所述分布式计算系统中的所述网络拓扑结构。
10.一种网络拓扑结构获取装置,其特征在于,应用于基于算网融合的分布式计算系统中的主机节点,其中,所述分布式计算系统中的各节点为所述主机节点或图形处理器节点,所述主机节点中包含动态主机配置协议服务器,所述图形处理器节点专属的网络通信模块中集成有动态主机配置协议客户端,包括:
分配模块,用于在接收到各所述动态主机配置协议客户端发送的动态主机配置协议广播消息的情况下,将互联网协议地址分配至各所述动态主机配置协议客户端;其中,所述动态主机配置协议服务器中预先存储有多个所述互联网协议地址;
接收模块,用于接收各所述动态主机配置协议客户端发送的信息;其中,所述信息中至少包括所述互联网协议地址、各所述图形处理器节点对应的唯一编码;
建立模块,用于根据各所述动态主机配置协议客户端发送的所述信息建立节点表;
发送模块,用于将所述节点表分别发送至各所述图形处理器节点,以便于各所述图形处理器节点根据所述节点表确定所述分布式计算系统中的所述网络拓扑结构。
11.一种网络拓扑结构获取设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至9任一项所述的网络拓扑结构获取方法的步骤。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至9任一项所述的网络拓扑结构获取方法的步骤。
CN202310573372.2A 2023-05-19 2023-05-19 一种网络拓扑结构获取方法、装置、设备及介质 Pending CN116389280A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310573372.2A CN116389280A (zh) 2023-05-19 2023-05-19 一种网络拓扑结构获取方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310573372.2A CN116389280A (zh) 2023-05-19 2023-05-19 一种网络拓扑结构获取方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN116389280A true CN116389280A (zh) 2023-07-04

Family

ID=86964221

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310573372.2A Pending CN116389280A (zh) 2023-05-19 2023-05-19 一种网络拓扑结构获取方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN116389280A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118714010A (zh) * 2024-07-02 2024-09-27 深圳开鸿数字产业发展有限公司 设备组网方法、系统、智能终端及计算机可读存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118714010A (zh) * 2024-07-02 2024-09-27 深圳开鸿数字产业发展有限公司 设备组网方法、系统、智能终端及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN111542064B (zh) 一种用于无线接入网的容器编排管理系统及编排方法
CN106790660B (zh) 一种实现分布式存储系统的部署方法及装置
CN111294399B (zh) 一种数据传输方法和装置
WO2019214560A1 (zh) 一种dhcp报文处理方法及装置
CN114070723B (zh) 裸金属服务器的虚拟网络配置方法、系统及智能网卡
WO2018120988A1 (zh) 一种应用交互方法、装置、物理机及系统
US7930370B2 (en) Method and system for remote configuration of managed nodes
CN102315968B (zh) 虚拟机环境下的网络配置方法
WO2022095348A1 (zh) 一种计算资源的远程映射方法、装置、设备及存储介质
CN112631788B (zh) 数据传输方法及数据传输服务器
WO2022184085A1 (zh) 会话同步方法、装置、第一节点、第二节点、系统及介质
US20170039083A1 (en) Proxy response program, proxy response device and proxy response method
JP2017503405A (ja) アドレス解決プロトコルメッセージを処理するための方法、スイッチ及びコントローラ
KR20110036573A (ko) 서버 애플리케이션 프로그램으로 ip 네트워크를 통한 엑세스를 제공하는 방법
CN111641730A (zh) 可扩展地址解析
CN112968965B (zh) Nfv网络节点的元数据服务方法、服务器及存储介质
CN116132435B (zh) 一种容器云平台的双栈跨节点通信方法和系统
CN111629059B (zh) 一种集群通信方法、系统、设备及计算机可读存储介质
WO2017059742A1 (zh) 用户侧设备、服务器、端口资源管理方法及系统
CN116389280A (zh) 一种网络拓扑结构获取方法、装置、设备及介质
WO2017219777A1 (zh) 一种报文处理方法及装置
WO2023206799A1 (zh) 一种ai训练平台的网卡通信方法、装置、设备及介质
US20120300776A1 (en) Method for creating virtual link, communication network element, and ethernet network system
EP2345230B1 (en) Method and apparatus for allocating network resources from one address realm to clients in a different address realm
CN116132542B (zh) 容器网络管理方法、容器网络插件以及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination