linux内存管理论文(2)
linux内存管理论文篇二
Linux环境下集群系统的资源管理
【摘要】随着计算机网络的发展及大规模科学计算如气象预报、自动化处理较高单位等对服务器的性能要求越来越高,对计算机的性能提出了更高的要求:需要硬件有灵活的可扩展性,关键性的模块需要可靠的容错机制。计算机集群系统具有处理速度快、I/O吞吐量大,容错性好、可靠性高,而且还具有良好的可扩展能力等诸多优点,因此成为了当前的主流。本文叙述了集群系统的资源的管理和分配。
【关键词】LINUX;集群系统;资源管理
1.集群系统概述
集群是一组通过高速网络互联的相互独立的计算机的集合,配以专门软件以单一系统的模式加以管理。在用户看来,它是运行在一系列自治处理单元上的普通系统,每个结点有各自物理内存空间并通过高速链路或者标准化网络连接,实现对同一任务的协同计算。当一个用户与集群相互作用时,集群就像是一个独立的服务器。和传统的高性能计算机技术相比,集群技术可以利用各档次的计算机作为节点,不仅系统造价低,还可以实现很高的运算速度,完成大运算量的计算,能够逐步满足当今日益增长的超大数据量的石油物探处理需求。系统保持了分布式客户机/服务器模式的开发性、可扩展性的优点,同时又具备了终端/主机模式的资源共享和集中易于管理的优点。相对集中的集群系统,降低了系统管理的成本,而且还提供了和大型服务器系统相媲美的处理能力。高可用和高性能是集群服务器系统的两个重要特性。
2.集群系统(CLUSTER)的特点
集群系统使由完整的计算机互联组成一个统一的计算机系统具有极高的性能价格比。它需要专有软件的支持,比如支持集群技术的操作系统或数据库等,硬件方面可以根据不同实际需求,采用现成的通用硬件设备或特殊应用的硬件设备。集群系统中可以动态地加入新的服务器和删除需要淘汰的服务器,具备很强的可扩展性,从而能够最大限度地扩展系统以满足不断增长的应用的需要;另外,要求集群系统具有可用性,即能够为用户提供不间断的服务,当系统中的一个结点出现故障的时候,整个系统仍然能够继续为用户提供服务。
3.集群系统的分类
集群系统可分为高可用性集群和高性能集群。高可用性集群的主要功能就是提供不间断的服务。高性能集群通过将多台机器连接起来同时处理复杂的计算问题,如模拟星球附近的磁场、预测龙卷风的出现、定位石油资源的储藏地等情况都需要对大量的数据进行处理。传统的处理方法是使用超级计算机来完成计算工作,但是超级计算机的价格比较昂贵,而且可用性和可扩展性不够强,因此集群成为了高性能计算领域瞩目的焦点。
4.集群系统的资源管理
系统资源是作业运行的基础,这些资源包括集群的硬件资源和软件资源,硬件资源是软件资源的基础。本系统是构建在操作系统上的,只对本系统所涉及的范围进行分析。计算节点资源的利用率是系统性能的重要指标,资源利用率越高说明系统处理作业的计算能力越大,集群中的资源的有效利用程度直接影响系统中的作业运行效率,所以必须对集群中的所有可用资源进行有效管理,从而为资源分配和作业调度提供决策依据。服务器与计算节点上都有一个资源对象管理进程,它们所管理的资源内容与范围是不同的。服务器对象管理进程对整个集群系统中所有计算资源进行统一管理,包含集群中所有的节点信息与作业信息。计算节点对象管理进程只对此节点上的计算资源进行管理,包含此节点上的资源信息与作业信息。
调配硬件资源,合理分配给每个项目的每一个用户,一直是我们系统管理员的工作中的重要课题。某单位现拥有四套曙光集群和一套超微集群。全部运行在RedHat Server4.6/5.3之上,主要设备如表1所示。
从系统组成角度说,集群系统是由多台计算机组成的超级计算机。但是从最终用户看来,集群系统是一台计算机,也就是说,集群系统的构成对用户是透明的。所以集群系统的管理的目的就是让集群系统象一台计算机一样利于管理和使用。
工作中我们发现一些问题:
(1)业务单位资料的运算处理通常伴随着大容量的数据存取,由于数据量非常的大,所以只能存储在一块共用的硬盘阵列上,并由专门的I/O节点来管理存储。当需要更多的计算节点来并行计算以提升运算速度的时候,由于同时对I/O节点进行数据读写访问,当I/O传输达到的上限,过多的访问申请反而会造成数据的拥堵。
(2)由于盘阵的容量相对较大,通常分成不同的卷,而在外部用户来看,他们并不知道使用的卷具体位置在哪,所以会出现,一个盘阵由于划分了多个卷,每个卷存储多个项目的现象。
(3)直接在I/O服务器上启动软件服务和工作窗口,并且调度其他计算节点并行作业;I/O服务器本身负荷就相当大,它要提供其他节点的数据读写访问和传输服务,不但要给自己读写数据,它所控制的子节点也需要对它所挂载的盘阵并行读写,反而造成拥堵。
经过不断的摸索,我们总结出:
(1)同一个项目中,最多不超过100个计算节点同时用来处理一个项目。
(2)对于大盘阵最多只分三个卷,每个卷尽量只允许用在一个项目上,项目结束后,才重新分配给下次个项目。
(3)每个处理员分配单独的登陆节点,用来启动软件界面,不增加软件服务器、数据库服务器、I/O存储服务器的额外负担。
5.总结
随着业务的不断发展,单个服务器已经逐渐不能满足用户的需求,而超级计算机的价格非常昂贵,相比之下,集群系统具有高性价比、高可用性、高扩展性的特点,因此逐渐成为了高性能计算的主流。集群系统是通过高速网络互连起来的一组计算机,它们作为一个整体为用户提供应用服务。
在业务数据处理中,服务器与计算节点的故障都会给用户带来一定程度的损失,如果服务器停止工作会导致整个系统工作的瘫痪,节点发生故障也会对系统造成一定的影响。尤其是当系统中存在需要运行很长时间的大作业时,由于服务器或计算节点故障而导致作业的运行失败,会导致时间的浪费与系统效率的降低。为了保证系统持续、可靠地提供服务,集群系统的灾难恢复研究是非常重要的一部分内容。可以采用当前比较流行的双机备份方案,即采用两台服务器进行系统中数据的备份与恢复工作,从而保证为系统提供持续可靠的服务。
参考文献
[1]Alex Vrenios(美)著.马朝晖译.LINUX集群体系结构[M].机械工业出版社.
[2]BarryWilkinson著.陆鑫达译.Parallel Programming [M].北京:机械工业出版社,2002,1.
[3]James Turnbull,eter Liieverdink,Dennis Matotek(美)著.张铮,张勇,陈勇涛,刘春华,耿强译.Linux系统管理大全[M].人民邮电出版社,2010,12.