分布式锁是分布式存储系统的重要组件,锁协议的性能对系统整体的性能有关键性影响。远程直接内存访问(remote direct memory access,RDMA)是一种新兴的数据中心网络技术,它支持单边网络通信原语,可以降低系统CPU开销,同时具备低延迟、...分布式锁是分布式存储系统的重要组件,锁协议的性能对系统整体的性能有关键性影响。远程直接内存访问(remote direct memory access,RDMA)是一种新兴的数据中心网络技术,它支持单边网络通信原语,可以降低系统CPU开销,同时具备低延迟、高吞吐的性能特性,为设计高速分布式锁协议提供了新机遇。然而,设计基于RDMA的分布式锁协议面临诸多挑战。着重在保证高性能的前提下解决扩展性和公平性挑战,提出一种RDMA网络中的高性能分布式锁协议FeLock,它利用多种类型的RDMA网络通信原语,使客户端不仅能与服务端通信加解锁,还能与其他客户端直接通信以移交锁所有权,同时实现了高性能、公平性和性能的扩展性。具体地,为保证高性能,FeLock引入了节点粒度锁管理机制,缩减锁协议在关键路径上的网络往返次数。为实现扩展性,FeLock引入了轮转移交机制,将所有节点排成1个环,客户端按照其在环中的顺序依次移交锁的所有权。为实现公平性和避免客户端饥饿,FeLock引入了节点信用机制,限制节点连续加锁的次数,避免其他节点上的客户端无法加锁。实验显示,FeLock相比于现有单边RDMA锁协议(如DSLR)表现出相似或更高的性能,并且具有更好的公平性和扩展性。在3~120个客户端的环境下,FeLock的吞吐量是DSLR的1.01~7.51倍,公平性提升至多2.24倍。展开更多
针对传统云平台运维监控系统存在的监控信息分散、无效告警冗余、误报率高,且难以支撑全局化运维决策的问题,在分析现有基于环状数据库(Round Robin Database,RRD)、Zabbix等技术的监控方案不足的基础上,对Prometheus与Grafana的技术适...针对传统云平台运维监控系统存在的监控信息分散、无效告警冗余、误报率高,且难以支撑全局化运维决策的问题,在分析现有基于环状数据库(Round Robin Database,RRD)、Zabbix等技术的监控方案不足的基础上,对Prometheus与Grafana的技术适配性进行简要介绍,提出一种基于该技术组合的私有云监控系统及实现方法。系统通过“数据采集,数据存储,监控展示,告警执行”四大模块协同工作:数据采集模块采用接口与探针双轨制策略,结合跨网交互方案与接口限流突破机制,实现多网络环境下监控数据的全面获取;数据存储模块构建“逻辑组织、分片存储、联邦聚合”3层架构,基于Prometheus时序数据库与标签扩展模型,解决多源异构数据的高效存储与查询问题;告警执行模块引入动态阈值算法、分级抑制策略及告警风暴处理机制,提升告警准确性与可控性。通过搭建包含3台物理服务器的私有云测试集群,以Nagios系统为对照,对系统在正常负载、资源过载、网络隔离等场景下的性能进行仿真测试与对比分析。实验结果表明,与传统方案相比,该系统72h累计无效告警减少70.9%,告警准确率提升至92.2%(较对照组提高72.7%),平均告警延迟降低57.1%,同时CPU与内存资源占用分别减少6.8%和0.9 GB。研究结论显示,该系统可有效克服传统监控装置的缺陷,显著提升私有云平台的运行稳定性与运维效率,具备较强的工程实践推广价值。展开更多
文摘分布式锁是分布式存储系统的重要组件,锁协议的性能对系统整体的性能有关键性影响。远程直接内存访问(remote direct memory access,RDMA)是一种新兴的数据中心网络技术,它支持单边网络通信原语,可以降低系统CPU开销,同时具备低延迟、高吞吐的性能特性,为设计高速分布式锁协议提供了新机遇。然而,设计基于RDMA的分布式锁协议面临诸多挑战。着重在保证高性能的前提下解决扩展性和公平性挑战,提出一种RDMA网络中的高性能分布式锁协议FeLock,它利用多种类型的RDMA网络通信原语,使客户端不仅能与服务端通信加解锁,还能与其他客户端直接通信以移交锁所有权,同时实现了高性能、公平性和性能的扩展性。具体地,为保证高性能,FeLock引入了节点粒度锁管理机制,缩减锁协议在关键路径上的网络往返次数。为实现扩展性,FeLock引入了轮转移交机制,将所有节点排成1个环,客户端按照其在环中的顺序依次移交锁的所有权。为实现公平性和避免客户端饥饿,FeLock引入了节点信用机制,限制节点连续加锁的次数,避免其他节点上的客户端无法加锁。实验显示,FeLock相比于现有单边RDMA锁协议(如DSLR)表现出相似或更高的性能,并且具有更好的公平性和扩展性。在3~120个客户端的环境下,FeLock的吞吐量是DSLR的1.01~7.51倍,公平性提升至多2.24倍。
文摘针对传统云平台运维监控系统存在的监控信息分散、无效告警冗余、误报率高,且难以支撑全局化运维决策的问题,在分析现有基于环状数据库(Round Robin Database,RRD)、Zabbix等技术的监控方案不足的基础上,对Prometheus与Grafana的技术适配性进行简要介绍,提出一种基于该技术组合的私有云监控系统及实现方法。系统通过“数据采集,数据存储,监控展示,告警执行”四大模块协同工作:数据采集模块采用接口与探针双轨制策略,结合跨网交互方案与接口限流突破机制,实现多网络环境下监控数据的全面获取;数据存储模块构建“逻辑组织、分片存储、联邦聚合”3层架构,基于Prometheus时序数据库与标签扩展模型,解决多源异构数据的高效存储与查询问题;告警执行模块引入动态阈值算法、分级抑制策略及告警风暴处理机制,提升告警准确性与可控性。通过搭建包含3台物理服务器的私有云测试集群,以Nagios系统为对照,对系统在正常负载、资源过载、网络隔离等场景下的性能进行仿真测试与对比分析。实验结果表明,与传统方案相比,该系统72h累计无效告警减少70.9%,告警准确率提升至92.2%(较对照组提高72.7%),平均告警延迟降低57.1%,同时CPU与内存资源占用分别减少6.8%和0.9 GB。研究结论显示,该系统可有效克服传统监控装置的缺陷,显著提升私有云平台的运行稳定性与运维效率,具备较强的工程实践推广价值。