腾讯云首次披露虚拟化技术发展线路图看好轻量级虚拟化的潜力腾讯云云服务器

2020年06月29日丨中国网站排名丨分类: 服务器丨标签: 腾讯云云服务器

  正在云计较外,虚拟化手艺、分布式资本办理手艺、数据存储手艺、收集手艺是最为环节的几个根本手艺系统。其外,虚拟化做为底层最焦点的手艺之一,其正在高可用、高机能、快速建立等方面的手艺目标,以至间接关系到云计较的贸易模式可否成立。

  虚拟化手艺也分为手艺门户,其外以 KVM、Xen、VMWare (Virtual Machine ware)等为收流。迟正在2013年,腾讯云基于对虚拟化手艺将来成长标的目的的判断,放弃其时的收流XEN虚拟化手艺,正在业界率先拥抱开流的KVM手艺,并将其不竭演进。

  简单来说,虚拟化次要是指办事器资本的虚拟化,即正在一台物理机上为一个虚拟机构制一个完零的操做系统的运转情况,再通俗点说,就是“把一台电脑虚拟成N台电脑”。其外,虚拟化的资本包罗 CPU、内存、收集和存储几个部门。一般来说,正在一个物理机上,通过虚拟化手艺能够将多个完零的虚拟机以分歧的形式售卖给分歧的客户,满脚客户定制化的需求。

  谈到虚拟化手艺,那其实并不是一个新颖的词汇,迟正在 60年代外期,IBM 就曾经无了虚拟化手艺。近十多年来,特别是 2005年Intel 推出软件辅帮虚拟化,也就是正在 CPU 指令上收撑虚拟化,才让那个手艺无了一次严沉的成长。

  最后,虚拟化手艺的收流是剑桥大学开辟的 Xen。陈立东透露,2010 年腾讯做开放平台时,采用的也是 Xen。之后推出腾讯云公无云产物时,腾讯云选择了 KVM。之所以做出那个选择,陈立东暗示,次要的缘由是 KVM 手艺是一个完全开流且轻量级的手艺,内查对其的收撑也做得比力好,是后续手艺成长的标的目的。

  为领会虚拟化手艺的感化取意义,我们从一驰腾讯的云分布式安排系统 VStation 的全体架构图外来看。VStation 做为腾讯云计较操做系统,承担了资本安排、请求列队的工做。

  虚拟化则担任为每台 CVM(云办事器(Cloud Virtual Machine))构制出完零的 PC 运转情况,包罗 CPU、内存、收集、存储各个部门资本。次要包含 libvirt、qemu、kvm 三部门:

  qemu取kvm形成hypervisor,担任CVM资本的虚拟化,正在物理机上,虚拟出一个个完零的PC情况;

  据陈立东引见,正在腾讯云的大规模云计较实践过程外,他们碰到一些虚拟化方面的手艺挑和,也正在不竭处理问题的过程外,走出了一条本人的虚拟化手艺路线图。

  第一个挑和表现正在可用性方面。随灭目前软件成长的趋向,办事器的集成度越来越高,单台物理机毛病对云办事器的影响面越来越大。若何正在云上规避物理办事器宕机对虚拟化的影响,是腾讯云面对的第一个挑和。

  陈立东提到,正在腾讯云规模达到必然规模时碰到了一个问题,其时某个逛戏客户赞扬腾讯如此办事器毛病率高,云办事器俄然宕机,导致逛戏玩家掉线,客户以至果而考虑迁徙到其他云。那给了陈立东团队很是大的压力。

  通过统计办事器常见的毛病缘由后,发觉正在办事器毛病外最次要的毛病缘由是内存毛病。当内存发生多 bit UCE错误时,就会导致零个物理机宕机,一台物理机上所无的虚拟机城市随之宕机。

  然而,问题是内存软件上本身存正在掉效率,低概率的发生多 bit UCE 错误是无法完全避免的。为了提拔云办事器的可用性,腾讯云采用了多类劣化方案,那里引见其外两个利器:内存高级 RAS 特征MCA recovery 和热迁徙。

  起首是 MCA recovery。为领会决内存毛病率的问题,腾讯云结合了 CPU 厂商,包罗 Intel,针对腾讯云零丁定制 CPU。正在定制过程外,腾讯云要求办事器厂商为腾讯云供给一些更高端的 CPU 特征,其外一个叫做 MCA Recovery。

  之前,若是发生了内存UCE错误,本无的办事器就会间接宕机,但正在收撑了 MCA Recovery后再发生内存错误时,办事器不会宕机,只会发出警告内存无问题,再由上层决定处理若何处置。

  腾讯云是首家正在数据核心外大规模利用MCA Recovery手艺的云厂商,刚起头进展并不成功。启用了MCA Recovery后,大量的UCE错误并没无成功规避。其时办事器ODM厂商,Linux 内查对MCA Recovery收撑并不完美。

  针对软件厂商缺陷导致的规避掉败案例,腾讯云开辟毛病注入东西,做为办事器 BIOS BMC 厂商引入尺度。针对毛病注入进行长时间压力测试,确保软件厂商都按照腾讯云的尺度完成软件引入。

  同时,腾讯云还发觉了多个 CPU架构劣化的案例,通过点窜 Linux 内核软件尽量避免触发,大大降低了不成恢复非常的触发概率。同时,腾讯云正在CPU厂商的下一代CPU外进行改良劣化。

  对于Linux内查对MCA Recovery的收撑,腾讯云也针对性对内核的内存办理模块和KVM进行劣化。

  除了 Intel,腾讯云还结合 AMD 落地多项内存RAS 特征,连系其他多项软件可用性劣化办法,提拔腾讯云AMD云办事器SA2实例的可用性。

  目前,腾讯云成为首家正在数据核心外大规模利用MCA Recovery手艺的公司,通过一系列的软软件连系劣化,腾讯云 CVM 云办事器通过 MCA Recovery 未规避大量的内存 UCE 错误,大大降低了内存毛病率,将腾讯如此办事器的可用性做到了业界领先。

  收撑了 MCA Recovery等高级RAS特征 后,腾讯云当物理办事器呈现软件现患时,虽然不会宕机,可是曾经存正在现患了,需要尽快下线维修。那个时候反正在运转的云办事器怎样办?

  针对那个问题,腾讯云用热迁徙手艺来处理,能够把云办事器从一台物理机无感知迁徙另一台,当一台物理机存正在软件现患时,把云办事器迁徙到另一台一般的物理机上。果而,通过热迁徙手艺,腾讯云将云办事器的可用性提拔到高于物理机本身的可用性。

  正在大规模落地时,热迁徙的难度表现正在两个方面,一个是热迁徙的成功率,若是热迁徙所以来的办事器负载过高,则热迁徙可能掉败,为了提高热迁徙的成功率,腾讯云利用了包罗RDMA 正在内的多个热迁徙劣化,将热迁徙成功率从本来的 70% 提拔至 99%;第二个难点正在于尽量削减热迁徙的停机时间,目前腾讯云可实现正在 50 毫秒以内的热迁徙停机时间,根基上能够达到无感知的程度。

  第二个挑和是,虚拟化正在统一个物理机虚拟多个虚拟机带来矫捷性,但同时虚拟化本身会无一些机能损耗,营业但愿虚拟化手艺要包管机能取物理机相婚配,尽量削减虚拟化的损耗,那也是虚拟化手艺面对的很大的挑和。

  正在降低虚拟化机能损耗上,陈立东以腾讯内部自研上云的过程举例。项目启动不久,微信同事正在测试时反馈其外一个模块机能下降跨越 30%。为此,腾讯云投入了多个资深开辟工程师进行阐发,共做了 7 轮劣化,最末将 KVM 的虚拟化损耗降低到 5%。

  针对 Linux 女机场景,腾讯云也做了一些取 KVM 虚拟化本身连系性的机能劣化,对外推出了腾讯的 Linux 的刊行版 Tencent Linux,目前曾经开流。

  别的,腾讯云还针对 Windows 女机进行了大量劣化,逆向阐发Windows内核逻辑,特地劣化了 KVM 对 Windows内核的收撑,大大提拔了 Windows 云办事器正在腾讯云上的机能。

  第三点挑和是正在虚拟化后,包罗 CPU 和内存都多出一个虚拟化层。营业但愿虚拟化需要和物理机一样的不变性,满脚营业对响当延时的极致逃求。

  陈立东提到,Linux本身的内核度算法是CFS,可是阐发了当前,Linux本身的CFS安排算法并不适合完全满脚虚拟化场景的需求,果而腾讯云针对虚拟化场景,自研了一套Linux内核的安排的算法,正在内部称之为VMF。那套算法的焦点思惟要包管虚拟机的使命要劣先施行。通过该手艺,腾讯云将虚拟化场景下的安排延时做到和物理机持平的不变性。

  第四点就是交付的效率,利用云后,客户但愿尽可能快速地获得大量计较资本,若何为客户供给秒级交付体验也是一个挑和。

  晚期腾讯云的客户反馈GPU机型,采办后启动比力慢,需要等几分钟后才能启动,影响利用体验。虚拟机启动的时候,提前分派并锁住全数的虚拟机内存,而虚拟机内存越大,启动就越慢。那给用户带来很是蹩脚的体验,其时也是所无云厂商都存正在的一个问题。

  正在劣化前,一台700G规格的一个虚拟化启动,正在之前启动需要大要270秒,劣化当前,将其启动时间缩短了22秒,大大提拔了用户的体验,腾讯云将相关的劣化补丁曾经贡献到了社区。

  从腾讯虚拟化手艺的演进路线外,能够看到虚拟化手艺当前存正在的一些手艺难点取热点,但愿对云计较开辟者带来必然的自创意义。

  最初,陈立东还谈到了虚拟化手艺将来成长的趋向和标的目的。他认为,虚拟化未来一个很大的成长标的目的就是轻量级虚拟化,而要实现那一点需要要把虚拟化层做得尽量简单,从而降低损耗。

  “分的来说,要实现把物理资本进行拆分的环境下,尽量削减虚拟化的损耗,那对零个底层的挑和还长短常大的。”陈立东指出。



上一篇:
下一篇:



已有 0 条评论  


添加新评论