孙凝晖:新一代信息基础设施的思考

(孙凝晖 2020年5月14日)

  信息高铁的广义定义是指面向IT 3.0信息基础设施的一个技术体系,它的狭义定义是指IT 3.0信息基础设施技术的一个综合试验场。

1、信息高铁技术体系的核心构成

  下图是信息高铁技术体系的核心构成图。信息高铁是由云、网、端三层的新型设备和一个控制中枢组成。


信息高铁的核心构成图

  控制中枢是我们最近新提出的,信息高铁跟以前的信息高速公路最主要的区别之一就是要有一个全局测调系统。从技术哲学层面看,互联网是一个“纯民主”的结构,早期的电信网是一个“纯集中”的结构,有集中管控。信息高铁是一个“民主集中制”的结构,组成单元是民主的,不需要审批就可以建一个信息高铁站,也就是一个数据中心,独立提供服务;但是也有集中的部分,需要有全局测调和在重载、安全事件突发等情况下一定程度的控制。为了支撑这个控制中枢,在网络里、在基站里、在服务器里、在系统软件里,甚至在微体系结构里,都需要提供一些测量、控制与调度上的支持。

  下面介绍一下狭义的综合试验场。军事领域的装备创新需要一个装备试验场,集团化的协同作战需要建一个朱日和综合试验场,进行规模化的中试。在IT领域,美国的ARPANet、PlanetLab都是新技术体系的综合试验场,中国要在技术体系层面有更多原创的工作,必须有一个自己的信息基础设施技术综合试验场。

  所以从去年开始,计算所和南京谈合作,支持我所在麒麟区建一个综合试验场。这个综合试验场包括一个内场和一个外场。内场包括三个中心,其一是试验中心,就是把外场缩小了放到内场里边进行仿真模拟,包括卫星网络、工业5G网络这两个新的接入网络;其二是面向管理的全局测调中心,其三是面向用户的全局运营中心。计算所与其创办的曙光、寒武纪、睿芯、天玑等企业以及计算所众多分所合作,一起用信息高铁这个统一概念,在全国各地建一些不同类别的信息高铁站,通过发改委支持的大科学装置“CENI未来网络”连接起来,做一个真实环境的外场。在外场有四类算力资源站,第一类叫超算中心,是曙光公司在昆山、北京、深圳等地方建立;第二类叫智能计算中心,是寒武纪公司在珠海、济南等地方建立;第三类叫高通量中心,是睿芯公司在盐城、雅安等地方建立;第四类叫大数据中心,是天玑公司在郑州等地方建立;还有另外一类叫接入站,规划计算所的十几个分所在各地建立,这些分所要为地方的企业服务的话,算力资源、行业应用、数据模型等不见得要自己建,通过接入站,让用户接入到这个信息高铁算力网络中来,就可以虚拟地拥有自己专属的一个私有云。在这个外场和内场结合的试验场,研究所、大学、企业等都可以对新的技术体系进行中试,新的技术、新的设备、新的应用都可以进行评测。以后企业如果想销售自己的产品,给客户展示自己的技术,都可以到这个综合试验场来,先参观看演示,再谈销售。

  信息高铁的建设规划分三步走。近期目标,希望通过五年时间,到2025年,建成信息高铁综合试验场,包括1个南京总站,10个信息高铁资源站,16个信息高铁接入小站。目前硬件层已经准备的比较充分了,今年网络计算创新研究院部署了系统软件的研制任务,希望在两年之内把系统软件做好,然后再做信息高铁新型应用,分层推进与整合。

  中长期规划,第二步到2030年,实现信息高铁的“小网通”,覆盖我国100个以上城市,形成一个使用新技术体系建设的信息基础设施,在我国产业互联网的发展中展现出优势。第三步到2035年,实现信息高铁的“大联通”,信息高铁技术体系辐射到全国3000个城市的信息基础设施建设,并走向一带一路国家。这是计算所推动“新基建”的一个思路。

  信息高铁的商业推广模式是“联邦制”。计算所提供共性技术与标准,每个城市建设的信息高铁站由计算所合作企业承建,是产权独立的主体,组成类似欧盟的城市算力联邦,通过信息高铁总站进行统一计价和结算。中央测调系统能对全网资源进行测调,对应用的用户体验进行测评。用李晓东研究员的说法,未来信息高铁要实现价值互联网,价值在城市之间是可以流动的,即一个城市的数据、模型等结果对另一个城市有用。这个价值是可以通过区块链来进行标识,进行结算的。联邦制的信息高铁不再是巨头垄断式的游戏,是中小城市、中小企业共同结成的一个算力命运共同体。


信息高铁的商业推广模式

 

2、信息高铁的定位

  信息高铁的定位是一个主要服务产业互联网的新型信息基础设施。

  当前的信息基础设施是美国在20世纪90年代提出的信息高速公路计划的产物,主要服务消费互联网,比如微信、网络视频,通过互联网普及深刻地影响了数字经济。信息高铁是面向互联网的下半场,服务产业,支撑新一代信息技术与产业的深度融合,加速行业的数字化与智能化进程。信息高铁并不是替代信息高速公路的下一代技术,而是和信息高速公路长期并存、协同工作,相当于公路和铁路一样。

  我们给这个综合试验场取名信息高铁,也是从各国发展交通基础设施的不同思路中得到的启发。比如日本,它的特点是人多(1.28亿),地少(37万平方公里),民众集体性强、守纪律,是发达国家(人均3.9万美元)。从交通数据来看,铁路2.8万公里,日均6200万人次,年均226亿人次,是世界第一;新干线3280公里,日均115万人次;高速公路7920公里,日均441万辆;飞机场101座,前10名日均71万人次;东京都的交通出行比例,轨道占比77%,电车占比0.3%,汽车占比15.3%,Bus占比4.3%,出租车占比3.8%。从中可以看出日本交通主要依靠轨道交通,它具备几个特点,首先是分级,有新干线、JR、城郊、市内等;有多个运营商,包括JR、东京都、私营等;还有多种交通卡,统一结算;新干线车站与综合性商业设施一体化;高密度发车,高密度车站,而且能做到非常准时。这样复杂的系统没有一个强大的测调系统是做不到的。

  美国是汽车上的民族,所以他们提出信息高速公路是跟他们的背景有关的。如果60年代是一个中国人在中国发明了互联网,那么互联网的标准、互联网的架构和今天会是一模一样吗?科学技术的发明创造,背后是有哲学基础的,跟思维方式和文化背景相关。中国的国情是“人多”、“地少”、“钱少”、“可控”,中国的选择是发展大运力的铁路系统,辅以灵活的公路系统,高速的航空系统。我国的文化是接受让渡一些个人隐私做到更加的可控,尤其是在拥堵情况下的可控。西方的民众认为隐私是不能交给政府,或交给某一个组织的。就像疫情突发时,我们愿意让渡一些个人的隐私来保障社会安全,我们对政府是信任的。

  所以用信息高铁来命名我们的未来信息基础设施技术体系,是有这些哲学思考在里面。

 

3. 信息基础设施技术体系的演进

  信息高铁(Information Superbahn),是IT 3.0时代的信息基础设施技术体系,面向人-机-物三元融合的计算需求,提供高通量的计算与传输能力, 保障高品质的万物智联信息服务。


信息基础设施技术体系的演进路线图

  信息基础设施技术体系的演进如上图所示,IT 1.0是高算力,IT 2.0是高带宽,现在的IT 3.0是高通量。在互联层面,最早是机器之间的一元互联,然后演进到人和机之间的二元互联,现在是人-机-物的三元互联。算力从最早的超算中心到云计算中心,再到现在的高通量计算中心。

  高通量包括四个特征,分别是:1)高并发——海量用户的吞吐率高,连接千亿级互联物端;2)强实时——端到端延迟可控,支持实时语音等延迟敏感应用;3)全局可调——重载下资源全局可测可调,提高体验降低资源;4)内构安全——基础硬软件与网络设备内构的安全加固,提高危险时的控制手段。这些技术特征与产业互联网上的很多新兴应用的需求特征是吻合的。

  互联网是终端-云端的消费互联网应用,万物智联网是端-边-云的AI、大数据、IoT、工业互联网应用;信息高速公路的标签是宽带,从3G、4G到5G,以数据传输为主;信息高铁的标签是高通量,讲求并发数,数据传输和数据处理并重。信息高速公路的服务是尽力而为,尾延迟长,且不可控,追求的用户体验是快;信息高铁的服务是可调,尾延迟短、可控,追求的用户体验是多和稳。

  2010年李国杰院士领导我们做973项目的时候,提出了高通量这个词,现在来看这个词具有很长的生命力,它不仅仅作为高性能计算机的一个特征,也可以作为智能处理的一个特征,还可以作为智能网络与接入的一个特征,是人-机-物三元计算的核心特征。

 

4、体系结构视角—“ Network is Computer”

  信息高铁技术体系的新在哪里?可以透过“网络就是计算机”,也就是把整个信息基础设施看成是一台计算机系统的话,从体系结构的视角看,有哪些地方需要创新的。

  Sun公司在互联网发展的早期提出来“Network is Computer”的理念。如果把信息基础设施看成一个计算机系统整体,那么数据中心是处理器,存储系统是内存,互联网骨干网是数据总线,无线接入网是I/O总线,IoT设备是各类终端,云存储是磁盘。消费互联网是“数据互联网”,关注的是在终端、数据中心之间怎么移动数据;产业互联网是“算力互联网”,关注的是各类终端的数据怎么在各类数据中心上被高效处理。

  那么信息高铁这台算力互联网计算机在体系结构上还缺什么?它缺全机地址空间的命名、分配机制,缺数据总线,缺控制信令,缺全机调度器与资源分配算法,缺数据标签与应用标签,缺全机编程框架与使用环境,缺全机分布式应用等。

  下面举例说明可能的新在哪里。信息基础设施的架构与控制机制为什么要变呢?因为现有信息基础设施缺乏对高载荷的综合应对能力,在高并发场景下,实时性的保障差,尾延时大幅增加。当负载超过现有信息基础设施的容量时,就需要通过额外增加大量资源来保证信息服务,否则会引起大量混乱。从控制结构上看,对于复杂的规模很大的系统,强两维控制才是有效的,局部强、全局也要强。现在互联网是局部强、全局弱。一个好的可扩展系统都是强两维结构,比如机群结构就是一个强两维结构,每一个节点从原来一颗CPU,两颗CPU,到四颗CPU,再到一颗加速器,四颗加速器,全局互联的能力也在不断变强。所以信息高铁的架构需要变,增加一个全局测调中心,在时间和空间两个维度做调度,在时间维度可以把大载荷服务的时间拉平一点,在空间维度可以把拥堵地方的负载调到空闲的地方。

 

5、打造信息基础设施技术体系的战略意义

  信息高铁的战略意义有三点。一,形成信息基础设施的“C”体系;A体系是美国主导的信息高速公路技术体系;B体系是中国为了国家安全必须打造的自主创新技术体系,是防御性的,底线思维的,较难走向国际的;C体系是面向未来需求的、全球合作、不会被卡死的、先进的技术体系,可以推广到“一带一路”国家。二,信息高铁可以低成本、高品质地大幅提高我国信息基础设施的服务质量,更大程度消除地域间的信息鸿沟,加速我国数字经济的进程。三,信息高铁基础软硬件、核心网络采用内构的安全加固,局部自治、全局可调的架构提供了安全应急新手段,有助于在网络安全事件突发时的防控。

  最后小结一下,信息高铁的三个关键词就是C体系、高通量、联邦制。目标就是要形成中国的信息基础设施的技术体系,提供万物智联的高品质信息服务,推动数字经济的跨越发展。以信息高铁综合试验场为源头,链接遍布全国的算力资源,形成辐射全国的算力互联网。

 

(节选自孙凝晖所长在2020年计算所春季战略规划会上的讲话)

附件: