由深圳市人民政府主办的第二十七届高交会于2025年11月14日-16日在深圳举行。作为高交会的重要论坛“中国高新技术论坛”于11月14日举办,论坛主题为:人工智能赋能未来产业发展”。首席信息安全官兼软件工程院院长、欧洲科学院院士刘向阳谈到,现在AI是非常热的主题,但在很多企业,AI并没有真正起到大家所预期的业务效果。
他指出,最根本的原因是很多企业数字化还没有搞好——AI的基本功是数字化,而数字化的基本功是数字化底座。“如果把数字化比作一栋楼,那么数字化底座就相当于一栋楼的地基。数字化底座无外乎两个选项:要么在自己的数据中心建设,要么用公有云。在自己数据中心里建设的优点是成本低;而用公有云的成本是在数据中心建设的6-10倍。”
美的集团是如何解决这个问题的?刘向阳介绍到,公司建设了一整套云计算能力。既可以在数据中心部署,把数据中心从老旧的虚拟化技术升级到公有云技术体系;也可以部署在公有云上,把公有云只当作数据中心来用——只用它的硬件,上面的软件是公司自己的。
以下为演讲实录:
刘向阳:感谢大会的邀请,非常高兴有这个机会跟大家做一个技术交流。我在美的集团负责两块业务:一是集团数字化底座;二是集团信息安全。在加入美的集团之前,我在做首席科学家,负责创新技术研发;再之前在美国待了20年,研究方向是云计算与信息安全。
首先介绍一下美的集团。大家熟悉的可能是它的ToC业务,现在营收3000多亿;其实它还有1000多亿的ToB业务。根据美国专利数据库,美的集团在中国企业中排名第一,世界排名第四,是世界最大家电公司,连续十几年入选世界500强。
现在AI是非常热的主题,在所有场合都能听到,所有CIO都在交流AI的应用、AI的技术等等。但在很多企业,AI并没有真正起到大家所预期的业务效果。这是为什么?最根本的原因是很多企业数字化还没有搞好——AI的基本功是数字化,而数字化的基本功是数字化底座。如果把数字化比作一栋楼,那么数字化底座就相当于一栋楼的地基。
数字化底座无外乎两个选项:要么在自己的数据中心建设,要么用公有云。在自己数据中心里建设的优点是成本低;而用公有云的成本是在数据中心建设的6-10倍。在美的集团,我们与财经部门进行了非常详细的测算,即便在公有云能拿到最好的折扣,成本也要达到自建的6倍。这对于绝大多数大企业以及制造业来说,成本是非常高的。
缺点是在自己数据中心里建设很难建好,基本原理很简单:这个领域特别底层,需要很深的技术水平。如果这个东西很容易建好,那公有云厂商也就没有什么技术含量了。这里面包括很多方面,比如技术老旧——搭一个集群就能跑起来,这是30年前的技术,跟现在公有云一整套体系存在代际差距;产品很杂,一堆开源的东西,不停地对这些东西修修补补,最大的问题是这些系统都无法联动。而公有云上的体系都是一个厂商的,都具备联动性。如果信息系统不能联动,那整体作战能力会大打折扣。技术体系差,自然带来稳定性差——我在美的不仅负责研发,还负责整个数字化底座业务,大故障往往都是架构和体系的问题。如果技术体系没有建好,出故障是必然的,只是什么时候发生、发生在哪里是偶然的。安全性也会很差:信息安全团队就像守城的士兵,比如你在自己数据中心里都没有虚拟网络技术,做不到业务之间的隔离,HR系统和财经系统、核心业务系统都是连通的,只要HR系统被攻破,其他系统都会被一并攻破,一锅端了。
用公有云,一方面是成本高;另一方面是多云问题。大部分企业都会采用多云,不可能只用单一云。不是所有公有云都覆盖全球,当你在某个国家开展业务,原来用的公有云没有节点,就只能用别的云,不可能用单云解决。这里面有很多原因,比如横向部门的原因,还有历史原因(不同时期选择不同的云)。多云会导致业务从数据中心迁到公有云上,或者从一朵公有云迁到另外一朵公有云时,都会有大量适配和改造,非常耗时。此外,还存在联动性问题、云孤岛、业务孤岛等问题。
美的集团这么大的一个企业,是怎么解决这个问题的?我们建设了一整套云计算能力。这一整套云计算能力既可以部署在数据中心,把数据中心从老旧的虚拟化技术升级到跟公有云一个技术体系;也可以部署在公有云上,把公有云只当作数据中心来用——只用它的硬件,上面的软件是我们自己的。这样做有什么好处?
一是云下云上统一了:自己的数据中心与公有云是统一的技术体系、统一底座,多公有云之间也实现了连通。对于业务来讲,它感知到的底座都是一模一样的,业务从数据中心迁移到公有云上,或者从一朵公有云迁移到另一朵公有云上,不需要任何业务改造,对业务的响应时间非常快。我们采用的是操作系统级别的技术,能够把所有公有云上的资源、数据中心的资源整合到一起,构成一朵云,真正实现全球一张网、全球一朵云,所有资源统一调度都在一个地址空间——这与传统多云管理平台CMP不是一个层次的东西。
另外,我们实现了真正云计算的软硬件解耦,这里面带来了很多能力提升,包括降本、增效、更稳定、更安全、更强的联动性等好处。
这一整套能力都包括哪些内容?从操作系统集开始,到计算、存储、网络IaaS层、PaaS层等等。在我接手之前,美的集团用的是一堆商用组合;现在,这些都已经实现了全替代。我们这一整套的数字化底座,具有最快的响应速度:不管是新开数据中心,还是任何一个地方开始使用一个公有云,都支持一键部署、全球统一、无缝迁移、业务零改造。
下面我就这几部分展开讲一讲。
一是AI算力平台。如果你买了很多GPU,一定要有AI算力平台,否则GPU应用率只有10%——而我们已经将其提升到了40%。
我们支持异构的卡(国内国外的),并且支持在自己数据中心和公有云上两个都部署,而且两者是打通的。
这个平台(注:原文“这黎曼”应为“这个平台”或“该平台”,疑似口误)包含很多能力:没有算力平台时,一旦训练时出故障,就得重新再跑;有了这个平台,可以从发生故障的点开始继续跑。
推理和训练的混布提升了利用率,且与云上云下打通——当自己数据中心的资源算力不够时,会自动弹性扩展到云上,而不需要手工操作。
AI网关:我们所有的AI能力都是内嵌到系统里的,模型用户都可以选择。经常有用户问我“你们用了哪个模型”,我们都是可换的。这些模型有很多共性能力,包括安全审计、流量控制、权限等等,统一通过一个AI网关来实现。
自动化运维平台:把所有运维平台都白屏化、自动化,现在能做到所有运维动作的自动化率达到95%——剩下5%为什么做不到自动化?因为全都涉及到硬件,需要手工操作。
全栈监控:大多数企业使用的是一堆监控平台,数据沉淀在各个平台,无法做关联分析;真正发生问题时往往是多种原因共同作用,需要做关联分析。而我们有一套从底下应用到上面的全栈监控平台,所有信息都在里面,可以进行故障分析。
全链路监控:比如业务跟你说“系统慢了”,我们可以清晰地知道慢在哪里,包括对慢SQL的监控——平时可能慢得不明显,但一旦激发流量就会引发大的故障。
我们是一整套的开发平台。技术会影响组织架构,技术与组织相互影响,组织架构也会影响业务,三者是互相影响的。我们最开始没有平台时,事业部都无法组建大数据分析团队;平台建设起来后,每个事业部都建立了大数据分析团队。像现在这个平台,美的内部有3000多名从事大数据开发的员工,大多数都来自事业部。这里面做了很多降本的工作。
数据治理:数据键的血缘关系都是自动分析算出来的,然后图形化展示出来——这在数据治理时非常需要。
AI问数:这是一个很前沿、很难的问题,这里面需要很多能力。它需要对公司的黑话有理解、能进行多表分析等等,还包括多租户的管理。
引擎平台:我们跟CDP对标,做了开源体系的企业版。
数据库管理平台:原来美的大几千个数据库实例,都是DBI直连数据库,改了什么都不知道。我们现在所有数据库通过统一平台纳管,所有数据库操作都要通过这个平台——这个平台会解析你的SQL语句,看你是否拥有相应权限等等。例如,提供库表列行级别细粒度的权限管控:即使你有权限查看这个表,但如果某个字段是个人隐私数据,我们会自动识别出来,并且自动脱敏,你看到的就是“XXX”。这里面内嵌了很多AI大模型能力,包括慢SQL的治理也是通过它来实现的,此外还有数据库引擎平台,都变成了企业版,开源数据库本身我们不做改动。
研发效能平台:包括软件开发,以及AI代码生成。我们AI代码生成的采纳率目前能做到30%,入库率能做到20%——这是目前国内最前沿的水平。我听华为的CIO陶景文讲,他们大概能做到18%的采纳率。我们能做到入库率,是因为我们有Web IDE(注:原文“Web ID”疑似“Web IDE”),在Web上编程,这样才能度量到真正有哪些代码入库。
我们这一整套数字化底座也在对外输出,尤其是数据中心里的数字化底座怎么建设,是企业非常大的痛点;全球资源(包括公有云、数据中心资源)如何统一,多云统一问题也是业界的痛点问题。在这方面,我们是唯一能提供解决方案的。
谢谢大家!
新浪声明:所有会议实录均为现场速记整理,未经演讲者审阅,新浪网登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。



还没有评论,来说两句吧...