尊龙凯时 - 人生就是搏!人工智能与智能计算的发展|极品惊天动地| | |
人工智能领域近年来正在迎来一场由生成式人工智能大模型引领的爆发式发展ღ✿★ღ。2022年11月30日ღ✿★ღ,OpenAI公司推出一款人工智能对话聊天机器人ChatGPTღ✿★ღ,其出色的自然语言生成能力引起了全世界范围的广泛关注ღ✿★ღ,2个月突破1亿用户ღ✿★ღ,国内外随即掀起了一场大模型浪潮ღ✿★ღ,Geminiღ✿★ღ、文心一言ღ✿★ღ、Copilotღ✿★ღ、LLaMAღ✿★ღ、SAM尊龙人生就是博官网登录ღ✿★ღ。ღ✿★ღ、SORA等各种大模型如雨后春笋般涌现ღ✿★ღ,2022年也被誉为大模型元年ღ✿★ღ。当前信息时代正加快进入智能计算的发展阶段ღ✿★ღ,人工智能技术上的突破层出不穷ღ✿★ღ,逐渐深入地赋能千行百业ღ✿★ღ,推动人工智能与数据要素成为新质生产力的典型代表ღ✿★ღ。习近平总书记指出ღ✿★ღ,把新一代人工智能作为推动科技跨越发展尊龙凯时 - 人生就是搏!ღ✿★ღ、产业优化升级ღ✿★ღ、生产力整体跃升的驱动力量ღ✿★ღ,努力实现高质量发展ღ✿★ღ。党的十八大以来ღ✿★ღ,以习近平同志为核心的党中央高度重视智能经济发展ღ✿★ღ,促进人工智能和实体经济深度融合ღ✿★ღ,为高质量发展注入强劲动力ღ✿★ღ。 计算技术的发展历史大致可分为四个阶段ღ✿★ღ,算盘的出现标志着人类进入第一代——机械计算时代ღ✿★ღ,第二代——电子计算的标志是出现电子器件与电子计算机ღ✿★ღ,互联网的出现使我们进入第三代——网络计算ღ✿★ღ,当前人类社会正在进入第四阶段——智能计算ღ✿★ღ。 早期的计算装置是手动辅助计算装置和半自动计算装置ღ✿★ღ,人类计算工具的历史是从公元1200年的中国算盘开始ღ✿★ღ,随后出现了纳皮尔筹(1612年)和滚轮式加法器(1642年)ღ✿★ღ,到1672年第一台自动完成四则运算的计算装置——步进计算器诞生了ღ✿★ღ。 机械计算时期已经出现了现代计算机的一些基本概念ღ✿★ღ。查尔斯∙巴贝奇(Charles Babbage)提出了差分机(1822年)与分析机(1834年)的设计构想ღ✿★ღ,支持自动机械计算ღ✿★ღ。这一时期ღ✿★ღ,编程与程序的概念基本形成ღ✿★ღ,编程的概念起源于雅卡尔提花机ღ✿★ღ,通过打孔卡片控制印花图案ღ✿★ღ,最终演变为通过计算指令的形式来存储所有数学计算步骤ღ✿★ღ;人类历史的第一个程序员是诗人拜伦之女艾达(Ada)ღ✿★ღ,她为巴贝奇差分机编写了一组求解伯努利数列的计算指令ღ✿★ღ,这套指令也是人类历史上第一套计算机算法程序ღ✿★ღ,它将硬件和软件分离ღ✿★ღ,第一次出现程序的概念ღ✿★ღ。 直到在二十世纪上半叶ღ✿★ღ,出现了布尔代数(数学)ღ✿★ღ、图灵机(计算模型) ღ✿★ღ、冯诺依曼体系结构(架构) ღ✿★ღ、晶体管(器件)这四个现代计算技术的科学基础ღ✿★ღ。其中ღ✿★ღ,布尔代数用来描述程序和硬件如CPU的底层逻辑ღ✿★ღ;图灵机是一种通用的计算模型ღ✿★ღ,将复杂任务转化为自动计算ღ✿★ღ、不需人工干预的自动化过程ღ✿★ღ;冯诺依曼体系结构提出了构造计算机的三个基本原则ღ✿★ღ:采用二进制逻辑ღ✿★ღ、程序存储执行ღ✿★ღ、以及计算机由运算器ღ✿★ღ、控制器ღ✿★ღ、存储器ღ✿★ღ、输入设备ღ✿★ღ、输出设备这五个基本单元组成ღ✿★ღ;晶体管是构成基本的逻辑电路和存储电路的半导体器件ღ✿★ღ,是建造现代计算机之塔的“砖块”ღ✿★ღ。基于以上科学基础ღ✿★ღ,计算技术得以高速发展ღ✿★ღ,形成规模庞大的产业ღ✿★ღ。 从1946年世界上第一台电子计算机ENIAC诞生到二十一世纪的今天ღ✿★ღ,已经形成了五类成功的平台型计算系统ღ✿★ღ。当前各领域各种类型的应用ღ✿★ღ,都可以由这五类平台型计算装置支撑ღ✿★ღ。第一类是高性能计算平台ღ✿★ღ,解决了国家核心部门的科学与工程计算问题ღ✿★ღ;第二类是企业计算平台ღ✿★ღ,又称服务器ღ✿★ღ,用于企业级的数据管理ღ✿★ღ、事务处理ღ✿★ღ,当前像百度ღ✿★ღ、阿里和腾讯这些互联网公司的计算平台都属于这一类ღ✿★ღ;第三类是个人电脑平台ღ✿★ღ,以桌面应用的形式出现ღ✿★ღ,人们通过桌面应用与个人电脑交互ღ✿★ღ;第四类是智能手机ღ✿★ღ,主要特点是移动便携ღ✿★ღ,手机通过网络连接数据中心ღ✿★ღ,以互联网应用为主ღ✿★ღ,它们分布式地部署在数据中心和手机终端ღ✿★ღ;第五类是嵌入式计算机ღ✿★ღ,嵌入到工业装备和军事设备ღ✿★ღ,通过实时的控制ღ✿★ღ,保障在确定时间内完成特定任务ღ✿★ღ。这五类装置几乎覆盖了我们信息社会的方方面面ღ✿★ღ,长期以来人们追求的以智能计算应用为中心的第六类平台型计算系统尚未形成ღ✿★ღ。 现代计算技术的发展大致可以划分为三个时代ღ✿★ღ。IT1.0又称电子计算时代(1950-1970)ღ✿★ღ,基本特征是以“机”为中心ღ✿★ღ。计算技术的基本架构形成ღ✿★ღ,随着集成电路工艺的进步ღ✿★ღ,基本计算单元的尺度快速微缩ღ✿★ღ,晶体管密度ღ✿★ღ、计算性能和可靠性不断提升ღ✿★ღ,计算机在科学工程计算ღ✿★ღ、企业数据处理中得到了广泛应用ღ✿★ღ。 IT2.0又称网络计算时代(1980-2020)ღ✿★ღ,以“人”为中心ღ✿★ღ。互联网将人使用的终端与后台的数据中心连接ღ✿★ღ,互联网应用通过智能终端与人进行交互ღ✿★ღ。以亚马逊等为代表的互联网公司提出了云计算的思想ღ✿★ღ,将后台的算力封装成一个公共服务租借给第三方用户ღ✿★ღ,形成了云计算与大数据产业ღ✿★ღ。 IT3.0又称智能计算时代ღ✿★ღ,始于2020年ღ✿★ღ,与IT2.0相比增加了“物”的概念ღ✿★ღ,即物理世界的各种端侧设备ღ✿★ღ,被数字化ღ✿★ღ、网络化和智能化ღ✿★ღ,实现“人-机-物”三元融合ღ✿★ღ。智能计算时代ღ✿★ღ,除了互联网以外ღ✿★ღ,还有数据基础设施ღ✿★ღ,支撑各类终端通过端边云实现万物互联尊龙凯时 - 人生就是搏!ღ✿★ღ,终端ღ✿★ღ、物端ღ✿★ღ、边缘ღ✿★ღ、云都嵌入AIღ✿★ღ,提供与ChatGPT类似的大模型智能服务ღ✿★ღ,最终实现有计算的地方就有AI智能ღ✿★ღ。智能计算带来了巨量的数据ღ✿★ღ、人工智能算法的突破和对算力的爆发性需求ღ✿★ღ。 智能计算包括人工智能技术与它的计算载体ღ✿★ღ,大致历经了四个阶段ღ✿★ღ,分别为通用计算装置ღ✿★ღ、逻辑推理专家系统ღ✿★ღ、深度学习计算系统ღ✿★ღ、大模型计算系统ღ✿★ღ。 智能计算的起点是通用自动计算装置(1946年)ღ✿★ღ。艾伦·图灵(Alan Turing)和冯·诺依曼(John von Neumann)等科学家ღ✿★ღ,一开始都希望能够模拟人脑处理知识的过程ღ✿★ღ,发明像人脑一样思考的机器ღ✿★ღ,虽未能实现ღ✿★ღ,但却解决了计算的自动化问题ღ✿★ღ。通用自动计算装置的出现ღ✿★ღ,也推动了1956年人工智能(AI)概念的诞生ღ✿★ღ,此后所有人工智能技术的发展都是建立在新一代计算设备与更强的计算能力之上的ღ✿★ღ。 智能计算发展的第二阶段是逻辑推理专家系统(1990年)ღ✿★ღ。E.A.费根鲍姆(Edward Albert Feigenbaum)等符号智能学派的科学家以逻辑和推理能力自动化为主要目标ღ✿★ღ,提出了能够将知识符号进行逻辑推理的专家系统ღ✿★ღ。人的先验知识以知识符号的形式进入计算机ღ✿★ღ,使计算机能够在特定领域辅助人类进行一定的逻辑判断和决策ღ✿★ღ,但专家系统严重依赖于手工生成的知识库或规则库ღ✿★ღ。这类专家系统的典型代表是日本的五代机和我国863计划支持的306智能计算机主题ღ✿★ღ,日本在逻辑专家系统中采取专用计算平台和Prolog这样的知识推理语言完成应用级推理任务ღ✿★ღ;我国采取了与日本不同的技术路线极品惊天动地ღ✿★ღ,以通用计算平台为基础ღ✿★ღ,将智能任务变成人工智能算法ღ✿★ღ,将硬件和系统软件都接入通用计算平台ღ✿★ღ,并催生了曙光ღ✿★ღ、汉王ღ✿★ღ、科大讯飞等一批骨干企业ღ✿★ღ。 符号计算系统的局限性在于其爆炸的计算时空复杂度ღ✿★ღ,即符号计算系统只能解决线性增长问题ღ✿★ღ,对于高维复杂空间问题是无法求解的ღ✿★ღ,从而限制了能够处理问题的大小ღ✿★ღ。同时因为符号计算系统是基于知识规则建立的ღ✿★ღ,我们又无法对所有的常识用穷举法来进行枚举ღ✿★ღ,它的应用范围就受到了很大的限制ღ✿★ღ。随着第二次AI寒冬的到来ღ✿★ღ,第一代智能计算机逐渐退出历史舞台ღ✿★ღ。 直到2014年左右ღ✿★ღ,智能计算进阶到第三阶段——深度学习计算系统ღ✿★ღ。以杰弗里·辛顿(Geoffrey Hinton)等为代表的连接智能学派ღ✿★ღ,以学习能力自动化为目标ღ✿★ღ,发明了深度学习等新AI算法ღ✿★ღ。通过深度神经元网络的自动学习ღ✿★ღ,大幅提升了模型统计归纳的能力ღ✿★ღ,在模式识别 等应用效果上取得了巨大突破ღ✿★ღ,某些场景的识别精度甚至超越了人类ღ✿★ღ。以人脸识别为例ღ✿★ღ,整个神经网络的训练过程相当于一个网络参数调整的过程ღ✿★ღ,将大量的经过标注的人脸图片数据输入神经网络极品惊天动地ღ✿★ღ,然后进行网络间参数调整ღ✿★ღ,让神经网络输出的结果的概率无限逼近真实结果ღ✿★ღ。神经网络输出真实情况的概率越大ღ✿★ღ,参数就越大ღ✿★ღ,从而将知识和规则编码到网络参数中ღ✿★ღ,这样只要数据足够多ღ✿★ღ,就可以对各种大量的常识进行学习ღ✿★ღ,通用性得到极大的提升ღ✿★ღ。连接智能的应用更加广泛ღ✿★ღ,包括语音识别ღ✿★ღ、人脸识别ღ✿★ღ、自动驾驶等ღ✿★ღ。在计算载体方面ღ✿★ღ,中国科学院计算技术研究所2013年提出了国际首个深度学习处理器架构ღ✿★ღ,国际知名的硬件厂商英伟达(NVIDIA)持续发布了多款性能领先的通用GPU芯片ღ✿★ღ,都是深度学习计算系统的典型代表ღ✿★ღ。 智能计算发展的第四阶段是大模型计算系统(2020年)ღ✿★ღ。在人工智能大模型技术的推动下ღ✿★ღ,智能计算迈向新的高度ღ✿★ღ。2020年ღ✿★ღ,AI从“小模型+判别式”转向“大模型+生成式”ღ✿★ღ,从传统的人脸识别ღ✿★ღ、目标检测ღ✿★ღ、文本分类ღ✿★ღ,升级到如今的文本生成ღ✿★ღ、3D数字人生成ღ✿★ღ、图像生成ღ✿★ღ、语音生成ღ✿★ღ、视频生成ღ✿★ღ。大语言模型在对话系统领域的一个典型应用是OpenAI公司的ChatGPTღ✿★ღ,它采用预训练基座大语言模型GPT-3ღ✿★ღ,引入3000亿单词的训练语料ღ✿★ღ,相当于互联网上所有英语文字的总和ღ✿★ღ。其基本原理是ღ✿★ღ:通过给它一个输入ღ✿★ღ,让它预测下一个单词来训练模型ღ✿★ღ,通过大量训练提升预测精确度ღ✿★ღ,最终达到向它询问一个问题ღ✿★ღ,大模型产生一个答案ღ✿★ღ,与人即时对话极品惊天动地ღ✿★ღ。在基座大模型的基础上ღ✿★ღ,再给它一些提示词进行有监督的指令微调ღ✿★ღ,通过人类的指令ღ✿★ღ,回复对逐渐让模型学会如何与人进行多轮对话ღ✿★ღ;最后ღ✿★ღ,通过人为设计和自动生成的奖励函数来进行强化学习迭代ღ✿★ღ,逐步实现大模型与人类价值观的对齐ღ✿★ღ。 大模型的特点是以“大”取胜ღ✿★ღ,其中有三层含义ღ✿★ღ,(1)参数大ღ✿★ღ,GPT-3就有1700亿个参数ღ✿★ღ;(2)训练数据大尊龙凯时 - 人生就是搏!ღ✿★ღ,ChatGPT大约用了3000亿个单词ღ✿★ღ,570GB训练数据ღ✿★ღ;(3)算力需求大ღ✿★ღ,GPT-3大约用了上万块V100 GPU进行训练ღ✿★ღ。为满足大模型对智能算力爆炸式增加的需求ღ✿★ღ,国内外都在大规模建设耗资巨大的新型智算中心ღ✿★ღ,英伟达公司也推出了采用256个H100芯片ღ✿★ღ,150TB海量GPU内存等构成的大模型智能计算系统ღ✿★ღ。 大模型的出现带来了三个变革ღ✿★ღ。一是技术上的规模定律(Scaling Law)ღ✿★ღ,即很多AI模型的精度在参数规模超过某个阈值后模型能力快速提升ღ✿★ღ,其原因在科学界还不是非常清楚ღ✿★ღ,有很大的争议ღ✿★ღ。AI模型的性能与模型参数规模ღ✿★ღ、数据集大小ღ✿★ღ、算力总量三个变量成“对数线性关系”ღ✿★ღ,因此可以通过增大模型的规模来不断提高模型的性能ღ✿★ღ。目前最前沿的大模型GPT-4参数量已经达到了万亿到十万亿量级ღ✿★ღ,并且仍在不断增长中ღ✿★ღ;二是产业上算力需求爆炸式增长ღ✿★ღ,千亿参数规模大模型的训练通常需要在数千乃至数万GPU卡上训练2-3个月时间ღ✿★ღ,急剧增加的算力需求带动相关算力企业超高速发展ღ✿★ღ,英伟达的市值接近两万亿美元ღ✿★ღ,对于芯片企业以前从来没有发生过ღ✿★ღ;三是社会上冲击劳动力市场ღ✿★ღ,北京大学国家发展研究院与智联招聘联合发布的《AI大模型对我国劳动力市场潜在影响研究》报告指出ღ✿★ღ,受影响最大的20个职业中财会ღ✿★ღ、销售ღ✿★ღ、文书位于前列ღ✿★ღ,需要与人打交道并提供服务的体力劳动型工作ღ✿★ღ,如人力资源ღ✿★ღ、行政ღ✿★ღ、后勤等反而相对更安全ღ✿★ღ。 人工智能的技术前沿将朝着以下四个方向发展ღ✿★ღ。第一个前沿方向为多模态大模型ღ✿★ღ。从人类视角出发ღ✿★ღ,人类智能是天然多模态的ღ✿★ღ,人拥有眼ღ✿★ღ、耳ღ✿★ღ、鼻ღ✿★ღ、舌ღ✿★ღ、身ღ✿★ღ、嘴(语言)ღ✿★ღ,从AI视角出发ღ✿★ღ,视觉ღ✿★ღ,听觉等也都可以建模为token 的序列ღ✿★ღ,可采取与大语言模型相同的方法进行学习ღ✿★ღ,并进一步与语言中的语义进行对齐ღ✿★ღ,实现多模态对齐的智能能力ღ✿★ღ。 第二个前沿方向为视频生成大模型ღ✿★ღ。OpenAI于2024年2月15日发布文生视频模型SORAღ✿★ღ,将视频生成时长从几秒钟大幅提升到一分钟ღ✿★ღ,且在分辨率ღ✿★ღ、画面真实度ღ✿★ღ、时序一致性等方面都有显著提升ღ✿★ღ。SORA的最大意义是它具备了世界模型的基本特征ღ✿★ღ,即人类观察世界并进一步预测世界的能力ღ✿★ღ。世界模型是建立在理解世界的基本物理常识(如ღ✿★ღ,水往低处流等)之上ღ✿★ღ,然后观察并预测下一秒将要发生什么事件ღ✿★ღ。虽然SORA要成为世界模型仍然存在很多问题ღ✿★ღ,但可以认为SORA学会了画面想象力和分钟级未来预测能力ღ✿★ღ,这是世界模型的基础特征ღ✿★ღ。 第三个前沿方向为具身智能ღ✿★ღ。具身智能指有身体并支持与物理世界进行交互的智能体ღ✿★ღ,如机器人ღ✿★ღ、无人车等ღ✿★ღ,通过多模态大模型处理多种传感数据输入ღ✿★ღ,由大模型生成运动指令对智能体进行驱动ღ✿★ღ,替代传统基于规则或者数学公式的运动驱动方式ღ✿★ღ,实现虚拟和现实的深度融合ღ✿★ღ。因此ღ✿★ღ,具有具身智能的机器人ღ✿★ღ,可以聚集人工智能的三大流派ღ✿★ღ:以神经网络为代表的连接主义ღ✿★ღ,以知识工程为代表的符号主义和控制论相关的行为主义ღ✿★ღ,三大流派可以同时作用在一个智能体ღ✿★ღ,这预期会带来新的技术突破ღ✿★ღ。 第四个前沿方向是AI4R(AI for Research)成为科学发现与技术发明的主要范式ღ✿★ღ。当前科学发现主要依赖于实验和人脑智慧ღ✿★ღ,由人类进行大胆猜想ღ✿★ღ、小心求证ღ✿★ღ,信息技术无论是计算和数据ღ✿★ღ,都只是起到一些辅助和验证的作用ღ✿★ღ。相较于人类ღ✿★ღ,人工智能在记忆力ღ✿★ღ、高维复杂ღ✿★ღ、全视野ღ✿★ღ、推理深度ღ✿★ღ、猜想等方面具有较大优势ღ✿★ღ,是否能以AI为主进行一些科学发现和技术发明ღ✿★ღ,大幅提升人类科学发现的效率ღ✿★ღ,比如主动发现物理学规律ღ✿★ღ、预测蛋白质结构ღ✿★ღ、设计高性能芯片ღ✿★ღ、高效合成新药等ღ✿★ღ。因为人工智能大模型具有全量数据ღ✿★ღ,具备上帝视角ღ✿★ღ,通过深度学习的能力ღ✿★ღ,可以比人向前看更多步数ღ✿★ღ,如能实现从推断(inference)到推理(reasoning)的跃升ღ✿★ღ,人工智能模型就有潜力具备爱因斯坦一样的想象力和科学猜想能力ღ✿★ღ,极大提升人类科学发现的效率ღ✿★ღ,打破人类的认知边界ღ✿★ღ。这才是真正的颠覆所在ღ✿★ღ。 (Artificial General Intelligenceღ✿★ღ,简称AGI)是一个极具挑战的话题ღ✿★ღ,极具争论性ღ✿★ღ。曾经有一个哲学家和一个神经科学家打赌ღ✿★ღ:25年后(即2023年)科研人员是否能够揭示大脑如何实现意识?当时关于意识有两个流派ღ✿★ღ,一个叫集成信息理论ღ✿★ღ,一个叫全局网络工作空间理论ღ✿★ღ,前者认为意识是由大脑中特定类型神经元连接形成的“结构”ღ✿★ღ,后者指出意识是当信息通过互连网络传播到大脑区域时产生的ღ✿★ღ。2023年ღ✿★ღ,人们通过六个独立实验室进行了对抗性实验ღ✿★ღ,结果与两种理论均不完全匹配ღ✿★ღ,哲学家赢了ღ✿★ღ,神经科学家输了ღ✿★ღ。通过这一场赌约ღ✿★ღ,可以看出人们总是希望人工智能能够了解人类的认知和大脑的奥秘ღ✿★ღ。从物理学的视角看ღ✿★ღ,物理学是对宏观世界有了透彻理解后ღ✿★ღ,从量子物理起步开启了对微观世界的理解极品惊天动地ღ✿★ღ。智能世界与物理世界一样ღ✿★ღ,都是具有巨大复杂度的研究对象ღ✿★ღ,AI大模型仍然是通过数据驱动等研究宏观世界的方法ღ✿★ღ,提高机器的智能水平ღ✿★ღ,对智能宏观世界理解并不够ღ✿★ღ,直接到神经系统微观世界寻找答案是困难的ღ✿★ღ。人工智能自诞生以来ღ✿★ღ,一直承载着人类关于智能与意识的种种梦想与幻想ღ✿★ღ,也激励着人们不断探索尊龙凯时 - 人生就是搏!ღ✿★ღ,ღ✿★ღ。 人工智能的发展促进了当今世界科技进步的同时ღ✿★ღ,也带来了很多安全风险ღ✿★ღ,要从技术与法规两方面加以应对ღ✿★ღ。 首先是互联网虚假信息泛滥ღ✿★ღ。这里列举若干场景ღ✿★ღ:一是数字分身ღ✿★ღ。AI Yoon是首个使用 DeepFake 技术合成的官方“候选人”ღ✿★ღ,这个数字人以韩国国民力量党候选人尹锡悦(Yoon Suk-yeol)为原型ღ✿★ღ,借助尹锡悦 20 小时的音频和视频片段ღ✿★ღ、以及其专门为研究人员录制的 3000 多个句子ღ✿★ღ,由当地一家 DeepFake 技术公司创建了虚拟形象 AI Yoonღ✿★ღ,并在网络上迅速走红ღ✿★ღ。实际上 AI Yoon 表达的内容是由竞选团队撰写的ღ✿★ღ,而不是候选人本人ღ✿★ღ。 二是伪造视频ღ✿★ღ,尤其是伪造领导人视频引起国际争端ღ✿★ღ,扰乱选举秩序ღ✿★ღ,或引起突发舆情事件ღ✿★ღ,如伪造尼克松宣布第一次登月失败ღ✿★ღ,伪造乌克兰总统泽连斯基宣布“投降”的信息ღ✿★ღ,这些行为导致新闻媒体行业的社会信任衰退ღ✿★ღ。 三是伪造新闻ღ✿★ღ,主要通过虚假新闻自动生成牟取非法利益ღ✿★ღ,使用ChatGPT生成热点新闻ღ✿★ღ,赚取流量ღ✿★ღ,截至2023年6月30日全球生成伪造新闻网站已达277个ღ✿★ღ,严重扰乱社会秩序ღ✿★ღ。 四是换脸变声ღ✿★ღ,用于诈骗尊龙凯时人生就是搏ღ✿★ღ,ღ✿★ღ。如由于AI语音模仿了企业高管的声音尊龙凯时 - 人生就是搏!ღ✿★ღ,一家香港国际企业因此被骗3500万美元ღ✿★ღ。 五是生成不雅图片ღ✿★ღ,特别是针对公众人物ღ✿★ღ。如影视明星的色情视频制作ღ✿★ღ,造成不良社会影响ღ✿★ღ。因此ღ✿★ღ,迫切需要发展互联网虚假信息的伪造检测技术ღ✿★ღ。 其次ღ✿★ღ,AI大模型面临严重可信问题ღ✿★ღ。这些问题包括ღ✿★ღ:(1)“一本正经胡说八道”的事实性错误ღ✿★ღ;(2)以西方价值观叙事ღ✿★ღ,输出政治偏见和错误言论ღ✿★ღ;(3)易被诱导ღ✿★ღ,输出错误知识和有害内容ღ✿★ღ;(4)数据安全问题加重ღ✿★ღ,大模型成为重要敏感数据的诱捕器ღ✿★ღ,ChatGPT将用户输入纳入训练数据库ღ✿★ღ,用于改善ChatGPTღ✿★ღ,美方能够利用大模型获得公开渠道覆盖不到的中文语料ღ✿★ღ,掌握我们自己都可能不掌握的“中国知识”ღ✿★ღ。因此ღ✿★ღ,迫切需要发展大模型安全监管技术与自己的可信大模型ღ✿★ღ。 除了技术手段外ღ✿★ღ,人工智能安全保障需要相关立法工作ღ✿★ღ。2021年科技部发布《新一代人工智能伦理规范》ღ✿★ღ,2022年8月ღ✿★ღ,全国信息安全标准化技术委员会发布《信息安全技术 机器学习算法安全评估规范》ღ✿★ღ,2022-2023年ღ✿★ღ,中央网信办先后发布《互联网信息服务算法推荐管理规定》《互联网信息服务深度合成管理规定》《生成式人工智能服务管理办法》等ღ✿★ღ。欧美国家也先后出台法规ღ✿★ღ,2018年5月25日ღ✿★ღ,欧盟出台《通用数据保护条例》ღ✿★ღ,2022年10月4日ღ✿★ღ,美国发布《人工智能权利法案蓝图》ღ✿★ღ,2024年3月13日ღ✿★ღ,欧洲议会通过了欧盟《人工智能法案》ღ✿★ღ。 我国应加快推进《人工智能法》出台ღ✿★ღ,构建人工智能治理体系ღ✿★ღ,确保人工智能的发展和应用遵循人类共同价值观ღ✿★ღ,促进人机和谐友好ღ✿★ღ;创造有利于人工智能技术研究ღ✿★ღ、开发ღ✿★ღ、应用的政策环境ღ✿★ღ;建立合理披露机制和审计评估机制ღ✿★ღ,理解人工智能机制原理和决策过程ღ✿★ღ;明确人工智能系统的安全责任和问责机制ღ✿★ღ,可追溯责任主体并补救ღ✿★ღ;推动形成公平合理ღ✿★ღ、开放包容的国际人工智能治理规则ღ✿★ღ。 人工智能技术与智能计算产业处于中美科技竞争的焦点ღ✿★ღ,我国在过去几年虽然取得了很大的成绩极品惊天动地ღ✿★ღ,但依然面临诸多发展困境ღ✿★ღ,特别是由美国的科技打压政策带来的困难ღ✿★ღ。 困境一为美国在AI核心能力上长期处于领先地位ღ✿★ღ,中国处于跟踪模式ღ✿★ღ。中国在AI高端人才数量ღ✿★ღ、AI基础算法创新ღ✿★ღ、AI底座大模型能力(大语言模型ღ✿★ღ、文生图模型ღ✿★ღ、文生视频模型)ღ✿★ღ、底座大模型训练数据ღ✿★ღ、底座大模型训练算力等ღ✿★ღ,都与美国存在一定的差距ღ✿★ღ,并且这种差距还将持续很长一段时间ღ✿★ღ。 困境二为高端算力产品禁售ღ✿★ღ,高端芯片工艺长期被卡ღ✿★ღ。A100ღ✿★ღ,H100ღ✿★ღ,B200等高端智算芯片对华禁售ღ✿★ღ。华为ღ✿★ღ、龙芯ღ✿★ღ、寒武纪ღ✿★ღ、曙光ღ✿★ღ、海光等企业都进入实体清单ღ✿★ღ,它们芯片制造的先进工艺 受限ღ✿★ღ,国内可满足规模量产的工艺节点落后国际先进水平2-3代ღ✿★ღ,核心算力芯片的性能落后国际先进水平2-3代ღ✿★ღ。 (Compute Unified Device Architecture, 通用计算设备架构)生态完备ღ✿★ღ,已形成了事实上的垄断ღ✿★ღ。国内生态孱弱ღ✿★ღ,具体表现在ღ✿★ღ:一是研发人员不足ღ✿★ღ,英伟达CUDA生态有近2万人开发尊龙凯时 - 人生就是搏!ღ✿★ღ,是国内所有智能芯片公司人员总和的20倍ღ✿★ღ;二是开发工具不足ღ✿★ღ,CUDA有550个SDK(Software Development Kit, 软件开发工具包)ღ✿★ღ,是国内相关企业的上百倍ღ✿★ღ;三是资金投入不足ღ✿★ღ,英伟达每年投入50亿美元ღ✿★ღ,是国内相关公司的几十倍ღ✿★ღ;四是AI开发框架TensorFlow占据工业类市场ღ✿★ღ,PyTorch占据研究类市场ღ✿★ღ,百度飞桨等国产AI开发框架的开发人员只有国外框架的1/10ღ✿★ღ。更为严重的是国内企业之间山头林立尊龙凯时 - 人生就是搏!ღ✿★ღ,无法形成合力ღ✿★ღ,从智能应用ღ✿★ღ、开发框架ღ✿★ღ、系统软件ღ✿★ღ、智能芯片ღ✿★ღ,虽然每层都有相关产品ღ✿★ღ,但各层之间没有深度适配ღ✿★ღ,无法形成一个有竞争力的技术体系ღ✿★ღ。 困境四为AI应用于行业时成本ღ✿★ღ、门槛居高不下ღ✿★ღ。当前我国AI应用主要集中在互联网行业和一些国防领域ღ✿★ღ。AI技术推广应用于各行各业时ღ✿★ღ,特别是从互联网行业迁移到非互联网行业ღ✿★ღ,需要进行大量的定制工作ღ✿★ღ,迁移难度大ღ✿★ღ,单次使用成本高ღ✿★ღ。最后ღ✿★ღ,我国在AI领域的人才数量与实际需求相比也明显不足ღ✿★ღ。 人工智能发展的道路选择对我国至关重要ღ✿★ღ,关系到发展的可持续性与最终的国际竞争格局ღ✿★ღ。当前人工智能的使用成本十分高昂ღ✿★ღ,微软Copilot套件要支付每月10美元的使用费用ღ✿★ღ,ChatGPT每天消耗50万千瓦时的电力ღ✿★ღ,英伟达B200芯片价格高达3万美元以上ღ✿★ღ。总体来说ღ✿★ღ,我国应发展用得起ღ✿★ღ、安全可信的人工智能技术ღ✿★ღ,消除我国信息贫困人口ღ✿★ღ、并造福“一带一路”国家ღ✿★ღ;低门槛地赋能各行各业ღ✿★ღ,让我国的优势产业保持竞争力ღ✿★ღ,让相对落后的产业能够大幅地缩小差距ღ✿★ღ。 支撑智能计算产业的是一个相互紧耦合的技术体系ღ✿★ღ,即由一系列技术标准和知识产权将材料ღ✿★ღ、器件ღ✿★ღ、工艺ღ✿★ღ、芯片ღ✿★ღ、整机ღ✿★ღ、系统软件ღ✿★ღ、应用软件等密切联系在一起的技术整体ღ✿★ღ。我国发展智能计算技术体系存在三条道路ღ✿★ღ: 一是追赶兼容美国主导的A体系ღ✿★ღ。我国大多数互联网企业走的是GPGPU/CUDA兼容道路ღ✿★ღ,很多芯片领域的创业企业在生态构建上也是尽量与CUDA兼容ღ✿★ღ,这条道路较为现实ღ✿★ღ。由于在算力方面美国对我国工艺和芯片带宽的限制ღ✿★ღ,在算法方面国内生态林立很难形成统一ღ✿★ღ,生态成熟度严重受限ღ✿★ღ,在数据方面中文高质量数据匮乏ღ✿★ღ,这些因素会使得追赶者与领先者的差距很难缩小ღ✿★ღ,一些时候还会进一步拉大ღ✿★ღ。 二是构建专用封闭的B体系ღ✿★ღ。在军事ღ✿★ღ、气象ღ✿★ღ、司法等专用领域构建企业封闭生态ღ✿★ღ,基于国产成熟工艺生产芯片ღ✿★ღ,相对于底座大模型更加关注特定领域垂直类大模型ღ✿★ღ,训练大模型更多采用领域专有高质量数据等ღ✿★ღ。这条道路易于形成完整可控的技术体系与生态ღ✿★ღ,我国一些大型骨干企业走的是这条道路ღ✿★ღ,它的缺点是封闭ღ✿★ღ,无法凝聚国内大多数力量ღ✿★ღ,也很难实现全球化ღ✿★ღ。 三是全球共建开源开放的C体系ღ✿★ღ。用开源打破生态垄断ღ✿★ღ,降低企业拥有核心技术的门槛ღ✿★ღ,让每个企业都能低成本地做自己的芯片ღ✿★ღ,形成智能芯片的汪洋大海ღ✿★ღ,满足无处不在的智能需求ღ✿★ღ。用开放形成统一的技术体系ღ✿★ღ,我国企业与全球化力量联合起来共建基于国际标准的统一智能计算软件栈ღ✿★ღ。形成企业竞争前共享机制ღ✿★ღ,共享高质量数据库ღ✿★ღ,共享开源通用底座大模型ღ✿★ღ。对于全球开源生态ღ✿★ღ,我国企业在互联网时代收益良多ღ✿★ღ,我国更多的是使用者ღ✿★ღ,是参与者ღ✿★ღ,在智能时代我国企业在RISC-V ღ✿★ღ。我国80%的中小微企业ღ✿★ღ,需要的是低门槛ღ✿★ღ、低价格的智能服务ღ✿★ღ。因此ღ✿★ღ,我国智能计算产业必须建立在新的数据空间基础设施之上ღ✿★ღ,其中关键是我国应率先实现智能要素即数据ღ✿★ღ、算力ღ✿★ღ、算法的全面基础设施化ღ✿★ღ。这项工作可比肩二十世纪初美国信息高速公路计划(即信息基础设施建设)对互联网产业的历史作用ღ✿★ღ。 信息社会最核心的生产力是网络空间(Cyberspace)ღ✿★ღ。网络空间的演进过程是ღ✿★ღ:从机器一元连接构成的计算空间ღ✿★ღ,演进到人机信息二元连接构成的信息空间ღ✿★ღ,再演进到人机物数据三元连接构成的数据空间ღ✿★ღ。从数据空间看ღ✿★ღ,人工智能的本质是数据的百炼成钢ღ✿★ღ,大模型就是对互联网全量数据进行深度加工后的产物ღ✿★ღ。在数字化时代ღ✿★ღ,在互联网上传输的是信息流ღ✿★ღ,是算力对数据进行粗加工后的结构化抽象ღ✿★ღ;在智能时代ღ✿★ღ,在互联网上传输的是智能流ღ✿★ღ,是算力对数据进行深度加工与精炼后的模型化抽象ღ✿★ღ。智能计算的一个核心特征就是用数值计算ღ✿★ღ、数据分析ღ✿★ღ、人工智能等算法ღ✿★ღ,在算力池中加工海量数据件ღ✿★ღ,得到智能模型ღ✿★ღ,再嵌入到信息世界ღ✿★ღ、物理世界的各个过程中ღ✿★ღ。 我国政府已经前瞻性地提前布局了新型基础设施ღ✿★ღ,在世界各国竞争中抢占了先机ღ✿★ღ。首先ღ✿★ღ,数据已成为国家战略信息资源ღ✿★ღ。数据具有资源要素与价值加工两重属性ღ✿★ღ,数据的资源要素属性包括生产极品惊天动地ღ✿★ღ、获取ღ✿★ღ、传输ღ✿★ღ、汇聚ღ✿★ღ、流通ღ✿★ღ、交易ღ✿★ღ、权属ღ✿★ღ、资产ღ✿★ღ、安全等各个环节ღ✿★ღ,我国应继续加大力度建设国家数据枢纽与数据流通基础设施ღ✿★ღ。 其次ღ✿★ღ,AI大模型就是数据空间的一类算法基础设施ღ✿★ღ。以通用大模型为基座ღ✿★ღ,构建大模型研发与应用的基础设施ღ✿★ღ,支撑广大企业研发领域专用大模型ღ✿★ღ,服务于机器人ღ✿★ღ、无人驾驶ღ✿★ღ、可穿戴设备ღ✿★ღ、智能家居ღ✿★ღ、智能安防等行业ღ✿★ღ,覆盖长尾应用ღ✿★ღ。 最后ღ✿★ღ,全国一体化算力网建设在推动算力的基础设施化上发挥了先导作用ღ✿★ღ。算力基础设施化的中国方案ღ✿★ღ,应在大幅度降低算力使用成本和使用门槛的同时ღ✿★ღ,为最广范围覆盖人群提供高通量ღ✿★ღ、高品质的智能服务ღ✿★ღ。算力基础设施的中国方案需要具备“两低一高”ღ✿★ღ,即在供给侧ღ✿★ღ,大幅度降低算力器件ღ✿★ღ、算力设备ღ✿★ღ、网络连接ღ✿★ღ、数据获取ღ✿★ღ、算法模型调用ღ✿★ღ、电力消耗ღ✿★ღ、运营维护ღ✿★ღ、开发部署的总成本ღ✿★ღ,让广大中小企业都消费得起高品质的算力服务ღ✿★ღ,有积极性开发算力网应用ღ✿★ღ;在消费侧ღ✿★ღ,大幅度降低广大用户的算力使用门槛ღ✿★ღ,面向大众的公共服务必须做到易获取ღ✿★ღ、易使用ღ✿★ღ,像水电一样即开即用ღ✿★ღ,像编写网页一样轻松定制算力服务ღ✿★ღ,开发算力网应用ღ✿★ღ。在服务效率侧ღ✿★ღ,中国的算力服务要实现低熵高通量ღ✿★ღ,其中高通量是指在实现高并发 度服务的同时ღ✿★ღ,端到端服务的响应时间可满足率高ღ✿★ღ;低熵是指在高并发负载中出现资源无序竞争的情况下ღ✿★ღ,保障系统通量不急剧下降ღ✿★ღ。保障“算得多”对中国尤其重要ღ✿★ღ。 “AI+”的成效是人工智能价值的试金石ღ✿★ღ。次贷危机后ღ✿★ღ,美国制造业增加值占GDP的比重从1950年的28%降低为2021年的11%ღ✿★ღ,美国制造业在全行业就业人数占比从1979年的35%降低为2022年的8%ღ✿★ღ,可见美国更倾向于回报率更高的虚拟经济尊龙人生就是博官网ღ✿★ღ,ღ✿★ღ,轻视投资成本高且经济回报率低的实体经济ღ✿★ღ。中国倾向于实体经济与虚拟经济同步发展ღ✿★ღ,更加重视发展装备制造ღ✿★ღ、新能源汽车ღ✿★ღ、光伏发电ღ✿★ღ、锂电池ღ✿★ღ、高铁ღ✿★ღ、5G等实体经济ღ✿★ღ。 相应地美国AI主要应用于虚拟经济和IT基础工具ღ✿★ღ,AI技术也是“脱实向虚”ღ✿★ღ,自2007年以来硅谷不断炒作虚拟现实(Virtual Realityღ✿★ღ,VR)ღ✿★ღ、元宇宙ღ✿★ღ、区块链ღ✿★ღ、Web3.0ღ✿★ღ、深度学习ღ✿★ღ、AI大模型等ღ✿★ღ,是这个趋势的反映ღ✿★ღ。 我国的优势在实体经济ღ✿★ღ,制造业全球产业门类最齐全ღ✿★ღ,体系最完整ღ✿★ღ,特点是场景多ღ✿★ღ、私有数据多ღ✿★ღ。我国应精选若干行业加大投入ღ✿★ღ,形成可低门槛全行业推广的范式ღ✿★ღ,如选择装备制造业作为延续优势代表性行业ღ✿★ღ,选择医药业作为快速缩短差距的代表性行业ღ✿★ღ。赋能实体经济的技术难点是AI算法与物理机理的融合ღ✿★ღ。 人工智能技术成功的关键是能否让一个行业或一个产品的成本大幅下降ღ✿★ღ,从而将用户数与产业规模扩大10倍ღ✿★ღ,产生类似于蒸汽机对于纺织业ღ✿★ღ,智能手机对于互联网业的变革效果ღ✿★ღ。 ①模式识别是指用计算的方法根据样本的特征将样本划分到一定的类别中去极品惊天动地ღ✿★ღ,是通过计算机用数学方法来研究模式的自动处理和判读ღ✿★ღ,把环境与客体统称为“模式”ღ✿★ღ。 以图像处理与计算机视觉ღ✿★ღ、语音语言信息处理ღ✿★ღ、脑网络组ღ✿★ღ、类脑智能等为主要研究方向ღ✿★ღ。 ②Token可翻译为词元ღ✿★ღ,指自然语言处理过程中用来表示单词或短语的符号ღ✿★ღ。token可以是单个字符,也可以是多个字符组成的序列ღ✿★ღ。 ③通用人工智能是指拥有与人类相当甚至超过人类智能的人工智能类型ღ✿★ღ。通用人工智能不仅能像人类一样进行感知ღ✿★ღ、理解ღ✿★ღ、学习和推理等基础思维能力ღ✿★ღ,还能在不同领域灵活应用ღ✿★ღ、快速学习和创造性思考ღ✿★ღ。通用人工智能的研究目标是寻求统一的理论框架来解释各种智能现象ღ✿★ღ。 ④芯片制造工艺指制造CPU或GPU的制程ღ✿★ღ,即晶体管门电路的尺寸ღ✿★ღ,单位为纳米ღ✿★ღ,目前国际上实现量产的最先进工艺以台积电的3nm为代表ღ✿★ღ。更先进的制造工艺可以使CPU与GPU内部集成更多的晶体管ღ✿★ღ,使处理器具有更多的功能以及更高的性能ღ✿★ღ,面积更小ღ✿★ღ,成本更低等ღ✿★ღ。 ⑤CUDA是英伟达公司设计研发一种并行计算平台和编程模型ღ✿★ღ,包含了CUDA指令集架构以及GPU内部的并行计算引擎ღ✿★ღ。开发人员可以使用C语言来为CUDA架构编写程序ღ✿★ღ,所编写出的程序可以在支持CUDA的处理器上以超高性能运行ღ✿★ღ。 ⑥RISC-V(发音为“risk-five”)是一个由美国加州大学伯克利分校发起的开放通用指令集架构ღ✿★ღ,相比于其他付费指令集ღ✿★ღ,RISC-V允许任何人免费地使用RISC-V指令集设计ღ✿★ღ、制造和销售芯片和软件ღ✿★ღ。 ⑦长尾效应是指那些原来不受到重视的销量小但种类多的产品或服务由于总量巨大ღ✿★ღ,累积起来的总收益超过主流产品的现象ღ✿★ღ。在互联网领域ღ✿★ღ,长尾效应尤为显著ღ✿★ღ。 | |