近两年,随着ChatGPT卷起大模型应用“风暴”,大模型在全球资本市场和技术市场掀起狂澜。无论是“巨头”还是“独角兽”,纷纷官宣进军大模型,并陆续推出各自研发产品。什么是大模型?目前发展如何?运营商要不要进军大模型?很多通信行业从业者都有一样的疑问。接下来,笔者就为大家一一解答。
什么是大模型?
给大模型下定义之前,先讲一个运营商员工非常熟悉的场景:运营商的每个分支机构,无论是省分公司、市分公司、县分公司还是最小单元,每个月都会耗费精力做一次或多次经营分析,这样的经营分析建立在以往生产经营数据的基础上,对后续生产经营活动进行总结或预测,而经营分析的基础是运营商分支机构所辖用户的消费数据。过去这种分析行为叫大数据分析,而当数据量足够多,达到数十亿、数百亿,且每月能自动、智能地生成经营分析结果,这一过程就能通过大模型实现。
大模型,指的是具有大规模参数和复杂架构的人工智能模型。
大模型通常基于深度学习技术,通过海量数据训练,学习到各种知识和模式。大模型能够理解并处理自然语言、图像、音频等多种类型数据,完成文本生成、语言翻译、问题回答、图像识别、语音识别等多种复杂任务。
训练大模型需要具备三大前提条件。一是大规模数据。大模型需要大量的、多样化的数据进行训练,以提高模型的泛化能力和准确性。二是巨大的参数量。大模型参数量越多,其表达能力和学习能力就更强。三是高性能计算资源。训练和运行大模型往往需要强大的计算能力,需要GPU集群等提供算力资源。
大模型并非最新提出的概念,而是早已有之,最早可以追溯到20世纪50年代,大模型的发展大致经历了三个阶段。
第一阶段可称作萌芽期(1950—2005年),是以CNN为代表的传统神经网络模型阶段。其中具有代表性的事件有:1956年计算机专家约翰·麦卡锡提出“人工智能”概念,AI发展从最开始基于少数专家的知识学习逐步发展为基于机器学习;1980年卷积神经网络的雏形诞生;1998年,现代卷积神经网络的基本结构LeNet-5诞生,机器学习方法由早期基于浅层机器学习的模型,发展为基于深度学习的模型。
第二个阶段可称作探索沉淀期(2006—2019年),是以Transformer为代表的全新神经网络模型阶段。其中具有代表性的事件有:2013年自然语言处理模型Word2Vec诞生,成为首次提出将单词转换为向量的“词向量模型”;2014年被誉为21世纪最强大算法模型之一的GAN(对抗式生成网络)诞生,标志着深度学习进入生成模型研究的新阶段;2017年谷歌颠覆性地提出了基于自注意力机制的神经网络结构——Transformer架构,奠定了大模型预训练算法架构的基础;2018年OpenAI和谷歌分别发布了GPT-1与BERT大模型,意味着预训练大模型成为自然语言处理领域的主流。
第三个阶段可称作迅猛发展期(2020年至今),是以GPT为代表的预训练大模型阶段。其中具有代表性的事件有:2020年OpenAI公司推出了GPT-3,参数规模达到了1750亿;2022年搭载GPT-3.5的ChatGPT横空出世,凭借逼真的自然语言交互与多场景内容生成能力,迅速引爆互联网;2023年3月发布的超大规模多模态预训练大模型——GPT-4,具备多模态理解与多类型内容生成的能力。在这一时期,大数据、大算力和大算法完美结合,大幅提升了大模型的预训练和生成能力、多模态能力和多场景应用能力。
当前,AI的概念很火,大模型就是AI技术的一个分支,AI还包括其他技术和方法,如机器学习中的一些小模型、传统的算法和规则,以及各种特定领域的智能系统。
五大因素驱动,大模型上演“百家争鸣”
之所以大模型在近两年突然火热,主要原因有五点。一是技术的巨大突破。计算能力的大幅提升,特别是GPU等硬件的发展,使得处理大规模数据和训练大模型成为可能。例如,英伟达等公司不断推出性能强大的GPU,为大模型训练提供了坚实的硬件基础。二是数据的“爆发式”增长。互联网的普及产生了海量的数据,包括文本、图像、音频等,这些丰富的数据为大模型训练提供了充足的素材,使其能够学习到更广泛、更深入的知识。三是性能的显著提升。大模型在面对各种任务时表现出了卓越的性能,如自然语言处理中的语言理解、生成,图像识别的准确率等,大模型在回答复杂问题时的准确性和全面性远超以往模型。四是应用场景更加广泛。大模型可以应用于智能客服、智能写作、智能翻译、医疗诊断、金融风险预测等众多场景,为各行各业带来了巨大的价值和效率提升。同时,大模型在应对一些复杂的现实问题时展现出了潜力,例如在疫情期间,通过分析大量的医疗数据辅助疾病的预测和防控。五是科技巨头的推动。谷歌、微软、百度等科技巨头投入大量资源进行大模型的研发和应用,进一步提升了大模型的热度。
随着大模型技术的飞速演进,国内越来越多的科技企业进军大模型“赛道”,试图在未来的万亿元市场中“分一杯羹”。据不完全统计,国内取得一定进展的大模型企业和产品主要有百度的新一代知识增强大语言模型“文心一言”、字节跳动的“云雀”语言模型以及基于“云雀”模型开发的AI对话产品“豆包”、腾讯的“混元”大语言模型、阿里云的“通义千问”大语言模型、华为的“盘古”大模型、360集团的360智脑人工智能协作平台、百川智能的百川大模型、商汤科技的“日日新”大模型、科大讯飞的“讯飞星火”认知大模型、上海人工智能实验室的“书生”通用大模型等。
拥抱大模型,运营商如何布局?
面对极具吸引力的新技术和新赛道,仅出于自身需要和业务拓展的考虑,运营商就不能错过这一千载难逢的时机。
就自身需要而言,运营商可以利用大模型优化网络运维,更精准地预测和修复网络故障,保障用户通信稳定和流畅。例如,提前预测网络拥堵区域,及时进行资源调配。此外,运营商可借助大模型改善用户服务,提供更智能、更个性化的服务响应,满足用户多样化的需求,提高服务质量和用户体验。在数字化转型的浪潮中,运营商要想保持其在通信行业的领先地位,就要满足用户对智能化服务不断增长的期望,吸引新用户并留住现有用户,而大模型将是其有效手段之一。
在业务拓展层面,过去运营商擅于做系统集成项目,为用户开发各式各样的应用系统。未来运营商可基于大模型开发智能应用,如智能语音助手、智能推荐系统等,为用户提供更多增值服务。举个例子,对比过去运营商为税务局打造的“税务通”系统,现在基于大模型打造的智能税务系统,可以做数据建模、文件分析、数据训练、问题研判等各种工作,系统价值和运营商收益更高。
借助大模型,运营商不仅能实现更高效的设备管理和数据分析,还能拓展新业务领域并创新服务模式,可谓一举多得,且运营商做大模型还具备三大先天性优势,更是如虎添翼。一是数据优势。运营商拥有海量的用户数据,包括通信行为、位置信息等,大模型可以对这些数据进行深度挖掘和分析,为业务决策提供有力支持,例如根据用户的通信模式和偏好,精准推送个性化的套餐和服务。二是算力优势。训练大模型离不开算力支持,而运营商通过多年深耕,是提供云计算服务的“国家队”。三是技术优势。打造大模型离不开雄厚的技术储备和人才储备。近几年,三大运营商成立专业子公司、合资公司、研究院、“军团”,培养了一大批技术人才和研发团队,且他们身处一线,与各行各业对接,是大模型研发路上不可小觑的“铁军”。
中国移动:“九天”大模型
当前,中国移动已发布全栈国产化生态大模型“九天智能基座”,包括万卡算力、千亿模型及百汇平台三部分。其中模型部分是从算子到框架全栈国产训练的千亿参数大模型,能力达到GPT-4的90%水平。基于该基座大模型,中国移动布局了17个细分领域行业大模型,覆盖政务、医疗、办公、金融风控、客服、代码等领域,未来还将布局40款自研行业大模型。
在算力建设方面,中国移动宣布年内将建成3个规模近2万卡的国产智算中心,广泛升级1500个边缘节点,将训、推算力资源配比提升至1:10,为万亿、千亿等超大参数模型训练提供澎湃算力。
据了解,中国移动“九天”大模型实现多项技术突破。在行业定向增强方面,针对通信、电力、运输、能源等行业的专业知识进行了增强训练,是国内预训练行业数据占比最高的大模型,达10%;在行业模态匹配方面,独创结构化数据大模型,能更好地处理复杂的产业结构化数据,同时构建语音、视觉、文本等方面的能力;在国产化方面,实现了数据构建、预训练、微调、部署全链路核心技术自主创新,适配国产算力、实现全栈国产;在安全可信方面,建立数据指令评估体系,加强数据处理和清洗、优化DPO算法,确保模型实现指令安全响应,是首个同时通过双备案的央企背景大模型,并获得中国软件测评中心安全测评的最高等级A级证书。
此外,中国移动对大模型进行了开源,2024年7月,中国移动开源139亿参数语言大模型及其后续演进版本,开源内容包括模型权重、微调代码、推理代码等。中国移动全新升级的“九天”多模态基座模型支持语言、视觉、语音和结构化数据。其中,语言大模型在预训练阶段融合了大量行业知识;视觉大模型支持多个视觉子任务、视觉与文本的自由转换;语音大模型实现了识别、生成、分类三大任务统一于同一模型架构;通用结构化数据大模型覆盖多个领域,实现了跨领域、跨任务结构化数据通用表征建模,支持多种任务。
目前中国移动已推出多款产品和应用,“5G+AI新通话”支持通话中实时转写、字幕翻译;视频彩铃推出文生图、文生音乐等功能;推出“一站式”大模型开发平台、大模型应用平台等。
中国联通:“元景”大模型
2023年6月,中国联通发布“鸿湖”图文AI大模型1.0,这是首个面向运营商增值业务的AI大模型;2024年2月,中国联通发布“元景”大模型,此后又陆续推出了“元景”车联网大模型、“元景”经济大模型、“元景”港口大模型、“元景”城市治理大模型、“元景”大模型MaaS平台,以及基于“元景”大模型打造的“元景语言”“元景听见”“元景看见”三款APP。在2024年中国联通合作伙伴大会上,中国联通还正式发布了“元景2.0”产品。相比“元景1.0”,“元景2.0”实现了基座能力、MaaS平台、安全能力和行业应用的升级,具备“更易定制、更懂行业、更加可信”的鲜明特色。
中国电信:“星辰”大模型
中国电信发力行业大模型,2023年首批推出“星辰”教育大模型、治理大模型、政务服务大模型、应急大模型、医保大模型、交通大模型等12个行业的试商用大模型,服务社会数字化转型;2024年又重磅发布8个行业场景大模型,即校园帮办大模型、心理健康大模型、应急预警视觉大模型、“翼知雨”防汛预警辅助大模型、文博讲解大模型、健康管理助手大模型、城市安全智能运营大模型、“翼安”反诈大模型。
与此同时,中国电信以星辰MaaS平台为核心,聚合丰富的大模型生态,集成自研“星辰”大模型和主流厂商的基础大模型,提供“评-选-部-数-购-训-推-用”端到端大模型解决方案,“一站式”满足用户多云算力调度、大模型选配、应用场景创新的需求,帮助用户打造自己的专属大模型。
此外,中国电信也开源了“星辰”语义大模型。2024年4月,中国电信开源了120亿参数规模的“星辰”语义大模型telechat-12b,相较于此前70亿参数版本,该模型在内容、性能和应用等方面的整体效果提升了30%,其中在多轮推理、安全问题等领域提升超2640%。值得一提的是,2024年7月18日,中国电信还推出首款AI手机麦芒30,内置自研的“星辰”大模型,可实现文案创作、图像生成、智能问答、一键调用AI等功能。
综上所述,三大运营商在大模型发展上已形成“你追我赶、并驾齐驱”的新局面,且相比国内互联网企业大模型产品主要侧重于某一领域的局限,运营商的大模型则以解决用户需求为主,覆盖领域更加广泛。
国际运营商多措并举布局大模型
面对引发新一轮科技革命的大模型,国际运营商纷纷加快布局。AT&T公司成为首个使用全套英伟达AI平台的运营商,该公司将AI技术应用至员工培训、用户服务和用车规划等方面,并基于ChatGPT开发了AI工具AskAT&T,应用于代码编写、网络优化、语言翻译等领域。Verizon公司利用生成式AI完成代码迁移、改善网络性能、跟踪数据趋势并优化用户体验。
沃达丰公司的子品牌VOXI是英国第一家部署大语言模型并推出人工智能聊天机器人的运营商。VOXI推出的聊天机器人提供了“像人一样”交流的互动功能。
SKT公司向AI独角兽Anthropic投资1亿美元,开发面向电信市场的大语言模型;收购人工智能技术公司ConanTechnology的股份,强化技术合作;与创业公司ScatterLab合作开发“A.friends”服务;与德国电信联手开发电信企业专用大模型,并打造首款韩语ChatGPT产品“A.”,为用户提供AI智能服务。
NTT公司计划5年内向人工智能等新兴领域投资8万亿日元(约合人民币4064亿元),并于2024年3月向企业提供6亿和70亿参数版本的大语言模型“tsuzumi”服务。同时,NTT还将在MicrosoftAzure的MaaS平台上提供“tsuzumi”大语言模型服务。
KT公司发布了韩国首个大语言模型Mi:dm,对外提供70亿和2000亿参数版本的AI开发包及基础模型开放服务;联合医疗中心Sahmyook和医疗大数据公司Humanitas开展AI医疗研发,三方共享医疗数据,由KT对收集到的医疗数据进行训练。
“LGU+”公司开发的基于视频AI的交通分析系统“U+车辆检测器”,在韩国建设技术研究院主管的智能交通体系车辆检测器领域基本性能评价中获得了最高级评价。
由此可以看出,国际运营商高度重视大模型发展,通过自身研发、投资、产业链合作、巨资收购企业等各种手段介入AI研发,并积极在智能医疗、智能交通、车辆检测等新兴领域推出AI应用,以期开拓新的“蓝海”市场。
四方面发力,奔赴下一个“星辰大海”大模型
发展潜力无限,但机遇和挑战并存,未来运营商要切实做好四方面工作。
一是做好人才梯队建设。未来大模型的开发应用,需要持续投入更多研发力量,运营商要提前做好技术人才梯队的建设和培养规划,尤其在人才薪资福利上要舍得投入,不要再出现“辛苦培养好多年,被别人一‘挖’了之”的尴尬局面。
二是加强自身领域使用。对于运营商而言,把大模型“卖出去”不是最重要的,在企业内部的应用和价值实现才更关键,客服、网优、资费设计等都是大模型绝佳的使用场景。打铁还需自身“硬”,运营商可通过大模型把自身打造成全AI、全智能的优秀企业,全面提升企业竞争力。
三是开展全面的业务培训。运营商的员工不可能都参与到大模型的研发工作中,但要形成“人人都懂大模型、人人能讲大模型”的良好氛围。运营商可以全面开展大模型知识的认证考试,使每名员工像了解资费政策那样,熟悉大模型的来龙去脉。这样,上至总经理下至基层员工,均可结合大模型在企业的推广应用,成为大模型的推荐者。
四是做好业务全面转型。加强对用户需求的挖掘,把过往的所有项目都用大模型重构一遍,形成全员懂大模型、推介大模型的氛围,推动各业务AI转型。
我们坚信,大模型必将成为运营商的下一个“星辰大海”!
*本篇刊载于《通信世界》8月10日*
第15期总949期
作者:中国联通河南省分公司 宋凤忠 郑州外国语新枫杨学校 宋汶珊
扫一扫在手机上查看当前页面