大模型的当前和未来
来源:天翼智库 时间:2024-08-22 10:41

  自2022年年底ChatGPT打响大模型热潮第一枪,至今已有一年半多的时间,大模型持续受到业界高度关注。大模型当前发展情况如何,未来又将如何演进发展?天翼智库大模型研究团队专家就知乎上广受关注的14个相关热点问题进行了专业性回答。本文是上述问答内容的摘编。

  大模型入门

  1.什么是大模型、超大模型和FoundationModel?

  天翼智库:大模型通常指具有大规模参数、能捕捉和学习更复杂数据模式的模型,在各种任务上表现更为出色,如自然语言理解、图像识别等。超大模型是大模型的一个子集,参数通常达数千亿甚至数万亿。随着模型规模(如参数数量、数据量、计算量)增大,其性能通常会随之提高,能处理更广泛任务,在特定任务上达更高精度,甚至会“涌现”新能力,如常识推理、创作能力等。FoundationModel是一种特定类型的大模型,被设计为能够处理多种类型的任务,而不专门针对某一特定任务,通常具有高度泛化能力。

  2.如何系统地入门大模型?

  天翼智库:第一步是基础知识学习。通过在网站搜索各类专家的视频课程来学习,如吴恩达、李宏毅等。核心内容包括机器学习、深度学习、自然语言处理等。第二步是了解大模型技术。通过视频学习或阅读书籍如《这就是ChatGPT》。学习知识点包括Transformer架构、预训练与微调、多模态大模型等。第三步是实践操作。通过多种方式在实际操作中检验学习成果,包括但不限于,研究开源大模型源码,理解其内部运作;通过HuggingFace、阿里云ModelScope等平台,直接调用现有大模型进行应用开发。

  3.想学习大语言模型(LLM),应该从哪个开源模型开始?

  天翼智库:Llama系列模型是一个非常好的起点,原因有三:一是生态全面。Llama系列模型拥有较完善的开源资源、工具和社区等生态支持,遇到问题时更容易找到解决方案、获得实践上的帮助。二是上手方便。Llama系列模型提供一个无需GPU的体验版本llama.cpp,可在不具备高性能硬件的条件下开始学习和实践。三是扩展性强。Llama系列模型具有普及性,有许多人在其基础上进行扩展和优化,如FlashAttention算法已成为标准组件,为学习者提供现成案例和改进方向。

  大模型发展现状总结

  1.从ChatGPT横空出世到国内外“百模大战”,目前大模型发展情况如何?

  天翼智库:大模型仍处于快速发展和变革时期,呈现四大发展特征。一是技术快速迭代,迈进原生多模态时代。2024年5月,OpenAI和谷歌前后脚放出基于自身原生多模态大模型打造的最新模型产品GPT-4o和ProjectAstro,开启原生多模态大模型新阶段。二是端侧大模型加速落地,或成未来交互新入口。AI手机、AIPC、人形机器人、智能座驾等市占率有望快速提升,如IDC预计2024年国内AI手机市场出货量为3700万台、占比13.2%,到2027年将达到1.5亿台、市占率超50%。三是大模型在各行各业渗透日益加深,展现强大应用潜力。Gartner预计到2027年,企业中使用的超过50%的生成式AI模型将是垂直领域模型(行业或业务功能相关),2023年只有1%。四是大模型伦理与安全问题凸显,各国法律法规跟进。随着大模型广泛应用,其可能带来的伦理、偏见及数据安全问题引起广泛关注,各国政府和监管机构相继出台相关政策法规。

  2.如何看待国产大模型的现状?

  天翼智库:据天翼智库基于公开资料的不完全统计,当前我国通用大模型87个,行业大模型341个,主要集中在北上广三地。大模型发展热潮背后,我们发现国内通用大模型同质化问题严重,缺乏原创性突破,应用上缺乏独特性;行业大模型多而不精,实际落地和商业化进程缓慢。究其原因,我们认为:一是原创性算法架构创新不足。国内AI企业侧重于对现有Transformer架构及其衍生模型进行优化和应用创新,而非追求底层架构根本革新。2019-2023年全球发布的387个重要机器学习模型中,美国机构主导开发的达262个,中国仅68个。二是高端算力资源紧缺。一方面,美国对我芯片封锁政策不断升级;另一方面,核心算力芯片国产化进展较慢,高端芯片工艺长期被卡,芯片工艺和性能落后国际先进水平2-3代。三是高质量中文数据短缺。一方面,公共数据开放共享水平不足,数据可获得性有待提高;另一方面,各行业数据体量庞大,但标准不一、产业化不足,仍存在数据使用和数据安全之间的平衡问题。

  国内曾经也出现过“百团大战”(团购),最终只有2-3家生存下来。我们认为未来国内主导的通用大模型只有3-5家,甚至只有1-2家,现有的大量模型厂商将转型到大模型垂直领域和应用开发领域。

  3.目前国内大模型处于什么阶段,是否有关键技术壁垒?

  天翼智库:目前处于追赶国外先进水平的阶段。尽管国内在大模型研发上展现出巨大热情,但与国际前沿模型相比仍存在一定差距,如号称整体超越GPT-4Turbo的讯飞星火大模型V4.0于2024年6月发布,而GPT-4Turbo则于2023年11月发布,时间领先超半年。关键的技术挑战集中在大模型的核心算法和基础架构设计上。目前,大模型主要基于Transformer架构,并采用预测nexttoken作为主要训练策略。为实现直道超车,可以通过增加模型参数、强化多模态和AIAgent产品能力等策略。同时,探索超越参数规模增长的新理论基础,甚至提出非基于连接学派的新策略,可能为大模型带来弯道超车的机遇,从根本上解决高能源消耗和大模型难以具备逻辑思维能力等问题。

  4.目前国内有哪些开源多模态大模型?

  天翼智库:据天翼智库基于公开资料的不完全统计,当前国内开源多模态大模型至少有28个,发布者主要分为科技企业、科研机构两类,具体包括阿里的Qwen-VL、Qwen-Audio;智谱AI联合清华大学发布的VisualGLM-6B、CogVLM;零一万物的Yi-VL;面壁智能联合清华大学NLP实验室发布的MiniCPM-V2.0、OmniLMM、VisCPM-Chat、VisCPM-Paint;中国电信的TeleSpeech-ASR;商汤科技的Shikra;字节跳动的BuboGPT;美团的MobileVLM;小红书的InstantID;上海AIlab的VideoChat、MM-Interleaved、LLMInternLM-XComposer-2.5;阿里达摩院的mPLUG-Owl;北京智源人工智能研究院的AltCLIP、AltDiffusion、EVA、Painter、SegGPT、Uni3D、Emu2、EVA-CLIP-18B;IDEA研究院的太乙、Ziya-Visual。

  大模型发展深度剖析

  1.大模型发展中有哪些经验和教训?

  天翼智库:主要总结四点可供企业、开发者、用户借鉴的经验。一是提示工程的自动化可能会减少对人类工程师的依赖,并将以新的形态存在。当前趋势表明,自动生成的提示词(以下简称prompt)在很多情况下表现优于人类工程师设计的prompt。随着技术不断进步,提示工程的自动化或减少对人类工程师的依赖并将以新形态存在,如集成到基础模型或作为大语言模型运营(LLMOps)的一部分,仍然需要人类参与。二是混合专家模型(以下简称MoE)架构有望超越传统范式实现低成本万亿参数大模型。MoE架构通过将任务分解为多个子问题,并由不同的专家模型分别处理,展现了其在提高预测性能方面的潜力。三是随着数据隐私法规的加强和高质量数据的稀缺,数据合成技术在大模型研发流程中的重要性愈发凸显。四是基于SFT的企业大模型微调策略门槛较高,RAG+知识库的方案有望成为主流。基于SFT(SupervisedFine-Tuning)的企业大模型微调策略虽能快速带来效果,但计算密集且资源消耗大。结合RAG(Retrieval-AugmentedGeneration)和知识库的方案不仅能提供个性化和领域特定的回答,且相较于SFT可能更易实施和维护,有望成为企业大模型微调的主流策略。

  2.开源大模型是否比闭源大模型取得更多进展和成就?

  天翼智库:从模型性能的角度看,开源大模型进展落后于闭源大模型。据知名大模型竞技场LMSYSChatbotArenaLeaderboard于2024年7月8日更新的评测结果显示,Top10均为闭源大模型,Top20中有6个开源大模型;据2024年7月15日查阅的斯坦福团队发布的AlpacaEvalLeaderboard显示,Top10中仅有2个开源大模型。从技术普及发展的角度看,开源大模型的贡献大于闭源大模型。开源大模型吸引大量开发者和研究人员自由地查看、修改和扩展模型,加速大模型技术创新和应用场景探索,同时开源社区贡献智慧,又推动开源大模型自身发现并修复问题、提升模型质量。

  3.大模型发展到现在,为什么还没出现爆款级应用?

  天翼智库:一是国内C端用户付费意愿普遍偏低,相较国外更难盈利。二是应用场景并非面向用户刚需,难以形成稳固用户基础。传统爆款级软件往往能解决用户某方面刚需(例如社交App),而对于大模型核心应用场景“内容生成”而言,大部分使用者只有尝鲜并无硬性需求,影响用户留存率。三是应用对用户有使用门槛要求,限制了应用的易用性。模型回复质量取决于用户个人提问技巧,用户能力差异化带来模型使用效果两极化,导致当前大模型应用尚不具备爆款级应用“人人易用”的特性。四是模型幻觉问题依然存在,对使用体验有较大影响。

  如今AI技术站在“技术革新到应用繁荣的临界点”上,爆款级应用或许并非难以出现,而是正处于中间“应用准备期”阶段。

  4.大语言模型无法对数字进行准确运算的底层原因是什么?

  天翼智库:一是大模型的工作原理与数学运算的逻辑不一致。大语言模型基于上下文中词与词之间的关联性获取深层次语义信息,并根据统计概率预测下一个词,更适合较为具象的自然语言理解与生成等任务。数学运算中上下文信息较少,数字含义更抽象,增加大模型理解难度。且大模型基于一定概率生成输出内容,与数学运算需要严格根据运算规则进行准确计算的推理方式不完全匹配。二是不同的分词方法对大模型的数学运算能力存在一定影响。不恰当的分词会增加大模型理解多位数的难度,难以建立token向量与数字之间的准确对应关系。此外,随着多位数的位数增加,大模型将相同数位的数字进行对齐的难度也会增加,使大模型在分步计算过程中容易出错。

  5.2024年大模型还有哪些可研究的方向?

  天翼智库:总结十个国际主流企业认可的研究方向。一是模型融合技术。在不增大模型参数规模的前提下,通过模型融合来提升模型性能和效率,且新模型还没有传统集成方法的典型缺陷,如更高的算力需求。二是混合专家系统。通过将多个小型模块组合起来创建MoE,可让所得大模型的效果和效率媲美甚至超越大型模型。三是训练更小的大模型。研究如何在保持或提升模型性能的同时,减少模型的大小和计算资源需求。四是个性化与定制化。开发能根据特定用户需求进行个性化调整的大模型,以提供更加精准的服务。五是多模态大模型和多模态融合技术。继续发展能处理多种类型数据的大模型,以应对复杂的现实世界问题。六是跨模态交互。通过不同的技术或方法促进不同模态之间有效交互和预测,包括多模态数据处理与转换技术、跨模态学习等。七是模型对齐与安全可控。研究如何使大模型更好地对齐人类偏好,并确保其在使用过程中的安全性和可控性。八是时序预测与异常检测。利用大模型在时序预测和异常检测方面的应用潜力,进一步提升其在金融、医疗等领域的实际应用效果。九是智能体评测。通过指令遵从和偏好对齐的能力,评估大模型作为智能中枢解决复杂任务的能力。十是智能体评测交叉学科研究。将大模型与其他学科如语言学、政治学、社会学和心理学等进行交叉研究,以拓展其应用场景和理论深度。

  大模型发展路径展望

  1.大模型再发展5年,搜索引擎还在吗?

  天翼智库:大模型技术会与搜索引擎产品结合。从发展终局的视角看,结合大模型技术的搜索引擎最终会在用户使用习惯、产品核心定位和企业市场格局三方面有新变化。一是用户使用边界从“检索”向“问答”拓展。AI搜索让信息的颗粒度从网页细化到内容本身,在多数情况下将帮助用户省去“逐个链接查看”、“对多个网页源信息进行整合”两个关键步骤,且“提问-回答-追问”的新用户习惯也在快速建立。二是产品核心定位从“搜索引擎”转向“大模型+搜索的整体问答系统”。首先,产品底层逻辑更加复杂,AI搜索的智能化水平成为新决定性因素。其次,产品UI界面重点从网页列表转移到内容答案。然后,产品商业模式将变得更加多元,如采用用户付费订阅制、后向整合打造内容生态并开启知识付费等。最后,产品服务形态或从云服务向端云协同转变。三是未来的搜索市场玩家将是整合大模型技术的传统搜索龙头企业以及AI搜索初创企业的混合市场格局。全球市场上的前两名将仍然是谷歌、微软,市场三四五名或迎来新一轮洗牌,专业AI搜索初创产品或杀出重围。

  2.大模型的终局是“通用”还是“专用”?

  天翼智库:通用大模型通过在海量数据上进行大规模预训练学习大量知识,获得面向任务的通用求解能力,契合C端用户的多样化、碎片化需求。专用大模型遵循“大规模预训练+微调”的范式,针对特定任务进行微调以更好地适应实际应用场景需要。专用大模型能力发展源自办公、制造、医疗等场景降本增效、提高准确率等诉求,并最终向B端、G端客户提供适合细分场景的定制化大模型能力。通用大模型和专用大模型各有优势,未来将趋于并行发展。通用大模型将继续作为技术基础,推动模型架构创新和应用普及;专用大模型将在特定领域和任务中提供更精准和高效的服务。随着技术不断进步和融合,未来或出现更加灵活、智能的模型架构和训练方法,以实现通用与专用的最佳结合。

    作者:天翼智库大模型研究团队

附件下载

扫一扫在手机上查看当前页面

相关链接