AI大模型“生长史”:从“概念”到“顶流”

时间:2025-04-14 14:30 栏目:封面故事 编辑:投资有道 点击: 133 次

经历七十多年的探索,AI大模型逐步从一个“概念”走向应用落地阶段,再现人类群星闪耀时。

初识AI大模型

据统计,截至2024年4月底,国内总共推出305个大模型,其中参数规模超过10亿的国产大模型达到了100多个。

AI大模型是指拥有超大规模参数(通常在十亿以上)、复杂计算结构的机器学习模型。通过在大规模的数据集上进行训练,AI大模型能够自动学习到数据中的各种特征和规律。它可以处理多种类型的数据,如图像、文本、语音等,并且能够理解和生成自然语言,完成语言翻译、文本生成、问答系统等多种任务。

随着模型规模的不断扩展,当模型的大小突破某个临界规模的时候,会开始出现一些意想不到的能力,模型能够自动地从原始训练数据中学习并发现新的、更为高级的特征和模式,这种能力通常被称为“涌现能力”。拥有涌现能力的机器学习模型被认为是在独立意义上更为强大的大型模型,这也是它们与小型模型最为显著的区别。

涌现能力具体包括上下文学习能力、按指令执行能力、逐步推理能力、知识推理和迁移能力等。

按输入数据类型,大模型可分为语言大模型、视觉大模型、多模态大模型。语言大模型专注于处理和理解自然语言文本,常用于文本生成、情感分析、问答系统等;视觉大模型专门用来处理和理解视觉信息(如图像和视频),用于图像识别、视频分析、图像生成等视觉领域的任务;多模态大模型能够处理并理解两种或两种以上类型的输入数据,通过融合不同模态的信息,能够执行比单一模态更为复杂和全面的任务。

按应用领域,大模型可分为通用大模型和行业大模型。行业大模型大多在通用大模型基础上构建。通用大模型具备丰富的知识和强大的泛化能力,不仅能为行业大模型提供广泛的知识基础并提升交互体验,还能显著节约从头训练模型所需的大量数据和算力资源,大幅提升行业大模型开发及应用的效率和效果。通过对通用大模型进行提示工程、检索增强生成、精调、继续预训练/后训练等方式,模型能够更好地处理特定数据或任务,从而生成行业大模型版本或具备行业大模型的功能。

大模型 “生长史”

据《中国信息化周报》等公开信息整理,AI大模型发展约历经四个阶段,分别是萌芽期(1950—2005年)、沉淀期(2006—2019年)、爆发期(2020—2023年)、加速落地期(2024年至今)。

萌芽期是指以CNN为代表的传统神经网络模型阶段。1950年,艾伦·图灵提出著名的图灵测试,这是评估机器智能的标准,后来被广泛接受并用于自然语言处理的研究。1956年,计算机专家约翰·麦卡锡提出“人工智能”概念,AI发展由基于小规模专家知识逐步成长为基于机器学习。1980年,卷积神经网络的雏形CNN诞生。1998年,现代卷积神经网络的基本结构LeNet-5诞生,机器学习方法由早期基于浅层机器学习的模型,变为了基于深度学习的模型,为自然语言生成、计算机视觉等领域的深入研究奠定了基础,对后续深度学习框架的迭代及大模型发展具有开创性的意义。

沉淀期是指以Transformer为代表的全新神经网络模型阶段。2013年,自然语言处理模型Word2Vec诞生,首次提出将单词转换为向量的“词向量模型”,以便计算机更好地理解和处理文本数据。2014年,被誉为21世纪最强大算法模型之一的生成对抗网络(GAN)诞生,标志着深度学习进入了生成模型研究的新阶段。2017年,Google颠覆性地提出了基于自注意力机制的神经网络结构——Transformer架构,奠定了大模型预训练算法架构的基础。2018年,OpenAI和Google分别发布了GPT-1与BERT大模型,意味着预训练大模型成为自然语言处理领域的主流。以Transformer为代表的全新神经网络架构,奠定了大模型的算法架构基础,使大模型技术的性能得到了显著提升。

爆发期是指以GPT为代表的预训练大模型阶段。2020年,OpenAI推出GPT-3,模型参数规模达到了1750亿,成为当时最大的语言模型,并且在零样本学习任务上实现了巨大的性能提升。随后,更多策略如基于人类反馈的强化学习(RHLF)、代码预训练、指令微调等开始出现,被用于进一步提高推理能力和任务泛化能力。2022年11月,搭载了GPT3.5的ChatGPT横空出世,凭借逼真的自然语言交互与多场景内容生成能力,迅速引爆互联网。2023年3月,超大规模多模态预训练大模型GPT-4发布,其具备多模态理解与多类型内容生成能力。2023年12月,谷歌发布Gemini,它可以处理文本、图像、音频、视频和代码五种信息。

在加速落地期,开源生态强势崛起,AI大模型应用不断加速落地。2024年5月,OpenAI发布旗舰模型GPT-4o,能实时交互,同时具备更强的多模态处理能力、上下文理解能力;6月,Anthropic发布Claude 3.5 Sonnet,进一步提升AI推理能力;7月,OpenAI发布新款轻量级GPT-4o Mini,推动大模型成本下降,扩大人工智能的应用范围;9月,阿里巴巴在云栖大会上发布通义千问新一代开源模型Qwen2.5;12月,DeepSeek上线并同步开源DeepSeek-V3,DeepSeek-V3参数量达到6710亿,在多项评测中超越了Qwen2.5-72B和Llama3.1-405B等顶尖模型。2025年1月,DeepSeek再推出DeepSeek-R1,并同步开源。

声明: (本文为投资有道签约作者原创文章,转载请注明出处及作者,否则视为侵权,本刊将追究法律责任)

AI大模型“生长史”:从“概念”到“顶流”:等您坐沙发呢!

发表评论

您必须 [ 登录 ] 才能发表留言!

读者排行