9 月 7 日,在 2023 腾讯全球数字生态大会上,腾讯混元大模型正式亮相,并宣布通过腾讯云对外开放。 腾讯介绍,混元大模型是由腾讯全链路自研的通用大语言模型,具备强大的中文创作能力,复杂语境下的逻辑推理能力,以及可靠的任务执行能力。
(资料图片仅供参考)
马化腾此前曾经表示腾讯不急于推出大模型半成品。但很显然,首次亮相的混元大模型不可能是通俗意义上的「完美版」。对此,腾讯集团副总裁蒋杰将当下推出的混元大模型,定义成一个「可用」「可实践」的版本。
此前在今年 6 月和 7 月,腾讯先后发布了面向 B 端客户的腾讯云 MaaS 解决方案和 AI 原生向量数据库 Tencent Cloud VectorDB,加上此次发布的自研通用大模型,腾讯已经搭建起一套包含通用大模型、云服务平台、向量数据库的完整大模型产品服务体系。
在今天的会上,腾讯集团高级执行副总裁、云与智慧产业事业群 CEO 汤道生表示,腾讯将迈入「全面拥抱大模型」时代。腾讯集团副总裁蒋杰进一步表示:「我们研发大模型的目标不是在评测上获得高分,而是将技术应用到实际场景中。」
在今天的现场演示中,混元大模型揭开了「自己」的神秘面纱。现场,工作人员向混元大模型进行了一系列提问:
混元是谁?
混元的核心技术架构是什么?
混元模型参数量多大?
混元训练数据截止什么时候?(今年 7 月,每个月不断迭代)
混元大模型,你有什么特点、优点?
据混元大模型自述,它拥有超千亿参数规模,预训练语料超 2 万亿 tokens,是腾讯自研的通用大模型。就其能力而言,腾讯方面表示,混元大模型的中文能力超过 GPT3.5,英文能力目前比 GPT3.5 差。此外,腾讯还自研了机器学习框架 Angel,使训练速度相比业界主流框架提升 1 倍,推理速度比业界主流框架提升 1.3 倍。
现场,腾讯集团副总裁蒋杰介绍道,训练烧钱、百模大战,在投入大模型时腾讯在期待什么?他认为是更成熟,更可靠的大模型。
但在技术手段上,他称,搜索增强、知识图谱,通过这些通过外挂、开卷考试,来解决大模型的「幻觉」等不可靠问题,存在局限性。在接受采访时,蒋杰进一步解释道:「尽管这些技术我们也会用,但是比例不是很高,混元大模型是在大模型的预训练阶段,来控制这个问题」。
据悉,腾讯在预训练阶段通过「探真」算法进行事实修正,让混元大模型出现幻觉的概率降到最低。
据了解,微信已上线「腾讯混元」公众号、「腾讯混元助手」小程序,现已开放内测申请,用户可申请排队体验,审核通过将短信提醒。
小程序简介显示,「腾讯混元助手」的功能包括 AI 问答、 AI 绘画,可以回答各类问题,也能处理多种任务,如获取知识、解决数学问题、翻译、提供旅游攻略、工作建议等。
关键词: