1. 首页
  2. 公司简介 / 用户投稿

腾讯开源多个模型,包括业界首个支持文字、图像生成 3D 的开源大模型

今年 5 月,腾讯开源了中文原生的 DiT 文生图模型——DiT,随后又开源了多款文生文模型,记者了解到,腾讯近期开源了 MoE(专家)大语言模型 -Large 和混合元素 3D 生成大模型 -1.0。其中,-Large 拥有 3890 亿个参数,是开源领域最大的 MoE 模型,-1.0 是业界首个同时支持文本和图像生成 3D 的开源大型模型。

“去年,大型模型如火如荼,开源也如火如荼,但今天似乎每个人都还在这里。我们并不急于开源大模型,开源是自然而然的结果,我们在闭源做得更好之后才开源。“腾讯混合大型语言模型算法负责人康展辉告诉记者。

对于图像生成 3D 模型的布局,腾讯混合 3D 模型负责人郭春超表示,腾讯离不开动漫、游戏、影视等偏向娱乐的 3D 资产,3D 资产可以应用于包括虚拟或增强显示耳机在内的场景,在游戏、虚拟社交等领域有很大的市场, 而开源的原因包括 3D 生成处于开发阶段的前半段,需要社区共同努力。

_大模型“攻坚战”腾讯再押注开源,这次用到合成数据了_大模型“攻坚战”腾讯再押注开源,这次用到合成数据了

随着大型模型制造商选择开源和闭源路径,关于哪条路径更好的争论逐渐平息。该行业不再只与厂商开源模型的数量和参数规模竞争,而是更多地关注模型本身的能力和技术创新。

无论是开源还是闭源模型,目前都面临着在算力和数据的限制下提升能力的挑战。“大型模型有三个重要要素:计算能力、视频内存和通信,现在模型已经变得非常大,对长文本的需求也越来越大,其实不仅仅是卡的计算能力,还有卡内存和通信,大型模型越来越成为一种系统工程。”康占辉向记者描述了这件事。

此外,大型模型要想做大,还需要处理训练过程中自然数据耗尽等问题,在一定的算力和数据量下,通过算法优化来提升大型模型的能力。9 月发布的 O1 系列提出了一条以推理为主,从算法本身出发采用长链思维的路径,最近业界对这条路径非常关注。

“目前,Law(缩放定律)并不是无效的,可能是有从训练转向推理的转变,训练部分会放慢速度。”你可能已经达到了某个 “点”,并且也在转向(方向)。从架构来看,架构存在复杂性,如果输入适应扩展,算力平方,算力需求变得难以想象,新的架构肯定会发生变化,算法本身也会有突破。“康展辉说。他认为,现在大家看到,好代理的实现比以前更近了,至少情境理解能力得到了提升,慢思考也取得了突破,在其背后,O1带来了复杂的长链思维能力,让推理能力更深,混血元素也在探索。

据报道,开源的 -Large 在架构上还有一些其他创新。例如,该模型采用 MoE 架构,并针对技术进行了优化。一般来说,在相同的训练和推理成本下,MoE 优于 Dense 模型,由于MoE架构复杂,训练稳定性差,收敛困难,需要大量的成本研发,所以做MoE的厂商并不多。

此外,-Large 是使用一些合成数据进行训练的,但使用的比例未披露。合成数据被认为有可能解决训练数据耗尽的问题,但业内关于是否以及如何使用它仍然存在一些争议。今年早些时候,《自然》杂志上的一篇论文指出,使用合成数据可能会导致模型崩溃。除了混合元素外,支持使用合成数据的供应商还包括 等。

康展辉告诉记者,使用合成数据的效果,取决于如何使用和如何匹配。以此类推,人类数据也可以认为是大脑合成的,使用合成数据最重要的是要有一套链接,保证质量可控。客观地说,自然界中不可用或缺失的数据需要综合,比如数学,就需要综合解决问题的过程。 使用 内部系列的大型模型来构建合成数据,筛选,然后馈送到大模型,合成数据更多的是对专业数据和自然数据的缺失的补充。

“从今年年初开始,模型越来越大,我们发现数据不够。”自然数据的增长速度没有跟上对模型数据的需求,有一种理论认为,到 2026 年,自然数据将被“吃掉”。康展辉表示,未来,大模型的合成数据占比会越来越高。

(本文来自第一财经)。

以上部分内容由“文心一言”整理拓展,转载请注明出处:https://www.2sg.net.cn//60796.html

联系我们

在线咨询:点击这里给我发消息

微信号:手机号码调用

工作日:9:30-18:30,节假日休息