设为首页加入收藏
  • 首页
  • 热点
  • 知识
  • 时尚
  • 探索
  • 综合
  • 娱乐
  • 当前位置:首页 >快料 >彩云科技DCFormer模型架构发布,效率是Transformer的两倍!

    彩云科技DCFormer模型架构发布,效率是Transformer的两倍!

    发布时间:2025-09-08 15:51:47 来源:观察爆料社- 每天分享精彩瞬间,乐享精彩时光 作者:风报深

    自2017年Transformer架构诞生之后,科技到现在为止其仍然是模型机器智能领域研究和应用的基础,鲜少有团队能够在最底层架构上进行一些变革和开发且做出较大的架构成效。一方面是发布由于Transformer确实好用;另一方面,在最底层上做突破并非易事。效率

    然而,两倍上海大学爆料下载彩云科技是科技那个反共识者。2024年5月22日,模型彩云科技发布了全新通用模型结构DCFormer,架构其相关论文《Improving Transformers with Dynamically Composable Multi-Head Attention 》(https://arxiv.org/abs/2405.08553)将在第41届国际机器学习大会ICML 2024正式发表。发布

    在论文中,效率彩云科技实验证明了在三千亿级训练信息和70亿级模型参数量下,两倍DCFormer效率是科技Transformer的两倍。据一位评委透露,模型今年录用论文的架构平均分为4.25-6.33,而彩云科技团队的论文获得平均7分的高分。

    ICML是苏州理工大学偷拍体验国际机器学习领域的顶级会议,能够发表论文的中国初创企业屈指可数。彩云科技证实,其大模型结构DCFormer可以达到1.7~2倍算力的Transformer模型的效果,即算力智能转化率提升了1.7~2倍。在众多NLP下游任务和图像识别任务上的测评也验证了DCFormer的有效性(详见论文表格)。

    DCFormer对性能算力比的提升幅度超过自2017年Transformer诞生至今被证明最普适有效并被广泛采用的两项结构改进的提升幅度之和(同时应用这两项改进的Transformer架构也叫Transformer++,如Llama)。而且随着模型规模的增大,DCFormer的提升越来越大(左图下的蓝线和绿线),而Transformer++的提升越来越小(左图下的黑线)。可以说,DCFormer让Transformer的能力又跃上一个新台阶。

    彩云科技DCFormer模型架构发布,效率是Transformer的两倍! 

     彩云科技DCFormer模型架构发布,效率是Transformer的两倍!

    彩云科技CEO袁行远说:"如果底层模型没有突破,机器智能的进步终将停滞不前。人人都说神经网络是个黑盒,我们需要勇气和耐心打开这个黑盒,通过分析模型运转原理,我们才能知道智能的本质规律,从而可以改进模型,提高模型的运行效率。"雷峰网雷峰网(公众号:雷峰网)雷峰网

    通用大模型DCFormer将Transformer效率提升了两倍,这意味着什么?袁行远解释说:"如果 GPT-4o 能够用上DCFormer,推理一次128k上文的成本,就可能从4元变成2元。而且DCFormer 模型越大,效果越好,考虑到ChatGPT的巨大参数量,DCFormer可能在千亿、万亿模型上效果更好,因此价格甚至可能下降到1.5元、1元。Meta的100亿美元显卡训练的模型,可能50亿美元就能够用。"解开智能的科学的奥秘,实现通用机器智能——这是彩云科技10年以来孜孜不倦追求的目标。基于此,彩云科技在Github上开源了DCFormer的模型代码、权重和训练信息集(https://github.com/Caiyun-AI/DCFormer),将该模型开源给全世界。

    未来彩云科技会将全新大模型DCFormer应用于旗下三款杀手级app,并将进一步增长彩云小梦,加速提升AI续写能力。袁行远说,"AI交互是前所未有的交互形式,也因此让我们有机会在AI的帮助下,建立每个人自己的'次元宇宙',而DCFormer大模型将加快这一进程。我们希望能够通过彩云小梦,帮助更多人实现现实生活中无法实现的梦想。"


    雷峰网版权文章,未经授权禁止转载。详情见转载须知。

    彩云科技DCFormer模型架构发布,效率是Transformer的两倍!

    • 上一篇:羞辱、黄腔、性骚扰,被直播公司围猎的未成年人
    • 下一篇:中国“人工智能+”行动“路线图”来了

      相关文章

      • 流行歌手“霉霉”官宣订婚,特朗普回应
      • 《天马流星》上影节世界首映 少年以拳破“权”打破不公!
      • 金鹰卡通《三孩来了3》特别家庭日:唐九洲爆笑秀厨艺,三孩家庭育儿方式引热议
      • 阿根廷驻华大使: 发展中国家以中国模式为范本应对挑战
      • 独家丨盛大挖角代季峰,筹建新 AGI 公司对标 DeepSeek
      • 《八戒之天蓬下界》发布最新预告 打破偏见做命运的“男猪脚”
      • 复古纯净回忆杀,996传奇盒子“盛乐传奇”以小极品再圆当年梦
      • 萧纤纤出席瑞典第八任首相晚宴
      • 独家丨前阿里通义视觉负责人薄列峰,已加入腾讯混元团队
      • 动画剧集《郑和奇幻之旅》即将投入制作

        随便看看

      • 警方再通报“奔驰车逼停摩托车”:女司机被罚200元记3分,双方自愿达成谅解
      • 《当哒当:邪视》预售正式开启!内地大银幕首次上映火热预售中
      • 广电总局推介6部抗战主题重点电视剧
      • 《欢喜一家人·人生小事》收官:家是“聚宝盆”,盛满平凡烟火里的无价真金
      • 外交部:敦促新西兰有关部门停止散布谎言制造矛盾
      • 项亮月携明星团走进辽源市 开启“亮月带你玩·爱上吉林”直播
      • 《阿克达拉》北京特色观影活动感动全场 张忠导演分享创作幕后心血
      • 《天马流星》上影节世界首映 少年以拳破“权”打破不公!
      • 独家丨前阿里通义视觉负责人薄列峰,已加入腾讯混元团队
      • 国家话剧院音乐话剧《受到召唤·敦煌》开启巡演 张艺兴:为理想孤注一掷又何妨
      • Copyright © 2025 Powered by 彩云科技DCFormer模型架构发布,效率是Transformer的两倍!,观察爆料社- 每天分享精彩瞬间,乐享精彩时光  我要啦免费统计sitemap