设为首页加入收藏
  • 首页
  • 热点
  • 知识
  • 时尚
  • 探索
  • 综合
  • 娱乐
  • 当前位置:首页 >风报闻 >CMU 最新研究:Gemini 综合不敌 ChatGPT,谷歌还需努力

    CMU 最新研究:Gemini 综合不敌 ChatGPT,谷歌还需努力

    发布时间:2025-09-08 15:43:01 来源:观察爆料社- 每天分享精彩瞬间,乐享精彩时光 作者:风风集


    最近谷歌发布的最i综 Gemini 格外引人注目,其号称是新研第一个在各种任务中可与 OpenAI 的 ChatGPT 相媲美的大模型。

    报道显示,合不还需Gemini 的谷歌“Ultra”版本在各种任务上都优于 GPT-4,而 Gemini 的努力“Pro”版本则与 GPT-3.5 不相上下。

    针对两个当红炸子鸡的最i综郑州中学门事件评价较量,美国卡内基梅隆大学近日展开了一项研究,新研深入探讨了谷歌 Gemini 的合不还需语言理解和生成能力,并将其与 OpenAI 的谷歌 GPT 系列作了对比,得到了有趣的努力结论——谷歌 Gemini 的综合性能与 ChatGPT 仍有较大差距。

    CMU 最新研究:Gemini 综合不敌 ChatGPT,最i综谷歌还需努力

    论文地址:https://arxiv.org/pdf/2312.11444.pdf


    一、Gemini 仅媲美 GPT-3.5 Turbo

    CMU 的合不还需这项研究主要探讨了两个问题:

    其一,对 OpenAI GPT 和 Google Gemini 模型的谷歌能力进行了第三方客观比较,并提供了可重现的努力代码和完全透明的结果;

    其二,对结果进行了更深入的研究,找出两类模型中某一类模型分别拥有的优势领域。

    研究团队对测试各种语言能力的 10 个信息集进行了分析,包括推理、回答基于知识的问题、解决数学问题、苏州医科大学偷拍视频下载语言间翻译、生成代码以及充当指令遵循代理。

    在所有的基准测试任务基础上,CMU 团队分析发现:

    Gemini Pro 模型在模型大小和类别上与 GPT 3.5 Turbo 相当,其准确度一般与 GPT 3.5 Turbo 相当,但略逊于 GPT 3.5 Turbo,比 GPT 4 差很多。

    Gemini Pro 的平均性能略低于 GPT 3.5 Turbo,尤其是在多选题的回答顺序偏差、多位数数学推理、过早终止智能体任务以及因激进的内容过滤而导致回答失败等方面存在问题。

    在特别长和复杂的推理任务中,Gemini 的表现优于 GPT 3.5 Turbo,包括生成非英语语言以及处理更长、更复杂的推理链。而在不对回答进行过滤的任务中,Gemini 也善于使用多种语言。

    CMU 最新研究:Gemini 综合不敌 ChatGPT,谷歌还需努力

    图为基准测试的主要结果(最佳模型以粗体显示,次佳模型以下划线显示。Mixtral 只对部分任务进行了评估。)


    二、大模型关键能力分析

    在大模型的几项关键能力上,团队的具体研究结果如下:

    知识图谱问答能力

    CMU 最新研究:Gemini 综合不敌 ChatGPT,谷歌还需努力

    在大模型的问答能力层面,从上图中可以看出每个模型在部分代表性任务上的表现,与 GPT 3.5 相比,Gemini Pro 在大多数任务上表现不佳,思维链提示降低了各子任务之间的差异。

    团队又深入研究 Gemini Pro 性能低于/优于 GPT 的任务3.5 的差距,得出结论:

    1)Gemini Pro 在 human_sexuality(社会科学)、formal_logic(人文科学)、elementary_mathematics(STEM)和 professional_medicine(专业领域)方面落后于 GPT 3.5。

    2)在 Gemini Pro 优于 GPT 3.5 Turbo 的两项任务中,Gemini Pro 只取得了微弱的优势。

    推理能力

    CMU 最新研究:Gemini 综合不敌 ChatGPT,谷歌还需努力

    在推理能力层面, Gemini Pro 的整体准确率略低于 GPT 3.5 Turbo,远低于 GPT 4 Turbo,但Gemini Pro 在更长、更复杂的问题上表现不佳,而 GPT 模型对此则更为稳健。

    文中亦给出了 GPT 3.5 Turbo 性能超过 Gemini Pro 最多的任务:

    CMU 最新研究:Gemini 综合不敌 ChatGPT,谷歌还需努力

    数学能力

    CMU 最新研究:Gemini 综合不敌 ChatGPT,谷歌还需努力

    从数学推理的总体结果可以看出,在包含多种语言模式的 GSM8K、SVAMP 和 ASDIV 任务中,Gemini Pro 的准确率略低于 GPT 3.5 Turbo,远低于 GPT 4 Turbo。

    在 MAWPS 任务中,所有模型的准确率都超过了 90%,但 Gemini Pro 仍略逊于 GPT 模型。

    代码生成能力

    CMU 最新研究:Gemini 综合不敌 ChatGPT,谷歌还需努力

    代码能力生成方面,在英语任务中,Gemini Pro 在较长的输入和输出方面表现较强。分析结果可以发现,在大多数使用库的情况下,如 mock、pandas、numpy 和 datetime,Gemini Pro 的性能比 GPT 3.5 差。

    不过,在 matplotlib 的情况下,它的性能要优于 GPT 3.5 和 GPT 4,这表明 Gemini 在通过代码执行绘图可视化时具有更强的能力。

    机器翻译能力

    CMU 最新研究:Gemini 综合不敌 ChatGPT,谷歌还需努力

    在翻译能力上,Gemini Pro 有 8 种语言的性能优于 GPT 3.5 Turbo 和 GPT 4 Turbo。相比之下,Gemini Pro 在 20 种语言中的 8 种语言上的表现优于 GPT 3.5 Turbo 和 GPT 4 Turbo,并在 4 种语言上取得了最佳表现。不过,Gemini Pro 在大约 10 种语言对中表现出强烈的阻塞响应趋势。


    雷峰网雷峰网(公众号:雷峰网)雷峰网

    雷峰网原创文章,未经授权禁止转载。详情见转载须知。

    CMU 最新研究:Gemini 综合不敌 ChatGPT,谷歌还需努力

    • 上一篇:出身“企鹅”的“T4大神”,带领小鹅通闯关港交所
    • 下一篇:独家丨盛大挖角代季峰,筹建新 AGI 公司对标 DeepSeek

      相关文章

      • 反诈指南之校园篇——必看!这些骗局专坑学生群体
      • 人形机器人「星尘智能」获数千万美元Pre
      • 豆包视频生成大模型正式发布,首次突破多主体互动难关
      • 国内首个!商汤科技发布“日日新5o”,实时多模态流式交互对标GPT
      • 独家丨盛大挖角代季峰,筹建新 AGI 公司对标 DeepSeek
      • 当人形机器人开始走进车厂
      • 中国大模型数量占全球超1/3;AI模型训练成本暴涨,2027年或达1000亿美元;Kimi发布官方浏览器插件丨AI情报局
      • Neuralink发布超能力V0.2版本:CAD设计、CS轻松拿捏
      • 上海AI Lab庞江淼:开放平台是具身智能“ChatGPT时刻”的前提丨具身先锋十人谈
      • 探索 5 大 AI 语言学习工具,掌握新语言的未来丨AI情报局

        随便看看

      • 拍摄广告时一脚球击坏摄像机,贝克汉姆:他们让我瞄准摄像机
      • AI 编程新星 Anysphere 获 A16z 估值 4 亿美元投资;微软为 Excel 等研发新 AI 模型丨AI情报局
      • DeepMind 危,OpenAI 押注成立六个月 AI 药物发现公司;四川具身人形机器人科技公司成立,彭倍教授牵头丨AI情报局
      • JetBrains与阿里云战略合作发布JetBrains AI Assistant:聚焦中国市场开发者,实现开发效率代际提升
      • 商务部:将于9月出台扩大服务消费的若干政策措施
      • 具身智能构型之争:人形、灵巧手、双足,谁是最终 C 位?
      • 阿里领投首家人形机器人:逐际动力完成亿元 A 轮融资;谷歌 Eureka AI 模型提前曝光丨AI情报局
      • 国内首个!商汤科技发布“日日新5o”,实时多模态流式交互对标GPT
      • 经纪人透露:千百惠将安葬在北京
      • WAIC 2024 已落幕:大模型再无新玩家,AGI 下半场是计算与应用
      • Copyright © 2025 Powered by CMU 最新研究:Gemini 综合不敌 ChatGPT,谷歌还需努力,观察爆料社- 每天分享精彩瞬间,乐享精彩时光  我要啦免费统计sitemap