阿里巴巴最新人工智能在多项基准测试中击败 GPT-3.5 和 Claude

2024-02-07 210 预计阅读需要3分钟

0

2024 年标志着全球人工智能竞赛的强劲开端，国内科技巨头阿里巴巴集团也宣布了其 Qwen 人工智能模型的最新迭代。除了全球最知名的人工智能聊天机器人 OpenAI 的 ChatGPT，其他模型如 Meta 的 Llama 和亚马逊合作伙伴 Anthropic 的 Claude 都是消费者和企业在选择人工智能平台时的几种选择。

阿里巴巴最新迭代的 Qwen 是 Qwen 1.5，根据社交媒体平台 X 上分享的基准测试结果，该机型在某些基准测试成绩上击败了 ChatGPT 和 Claude。

就像电脑或智能手机上运行的操作系统一样，人工智能模型也是一款软件。这使得软件工程师和分析师可以对其性能进行评估，而在阿里巴巴最新推出的 Qwen 1.5 上，一些测试结果显示它优于 Anthropic 的 Claude 和 OpenAI 的 ChatGPT。

测试操作系统的基准测试评估操作系统处理指令和运行应用程序的能力，而人工智能模型的基准测试通常围绕测试模型生成输出的能力。

X 上分享的分数显示，阿里巴巴的 Qwen 1.5 变体已经超过了 ChatGPT 和 Claude。MT-bench测试的是模型回答一组预先定义的问题的能力，这些问题不仅旨在将模型与聊天机器人区分开来，还试图确定模型是否能在双方快速接触的艰难对话环境中 "站稳脚跟"。

基准测试得分显示，Qwen 在 MT-bench 中排名第四，仅落后于 GPT-4 Turbo 和前两个 GPT-4 版本（即 0613 版和 0314 版）。

简单回顾一下微软的音乐创作应用：Songsmith

Alapaca-Eval 是一项基准测试，它使用参考模型来模拟人机交互，并确定被测人工智能模型在多大程度上能提供与基准一致的结果。今天的基准测试表明，Qwen 1.5 的 Alapaca-Eval 性能仅落后于 GPT-4 Turbo 和纽约 HuggingFace 的 Yi-34B。

Qwen1.5 是同类产品中最大的开源模型之一，并得到了阿里巴巴庞大计算资源的支持。与开源软件一样，开源人工智能也会向用户和开发者提供代码，以便他们了解模型并制作自己的变体。Meta 的 Llama 也出现在今天的评分中，它也是一个开源模型。

Meta 公司的首席执行官马克-扎克伯格（Mark Zuckerberg）的目标是在今年购买数十万个 GPU，为 Llama 提供动力，在该公司的财报电话会议上，这位高管解释说，他决定加强 Meta 公司的计算能力，因为之前的疏忽导致公司产能不足。

同样，芯片制造商和设计商台积电（TSMC）和AMD的管理层也对人工智能的未来表示乐观。台积电的管理层相信，该公司有稳定的基础抓住任何人工智能的需求，而AMD则认为，到本十年末，人工智能的价值可达数千亿美元。

来源：@_akhaliq

微软Bing Chat本周更新了一个iOS小工具

本文由 King 发布在电脑志，转载此文请保持文章完整性，并请附上文章来源（电脑志）及本页链接。
原文链接：https://www.pcsofter.com/news/89493.html

评论已经被关闭。

插入图片

返回顶部