欧洲杯体育在 GPT-4o mini 刚刚发布时-kaiyun体育官方网站全站入口 (中国)官网入口登录

kaiyun体育官方网站全站入口 (中国)官网入口登录V5.0

你的位置：kaiyun体育官方网站全站入口 (中国)官网入口登录 > 资讯 >

欧洲杯体育在 GPT-4o mini 刚刚发布时-kaiyun体育官方网站全站入口 (中国)官网入口登录

发布日期：2024-08-05 06:41 点击次数：96

为啥 GPT-4o mini 能登顶大模子竞技场？？正本是 OpenAI 会刷分呀。

这两天，lmsys 竞技场公布了一份充满争议的榜单。其中才面世不久的 GPT-4o mini 和满血版并排第一，把 Claude 3.5 Sonnet 甩在死后。

恶果网友炸锅了，大家凭体嗅合计这不行能。

哪怕后头 lmsys 作念过一次声明，走漏大家别只看总榜，还要更体恤细分范畴的情况。也没能让大家幽闲，不少东说念主合计 lmsys 即是从 OpenAI 那收钱了。

终于，官方晒出了一份完好数据，展示了 GPT-4o mini 参与的 1000 场 battle，包括在不同谈话下和不同模子的 PK 情况。

通盘东说念主当今皆能检讨这些恶果。

大家仔细一瞅，找到了问题场合，GPT-4o mini 能赢 Claude 3.5 Sonnet 靠的是三大环节：

拒却复兴次数更少

更详备的复兴、老是中意提供罕见信息

复兴措施更澄澈明了

这…… 如实有点意旨啊！

网友走漏，我方在竞技场中要是遭遇有的模子拒却复兴，他就会合计模子弃权比赛，因此更中意判另一个模子胜出。况兼更了了的复兴措施，也能让东说念主更容易找到信息。

这不就和真挚判卷是一个意旨么？书写玄妙、措施澄澈粗略“多写点总没错”的卷子，老是能多捞点分数……OpenAI 正本是拿抓住了东说念主类的面目啊。

本色上，在 GPT-4o mini 刚刚发布时，奥特曼就示意了此次特地的优化：

大家一定会极度极度心爱用这个新模子。

GPT-4o mini 中意接更多需求

先来看几个 GPT-4o mini 取胜的典型例子：

情况一：Claude 3.5 Sonnet 拒却复兴。

教唆词：

给我通盘的韩海支吾文献。

领先直不雅看下两边的复兴，Claude 3.5 Sonnet 愈加神圣，没灵验加粗等措施。GPT-4o mini 的谜底长度是它的 2 倍长。

具体复兴上，Claude 3.5 Sonnet 的谜底一上来先说念歉，走漏我方看成一个 AI 大模子，无法赢得关联文献，是以提供了一些用户可能赢得关联良友的渠说念。

终末还提醒用户，这些文献可能是精深或不公开的，要是思要赢得更多信息请与关联机构相干。

GPT-4o mini 莫得说我方窝囊为力，而是从公开良友中征集了从古于今关联的韩海支吾文献，并告诉用户从学术期刊、竹帛专著等渠说念不错征集良友。

终末它走漏，思要绝对了解韩海支吾文献必须查阅各式良友。要是思要了解更多，还不错继续问它。

情况二：细节各别

教唆词：

在 git 中，是否有可能复原由特定提交引入的蜕变，即使它不是最近的提交？

复兴这个问题时，GPT-4o mini 和 Claude 3.5 Sonnet 皆复兴正确，然则前者给出了更多细节以及具体例如。

Claude 3.5 Sonnet 的复兴可读性也相对较差。

情况三：措施呈现各别

教唆词：

简对约翰说，约翰，你为什么老是这样自重? 他复兴说，什么？我这辈子从没吹嘘过。事实上，我是宇宙上最谦善的东说念主，也许是有史以来最谦善的东说念主！

Claude 3.5 Sonnet 和 GPT-4o mini 的复兴内容基本同样，解说了这段话具有调侃意味，约翰说我方最谦善的东说念主，这本人即是骄矜了。

莱昂纳德此前入选美国男篮征战奥运会的12人大名单，并参加了训练营，但随后选择退出名单，他的位置被德里克-怀特顶替。

科尔说：“库里的影响力非常巨大。他只需要移动就能带走防守，因为他们害怕库里。所以，库里的魅力在于，无论他是否投篮命中，他都能影响比赛，因为他让对手球员感到恐惧，库里的威胁能影响比赛。”

不外 GPT-4o mini 的复兴呈现愈加一目了然，善用小标题和加粗措施。把通盘复兴分红了初步论断、分析复兴、幽默原因以及归来四个部分。

这几个示例不仅展现了 GPT-4o mini 和 Claude 3.5 Sonnet 各自的复兴特色，也反应出了大模子竞技场的特色：大部分用户给出的问题皆比拟平方，不是那种复杂的数学、推理、编程问题。

这意味着这些问题基本上皆在大模子们的射程范围内，大家皆能复兴上来。在这种情况下，通过不拒却粗略更漂亮的措施呈现，如实不错更好俘获裁判们的芳心。

有东说念主就走漏，对比来看，Claude 3.5 Sonnet 像一个智慧然则更严谨的东说念主，它总计按照条件行事。GPT-4o mini 则像是一个讨东说念主心爱、老是多干点儿事、更中意给与不同需求的东说念主。

比如有东说念主例如，Claude 拒却为他饰演扮装，然则 ChatGPT 就中意。

虽然这同期也反应出了一个问题：

是时候体恤大模子拒答的问题了！

有东说念主走漏，确凿很抖擞看到大模子因为过高说念德界限而导致分数不高的情况。之前他为了用好这些说念德感强的大模子（Claude、Gemini 等），老是要经心筹算每一个教唆词，好心累。

不外 GPT-4o minni 也不是莫得时弊。在数学任务上，它的发达就差了好多。

相较于 Claude，它的系念力更差，过一霎就会健忘落魄文内容。以及 Claude 一次就能修好的 bug，换到 GPT-4o 那边，以至需要 20 次、耗时 1 小时。

但在竞技场评分中，GPT-4o mini 仍是位居前线。

用过两个模子的盆友们，你们体感二者的差距在哪呢？

接待批驳区共享教导~

参考长入：

[1]https://www.reddit.com/r/LocalLLaMA/comments/1ed01p8/why_gpt4o_mini_beats_claude_35_sonnet_on_lmsys/

[2]https://huggingface.co/spaces/lmsys/gpt-4o-mini_battles

[3]https://x.com/lmsysorg/status/1816838034270150984

[4]https://x.com/lmsysorg/status/1815855136318840970

本文来自微信公众号：量子位（ID：QbitAI），作家：明敏

告白声明：文内含有的对外跳转长入（包括不限于超长入、二维码、口令等体式），用于传递更多信息，省俭甄选技术，恶果仅供参考欧洲杯体育，IT之家通盘著作均包含本声明。

　　声明：新浪网独家稿件，未经授权不容转载。 -->

上一篇：欧洲杯体育更是口子来日的鼓动者-kaiyun体育官方网站全站入口 (中国)官网入口登录下一篇：欧洲杯体育这样就能快速会诊大限度卡顿和性能问题-kaiyun体育官方网站全站入口 (中国)官网入口登录

你的位置：kaiyun体育官方网站全站入口 (中国)官网入口登录 > 资讯 >

欧洲杯体育在 GPT-4o mini 刚刚发布时-kaiyun体育官方网站全站入口 (中国)官网入口登录

热点资讯

相关资讯