就跟数码圈(juan)发新机,每次都要对比iPhone一样。每次有新大模型发布,GPT-4都要被拉出来鞭尸。
赢不赢的,图个乐吧。
不管你关不关注AI动态,这两天铺天盖地的报道,你也能知道谷歌推出了全新的AI大模型——Gemini。并且,再一次“吊打了”宿敌OpenAI的“地表最强”GPT-4。
图源:Google
(我为什么要说“再”?)
谷歌造假了?
这次Gemini的关注度,一点也不亚于OpenAI内乱的时候。毕竟谷歌之前是打算早点发布Gemini的,就是打的“趁你病要你命”的主意。奈何团队拉胯的进度,最后Gemini不得不延期。
提前也好,延期也罢。Gemini最后还是发布了,而且谷歌信心满满,俨然一副“GPT你好日子到头了”的架势。账面数据和测试结果,也是一路默秒全。
而且谷歌还放出来一段6分钟一镜到底的视频,坐等被夸“好牛X”“666”……
但是这时候有人跳出来说,谷歌你这演示视频造假了吧?
有人质疑说,这段所谓的一镜到底,其实是经过筛选、剪辑拼接起来的,根本不是实时录制。
随后,官方表示称,视频确实是有后期制作和剪辑的成分。根据官方的一份技术声明,Gemini所有的这些交互都不是实时感知到的,而是通过提示词问出来的。
这不能说跟演示视频一毛一样,根本是八竿子打不着吧。比如“石头、剪刀、布”游戏,不是Gemini看懂了游戏规则,而是识别出了三张图,并做出了推理。
图源:Google
而对“鸭子简笔画”的每一个笔画的识别能力,以及对颜色的看法,也不全是真的。谷歌DeepMind产品副总裁伊莱·柯林斯(Eli Collins)回应说,这个能力目前还是研究级别的,至少目前还没有出现在谷歌的实际产品中。
图源:YouTube
原来让人直呼“vocal”的感知能力,结果还是识别、提示加引导。这让很多人表示,谷歌你这是在误导和欺骗大众!
眼看着舆论有反噬的苗头,谷歌最后还是怂了,在油管的演示视频底下,标注了免责声明:为了演示的目的,已经减少延迟,为了简洁,Gemini 的输出也缩短了。
对比数据上“做手脚”
如果单纯就是视频做了“艺术”加工,也就还好。毕竟现在圈子里这么干的,不在少数。但是,谷歌还在其他对比GPT-4的结果上,搞了点小猫腻。
有人就发现,在谷歌晒出的MMLU 测试结果中,Gemini的结果下面有一行灰色小字,标注着“CoT@32”。
这是谷歌自己的“独家秘籍”,明显有利于Gemini,可想而知GPT-4的成绩好不了哪里去。
还有人诟病图示比例尺离谱,很小的差距,被做出了天差地别的视觉效果。
谷歌你这就不太厚道了吧。
而且图上GPT-4最明显的成绩,用的测试方法和Gemini不一样。
随后,知名开源社区HuggingFace的技术主管Philipp Schmid用技术报告中披露的数据修复了结果对比图,结果显示:
让Gemini Ultra 和 GPT-4 跑在同一标准下,那Gemini的得分就只有 83.7 ,甚至还不如 GPT-4 。
图源:X(原推特)
此外,谷歌在发布会上宣称,Gemini三个版本(Ultra、Pro、Nano),其中Ultra全面超越 GPT-4,Pro在大多数指标上超越GPT-3.5。
但随后有人经过测试发现,一道8年级的故事题,GPT-3.5拿了满分,Gemini Pro则是一塌糊涂。不过,该测试也就图一乐,毕竟变量控制和细节并不完善,不像专业的测试数据那样准确。
谷歌发布Gemini时还提到,后续Bard将接入微调版的Gemini Pro,这样一来,跟接入GPT3.5和GPT4的ChatGPT做一番对比,就变得更容易了。有兴趣的朋友可以去尝试一下。
虽有质疑,但股价上涨
对此外界舆论,谷歌DeepMind研究和深度学习负责人副总裁奥里奥尔·维尼亚尔斯(Oriol Vinyals)表示,“我们这样做是为了激励开发人员”。但很明显,大部分人并不买账。
甚至有谷歌的员工表示,对于公司这种夸大宣传,早就习惯了。而且本身谷歌进度落后于OpenAI,所以有点着急也是理所应当的。
当然,做人还是要体面一点。
图源:网络
不过,谷歌倒也不是一无所有。在谷歌发布Gemini之后,12月7日,谷歌母公司Alphabet(Nasdaq:GOOG)的股价涨5.31% ,收于136.93美元,迎来自今年8月29日以来表现最好的一天,总市值达到1.72万亿美元 。
要知道,当时在发布Bard时,谷歌的股价一天跌去了1000亿美元。
虽然要求Gemini超越GPT-4有点苛刻,但谁让谷歌把牛吹这么大呢,所以什么舆论结果都得受着。具体Gemini最后能进化到什么程度,还得看后续的进展。
那么,尝试过Gemini和ChatGPT的你,觉得效果如何?Gemini有希望超越GPT4吗?