截胡GPT-4o，谷歌开发者大会一夜发布十几款AI新品

缺「爆品」，成了谷歌最大的心结。

一年一度的Google I/O开发者大会如期而至，在本场发布会中，谷歌一口气交出数个AI新品，轮番轰炸我们的视觉神经。

首先是真正意义上的全新产品——Google AI Overviews，这是一项基于大模型技术开发的全新搜索引擎，旨在以聊天的方式为用户提供精准、高效的搜索结果。没错，传闻中OpenAI正集全力要打造的就是这玩意儿。

（图源：Google）

同样与搜索有关的还有「Ask Photos」，相比起AI Overviews，它更专注于图像理解与图像信息捕捉，这意味着现在你可以通过文字描述的方式，找到藏在相册里的那些被遗忘已久的照片。

还记得前天晚上OpenAI发布的GPT-4o在视觉与听觉上的巨大提升吗？谷歌也整了一个相似的AI工具——Project Astra。定位上，Project Astra和GPT-4o都是多模态AI项目，用户可以利用手机摄像头和麦克风与现实世界进行交互，例如帮助失明人士识别路上的风景等。

（图源：Google）

以上提到的，只是本场I/O开发者大会上谷歌公布众多AI新技术的冰山一角，还有更多新玩意值得我们深入探讨。难怪，在这场发布会后，不少媒体都表示认为谷歌像是要用海量新品「围剿」OpenAI，重树谷歌在AI市场的地位。

对轰GPT，谷歌怒发数款AI新品

很显然，Google I/O 2024最大主角就是「AI」，从硬件到软件，从服务到功能，几乎没有任何一部分离得了AI这个关键词。据不完全统计，这场发布会上，谷歌至少提了121次「AI」。

既然聊到AI大模型，那还是先看看Gemini又有了哪些新变化。

Gemini Pro从前代的100万Tokens升级到了200万Tokens，与月之暗面的Kimi Chat长度相近，但这个模式并非面向所有用户开放，需要单独申请。Gemini 1.5推出了Flash版本，支持100万Tokens，主打一个便宜量大，1M Tokens输入仅0.35美元、1M Tokens输出也仅需0.53美元。

（图源：Google）

另外，谷歌还宣布Gemini Nano进入手机端，目前它能实现的功能是帮助用户接打电话、识别电话诈骗和骚扰电话。实话说，Gemini Nano的手机端实用性还是略显寒酸，甚至连文字处理都不支持，还不如小爱同学来得简单粗暴。

假如你对Gemini Nano的功能表现不太满意，也能试试谷歌即将推出的Gemini手机客户端，它与前天发布的GPT-4o一样，都是AI多模态应用，能听、会读，还能提供情绪价值。只是从演示视频来看，Gemini还不是太「拟人化」。

Gemma2也在这场发布会上正式登场，作为谷歌下一代开源模型，它升级到了27B规模，和Meta的Llama 3相近，但体积更小些。值得注意的是，Gemma2能够在NVIDIA的GPU或Vertex AI的单个TPU主机上高效运行。Gemma还迎来了一位新成员：PaliGemma，这是一个开源的图像输入模型。

除了Gemini和Gemma的升级之外，基于大模型技术，谷歌还推出了三款全新的AI大模型应用：Imagen 3、Music AI Sandbox、Veo。

（图源：Google）

Imagen 3是谷歌最新的画图模型，你可以理解为谷歌版本的stable diffusion，即文生图模型。按照谷歌的说法，Imagen 3相比起前代，在生成速度、生成质量和理解能力上均有较大的提升。

Music AI Sandbox是一款音乐创作大模型，和之前火遍全网的suno差不多，而它的优势在于创作完成后能够一键上传至Youtube，这何尝不是一种生态优势呢？至于Veo，这是谷歌首款文生视频模型，对标GPT的Sora，但它时长支持到最高1分钟、分辨率也支持到1080P，还支持更多滤镜和电影风格，无论是哪一方面，看起来都比Sora靠谱得多。

不难看出，谷歌目前在AI领域的战略还是相对稳健，例如模型性能升级，仅从100万Tokens提升到200万Tokens，和早前大众的预期有些差距；而新的AI大模型应用部分，无论是新升级的文生图模型，还是全新的音乐创作模型、文生视频模型，都是「守擂」型产品，少了些创意和想象力。但谷歌天然的优势在于生态，这才是其与OpenAI叫板的底气。

AI加入谷歌全家桶

作为当前的互联网巨头之一，谷歌的软件生态、服务生态自然是相当全面的，比如谷歌拥有当前最大用户数量的浏览器Chrome，也拥有最完善的Google办公套件，以及目前最大的移动操作系统生态。现如今，谷歌也正式将AI引入到「谷歌全家桶」中，彻底梭哈AI。

首先，谷歌发布了全新侧栏应用Side Panel，这是一项综合了谷歌旗下服务的「侧边栏」，当你在Gmail中收到重要信息时，可以直接在Side Panel中呼出谷歌云盘存储信息，又或是启动Google Map进行导航，还可以使用谷歌日历记录日程等。在谷歌的计划中，Gmail很快会拥有自动处理重要信息的能力。

Gmail还加入了智能对话的特性，简单来说，现在你能够以对话的方式在邮箱中找到所需要的信息及相关邮件，还能让Gemini帮你总结这些邮件说了什么，甚至还可以让它帮你智能回复对方，并保持邮件所需的正式用语和语气。

（图源：Google）

其次，前面提到了Gemini将推出手机客户端，除了能够和用户进行普通的对话、文章总结、文字生成等，Gemini还拥有Gemini Live功能，即通过摄像头和你直接对话。

最后，也是最重磅的——AI Overviews。作为搜索引擎巨头，谷歌要如何将大模型融入到搜索上，这一直是我们所好奇的，就在这场发布会上，谷歌终于推出了首款AI搜索大模型AI Overviews。

与Perplexity或Arc Search相比，AI Overviews的优势在于综合搜索能力有了长足的进步，且得益于Gemini的推理能力提升，其获得的搜索结果也会更符合用户的需求。AI Overviews还支持Plan Ahead，即「为你计划」，尽管AI搜索只能帮用户做搜索结果的总结，但基于推理能力和决策能力的升级，Plan Ahead能够为用户生成各种计划，例如饮食计划、健身计划、旅行计划等。

（图源：Google）

AI Overviews不仅支持文字搜索，还能通过语音和图片进行搜索，例如当你遇到不认识的植物，那么仅需拍摄、上传，就能让谷歌帮你找出这种植物的相关资料。而这项功能也会与Pixel上的「划圈即搜」功能相结合，在未来几个月内上线。

可以说，AI已经成为谷歌几乎所有业务的核心，除了我们熟悉的大模型应用之外，还在办公、娱乐领域提供基于Gemini大模型的AI功能，并互相之间有所串联，提升综合工作的效率。

One More Thing：神秘AI眼镜曝光

在演示Project Astra的过程中，除了像OpenAI一样使用iPhone进行功能展示，还使用了一款智能眼镜。但与我们之前见到的Google Project Galass不同，这可能是一款全新的智能眼镜产品。

（图源：Google）

初代Google Project Galass诞生于2012年，在那个智能手机还不算普及的年代里，谷歌就将智能穿戴设备打造成平民化的消费级产品。但事实上，Google Project Galass受限于产品形态和产品性能，以及相对高昂的售价，一直都不受市场的欢迎，而谷歌也在前几年宣告这个项目被取消。

Project Astra可能是最适合Google Project Galass的AI形态，一方面，它的交互简单，无需太多传感器进行辅助识别；另一方面，它利用大模型的学习、理解、推理能力，能够简单地帮助用户判断现实世界的物体、景色以及突发事件。

当然，谷歌并没有真正发布这款产品，但结合Apple Vision Pro重新带动虚拟现实（空间计算）市场的热议来看，谷歌极有可能抢先于苹果，将AI大模型带入到穿戴设备，以快速抢占AR/VR市场。

眼花缭乱的I/O，谷歌真慌了神？

整场发布会下来，谷歌发布了非常多的AI新品，涉及到大模型技术的迭代、新AI应用的落地以及开源模型再一次进化。但长达数小时的发布会加体验环节，谷歌缺少了一款真正意义上的「爆品」来引起市场的高度关注。

比如，谷歌发布了一款对标OpenAI Sora的Veo，无论是输入内容的支持、生成视频时长还是生成视频的清晰度，都可以说是「吊打」Sora的存在，但Sora已经抢先于谷歌，引发了市场对文生视频应用的讨论，这就导致尽管Veo很牛，可讨论度明显不足。

（图源：Google）

又或者说，谷歌似乎不太懂如何抓住大家的眼球，这从其频频翻车的演示也能看出些端倪。还记得Bard首次出现时回答问题错误的情况吗？是的，在这一次AI Overviews的演示上，又一次给用户错误的建议，引起不小的争议。

而谷歌在会上强调了Gemini的「优惠价格」，试图想要以低价与头部企业们竞争。但现实状况是，百度文心一言、阿里通义千问早就开放了长文本阅读、月之暗面的Kimi也加入了200万Tokens的免费大战，就连有些晚来的豆包，也在今日举行的发布会上公开了超低价的策略。

创意欠缺、低价拼不过，这就是谷歌在I/O开发者大会上给大家的印象。不过，谷歌最重要的杀手锏仍然是它的AI搜索，而这项功能是否会让谷歌实现逆风翻盘，或许还要等到AI Overviews正式上线后才能解答。

原文标题 : 截胡GPT-4o，谷歌开发者大会一夜发布十几款AI新品

截胡GPT-4o，谷歌开发者大会一夜发布十几款AI新品

相关推荐