在AI领域迈出创新步伐的谷歌,昨日震撼发布了Gemini 1.5版本。此次更新不仅是技术的飞跃,更是在谷歌深厚的研发基础上,通过引入先进的混合专家(MoE)架构,推动了训练与服务效率的大幅提升。 Gemini 1.5 Pro,作为首款亮相的版本,特别优化以适应多样化任务,展现了与谷歌至今最强大模型1.0 Ultra相媲美的性能。它还首次实验性引入了长上下文理解的能力,配备了惊人的128000个token上下文窗口,开启了AI长文本处理的新纪元。
从今日起,部分开发者和企业客户将有幸率先体验到在最多100万个token上下文窗口中的强大能力,这一切都得益于谷歌对AI性能和用户体验的持续优化。在谷歌CEO Sundar Pichai和DeepMind CEO Demis Hassabis的共同推介下,Gemini 1.5 Pro无疑将成为AI领域的一个新里程碑。
高效架构
谷歌的Gemini 1.5模型标志着AI计算架构领域的一次重大创新。这一模型基于谷歌对Transformer和MoE架构的深度研究,通过将传统的单一大型神经网络转变为多个专业化的小型网络,实现了任务处理的高效化和精准化。这种转变的关键在于MoE模型的特性,它能够根据不同的输入智能选择并激活相应的“专家”路径,极大地提升了模型的处理能力和效率。通过采用稀疏门控MoE、GShard-Transformer等前沿技术,谷歌不仅展示了其在AI研究方面的先进性,也为Gemini 1.5提供了强大的学习和服务能力。这些创新的应用使得谷歌能够在AI技术的迭代和产品开发上更加迅速高效,展望未来,谷歌将继续探索和优化,以实现更加出色的AI服务和体验。
更长的上下文,更有用的功能
你们知道最新的谷歌AI模型Gemini 1.5 Pro有多牛吗?以前,这些AI模型处理信息的能力是有限的,大概只能搞定32,000个token。但现在,谷歌把这个数字直接提升到了100万个token!这意味着它可以一次性搞定巨量的信息,比如看完1小时的视频,听完11小时的音频,甚至是翻阅超过30,000行的代码或者700,000个单词的文档。谷歌还不停止脚步,他们已经在试验能处理高达1000万个token的能力了。这样的AI模型,简直就是数据处理界的大胃王,无论多少信息都能轻松消化!
对大量信息进行复杂推理
当面对阿波罗11号登月任务那厚厚的402页记录时,谷歌的Gemini 1.5 Pro展现了它令人叹为观止的分析力。这不仅仅是对文档的浅尝辄止,而是一种深层次的理解和分析,能够穿透每一句话,每一个事件,把文档中的对话和细节串联起来,让整个历史时刻在我们眼前重现。这样的技术,对于那些需要从大量文字中提取有价值信息的研究人员来说,简直就是一场革命。1.5 Pro不仅能帮我们理解过去,还能帮我们把握现在,预见未来。
更好地理解和推理跨模态
想象一下,有一个AI能够像专业的电影评论家一样深入分析电影,再加上像顶尖历史学家那样挖掘文档细节。谷歌的Gemini 1.5 Pro正是这样一个全能高手。它不只是看,它是理解。拿一部44分钟的巴斯特·基顿的无声电影来说,1.5 Pro能够精准捕捉到电影的情节点和事件,甚至是那些容易被忽略的细节。同样,当面对阿波罗11号登月任务的402页详尽记录时,它也能细致入微地理解和推理出记录中的每一个好奇细节。这样的AI模型,无疑是将视频分析和文本理解提升到了一个新的高度。当给出简单的线条图作为现实生活中物体的参考材料时,Gemini 1.5 Pro 可以识别 44 分钟的巴斯特基顿无声电影中的场景。
使用较长的代码块解决相关问题
对于开发者来说,处理超过100,000行的代码绝对是一项挑战。但现在,有了谷歌的Gemini 1.5 Pro,这个挑战就变成了一次机会。这个AI模型能够穿梭于庞大的代码库中,不仅能理解代码的深层逻辑,还能提出改善的方案,甚至解释代码各部分是如何运作的。这种能力对于优化项目、解决复杂问题来说,价值不菲。Gemini 1.5 Pro的加入,仿佛给了开发者一副超级眼镜,让之前看不清的问题变得一目了然。
增强性能
在最新的科技测评中,Gemini 1.5 Pro 真正做到了技术的跨越式发展,其性能在对大型语言模型的测试中,竟有高达87%的测试项目超越了前代产品1.0 Pro,与1.0 Ultra的性能相媲美。更令人赞叹的是,即便是在更复杂的测试场景下,比如增加上下文窗口的大小,Gemini 1.5 Pro 依然能够保持其卓越的性能。
在NIAH的极端测试中,Gemini 1.5 Pro 几乎能在所有情况下(99%的时间)精准地找出长文本中隐藏的特定信息,即使这些文本长达百万个字符。更为震撼的是,它展现出了惊人的上下文学习能力,在不需任何额外训练的情况下,从长文本提示中学习并掌握新技能。谷歌通过一个特殊的翻译测试MTOB,验证了Gemini 1.5 Pro 学习未知信息的能力,它能将英语翻译成几乎无人知晓的卡拉芒语,并且达到了与人类学习者相似的水平。
随着谷歌不断推出新的测试和基准,我们期待Gemini 1.5 Pro 在未来展现更多惊人的能力。详细信息可参见Gemini 1.5 Pro的技术报告。 技术报告地址:https://storage.googleapis.com/deepmind-media/gemini/gemini_v1_5_report.pdf
使用 Gemini 模型进行构建和实验
今天起,通过AI Studio和Vertex AI,谷歌为广大开发者和企业客户开放了1.5 Pro的预览版,让大家提前体验到这一代语言模型的强大功能。
未来不久,当1.5 Pro向更广泛的用户群体开放时,将配备标准的128,000个token上下文窗口。更令人激动的是,谷歌计划推出从128,000个token到100万个token不等的定价策略,以适应不同用户的需求。此外,早期的测试用户将有机会免费体验100万个token上下文窗口的超快速度。
对于那些迫不及待想要尝试1.5 Pro的开发者,现在就可以在AI Studio中报名注册,企业客户则可以通过联系他们的Vertex AI客户团队来获取更多信息。
暂无评论内容