谷歌Gemini1.5火速上线：MoE架构，惊人的100万上下文-易发云源码

在AI领域迈出创新步伐的谷歌，昨日震撼发布了Gemini 1.5版本。此次更新不仅是技术的飞跃，更是在谷歌深厚的研发基础上，通过引入先进的混合专家（MoE）架构，推动了训练与服务效率的大幅提升。 Gemini 1.5 Pro，作为首款亮相的版本，特别优化以适应多样化任务，展现了与谷歌至今最强大模型1.0 Ultra相媲美的性能。它还首次实验性引入了长上下文理解的能力，配备了惊人的128000个token上下文窗口，开启了AI长文本处理的新纪元。

从今日起，部分开发者和企业客户将有幸率先体验到在最多100万个token上下文窗口中的强大能力，这一切都得益于谷歌对AI性能和用户体验的持续优化。在谷歌CEO Sundar Pichai和DeepMind CEO Demis Hassabis的共同推介下，Gemini 1.5 Pro无疑将成为AI领域的一个新里程碑。

图片[1]-谷歌Gemini1.5火速上线：MoE架构，惊人的100万上下文-易发云源码

高效架构

谷歌的Gemini 1.5模型标志着AI计算架构领域的一次重大创新。这一模型基于谷歌对Transformer和MoE架构的深度研究，通过将传统的单一大型神经网络转变为多个专业化的小型网络，实现了任务处理的高效化和精准化。这种转变的关键在于MoE模型的特性，它能够根据不同的输入智能选择并激活相应的“专家”路径，极大地提升了模型的处理能力和效率。通过采用稀疏门控MoE、GShard-Transformer等前沿技术，谷歌不仅展示了其在AI研究方面的先进性，也为Gemini 1.5提供了强大的学习和服务能力。这些创新的应用使得谷歌能够在AI技术的迭代和产品开发上更加迅速高效，展望未来，谷歌将继续探索和优化，以实现更加出色的AI服务和体验。

更长的上下文，更有用的功能

你们知道最新的谷歌AI模型Gemini 1.5 Pro有多牛吗？以前，这些AI模型处理信息的能力是有限的，大概只能搞定32,000个token。但现在，谷歌把这个数字直接提升到了100万个token！这意味着它可以一次性搞定巨量的信息，比如看完1小时的视频，听完11小时的音频，甚至是翻阅超过30,000行的代码或者700,000个单词的文档。谷歌还不停止脚步，他们已经在试验能处理高达1000万个token的能力了。这样的AI模型，简直就是数据处理界的大胃王，无论多少信息都能轻松消化！

对大量信息进行复杂推理

当面对阿波罗11号登月任务那厚厚的402页记录时，谷歌的Gemini 1.5 Pro展现了它令人叹为观止的分析力。这不仅仅是对文档的浅尝辄止，而是一种深层次的理解和分析，能够穿透每一句话，每一个事件，把文档中的对话和细节串联起来，让整个历史时刻在我们眼前重现。这样的技术，对于那些需要从大量文字中提取有价值信息的研究人员来说，简直就是一场革命。1.5 Pro不仅能帮我们理解过去，还能帮我们把握现在，预见未来。

图片[2]-谷歌Gemini1.5火速上线：MoE架构，惊人的100万上下文-易发云源码

更好地理解和推理跨模态

想象一下，有一个AI能够像专业的电影评论家一样深入分析电影，再加上像顶尖历史学家那样挖掘文档细节。谷歌的Gemini 1.5 Pro正是这样一个全能高手。它不只是看，它是理解。拿一部44分钟的巴斯特·基顿的无声电影来说，1.5 Pro能够精准捕捉到电影的情节点和事件，甚至是那些容易被忽略的细节。同样，当面对阿波罗11号登月任务的402页详尽记录时，它也能细致入微地理解和推理出记录中的每一个好奇细节。这样的AI模型，无疑是将视频分析和文本理解提升到了一个新的高度。当给出简单的线条图作为现实生活中物体的参考材料时，Gemini 1.5 Pro 可以识别 44 分钟的巴斯特基顿无声电影中的场景。

使用较长的代码块解决相关问题

对于开发者来说，处理超过100,000行的代码绝对是一项挑战。但现在，有了谷歌的Gemini 1.5 Pro，这个挑战就变成了一次机会。这个AI模型能够穿梭于庞大的代码库中，不仅能理解代码的深层逻辑，还能提出改善的方案，甚至解释代码各部分是如何运作的。这种能力对于优化项目、解决复杂问题来说，价值不菲。Gemini 1.5 Pro的加入，仿佛给了开发者一副超级眼镜，让之前看不清的问题变得一目了然。

增强性能

在最新的科技测评中，Gemini 1.5 Pro 真正做到了技术的跨越式发展，其性能在对大型语言模型的测试中，竟有高达87%的测试项目超越了前代产品1.0 Pro，与1.0 Ultra的性能相媲美。更令人赞叹的是，即便是在更复杂的测试场景下，比如增加上下文窗口的大小，Gemini 1.5 Pro 依然能够保持其卓越的性能。

在NIAH的极端测试中，Gemini 1.5 Pro 几乎能在所有情况下（99%的时间）精准地找出长文本中隐藏的特定信息，即使这些文本长达百万个字符。更为震撼的是，它展现出了惊人的上下文学习能力，在不需任何额外训练的情况下，从长文本提示中学习并掌握新技能。谷歌通过一个特殊的翻译测试MTOB，验证了Gemini 1.5 Pro 学习未知信息的能力，它能将英语翻译成几乎无人知晓的卡拉芒语，并且达到了与人类学习者相似的水平。

随着谷歌不断推出新的测试和基准，我们期待Gemini 1.5 Pro 在未来展现更多惊人的能力。详细信息可参见Gemini 1.5 Pro的技术报告。技术报告地址：https://storage.googleapis.com/deepmind-media/gemini/gemini_v1_5_report.pdf