AI Podcast

GShard:使用条件计算和自动分片扩展巨型模型


Listen Later

本播客讨论了GShard,这是一个由一组轻量级注释API和XLA编译器的扩展组成的模块。它提供了一种优雅的方式来表达各种并行计算模式,而对现有模型代码的更改最少。GShard使我们能够使用自动分片将具有稀疏门控专家混合的多语言神经机器翻译Transformer模型扩展到超过6000亿个参数。我们证明了这种巨型模型可以在2048个TPU v3加速器上高效地训练4天,与现有技术相比,从100种语言到英语的翻译质量要高得多。
...more
View all episodesView all episodes
Download on the App Store

AI PodcastBy weedge