Reply to 大模型的参数175B是如何算出来的？ on Thu, 17 Aug 2023 08:57:27 GMT

asmcos — Thu, 17 Aug 2023 08:57:27 GMT

chatglm-6B:
其次，ChatGLM-6B 的模型架构如下：

解码器层数：48
隐藏层大小：6144
注意力头数：48
注意力头维度：128
嵌入维度：6144
输出维度：50257（词汇表大小）
Dropout 比例：0.1

然后，根据这些信息，我们可以计算出 ChatGLM-6B 的各个部分的参数量如下：

解码器自注意力层参数量：(6144∗128+128)∗48∗48=2,260,172,800
解码器前馈网络层参数量：(6144∗6144+6144)∗2∗48=2,865,274,880
解码器总参数量：2,260,172,800+2,865,274,880=5,125,447,680
嵌入层参数量：50257∗6144=308,719,616
输出层参数量：50257∗6144=308,719,616
模型总参数量：5,125,447,680+308,719,616+308,719,616=5,742,886,912

这个结果和 ChatGLM-6B 的论文中给出的结果相符合1。因此，我们可以得出结论，ChatGLM-6B 的参数 6B 是由模型的所有参数的数量得到的。