<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[大模型的参数175B是如何算出来的？]]></title><description><![CDATA[<p dir="auto">GPT-3 175B 的模型架构如下：</p>
<p dir="auto">编码器层数：96<br />
解码器层数：0（GPT-3 是一个单向语言模型，没有解码器）<br />
隐藏层大小：12288<br />
注意力头数：96<br />
注意力头维度：128<br />
嵌入维度：12288<br />
输出维度：50257（词汇表大小）<br />
Dropout 比例：0.1</p>
<p dir="auto">根据这些信息，我们可以计算出 GPT-3 175B 的各个部分的参数量如下：</p>
<p dir="auto">编码器自注意力层参数量：150,994,944∗96=14,495,514,624<br />
编码器前馈网络层参数量：(12288∗12288+12288)∗2∗96=28,991,029,248<br />
编码器总参数量：14,495,514,624+28,991,029,248=43,486,543,872<br />
解码器总参数量：0<br />
嵌入层参数量：50257∗12288=617,388,032<br />
输出层参数量：50257∗12288=617,388,032<br />
模型总参数量：43,486,543,872+0+617,388,032+617,388,032=44,721,319,936</p>
<p dir="auto">这个结果和 GPT-3 论文中给出的结果相符合1。因此，我们可以得出结论，175B 是由模型的所有参数的数量得到的，而不是由某一部分的乘积得到的。</p>
<p dir="auto">这是bing回答的，有可能不准确，但是大概意思就是这个。学习了。</p>
]]></description><link>http://localhost:4567/topic/185/大模型的参数175b是如何算出来的</link><generator>RSS for Node</generator><lastBuildDate>Mon, 18 May 2026 12:27:19 GMT</lastBuildDate><atom:link href="http://localhost:4567/topic/185.rss" rel="self" type="application/rss+xml"/><pubDate>Thu, 17 Aug 2023 06:51:45 GMT</pubDate><ttl>60</ttl><item><title><![CDATA[Reply to 大模型的参数175B是如何算出来的？ on Thu, 17 Aug 2023 08:57:27 GMT]]></title><description><![CDATA[<p dir="auto">chatglm-6B:<br />
其次，ChatGLM-6B 的模型架构如下：</p>
<p dir="auto">解码器层数：48<br />
隐藏层大小：6144<br />
注意力头数：48<br />
注意力头维度：128<br />
嵌入维度：6144<br />
输出维度：50257（词汇表大小）<br />
Dropout 比例：0.1</p>
<p dir="auto">然后，根据这些信息，我们可以计算出 ChatGLM-6B 的各个部分的参数量如下：</p>
<p dir="auto">解码器自注意力层参数量：(6144∗128+128)∗48∗48=2,260,172,800<br />
解码器前馈网络层参数量：(6144∗6144+6144)∗2∗48=2,865,274,880<br />
解码器总参数量：2,260,172,800+2,865,274,880=5,125,447,680<br />
嵌入层参数量：50257∗6144=308,719,616<br />
输出层参数量：50257∗6144=308,719,616<br />
模型总参数量：5,125,447,680+308,719,616+308,719,616=5,742,886,912</p>
<p dir="auto">这个结果和 ChatGLM-6B 的论文中给出的结果相符合1。因此，我们可以得出结论，ChatGLM-6B 的参数 6B 是由模型的所有参数的数量得到的。</p>
]]></description><link>http://localhost:4567/post/319</link><guid isPermaLink="true">http://localhost:4567/post/319</guid><dc:creator><![CDATA[asmcos]]></dc:creator><pubDate>Thu, 17 Aug 2023 08:57:27 GMT</pubDate></item></channel></rss>