看板 Marginalman
https://bit.ly/3zaRKaA MatMul-free LM 透過密集層和元素級阿達瑪乘積採用加法運算來達成類似自注意力機制的 功能。具體來說,三元權重用於消除密集層中的 MatMul,類似二元神經網路(binary neur al network,BNN)。為了消除 MatMul 的自注意力機制,研究人員使閘門循環單元(Gated Recurrent Unit,GRU)最佳化,完全依賴元素乘積。這種創新模型可與最先進的 Transfo rmer 競爭,同時消除所有 MatMul 操作。 從昨天一直看到在討論這篇論文 還是看不太懂 只覺得不用做矩陣乘法應該是誇大了 -- https://i.imgur.com/xrVFo3Q.png
把煙吸到肺裡,而黑色的肺就是自己的「業障」。 - 最遊記 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.171.45.122 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Marginalman/M.1718421460.A.94A.html
Bugquan: 像這種的報導,不是都亂講一通,然後各種誇大嗎 06/15 11:20
sustainer123: 所以這個模型用CPU算的速度比較快? 06/15 11:20