トランスフォーマー対LLMの専門家の混合物、明確に説明されています(ビジュアル付き):
Mixture of Experts (MoE) は、さまざまな「エキスパート」を使用して Transformer モデルを改善する一般的なアーキテクチャです。 以下のビジュアルは、トランスフォーマーとの違いを示しています。 MoE について詳しく学びましょう。
Transformer と MoE はデコーダー ブロックで異なります。 - Transformer はフィードフォワード ネットワークを使用します。 - MoEは、フィードフォワードネットワークであるが、Transformerのそれに比べて小さい専門家を使用しています。 推論中に、専門家のサブセットが選択されます。これにより、MoEでの推論が高速になります。
ネットワークには複数のデコーダー層があるため、次のようになります。 - テキストはレイヤー間でさまざまな専門家を通過します。 - 選択された専門家もトークンによって異なります。 しかし、モデルはどの専門家が理想的であるかをどのように決定するのでしょうか? ルーターがそれを行います。次にそれについて話し合いましょう。
ルーターは、専門家に対してソフトマックス スコアを生成するマルチクラス分類器のようなものです。スコアに基づいて、上位 K 人の専門家を選出します。 ルーターはネットワークでトレーニングされ、最高の専門家を選択する方法を学習します。 しかし、それは簡単ではありません。課題について話し合いましょう!
課題 1) トレーニングの開始時に次のパターンに注目してください。 - モデルが「エキスパート 2」を選択します - 専門家が少し上達する - 再び選択される可能性があります - 専門家はさらに学ぶ - 再び選択される - より多くのことを学ぶ -などなど! 多くの専門家は訓練を受けていません。
これは2つのステップで解決します。 - ルーターのフィードフォワード出力にノイズを追加して、他の専門家がより高いロジットを取得できるようにします。 - 上位 K 個のロジットを除くすべてのロジットを -infinity に設定します。ソフトマックスの後、これらのスコアはゼロになります。 このようにして、他の専門家もトレーニングの機会を得ることができます。
課題 2) 一部の専門家は、他の専門家よりも多くのトークンにさらされる可能性があり、その結果、専門家の訓練が不十分になります。 エキスパートが処理できるトークンの数を制限することで、これを防ぎます。 エキスパートが制限に達すると、代わりに入力トークンが次善のエキスパートに渡されます。
MoEには、ロードするパラメータが増えています。ただし、一部の専門家のみを選択するため、そのうちの一部がアクティブになります。 これにより、推論が高速化されます。@MistralAI の Mixtral 8x7B は、MoE に基づく有名な LLM の 1 つです。 トランスフォーマーとMoEを比較したビジュアルが再びこちら!
洞察力に富んだものを見つけた場合は、ネットワークと再共有してください。 お探し→ @akshay_pachaar ✔️ LLM、AIエージェント、機械学習に関するその他の洞察とチュートリアルについては、こちらをご覧ください。
Akshay 🚀
Akshay 🚀7月21日 20:30
トランスフォーマー対LLMの専門家の混合物、明確に説明されています(ビジュアル付き):
228.75K