🔥 その通りです。テンプラーはAIインフラに対する私の考え方を変えました。 分散型AIにあまり期待していませんでしたが、Bittensor($TAO)で70以上の許可なしノードにまたがる1.1Tトークンで72Bモデルを訓練している@tplr_aiのを見て、を目撃しました。 それだけでも珍しいのですが、私の考えを変えたのは、どうやってうまく機能させたかです。 - この規模では、訓練は調整によって制限されます。通常、ノード間の同期ステップごとに約280GBのデータを押し込むため、分散型トレーニングはほぼ終わってしまいます。 - @tplr_aiそれを~2.2GBに圧縮し、SparseLoCoを使って同期周波数を大幅に削減しました。それを見ると、これまで🤯の試みをすべて潰したコアのボトルネックが取り除かれているのが見えます。 だからこそ、これを「DeepSeekの瞬間」と呼ぶのは誇張ではないと思います。DeepSeekはモデルをより安価に訓練できることを示しました。 テンプラーは中央の調整なしで訓練できることを示しています。 -> それは全く異なる方向性で、こちらは構造的に競争が難しいと感じます。 もう一つ無視しないサインは、Anthropicのジャック・クラークのような人が公にそれを本物の基礎として位置づけているときです: - 私の経験では、そういう承認はたいてい何かがすでに機能した後に来るものであって、それより先にはない。 - まだプレトレーニングだ。AIの本当の強みは、トレーニング後、RLHF、アラインメントループ、つまりモデルが実際に役立つ部分にあります。 テンプラーは次にグレイルでそこに進む予定で、私にとってそれが本当の試練です。もしその層も分散化できれば、もはや分散型の計算ではなく、完全な許可不要のAI生産パイプラインを話していることになります。 テンプラーが際立っているのは、彼らが選んだタイミングと方向性です。 1/ AI業界全体が静かにスケーリングの限界に達している中で、彼らは協調を狙いました。 - それは全く違う賭けで、通常は制約を攻撃する人たちが後で重要になることが多いです。 2/ もう一つ見かけるきっかけは、許可不要の設計です。 - ほとんどの分散型AIシステムは何らかの形で参加を制限しており、ネットワーク効果を早期に潰します。 - テンプラーは最初から完全にオープン化しており、このモデルが機能すれば単に線形にスケールするだけでなく、多くの貢献者や実験、並行して解決する複合体が存在します。 また、ポストトレーニング(RL層)に向けて構築していることから、本当の価値がどこにあるかを理解していることがわかります。 事前トレーニングは注目を集めますが、モデルが使いやすく、粘着性があり、収益化可能になるのはポストトレーニングです。ここで実行すれば、情報層の一部を所有することになります。 3/ これに基づく私の予想: 短期的には、多くの人が過小評価するでしょう。なぜなら、モデルの品質差と中央集権的なラボの比較が簡単な理由になるからです。 しかし時間が経つにつれて、テンプラーは次のようになります。 - オープンAI開発のためのバックエンドレイヤー。 - 分散計算のための調整ネットワーク。 - そして最終的には情報の洗練のための市場へと発展させる。 一晩で支配的ではなく、静かにあらゆるところに根付いています。 そしてそれが実現すれば、誰でも@OpenAIに頼りたくないときに構築できるシステムになることの利点が生まれます。
templar
templar3月20日 04:01
今週の番組@theallinpodで、@chamathは@nvidia CEOのジェンセン・ホアンに分散型AIトレーニングについて質問し、私たちのCovenant-72Bランを「かなりクレイジーな技術的成果」と表現しました。 一つ訂正します:パラメータは4つではなく720億個です。70+の貢献者に対して許可なくコモディティインターネット上でトレーニング。完全に分散型インフラ上で事前学習された中で最大のモデルです。 ジェンセンの答えも聞く価値があります。
@tplr_aiチャドはBittensorエコシステムについて多くの貴重な情報を提供しています:@AlgodTrading @CryptoWizardd @CryptoGodJohn @QuintenFrancois @Tanaka_L2 @Eli5defi @andyyy @MilkRoad @andyyy @eliz883
Karamata_ 💎
Karamata_ 💎3月20日 11:59
🔥 その通りです。テンプラーはAIインフラに対する私の考え方を変えました。 分散型AIにあまり期待していませんでしたが、Bittensor($TAO)で70以上の許可なしノードにまたがる1.1Tトークンで72Bモデルを訓練している@tplr_aiのを見て、を目撃しました。 それだけでも珍しいのですが、私の考えを変えたのは、どうやってうまく機能させたかです。 - この規模では、訓練は調整によって制限されます。通常、ノード間の同期ステップごとに約280GBのデータを押し込むため、分散型トレーニングはほぼ終わってしまいます。 - @tplr_aiそれを~2.2GBに圧縮し、SparseLoCoを使って同期周波数を大幅に削減しました。それを見ると、これまで🤯の試みをすべて潰したコアのボトルネックが取り除かれているのが見えます。 だからこそ、これを「DeepSeekの瞬間」と呼ぶのは誇張ではないと思います。DeepSeekはモデルをより安価に訓練できることを示しました。 テンプラーは中央の調整なしで訓練できることを示しています。 -> それは全く異なる方向性で、こちらは構造的に競争が難しいと感じます。 もう一つ無視しないサインは、Anthropicのジャック・クラークのような人が公にそれを本物の基礎として位置づけているときです: - 私の経験では、そういう承認はたいてい何かがすでに機能した後に来るものであって、それより先にはない。 - まだプレトレーニングだ。AIの本当の強みは、トレーニング後、RLHF、アラインメントループ、つまりモデルが実際に役立つ部分にあります。 テンプラーは次にグレイルでそこに進む予定で、私にとってそれが本当の試練です。もしその層も分散化できれば、もはや分散型の計算ではなく、完全な許可不要のAI生産パイプラインを話していることになります。 テンプラーが際立っているのは、彼らが選んだタイミングと方向性です。 1/ AI業界全体が静かにスケーリングの限界に達している中で、彼らは協調を狙いました。 - それは全く違う賭けで、通常は制約を攻撃する人たちが後で重要になることが多いです。 2/ もう一つ見かけるきっかけは、許可不要の設計です。 - ほとんどの分散型AIシステムは何らかの形で参加を制限しており、ネットワーク効果を早期に潰します。 - テンプラーは最初から完全にオープン化しており、このモデルが機能すれば単に線形にスケールするだけでなく、多くの貢献者や実験、並行して解決する複合体が存在します。 また、ポストトレーニング(RL層)に向けて構築していることから、本当の価値がどこにあるかを理解していることがわかります。 事前トレーニングは注目を集めますが、モデルが使いやすく、粘着性があり、収益化可能になるのはポストトレーニングです。ここで実行すれば、情報層の一部を所有することになります。 3/ これに基づく私の予想: 短期的には、多くの人が過小評価するでしょう。なぜなら、モデルの品質差と中央集権的なラボの比較が簡単な理由になるからです。 しかし時間が経つにつれて、テンプラーは次のようになります。 - オープンAI開発のためのバックエンドレイヤー。 - 分散計算のための調整ネットワーク。 - そして最終的には情報の洗練のための市場へと発展させる。 一晩で支配的ではなく、静かにあらゆるところに根付いています。 そしてそれが実現すれば、誰でも@OpenAIに頼りたくないときに構築できるシステムになることの利点が生まれます。
@tplr_ai @AlgodTrading @CryptoWizardd @CryptoGodJohn @QuintenFrancois @Tanaka_L2 @Eli5defi @andyyy @MilkRoad @eliz883 👍
3.38K