概要
2025年1月26日、拾象の創設者でありCEOの李広密氏が、DeepSeekに関するクローズドドアの議論会を開催しました。この議論会には、トップクラスのAI研究者、投資家、そして第一線のAI従事者数十人が参加しました。この議論会では、DeepSeekの技術的詳細、組織文化、そして業界に対する短期間、中期、長期の影響について議論され、この「神秘的な東洋の力」のベールを少しでもはがそうとしていました。議論の成果はオープンソースの精神に基づいて公開され、以下はその要点の要約です。
DeepSeekのコアパーソンと技術ルート
創設者兼CEOの梁文鋒
梁文鋒氏はDeepSeekのコアパーソンであり、Sam Altmanとは違い、彼は技術の専門家です。DeepSeekの成功は、部分的にはMoEやo1などのモデルを復現するという早期の技術的なブレイクスルーにかかっています。しかし、資源が限られているDeepSeekは、最も目立つ分野に限られた資源を集中する必要があります。それにもかかわらず、チームの研究能力と文化は依然として優れており、さらに多くの資源を得ることができれば、さらに大きな成果を収めることができるかもしれません。
技術の焦点とリソースの割り当て
DeepSeekは、すべてのエネルギーを非常に狭い分野に集中し、マルチモーダルなど他の方向を放棄しました。この焦点化が成功の鍵となる要素の1つかもしれません。DeepSeekのビジネスモデルは、某种程度上は量化できるものであり、その創設者である梁文鋒氏が設立した別の量化投資会社である幻方は、前の機械学習の産物です。DeepSeekのコア目標は、スマートな発展を促進することであり、商業化を追求することではありません。
技術の詳細と革新
長文脈能力の向上
DeepSeekは長文脈能力において著しい進歩を遂げ、そのLong context 10Kは非常に一般的な方法で実現できます。これは、DeepSeekが技術の実装において効率的で実用的であることを示しています。
ハードウェアリソースとコンプライアンス
DeepSeekが5万枚のGPUカードを保有しているという噂がありますが、実際のハードウェアリソースはそれよりもはるかに少ないかもしれません。DeepSeekはコンプライアンスを重視し、非コンプライアンスのGPUを購入していないため、ハードウェアリソースの規模が制限されています。比較すると、アメリカはGPUの使用がやや粗放的です。
技術の詳細:SFTと蒸留
DeepSeekがもたらした最大の衝撃の1つは、推論レベルではSFT(Supervised Fine-Tuning)を行う必要がないことです。これは、DeepSeekがデータの利用効率とモデルのイテレーション速度において新しいパラダイムを提案している可能性があります。DeepSeek-R1は、一定程度、SFTが蒸留プロセスにおける重要性を証明しています。特にデータ生成とアライメントの段階で。
探索者と追従者
探索者の挑戦と追従者の機会
AIの発展はステップ関数に似ており、追従者の計算力のニーズは大幅に減少しました。探検者は大量のリソースをモデルトレーニングとアーキテクチャの探求に投入する必要がありますが、追従者は既存の成果を利用して、低いコストで技術を追い上げることができます。このパターンはAI分野で特に顕著であり、追従者は既存の技術を最適化することで、リーダーとのギャップを急速に縮めることができます。
技術ルートの選択
技術ルートの選択では、リソースが限られている小企業は効率を重視する必要があるのに対し、大企業はどのようにしてモデルを速く手に入れることができるかに注目しています。この違いは、異なる技術戦略とビジネスモデルにつながります。
データのラベル付けと蒸留
データのラベル付けの重要性
DeepSeekはデータのラベル付けに多大な投資を行っており、梁文鋒氏さえもラベル付けに直接関与しています。データの正確さはモデルの効率にとって非常に重要です。例えば、テスラが自動運転とロボット分野で成功を収めることができたのは、部分的にはその高品質なデータのラベル付けのおかげです。
蒸留の利点と欠点
蒸留技術は、小さなモデルの性能を向上させるかもしれませんが、モデルの多様性が低下し、モデルの上限に影響を与える可能性もあります。それにもかかわらず、蒸留はリソースが限られている場合でも、短期間では効果的な技術ルートの1つです。
未来の展望
技術の分化と新しいアーキテクチャ
2025年には、AI技術が分化し、新しいアーキテクチャや方法が次々と登場するでしょう。Transformerアーキテクチャ以外の他のアーキテクチャの探求は、新しいブレイクスルーをもたらす可能性があります。さらに、強化学習(RL)の可能性はまだ完全には発揮されておらず、今後さらに革新が期待できます。
オープンソースとクローズドソースの対立
DeepSeekのオープンソースモデルは、クローズドソースモデルに挑戦をもたらしました。オープンソースモデルがクローズドソースモデルの性能レベルに達することができれば、クローズドソースモデルの市場は衝撃を受けるかもしれません。オープンソースモデルの低コストと高効率性は、特定の分野で競争力があります。
業界への影響
DeepSeekの登場は、技術的な競争構造だけでなく、業界生態系にも深い影響を与えました。中国がAI分野で持つ強力な実力を証明し、アメリカとの差を縮めました。DeepSeekの成功は、さらに多くの企業や研究機関が新しい技術的な道を探索し、AI技術の急速な発展を促進するかもしれません。
結語
DeepSeekの成功は、技術的なブレイクスルーにあるだけでなく、その背後にあるビジョンと文化にもあります。コア分野に焦点を当て、リソースを最適化し、技術革新を推進することで、DeepSeekはAI分野の発展に新しいアイデアと方法を提供しました。今後、技術が分化し、新しいアーキテクチャが登場するにつれて、DeepSeekは引き続き世界のAIステージで重要な役割を果たし続けるでしょう。
aiスピーキング
ドルフィンAIは言語学習アプリケーションのためのプロフェッショナルな発音評価API(pronunciation assessment api)ソリューションを提供します。音素、単語、文章、チャプター、発音矯正、単語矯正、クイズ、フリーダイアログ、多肢選択問題など幅広く提供しています。当社の発音評価製品(pronunciation assessment)は、英語と中国語、クラウドAPI、オンプレミス、オフラインデバイスの展開をサポートしています。当社の発音評価API(pronunciation assessment api)は、正確性、流暢性、完全性、リズムの次元をカバーする豊富な評価指標を提供し、音素、単語、文の異なるレベルの評価スコアも提供します。また、音素、単語、文の異なるレベルでの評価スコアも提供します。数千万人のユーザーに安定した効率的で安全なサービスを提供しています。ドルフィンAIの発音評価製品(pronunciation assessment)を試してみませんか?