サッとぶ

日々の徒然。自分用メモなど。

DeepSeek R1が何故OSSとして発表されたか

タイトルについてだが、これは「R1は米国の輸出規制が無ければ開発しえなかった。つまり輸出規制は逆効果だ!」という事をアメリカに(そして全世界に)喧伝する為だったのでは?という考察。

なぜなら米国の輸出規制のおかげでdeepseekは安くて性能の低いチップを使うしかなく、結果的に中間命令セットであるPTXを使用するしか無くなって、その方向で学習効率を上げようと努力したからだ。そして低コストでo1に匹敵するモデルを開発するに至った。

OSSとして発表する事でこの事実に説得力が生まれるし、また世界の注目も集めやすいと思える。(もちろん世界中でこの方向性で研究開発が進んでその成果を自分達も利用したい、という事も大きいとは思うがそれはOSSでは当たり前なので割愛)

ただしPTX(Parallel Thread Execution)はNVIDIA用のチップ向けに開発されたものなので依然としてNVIDIAのチップは必要である。

 

なお一部でRLHFが不要というコメントがあるが(というか俺もそれを言ってたが)実際には最終調整で人間によるファインチューニング(RLHF)はされてる模様。

 

以下はAIと壁打ちしたりyoutubeのdeepseek関連動画を見てまとめた自分用のメモ。

 

R1(671B (37B activated))はopenAIのo1相当だがo3(まだ一般人は利用できない。もうすぐリリース予定)には及ばない。

o3-mini は o1 よりも高性能で o1-mini よりも約4倍高速らしい。o3-miniは1/31ぐらいにリリース予定らしい。

なおo1-miniはSTEM分野に特化してるのでこの領域ではo1を超えるが、R1はo1-miniより数学の性能が高い。(R1はAIME 2024で79.8%、MATH-500で97.3%のスコアを達成しo1-miniはAIME 2024で63.6%、MATH-500で80.0%のスコアを記録)

 

R1がなぜ出現したのか、は米国の輸出規制による所が大きい。これによって最高性能のチップの利用を制限された中国は別のルートで山を登る事になった。その中でもdeepseekは低い性能のチップをもっと効率よく利用できないか、という方向に全力で舵を切った。その結果想定以上の「安いチップで学習した低コストなモデル」が「最高性能のチップを大量に使って学習された最高性能のモデル」に匹敵する事がわかる結果になった。AIはまだまだ掘られていない場所が多く、今回の快挙も「偶然ここを掘ったらすごい結果が出た」という理解が一番近いと思われる。なので「輸出規制のおかげ」と言える。

なおByteDanceは2025年1月22日に、新しいAIモデル「Doubao-1.5-pro」を発表したが、こちらはサービスとして利用するものでOSSではない。性能はo1に匹敵し利用料金はo1の200分の1だが中国国内からしか利用できない可能性がある。

またAlibabaのQwen2.5は以下がOSSとして公開されていて
Qwen 2.5: 0.5B, 1.5B, 3B, 7B, 14B, 32B, 72B
Qwen 2.5-Coder: 0.5B, 1.5B, 3B, 7B, 14B, 32B
Qwen 2.5-Math: 1.5B, 7B, 72B
以下は非OSSで無料で試せるが基本的には有料。
Qwen 2.5-Max、Qwen 2.5-Turbo、Qwen 2.5-Plus

 

DeepSeek R1以降に中国の主要企業が発表したAIモデルを比較した表

企業 モデル名 性能 利用料金 開発コスト 特徴
DeepSeek R1 ChatGPT-o1 Miniと同等以上 入力100万トークンあたり$0.55、出力100万トークンあたり$2.19 約600万ドル コスト効率が非常に高い1
Alibaba Qwen 2.5-Max DeepSeek-V3やGPT-4oを上回ると主張 不明 不明 多くのベンチマークでDeepSeek-V3を上回ると主張
ByteDance Doubao 1.5 Pro ChatGPT-4oを上回ると主張 不明 低コスト 知識保持、コーディング、推論、中国語処理に優れる
Baidu Ernie Bot 4.0 詳細不明 不明 不明 中国市場で人気
Tencent Hunyuan 企業向けに最適化 不明 不明 効率性とコスト効果を重視

 

R1 (671B (37B activated))はNVIDIA H100 80GB GPU(約600万円) x 4台以上で動作可能。4台なら2500万円以下。しかしその他RAMやNVMeSSDや膨大な電気代も必要なので常時稼働だと月額1000万円ぐらいは必要になるのかも。
R1-Distill-Qwen-32Bは4oと同等程度?o1-miniより少し上?GPT-4以上ではある。
Llama3.3ベースのDeepSeek-R1-Distill-Llama-70Bは GPT-4相当の性能。
これはRTX4090(30万円ぐらい)で動作する。

R1-Distill-Qwen-32B はRTX3090でもギリギリ動作するかも?非推奨。適切な量子化されたモデルなら動作する可能性は高い。

例えばサイバーエージェントが公開したR1-Distill-Qwen-32B-Japanese はQ4_KやQ4_K_Mなどの量子化フォーマットが適用されている可能性があり RTX3080でも動作する。ただし素のR1-Distill-Qwen-32Bより性能が劣化している可能性が高い。
DeepSeek-R1-Distill-Qwen-14BはGPT-3.5Turbo相当でRTX3080で動作する。

 

注意すべきはR1(o1-miniやo3-miniも)はLLMであってマルチモーダルではない点。o1やo3はマルチモーダル。
deepseekのJanus-Proはマルチモーダルだが何故か画像生成でしか他のモデルとの比較が無い。R1をマルチモーダル化するには多くの壁がある。

LLMよりマルチモーダルの方がAIエンジニア(自律的にPCを操作して環境構築や開発などを実行できるAI)として使う場合はかなり有利。なぜならGUIのPCは視覚的なインターフェースが多いのでそれを理解して操作するにはマルチモーダルな能力が必須になるから。ただしCUIだけ(Linuxターミナルなど)で開発をするならLLMの方が有利になる場面もある。しかし俺はゲーム開発に使いたいので視覚的な画面を理解できるマルチモーダルじゃないと厳しそう。deepseekの目標はAGIの開発なのでマルチモーダルなR1もそのうちOSSで出してくれる(deepseekはクローズドソースにはしないと明言してる)と期待したい。

 

R1はSFT(Supervised Fine-Tuning)を使って色んな専門家を内部に生成し、
推論時は質問文に対応する一部の専門家だけで回答する事で計算コストを下げている。
SFTと強化学習を繰り返して学習し低コスト化と高性能化を両立している。

なおR1-Zeroというモデルもあり、これは人間(RLHF)やSFTが介入せず
純粋に機械学習(RLフライホイール)のみが使われた。
結果として回答文が意味不明だったり言語のちゃんぽんが起きたりする可読性の問題があった。シンギュラリティサロンというyoutubeチャンネルの動画で松田神戸大学名誉教授が「物理法則だけ与えてあとはRLだけで強化学習を進めていけば人間が生成したテキストで人間を超えようとするより(アルファ碁が囲碁のルールだけ与えて強化学習し人間を超えたように)可能性が高いかも」と発言していて興味深かった。
なおR1はこの回答文意味不明問題を回避する為にSFTとRLフライホイールを組み合わせて最終調整でRLHFも利用している。

RLHFによる人間の介入は最終調整時のみなのでo1などと比べて圧倒的に効率よく低コストで開発できる。学習コストは約560万ドルから600万ドルの範囲なので8~10億円程度。ただし実際の総開発コストは、R&Dや人件費を含めると約1億ドル(約155億円)に達する可能性があるという推測もある。

回答文を生成する時はChain of Thought(CoT)の内容を公開してから最終的な回答文を出す。CoTの内容を全て読めるので非常に面白くて一部界隈で人気が出てる。

これまでAI開発は「学習こそが大事」だったが「学習時にも推論し、それによって強化学習する」ので推論も大事になってきていた。R1は推論コストも下げているので結果として学習コストも下がるという事が画期的。

 

R1がOSSとして発表された事はメリットも大きいがデメリットもある。
一番大きなデメリットとして北朝鮮やロシアなどのテロ支援国家が制限を解除した最強のAIを簡単に利用できてヤバい推論をしまくれる点。
例えば画期的で低コストな細菌や毒ガス、コンピュータウイルスの開発などが容易にできてしまう。

OpenAIがすごく閉鎖的な方向に進んでいる中、閉鎖的な国家からOSSが出て来たのも非常に皮肉な結果になっている。

R1の発表は1/20でトランプ大統領ソフトバンクとOpenAIを巻き込んだスターゲート計画を発表したのが1/21なので一部で言われている「スターゲートが発表された直後にR1の発表というのはタイミングを合わせて来た」という陰謀論(?)は少し微妙。

 

今後の展開だが、NVIDIAのチップが不要になるような技術が開発できたら中国にとって次のブレークスルーになるだろう。もしくは FPGAや専用のASICが出てくる事でこれを達成するかもしれない。中国への輸出規制を続けるとこれらの開発に拍車がかかるだろう。もしかするとDoubao-1.5-proなどはすでにASICが利用されているかもしれない。ただ、そうすると、その情報をByteDanceが公表していない理由が不明だ。公表した方が米国への牽制になりそうなので、この可能性は低いか?

また一方でDeepSeekにはOpenAIのように最高性能のAIを開発する能力は無く、あくまでOpenAIの成果を利用して追いついているだけ、という見方もある模様。

米国の動向だがdeepseek r1を禁止したり規制する方向に進むと思われる。すでにOpenAIのサービスの出力をR1の学習に利用していて、それは規約違反であると指摘されていたり、米海軍ではDeepSeekのAIの利用を禁止する通達が出されていたり、TikTok法をそのままR1にも適用して米国からの利用を禁止する事も検討されており、更にOSSGitHubなどのコード共有プラットフォームから削除しようとする可能性もある。もしコード共有プラットフォームから削除されると日本人が日本から利用する事も制限されてしまうかもしれない。

蛇足だがR1がOpenAIのデータを盗んだみたいな言説はナンセンスだと思う。なぜなら今度は欧米のAI企業が必死にdeepseekの手法を盗む(なんならOpenAIの規約で禁止されてる(もちろんdeepseek側は禁止してない)手法を使う)番だから。つまりお互い様なのでは?という事。そして今度は欧米が過剰に投資して余った計算能力を使ってまたイノベーションが起きたりすると良いなぁ。

 

コメントへの反論や意見など:

何も考えずにOSS化した、というのはあり得ないと思える。なぜならdeepseekは中国政府からも資金援助を受けているから。そして中国はAIを戦略的に重要だと認識しているので重要な技術は隠匿したいはず。それでも公開に踏み切ったのは、、という事をこの記事で伝えたかった。

deepseekがOSSじゃなかったら、というのはDoubao-1.5-proがそれに近いと思う。そこまで注目されてないと思えるが、それは中国国内からしか使えないからかも?

しかしChatHubというサービスを経由すれば(Qwen2.5-Maxなども含めて)使える。Doubao 1.5 Pro | ChatHub

NVIDIAの株価への言及を忘れてた。NVIDIA縛りはまだしばらく続くのでジェボンズパラドックス(資源利用の効率性が上がると安く使えるようになりむしろ需要は増えるみたいな)になり売上が増える可能性はもちろんあると思える。しかしNVIDIA時価総額は高すぎる。そして現在の時価総額が適正価格になる売り上げを出せる頃までにNVIDIA縛りは解除されるのでは?と俺は予想している。

 

何か勘違いしていたり間違いや反論があればブコメかコメントでよろしく!