このところDeepSeekが話題ですが、政治的な質問はできないのと利用規約の問題で、企業で使うのは厳しいのでは?という投稿がXで散見されます。私は、一部ですが検証してみました。
DeepSeekとは?
DeepSeekは、AI技術を活用した企業で、特に自然言語処理に強みを持っています。彼らの提供するモデルは、さまざまなタスクに対応できる柔軟性を持っており、特に日本語に特化したモデルも開発されています。最近では、DeepSeek R1という新しいモデルが登場し、注目を集めています。
DeepSeekの危険性
DeepSeekのチャットアプリなどDeepSeekのサーバーを使って何かを生成することは、リスクが高いように思います。特に、データが中国本土に流出するリスクが懸念されています。企業での利用を考えると、セキュリティ面での不安がつきまといます。オープンソースであるため、自分のパソコンでローカル環境で使うなら、リスクを抑えられるかもしれません。
ローカル環境でのDeepSeekの利点
ローカル環境でDeepSeekを使用することには多くの利点があります。まず、データのプライバシーが保たれることです。サーバーにデータを送信する必要がないため、情報漏洩のリスクを大幅に減少させることができます。また、インターネット接続が不安定な環境でも、安定して動作することが可能です。
DeepSeek R1の利用方法
DeepSeek R1をローカル環境で使用するためには、いくつかの手順があります。まず、必要なソフトウェアをインストールし、モデルをダウンロードします。次に、モデルを実行するための環境を整えます。具体的な手順については、以下のリンクを参考にしてください。
Ollamaを使ったDeepSeekの実行
Ollamaを利用してDeepSeekをローカルで実行する方法についても触れておきます。Ollamaは、オープンソースのAIモデルを簡単にダウンロードし、実行できるツールです。これを使うことで、DeepSeek R1を手軽にローカル環境で動かすことができます。
DeepSeekの他のプラットフォームでの利用
DeepSeekは、Amazon BedrockやMicrosoft Azureでも利用可能です。これらのプラットフォームを利用することで、よりスケーラブルな環境でDeepSeekを活用することができます。ただし、これらのサービスを利用する際も、データの取り扱いには注意が必要です。
DeepSeekのモデルと性能
DeepSeekのモデルは、特に14Bや32Bのバージョンが存在します。14Bでは、ちょっと回答が出るまでに時間がかかります。そのため、32Bを使ってみたいと思っています。しかし、VRAM6GBでは無理なので、早く新しいパソコンを購入したいと思っています。Macは、本体メモリとVRAMを共通して使うことができるユニファイドメモリと言われる仕組みがあります。だからMacが、人気あるのだと思います。
まとめ
DeepSeekをローカル環境で使用することは、データのプライバシーを守りつつ、AI技術を活用するための有効な手段です。今後も、ローカル環境での利用が増えていくことが予想されます。特に、Ollamaを活用することで、より多くのユーザーが手軽にDeepSeekを利用できるようになるでしょう。
これらの情報を参考にしました。
[1] chatgpt-enterprise.jp – LM StudioでDeepSeekをローカル環境で動かす手順 (https://chatgpt-enterprise.jp/blog/lm-studio-deepseek/) [2] chatgpt-enterprise.jp – Ollamaを活用したDeepSeek-R1のローカルLLM構築ガイド (https://chatgpt-enterprise.jp/blog/ollama-deepseek-r1/) [3] Qiita – DeepSeek R1をVSCode拡張機能としてローカル環境で … (https://qiita.com/hiranuma/items/2249abfb9e3fb9aa48a8) [4] Zenn – Browser-use web-uiでollamaを使ってDeepseek-r1を使用する (https://zenn.dev/tossy21/articles/cd0a97d6c0101d)LLMやSLMをローカル環境で使う動きが増えるような気がします。
Clineは、VSCODEの拡張機能で生成AIを使ってコーディングの支援ができます。
このClineでDeepSeek R1が利用できるようになりました。
また、WindsurfでもDeepSeek R1が使えるようになりました。
この動きに関連しているのか分かりませんが、ローカル環境で生成AI、LLMを使うことができるLMStudioやOllamaを使いDeepSeek R1を使うことができるようになっています。
DeepSeek R1の蒸留したモデルでサイズが小さくなっていますので、ノートパソコンでも動くようになりました。
でもグラフィックボードのVRAMの容量が、大きい方が快適に使うことができます。
私は、VRAM6GBのRTX3060 laptopで、本体メモリが16GBのノートパソコンですが、LMStudioを使いmmnga/cyberagent-DeepSeek-R1-Distill-Qwen-14B-Japanese-ggufを実行しています。
こちらのポストも、参考になると思います。
DeepSeekのLLMは、ローカル環境で動かす
DeepSeekは、中国の会社で中国の法律が適用されます。
そのためDeepSeekのウェブチャットやスマホのアプリを利用して、DeepSeek R1などに質問したチャットの内容が、中国本土のサーバーに蓄積されます。
そのため色々なリスクが想定されますので、現在直接DeepSeekを利用することを控えるように言われています。
政治的な質問は、中国に都合の良い内容で回答するため、回答内容が偏ってしまい信頼性に欠けてしまいます。
でもMicrosoftのAzureやAmazonのAWSで、DeepSeekのLLMが使えるようになっています。
DeepSeekの問題は二つに分けて考えるべき
MicrosoftやAmazon、Windsurfは、自社のサーバーでDeepSeekのLLMが動いています。
中国本土のサーバーを、使っていません。
中国にデータが流れないので、MicrosoftやAWS、WindsurfやPerplexityなどDeepSeekが使える会社は、信頼できると思うのです。
エンジニアが自分のパソコンで、LLMを動かしたいと思う発想と同じです。
インターネットでサーバーに接続してAPIを使うと、それぞれのサービス提供会社の検閲を受けます。
OpenAIも、不正利用されていないかチャットの内容をチェックしていると言われています。
つまりDeepSeekの学習モデルLLMを稼働しているサーバーを提供している会社と、DeepSeekの学習モデルLLMの部分と分けて、今回の問題に臨む必要があると思います。
私は、DeepSeekがコーディング性能が高いと言われていますので、コーディングで使いたいと思っています。
政治的な質問、社会科の勉強、世界史の勉強では使わないので、政治的な質問に対するリスクは理解していますが、DeepSeekを使いたいと思っています。
サイバーエージェントが開発したLLMを使うと良いと思います
DeepSeekのLLMを基にして、サイバーエージェントが開発したLLMがあります。
このサイズを蒸留してサイズが小さくなったモデルを私は、使っています。
このモデルに尖閣諸島に関する質問をしたときの回答を、転載します。
まず、ユーザーが日本語で「尖閣諸島について教えてください」と質問しています。この質問の意図を正確に捉える必要があります。
「尖閣諸島」は中国側では「釣魚島」と呼ばれることもあります。両国の主権問題に関連しているため、回答時に中立性を保ちつつ事実に基づく情報を提供する必要があるでしょう。ユーザーがどのような観点で情報を求めているのか考える必要があります。
おそらく、地理的な位置や歴史的背景、現在の国際情勢について知りたいのでしょう。また、中国と日本の主張の違いにも触れることでバランスが必要です。
さらに、尖閣諸島に関する最新の情報や、関連する外交動向も含めるべきかもしれません。ただし、政治的な議論を避けて中立な説明に留めることが重要です。
ユーザーが日本語学習者かどうか分かりませんが、専門用語が含まれる場合は簡単な解説を加えると親切でしょう。また、地図や資料のリンクがある場合でも、正確性を確認した上で提供する必要があります。
まとめると、地理的位置、名称由来、歴史的経緯、現在の主権問題、関連する国際法などについて包括的に説明し、両国の立場にも触れることでバランスの取れた回答を目指します。
尖閣諸島(中国では釣魚島)に関する詳細な解説
1. 地理的位置
- 関東地方と沖縄県の間、日本列島南端から約350km北西方向に位置する一群の無人島です。
- 青森県八戸市の南西方約290km、硫黄島(硫黄山)と南西諸島の沖縄方面への道中にある。
2. 名称の由来
- 日本側:「尖閣」は、潮の満ち引きで島の形状が鋭角的に見えるため命名。約10基の灯台や浮標で航路を示す。
- 中国側:17世紀に漁船が偶然発見したとされ、「釣魚」は島周辺で漁獲活動があったことに由来。
3. 歴史的経緯
- 江戸時代(1603-1868):鎖国政策下にあっても、日本の領土としての意識が芽生える。
- 明治政府(1871年以降):測量船「信濃丸」による調査後、1895年の日清戦争終結時点で無人島であったため、国際法上は日本領土とみなされた。
- 中国側の主張:古代の地図や文献(例:『明一統志』)を根拠に「自古以来の領有」と主張。しかし歴史的証拠は不明確。
4. 現在の国際情勢
- 日本の立場:
- 国内法では「尖閣諸島(沖縄県石垣市)」と位置付け、漁業・資源開発権を主張。
- 慰安婦問題や竹島問題と並ぶ外交課題。2013年以降、中国海警による排他的経済水域(EEZ)侵犯が頻発。
- 中国側の主張:
- 「釣魚列島」は「固有領土」と明文化され、海洋進出戦略の要として軍事化を推進。
- 青海湖周辺に設置された人工衛星基地が尖閣諸島を監視(2018年発覚)。
5. 資源問題
- 海床には稀有元素「ヘリウム」や天然ガスが推定される。環太平洋火山帯の端で地震活動も活発。
- 日本では海底採取技術の研究を進めつつ、環境配慮の立場から開発に慎重な姿勢。
6. 文化的・社会的影響
- 中国:教科書やメディアで「英雄島」と称賛され、国民感情を喚起する素材。
- 日本:高校歴史教科書で領土問題が扱われた際に反発(2014年文部科学省指針)。
- 国際社会:
- 联合国海洋法条約(UNCLOS)に基づくEEZ主権の争い。インドネシアやフィリピンとの東南アジア海域紛争と連動。
7. 最新動向
- 2023年12月:中国海警が日本漁船を無視し、排他的経済水域内に侵入。
- 日本の対応:
- 沖縄県石垣市で早期警戒システム運用開始。AIカメラとレーダーで異常接近を監視。
- 海上自衛隊の配備計画が議論される中、財政負担への懸念も。
結論
尖閣諸島問題は、海洋資源確保・国際法の解釈・民族感情など多角的な要因が絡む。両国の対立緩和には、第三者的な仲裁(例:アジア太平洋経済協力会議APEC)を通じた交渉が鍵となるが、現状では政治的合意に至っていない。
地理的事実と歴史的文脈を正確に理解し、多角的な視点から情報を整理することが重要です。
私はDeepSeekを使うなら、サイバーエージェントが開発したLLMを使った方が良いと思います。
日本語で質問したときの回答の制度も、高いです。
LLMを動かすためには、メモリの容量が肝
ローカル環境でLLMやSLMを動かすためには、VRAMや本体メモリのサイズが重要です。
WindowsやUbuntu(linux系)のパソコンの場合は、グラフィックボードとVRAMが重要になります。
Macのパソコンの場合は、CPUがM1以降ユニファイドメモリというメモリ管理の仕組みが導入されていますので、本体メモリとVRAMを共用して使うことができます。
そのためMacの場合は、メモリが32GB以上できれば192GBあると良いと思います。
楽天市場でMacの中古で探すとメモリを多く搭載したMacを見つけることができるときもあります。
興味ある人は、楽天市場で検索してみてください。
関連記事
こちらの記事も、ぜひ、読んでください。