GitHubにコード上げたら逮捕される？ — AI規制がOSS開発者を追い詰める未来

大規模言語モデル（LLM）の急速な発展は、オープンソースの定義そのものを揺るがしている。「オープンソースAI」を謳うモデルの多くは、従来のOSSライセンスとは異なる独自の利用規約を設けている。開発者がこれらのモデルを使ってプロダクトを構築する際、ライセンスの理解不足は法的リスクに直結する。この記事では、2026年時点でのLLMライセンスの現状と、開発者が知っておくべき法的課題を整理する。

「オープンソースAI」の定義問題

Open Source Initiative（OSI）は2024年10月にOpen Source AI Definition（OSAID）v1.0を公開した。これにより「オープンソースAI」を名乗るための基準が初めて明確化された。しかし、この定義は議論を呼んでいる。

OSAIDの要件

モデルの重み（weights）が自由に利用・修正・再配布できること
学習コードが公開されていること
学習データの詳細な情報（Data Information）が公開されていること
これらがOSI承認のライセンスの下で提供されること

注目すべきは、学習データそのものの公開は必須要件とされなかったことだ。「学習データの情報（何のデータを使ったかの説明）」で足りるとされた。この妥協は、大規模な学習データの公開が現実的に困難であること、著作権上の問題があることを考慮した結果だが、「本当にそれでオープンソースと呼べるのか」という批判が絶えない。

主要LLMのライセンス比較

Apache 2.0ライセンス系

Google Gemma 2: Apache 2.0。商用利用、修正、再配布が自由。最も制約が少ない
Mistral系モデル: Apache 2.0。ただしMistral Largeなどの上位モデルは独自ライセンス
Microsoft Phi-3: MIT License。Apache 2.0と同等の自由度

Apache 2.0はOSI承認のライセンスであり、従来のOSSと同じ感覚で利用できる。特許条項も含まれており、貢献者からの特許訴訟リスクが軽減される。

Meta Llama系: 独自ライセンス

Meta Llama 3.1以降は「Llama Community License Agreement」で配布されている。一見オープンに見えるが、重要な制限がある。

月間アクティブユーザー7億人を超えるサービスでの利用にはMetaの個別許諾が必要
Llamaの出力を使って他のLLMを学習させることは禁止
Metaのブランドガイドラインに従う必要がある
「Acceptable Use Policy」により、特定の用途が禁止されている

OSIはLlama Community LicenseをOSI承認ライセンスとは認めていない。したがって、Llamaは厳密には「オープンソース」ではない。Metaは「open weight model」という表現を使っている。

Stability AI系

Stable Diffusion: 初期バージョンはCreativeML Open RAIL-Mライセンスで配布
RAIL（Responsible AI License）は利用目的に制限を設ける「responsible use」条項を含む
暴力的・差別的なコンテンツの生成に使用することが禁止されている
OSI承認ライセンスではない

OpenAI: クローズドモデル

GPT-4oなどはAPI経由のみで提供。重みは非公開
利用規約（Terms of Use）と利用ポリシー（Usage Policies）で規制
出力の著作権はユーザーに帰属するとされるが、法的に確定した判例はまだ少ない

開発者が直面する具体的な法的リスク

リスク1: ライセンスのコンタミネーション

複数のモデルやデータセットを組み合わせて使用する場合、ライセンスの互換性が問題になる。例えば、Apache 2.0のモデルとRAILライセンスのモデルをファインチューニングで組み合わせた場合、成果物にはRAILの制限が及ぶ可能性がある。

使用するすべてのモデル・データセットのライセンスを一覧化する
最も制限の厳しいライセンスに合わせてプロダクトの利用条件を設計する
ライセンスの互換性に疑問がある場合は法務に相談する

リスク2: 学習データの著作権問題

LLMの学習データに著作物が含まれている場合、その学習行為自体が著作権侵害に当たるかが世界中で争われている。

米国: New York Times対OpenAI訴訟が進行中。フェアユースの適用範囲が焦点
EU: AI Actのテキスト・データマイニング（TDM）条項。著作権者がオプトアウトしていないデータは学習に利用可能とする立場
日本: 著作権法30条の4により、AI学習は原則として著作権侵害に当たらないとする解釈が有力。ただし「著作権者の利益を不当に害する場合」は例外

開発者のリスクは、自分が学習を行っていなくても、著作権侵害のあるモデルを使用している場合に共同侵害の責任を問われる可能性があることだ。現時点で明確な判例は少ないが、リスクとして認識しておく必要がある。

リスク3: AI生成物の著作権

AIが生成したコード、文章、画像に著作権は発生するのか。この問題は国によって回答が異なる。

米国: 著作権局は「人間の創作的関与がないAI生成物には著作権は発生しない」との立場。ただし、人間がプロンプトを工夫し、出力を選別・編集した場合は部分的に著作権が認められる可能性
EU: 同様に人間の創作的関与を要求する方向
日本: AI生成物の著作権について明確な法改正はまだだが、文化審議会で議論が進行中
中国: 2023年の北京インターネット裁判所の判決で、AI生成画像に著作権を認めた事例あり

プロダクト開発の観点では、AI生成コードに著作権が発生しない場合、そのコードは誰でも自由に利用できることになる。つまり、競合がAI生成コードをコピーしても法的に止められない可能性がある。

リスク4: EU AI Actへの対応

EU AI Act（2024年施行開始、段階的適用）は、AIシステムをリスクレベルに分類し、それぞれに異なる規制を課す。

禁止されるAIシステム: ソーシャルスコアリング、リアルタイム遠隔生体認証など（2025年2月から適用）
ハイリスクAI: 採用選考、信用スコアリング、法執行など。適合性評価、技術文書作成、人間の監視が必要
汎用目的AIモデル（GPAI）: LLMプロバイダに透明性義務。学習データの著作権対応、技術文書公開、EU法との整合性確保
システミックリスクのあるGPAI: さらに厳格な評価義務。レッドチーミング、インシデント報告など

EU市場向けにAIプロダクトを提供する場合、これらの規制への対応は避けて通れない。特に、サードパーティのLLMをプロダクトに組み込む場合、そのLLMプロバイダがGPAI義務を遵守しているか確認する必要がある。

実務上の対応策

ライセンス管理の仕組みを作る

ソフトウェアのSBOM（Software Bill of Materials）と同様に、使用するAIモデルの「AI BOM」を管理する仕組みが必要だ。

使用するモデル名、バージョン、ライセンスの一覧を管理する
ライセンスの制約事項を開発チーム全体で共有する
モデルの更新時にライセンスが変更されていないか確認する
可能であれば、ライセンスチェックをCI/CDパイプラインに組み込む

利用規約の設計

AIを活用したプロダクトの利用規約には、以下の事項を含めることを推奨する。

AIが生成した内容の正確性に関する免責事項
AIの利用に関する透明性（どの部分にAIが使われているかの説明）
ユーザー入力データのAI学習への利用有無
出力物の著作権帰属に関する条項

技術的対策

モデルの出力をフィルタリングし、著作物の直接的な再現を防止する
ファインチューニング時の学習データの来歴（provenance）を記録する
EU AI Act対応として、モデルの動作ログと監査証跡を保持する
ガードレールの実装: コンテンツフィルタリング、有害出力の検出と遮断

OSSコミュニティへの影響

LLMのライセンス問題は、OSSコミュニティの文化にも影響を与えている。

「オープンウォッシング」への警戒: 実質的にはオープンでないモデルが「オープンソース」を名乗ることへの批判
ライセンスの分断: OSS純粋主義者とpragmatic camp（実用主義者）の対立
コントリビューションの法的リスク: OSSプロジェクトにAI生成コードが混入した場合のライセンス汚染リスク
CLA（Contributor License Agreement）の見直し: AI生成コードの取り扱いをCLAに明記する動きが出ている

今後の展望

AI規制は2026年以降も急速に進化する。開発者が注視すべきポイントは以下だ。

米国のAI規制: バイデン政権のAI Executive Orderを受けた立法動向。州レベルではカリフォルニアSB 1047が議論を呼んだ
日本のAI規制: 内閣府のAI戦略会議による規制枠組みの検討。EUほど厳格にはならない見通しだが、特定セクター（金融、医療）での規制強化は必至
国際的なハーモナイゼーション: G7広島AIプロセスの成果を踏まえた国際ルール形成
技術の進化による規制の変化: マルチモーダルAI、エージェントAIの台頭に伴い、既存の規制枠組みでは対応しきれない新たな課題が生じる

オープンソースの精神は「自由」にある。しかし、AIの領域では「自由」と「責任」のバランスが従来のソフトウェアよりもはるかに複雑だ。開発者は、コードをpushする前にライセンスを読む習慣を身につけてほしい。README.mdの次に読むべきファイルはLICENSEだ。

AI規制の全体像はまだ固まっていない。しかし、だからこそ今から準備することに意味がある。法規制が確定してから慌てて対応するのではなく、リスクを認識し、管理する仕組みを早い段階で構築しておくことが、長期的な開発速度とビジネスの安定性を両立させる鍵だ。