GMO Developers Day 2022｜プライバシー保護連合学習技術と活用方法について / 開発者向けブログ・イベント

GMOインターネットグループが、12月6日（火）～7日（水）の2日間にわたり開催した「GMO Developers Day 2022」。東京・渋谷フクラスにおけるリアル登壇とオンライン配信のセッションを組み合わせたハイブリッドで開催された今回のイベントでは、Web3、AI、セキュリティ、クリエイティブといった「技術の拡張（Add on）」を、スペシャリストたちが紹介しました。

今回はその中から、「プライバシー保護連合学習技術と活用方法について」と題したオンラインセッションをお届けします。登場するのはGMOサイバーセキュリティ byイエラエ株式会社から、AI開発部スペシャリストの伊藤一明です。

登壇者

伊藤一明
GMOサイバーセキュリティ by イエラエ株式会社
AI開発部スペシャリスト

連合学習に暗号技術を「Add on」したDeepProtect

インターネット技術の中でもサイバーセキュリティなどに関する事業を展開するGMOサイバーセキュリティ byイエラエ。「誰もが犠牲にならない社会を創る～デジタルネイティブの時代を生きるすべての人が安全に暮らせる社会作りに貢献します～」をミッション＆バリューとして掲げています。

現代の課題の1つとして、伊藤は「複数の組織がデータを持ち寄って分析しないと解決できない課題に対して、データを共有したり開示したりできないという二律背反がある」と指摘します。

これを解決するための技術としてイエラエ社が社会実証・ビジネス化を進めているのが、連合学習と呼ばれる機械学習の手法に、暗号化したまま計算できる特性を持つ準同型暗号を「アドオン」したプライバシー保護連合学習技術である「DeepProtect」です。複数の組織が持つデータセットを互いに秘匿し、プライバシーや機密性を保ったまま共同で機械学習を行える、独自のプライバシー保護連合学習技術となります。

では、そのDeepProtectとはどんな技術でしょうか。

鍵となる技術である「連合学習」は、2017年にGoogleが提唱した機械学習モデルの手法です。Googleでは、キーボードアプリである「Gboard」の予測変換の精度向上に活用しています。

この技術は、機械学習に必要な学習用データを、1つの拠点やサーバに集約せずに作成できるという点が最大の特徴です。散在した学習用データを使っても、作成されたモデルは集約した場合と同等の性能があるとされています。

例えばGboardでは、各スマートフォン上で入力されたテキストデータと入力サジェストのクリック状況等から学習データを生成するのですが、キーボードで入力された文字列やクリック状況は機密性の高いデータになります。この学習データから機械学習を実行し更新モデルを作成するのですが、ここまではGboardをインストールしたスマートフォン内で行われ、学習データはローカルにとどまっています。

その後、更新モデルの差分情報のみがクラウドに送信され、他のユーザーの更新モデルと平均化されて、すべてのユーザーで共有する共有モデルを作成、改善されたモデルを再び共有します。これが個々のスマートフォンにダウンロードされて、再びローカルでの改善、更新モデルの作成に活用されます。これが繰り返されることで、キーボード入力の予測精度が向上する、というのがGboardの連合学習です。学習データ自体はスマートフォン内にとどまり、サーバに集約する必要がありません。

Gboardにおける連合学習の概念図。ローカル内で学習、改善、更新モデルの作成というサイクルを回しつつ、差分情報だけをクラウドに集約して、共有するためのモデルを作成、改善していきます。google資料「Federated Learning: Collaborative Machine Learning without Centralized Training Data」より抜粋

このように、学習モデルを作成する際には個人情報を含むデータの送信が行われず、学習によって得られた差分パラメータ（勾配情報）のみを送信することで、個人情報などの機密データを開示することなく学習モデルを構築できるのが連合学習です。

送信されるのは、プライバシーに関わるような個人情報などではなく、学習モデルの差分パラメータ（勾配情報）のみになります

これに「アドオン」する準同型暗号は、その名の通り代数学で知られる「準同型（homomorphic）」の性質を持った暗号方式です。暗号化されたデータに対して加算や乗算といった演算を行った場合、復号した結果が、暗号化しない場合と同じデータ演算結果になる暗号方式です。

例えばEnc(m_1)とEnc(m_2)という暗号化されたデータがあった場合、復号をしない状態でEnc(m_1+m_2)、Enc(m_1×m_2)といった計算が可能で、復号した結果は、もともとの暗号化されていないデータの演算結果と同じとなっています。こうした特性から、暗号化した状態で中身を隠したままデータ処理ができるわけです。

連合学習技術と準同型暗号を組み合わせると、学習モデルの勾配情報を暗号化したまま計算して、その結果を集約して更新するため、データの漏えいを防ぐことができます。送信されるのが勾配情報に限られる上にそのデータは暗号化されているので、中身を見ることができないからです。

厳格なセキュリティ、プライバシー保護によって、組織を横断したデータの利活用が妨げられるという課題に対して、プライバシー保護連合学習技術の「DeepProtect」であれば、個人情報などの機密性の高いデータを開示しなくても、組織を横断したデータ利活用が可能になります。

金融機関における不正取引検知で利用に期待

実例を見てみましょう。JST CRESTでの実証実験として、金融機関における不正取引検知でDeepProtectが活用されました。複数の銀行のデータを使って不正検知の学習モデルを作成するには、これまでは各銀行のデータを集約する必要がありました。口座情報や取引履歴などが含まれるため、通常は外部に出せない情報です。

DeepProtectでは、各銀行内で学習したモデルの勾配情報のみを暗号化し、中央サーバへアップロードします。中央サーバでは集約された勾配情報を、準同型暗号によって暗号化されたまま統合し、集約された勾配情報として更新をします。

各銀行では、この更新された学習モデルをダウンロードして、それぞれの学習モデルをまた更新します。このサイクルを繰り返すことで、精度の高い学習モデルが共同で構築できます。1つの銀行のデータだけではなく、複数の銀行のデータによる連合学習モデルを構築することで、より精度の高い不正取引検知ができるというわけです。

DeepProtectの実例として、金融機関の不正取引検知での概念図。それぞれの銀行の学習モデルの差分パラメータのみを暗号化、中央サーバにアップロードし、集約した差分パラメータを使って学習モデルを更新

実データ自体は外部に送信されず、あくまで差分パラメータという勾配情報のみが、しかも暗号化されたまま処理されるため、データの機密性やプライバシーが確保されているというのがメリットです。

実証実験の結果は、各銀行での被害取引の検知率で比較されています。1つの銀行のデータだけを用いた個別学習モデルと、DeepProtectの連合学習モデルを使った検知精度の比較では、検知率が個別の84％に対して85.3％と、1.3ポイントの向上が見られました。個別学習モデルでは検知できなかった不正取引が検知された事例も確認されました。

銀行における不正取引の被害額は、把握されているものだけで約300億円程度とみられており、1ポイントの向上で3億円程度の不正が防げるということになります。表に出ている被害額は氷山の一角とも言われていますので、実際はもっと被害額を減らせる効果があると考えられます。

実証実験で示されたDeepProtectの高いポテンシャル

不正取得された口座が振り込め詐欺などの金融犯罪に使われる、といった加害取引検知の実証実験では、個別学習モデル単独と、個別学習モデルと連合学習モデルを組み合わせたハイブリッドモデルで検証。加害取引が検知されるとその口座を凍結するのですが、その口座凍結が個別学習モデルと比べて20～50週程度、早く検知できていたそうです。検知率も個別学習モデルで78.9％が、ハイブリッドモデルだと94.7％で15.8ポイントの向上。実証実験によって、DeepProtectの高いポテンシャルが証明されました。

金融機関に対する攻撃は複雑化、巧妙化しています。マネーロンダリングや不正送金、振り込め詐欺などが相次ぐ中、単独のデータだけでは不正対策が間に合わなくなっています。複数の金融機関にまたがってデータの解析を行うことで、不正の検知率が向上すれば、犯罪を未然に防ぐ可能性が高まります。

そのほかにも様々な分野での応用が期待されます。例えば医療・ライフサイエンスの分野では、ウェアラブルデバイスの普及で計測できるバイタルデータが急拡大。電子カルテシステムなどの環境整備も進み、大量のデータが収集されています。こうした極めて機密性の高いデータでも、セキュアに複数の機関やデバイスをまたいだ統合分析が可能になり、医療やライフサイエンスの進歩に貢献できる、と伊藤は話します。

マーケティング分野では、単独企業だけでなくグループ企業や業界内を横断した豊富なデータをベースにした学習モデルを構築。詳細なインサイトやターゲットの発見といった精度の高い分析の実現が期待できる、としています。

製造現場でも貢献できそうです。IoTの導入が進んだ製造現場では、AIを使ったデータ分析も始まっています。これによって、設備などの故障予知、部品の品質管理、製品の異常検知などの分野で活用が期待されています。こうした分析には、1社、1工場のデータだけでは不十分なので、複数企業の工場データを活用できるDeepProtectが「課題解決を支援します」と伊藤は言います。

サービスの分野にも応用できます。電力やガスなどの公益サービスでの需給バランスの最適化、自動翻訳、スパムメールの検出、カスタマーサービスのチャットボット、バーチャルアシスタントサービス、自律走行を制御する車両運行システムなど、伊藤は様々なサービスでの利用を例に挙げ、広く活用が期待できるとアピールします。

さいごに

もともと今回の技術「DeepProtect」は、発明した情報通信研究機構（NICT）から技術移転された（ニュースリリース：https://www.nict.go.jp/press/2022/03/17-1.html）もので、サイバーセキュリティや暗号技術、機械学習に関して高い技術力を持つことからイエラエ社が移転先として選ばれました。社会実証やビジネス化を進めていますが、伊藤は、幅広い分野の多くの課題を解決できる可能性がある技術として、「今後に是非とも期待して欲しい」と締めくくりました。