GMO Developers Day 2022｜データサイエンティスト対談～GMOだからできるデータサイエンスとは～ / 開発者向けブログ・イベント

GMOインターネットグループでは、2022年12月6日（火）～7日（水）の2日間、開発者向けテックカンファレンス「GMO Developers Day 2022」を開催しました。

「GMO Developers Day」は、GMOインターネットグループの最新技術を活用した新しい挑戦や、世の中が抱える課題解決への取り組みを、事例を交えて紹介するテック（技術）カンファレンスです。開催3回目となる今年は「Add on 技術の拡張で、新たな世界へ」をコンセプトに、初のオフラインとオンラインのハイブリッド開催で、全34セッションをお届けしました。

GMO Developersではそんな大盛況を収めた同イベントのセッションを紹介していきます。今回は1日目にリアル会場で開催された「データサイエンティスト対談～GMOだからできるデータサイエンスとは～」をご紹介します。

登壇者

スピーカー

財津大夏
GMOペパボ株式会社
技術部データ基盤チーム

大学で統計や社会調査を専攻して2012年にGMOペパボに入社。ホスティングやECサービスのディレクターとしてデータ駆動マーケティングやサービス運用改善に取り組んだ後、2018 年よりデータサイエンティストとして、ログ活用基盤「Bigfoot」の開発とその利用によるサービス改善を進めている。
春田雅也
GMOアドマーケティング株式会社
開発本部開発部チーフ

大学で情報工学を専攻していたが、途中で機械学習について興味を持ち、進学した大学院では機械学習の応用研究を行う。2020年4月にGMOアドマーケティングに新卒入社。GCPをはじめとしたクラウド周りのバックエンドを担当してインプットに励みつつ、主力プロダクトの「AkaNe」の広告配信やアドテクに携わる。一方で、広告最適化の一環として自然言語処理モデルの改修や掲載順位最適化モデル構築など、機械学習エンジニアとしても活躍している。
石地睦
GMOペイメントサービス株式会社
ビジネスインサイト部部長

コンサルタントなどを務めてテック業界で経験を積んできた。2016年に決済処理サービスを提供するGMOペイメントサービスに入社。所属する決済事業推進統括部ビジネスインサイト部は、事業の継続的な成長を支えることをミッションに、決済市場のドラスティックな変化や、サービスを提供する上で日々起こるリアルタイムの課題にスピーディーに対応するため、ビジネスサイドにも寄り添い、データ分析を活かして開発を行っている。

モデレーター

佐野唯一郎
GMOインターネットグループ株式会社
グループ研究開発本部AI研究開発室データ解析 AI研究グループマネージャー

Slerやコンサルタントなどテック業界で色々な経験を積み、2015年にGMOインターネットグループに入社後、グループ研究開発本部（旧：次世代システム研究室）に配属。一度、グループを離れた後、2020年に再度入社して現職。グループ研究開発本部ではグループ横断プロジェクトにおいて、データサイエンス技術などを用いて技術支援・開発・解析などを行っている。機械学習エンジニアを中心に、サーバーサイドAPIなど多岐で活躍。Androidアプリの公式言語Kotlin（コトリン）にハマっている。

GMOインターネットグループ佐野、GMOペパボ財津、GMOアドマーケティング春田、GMOペイメントサービス石地

GMOインターネットグループだからできるデータサイエンスとは何か？それを考えるカギとなるのはグループ全体が手掛ける事業領域の広さにあります。

GMOインターネットグループはドメインからセキュリティ、決済までビジネスの基盤となるサービスをご提供するインターネットインフラ事業を主軸に、インターネット広告・メディア事業、インターネット金融事業、暗号資産事業を展開する総合インターネットグループです。お客様に喜ばれるサービスを迅速かつ低価格で提供するために、サービスは機器の選定から設置、構築、開発、運用までを内製化することを基本方針としており、グループ全110社に在籍する7,200名超のパートナーのうち、ITのモノづくりを担う開発者（エンジニア・クリエイター）は49.9%（※数字はいづれも2022年9月末時点）を占めています。

そんなGMOインターネットグループには、データ分析やAIを活用はもちろん、グループ各社が横断的にデータサイエンス技術を提供し合うプロジェクトもあり、さまざまな領域のデータサイエンティストが、日々、お客様へより高い価値を提供すべく活躍しています。
今回は、Ｅコマース、広告、決済・金融と、グループ4社から色々な立場のデータサイエンティストが集まりました。MLなど開発の裏側はもちろん、業務を行う上で大切にされていることをお聞きして、データサイエンティストが果たす役割から、今後の展望までを話しました。

いま注目しているデータサイエンス技術とは？

モデレーターを務める佐野が、それぞれ立場が異なる3名に話しを聞く形式でセッションはスタートしました。先ずはそれぞれ自社プロダクトに携わるなかで、いま注目しているデータサイエンス技術について問いました。

XAI（Explainable AI：説明可能なAI）ですね。3年前まで学生という立場では、機械学習モデルをより高精度にしていくアプローチに注力していました。それがAIをビジネスに適用するうえでは、なぜ精度が高くなったのか、お客様に納得できる判定根拠を「説明」できるよう求められます。広告運用ではモデル全体の精度より、特定の媒体様にどのような条件が判定に寄与しているか説明できなければなりません。そうしたことからXAIに着目しています。

春田

佐野

XAIの代表的なものとして「SHAP」（シャップ）というものがあります。各特徴量が結果に対してどのように寄与しているのか、それがプラスかマイナスなのかと特徴量間での利得配分によって説明します。広告だとCTR（クリック率）など予測するのに、最先端な
アルゴリズムも出ていますが、説明性といったところをXAIなどで人がサポートしていくことが重要なんですね。XAIはゲーム理論が起源で、経済学部出身の私からすると親近感がありますね。Eコマースの領域に携わっている財津さんはいかがでしょうか？

GMOペパボはクリエイターさんがイラストを登録してオリジナルコップやTシャツなど、オリジナルグッズ・アイテムの作成・販売ができるプラットフォーム「SUZURI」というサービスがあるなど、イラストレーターなどクリエイターさんに使っていただくサービスが多いという点から「生成系」に興味を持っていますね。

2010年代からGAN（敵対的生成ネットワーク）などもあり、最近は人が書いたものと遜色なくリアルな画像生成が可能になっていたりします。そのなかで2つパターンがあると思います。ひとつは入力と出力が違うもの。「テキスト」を入力すると「画像」を出力するものです。もうひとつは入力と出力が同じもので、「画像」から「画像」を生成するといったものです。

前者は絵を描けない人でも、テキストベースで絵を書けるようになるなど、表現の幅が広がると思います。後者は絵を描ける人が、自身の画風を学習させて、表現の新たな技法や可能性を広げることに繋がります。そうしたことから興味を持って追いかけています。

財津

佐野

いまチャットボット「ChatGPT（チャットジーピーティー）」（※OpenAIが2022年11月に公開）が大きな話題になっていますが、1年以上前に発表されたGPT-3（2020年7月）から、自然な文章が生成できると大きな話題になっていました。私もコードを生成してすごいと衝撃を受けましたね。そのコードがそのまま使えるとは限らないですが、人の思考をサポートしてスニペットを提供するというのは有用だなと感じました。

人の活動を後押しするのが生成系AIの意義だという話ですが、一方でデザイナーの方の作品を無断で学習データとして使用することは著作権的な側面はもちろん、倫理的な問題もはらんでいます。その辺り、財津さんはどのように考えられていますか？

GMOペパボとしてやりたいのはクリエイターさんをはじめとした「人の表現活動を支援すること」です。作品を無断で学習データとして使用することが法律的には問題がなかったとしても、サービスに嫌悪感や反感を抱かれてしまうということは多分に起こると想定できます。そうなったら我々は何のために事業を行っているのか分からなくなるので、双方で合意が形成されている学習データを担保していくというのが、生成系AIを導入させる上では、大切なことだと感じます。

財津

佐野

私も自分の書いたコードが勝手に使われて「出力」されたら、嫌だなと思うかもしれないですね。我々はお客様第一なので、いくら優れた生成系AIだとしても、お客様が不快になることはしてはいけないと考えます。堅牢性が求められる決済サービスに携わる石地さんはいかがでしょうか？

石地

堅牢性という点では、弊社のような決済サービスではAIが誤った判定をすることは絶対に避けなければいけませんね。いま着目しているのはデータ間の関係から、人が見えないかたちでデータを表現していくことです。我々のサービスをご利用いただいているグループ・集団のデータでの表現力が高いほど精度が高いモデルが作れるのではないかと考えています。

そこでグラフニューラルネットワーク（GNN）を用いてグラフ化して、そこから特徴量を創り出していくことで、見た目のデータからは出来ない新たな表現が出てきます。こうした手持ちのデータからポテンシャルを引き出すといったことに、積極的にチャレンジしていきたいと思っています。

佐野

ータの関係性を表す、グラフニューラルネットワーク（GNN）は、さまざまなシーンで使えますよね。それぞれお3人に注目する技術についてお話しをお聞きしましたが、Developers Dayなので、エンジニア視点で開発面の話も聞けたらと思います。

ML開発時に、それぞれが注意していること

佐野

マシンラーニングサービス（MLサービス）や、それに関わるデータ分析基盤の開発時に皆さんはどのような事を注意しているか、エンジニアの一人として、すごく聞きたいです。

要件を定義して開発からルールベースで動いてくれるWebアプリ・モバイルアプリと、MLサービスを比べると大きな性質の違いを感じます。MLサービスではプログラム開発時は正しかった概念が、パラダイムシフトしていき、将来的にデータのドリフトや分布が変わっていくことにも適応していかなければいけない。そんなML開発で皆さんが意識していることは何かが気になります。

広告最適化では、ユーザーに広告を掲示するまでの速度が重視されます。新しい機械学習モデルを導入した際、既存のプロダクトに悪影響は出さないのはもちろんですが、最適化から掲載までのスピードは意識されていて、0.1秒単位の世界と言っても過言ではありません。そのため学習コストや予測コストが高すぎるものは性能要件に引っかかって導入できないケースというのも多くあります。

春田

石地

サービスに悪影響を与えてしまったら本末転倒ですよね。ローカルの環境でモデルつくるとパフォーマンス重視になりがちですが、それが実際の環境下では負荷になったりするので、パラメーターチューニングを何度も行いました。

またAIに学習した以上のことを逆にして欲しくないですよね。開発側とAIを活用する分野の範囲を明確化しています。常にフレッシュなデータ、フレッシュなモデルを渡しつづけないといけないので、それらがクイックに出来るよう、開発に着手する時点でシステム側と運用方針も決めました。AIを実装したことで、アプリ側の開発部隊の作業依頼などの負荷の増加も起こしていけないと思うので、そこにも注意しています。

佐野

確かにそうですね。皆さんのお話しを聞いて、業種は違えど、割と抱えている問題は一緒だなというのを感じます。開発から運用の話に近い話になりますが、開発したものを継続していくなかで、クリーンに保っている知見をお聞かせいただければと思います。

ペパボの開発体制は事業部制なので、サービスの運用・開発をしている事業部と、私たちのデータ基盤チームがいます。複数人で開発をすることでクリーンに保つことを推進するために、データカタログのようなドキュメンテーションを基盤チームの方で整備して、みんなで勉強していくことで、開発も運用もしやすくなる施策を行っています。Googleの「Vertex AI」は検証中ですが、自分たちが使うワークフローエンジンを使って、ビジネスサイドも含めて、精度を見ながら、どうやってモデル改善しようか議論するところまで運用として回せることを心掛けていますね。

財津

佐野

機械学習はデータを得て結果が生まれるので、お客様にタッチする立場のビジネスサイドを巻き込まないといけない。そのためにドキュメントや資料の準備は、非常に重要ですね。

データサイエンスが、日々、大切にしている技術検査

佐野

次にデータサイエンティストとして、どのように技術検査をしているか。インプットとアウトプットの方法はいろいろあると思いますが、伺ってみたいと思います。

石地

オンライントレーニングを多用して学習しています。いまではさまざまな企業や大学がMLをテーマに講義や学習コースを提供してくれていますね。私は以前、「edX」（ハーバード・MIT主導のMOOC）を受講していました。オープンデータを渡されて、学んだことから分析レポートを提出する課題があるのですが、受講生のなかから、相互レビューをして3人以上からレビューをもらえないと、次に進めないカリキュラムになっています。

そこでそれぞれレビューし合うのですが、同じデータでもこういうアプローチの仕方があるのだと発見があり、学びが深まります。レビューで褒められると素直に嬉しいですし、分析アプローチが甘いんじゃないかと辛辣なコメントもありますが実務に近く感じられる。そうしたコミュニティのなかで学習できたことは大きな経験になると思いますね。

佐野

「edX」いいですね！エンジニアとして、コードをどうキレイに整えていたか、あらためて考えると同じ仲間のソースコードレビューってめちゃくちゃ大事だと思っています。パーフェクトで提出したものに、いろいろな訂正が入って、それを何十回何百回、何千回と繰り替えてして、いまに至っている実感があるので、データサイエンスでも、そうしたレビューは成長につながると聞いていて感じました。春田さんはどうですか？

普段はプライベートな勉強会と称して、週1回、人を集めて、勉強会を開催しています。そこで機械学習関連の技術書を選んで、具体的な機械学習の手法や機械学習のモデルを組むときのパターンの習得など、皆で学んでいます。

春田

私も機械学習関連の技術書を読むことが多いです。手法的なところだと「Kaggle（カグル）」でスコアが高いレポートを読んだり、機械学習関連のニュースを見て、キャッチアップしています。

財津

佐野

レポートを読むだけでも新しい発見につながりますね。「Kaggle（カグル）」は参加の敷居が高いと思われがちですが、まずそういった所から慣れるというのがいいですね。

さいごに

佐野

GMOインターネットグループにはさまざまな分野の技術者がいます。データサイエンティストといっても経歴も多様で、私の同僚ではリサーチャーや研究者からデータサイエンティストに転向する方など、色々なバックグラウンドを持っているというのも、特徴のひとつだと思います。

さいごに副題にもなっている「GMOだからこそ挑戦できるデータ分析」を伺ってみたいと思います。

GMOインターネットグループ全体もですが、GMOペパボ内でもECをやっていたり、ホスティングをやっていたりと、幅広く事業を展開しています。そうした適用先が違うデータ分析や機械学習モデルを、どんどん組み込んで実装していくことが出来るのが、私は、いちばん楽しいというか、挑戦できるところかなと思っています。

財津

プロダクトも内製化されていることで、データを使って学習ができる幅が広がっています。またGMOアドマーケティングでは、業務時間の一部をインプットの時間に充てており、その時間で知見やスキルを高めているのはもちろん、得たモデルを実際に試すことができる環境があるのは強みだと思っています。

春田

石地

データの豊富さを活かすことができる環境というのは大きいですね。自社のサービスや事業が成長していくことでお預かりするデータ数も増えていきます。また変化が早いが早く、スピード感を意識して、実行しなければないことも、たくさんあります。その分、アウトプットは速くなるので、そうした経験が積める環境も、魅力のひとつじゃないかと考えています。

佐野

データの量もそうですし、決済もあれば広告もあって、ECもあって、バラエティに富んだデータが飛び交っていて、挑戦できるというのはGMOインターネットグループだからこそですね。私の所属するグループ研究開発本部AI研究開発室は、グループ各社のAI開発のお手伝いをさせていただくことが多いですが、組織も違えば、それによって生まれてくるデータの種類も量も違うので、どういったアーキテクトを組もうか、レコメンドアルゴリズム良いか、それぞれの立場に合わせて常に考えています。

そうした多様な分析に携わることは大きな魅力だと思えるところなので、ぜひそういうところにチャレンジしたい方がいらっしゃったら、仲間として、一緒に働ければなと思います。