GMOインターネットグループ合同テクノロジーインターンシップ2025 体験記~データサイエンスコース編~

GMOインターネットグループでは、技術力の向上を目的に、毎年テクノロジーインターンシップを実施しています。 2025年度は、8月25日(月)から9月5日(金)までの期間で開催され、「データサイエンスコース」と「ML/Webコース」の2コースを開講いたしました。 本記事では、「データサイエンスコース」に参加された学生にご執筆いただいた体験記をご紹介いたします。インターンシップを通じて得た学びや気づきをぜひご覧ください。

はじめに

はじめまして!Yukiです。2025/8/25(月)〜2025/9/5(金)の平日10日間で開催された「GMOインターネットグループ合同 TECHNOLOGY INTERNSHIP」の「データサイエンスコース」に参加させていただきました。その時の内容について体験記として共有させていただきたいと思います!

GMOインターネットグループ合同テクノロジーインターンシップとは?

本インターンシップ「GMOインターネットグループ合同テクノロジーインターンシップ」について説明します。

期間2025/8/25(月)〜2025/9/5(金)
勤務時間10:00〜19:00(休憩1時間、実労働時間8時間)
給与時給1500円、社内カフェが利用可
特典お昼は美味しい弁当をいただける(めっちゃ美味しかったです!)
PC環境16GBのメモリのWindowsPCの貸出と21inchディスプレイの利用
勤務地大阪 or 東京のオフィス(筆者は大阪の梅田駅前のオフィス)
選考エントリー→書類選考→面接→インターン内定
応募締切一次締切:2025/4/30、二次締切:2025/5/31、最終締切:2025/6/30

募集コース

データサイエンスコース
必須スキル:統計解析・機械学習の分野での知識、PythonやR等を用いて、統計解析・機械学習を行った経験
歓迎スキル:ターミナルでのコマンドライン操作/仮想環境の構築/PandasやNumpyを使った大規模なデータ処理/線形代数/確率統計

【ML/Webコース】
必須スキル:Webアプリケーション開発の基礎知識、プログラミング経験
歓迎スキル:クラウドサービス(AWS/GCP/Azureなど)利用経験、データベース設計・実装経験、チーム開発経験

次に今回開催された募集コースの詳細について簡単に説明します。
いずれのコースでも2つのプロジェクトが開催されておりました。データサイエンスコースでは、EC推薦と不正検知です。ML/Webコースでは生成AIのチャットUIの作成と教育系のAIのツール作成であり、いずれもチームプロジェクトでした。
データサイエンスコースのEC推薦のプロジェクトでは、自社サービスのECサイトのデータを用いた推薦タスクでした。データとしてはテーブルデータ・テキスト・画像など多様なデータであり、非常に興味深い内容でした。
データサイエンスコースの不正検知のプロジェクトでは、自社の決済取引データのデータ解析と不正取引の検知を行いました。

インターンへの参加経緯

AIの社会実装

研究で使用しているAIが実社会でどのように活用できるか感じたいと思い、参加しました。

実データを用いた解析ができる点

書籍や講義で学ぶ理論や研究で利用するデータだけでなく、実際に大規模な実データに触れ、解析を行う経験を積みたいと考えていました。GMOインターネットグループが保有する数百万件規模の決済取引データを用いた不正検知のプロジェクトはまさにその機会を提供してくれるものであり、データサイエンティストとしての実践的なスキルを向上させる機会と感じ、応募しました。

私が取り組んだテーマについて

私が取り組んだテーマは、不正検知でした。具体的にはGMOインターネットグループの決済取引データのデータ解析と不正取引の検知を行いました。
実データはサンプリングと匿名化された数百万件のデータを使用しました。

私が取り組んだテーマは「決済データの不正検知」です。具体的には、GMOインターネットグループが保有する数百万件規模の決済取引データ (サンプリングおよび匿名化済み) を用いてデータ解析を行い、不正取引を検知するモデルの構築に挑戦しました。

環境

開発は非常に恵まれた環境で行うことができました。その詳細を説明します。

開発環境

PCはパートナーの方がセットアップしてくださった社用のWindows PCと21インチのディスプレイを使用することができました。 開発においては、コーディング支援AIの「Cursor」や、「Claude Code」、GMOが開発した複数のLLMに同時に質問できる「天秤AI」など、様々なAIツールを自由に利用できる環境でした。特に天秤AIは、応答が速い「Gemini 2.0 Flash」、より正確な情報を提供する「GPT-5」、Web情報を正確に調査してくれる「Perplexity」を同時に利用できるため、デバッグや技術調査の際に非常に役立ちました。これらツールのおかげで、短期間でも速いサイクルで開発を進めることができました。

また、プロジェクトには私を含めて7人のインターン生が参加し、パートナーのメンター2名と、昨年度の同インターン経験者3名から手厚いサポートをいただきました。質問や相談がしやすい環境で、安心して開発に集中できました。

実際に天秤AIとは何かを質問した例

インターンの日程と取り組みの内容

インターンは10日間ありました。
初日は業務の説明や会社概要の説明、支給されるPCのセットアップがあり、最後に実際にデータを与えられました。初日はPCのセットアップとして、Cursorや環境構築、データを少し確認する程度にとどまりました。

2日目から5日目までは、5日目の中間発表に向けてデータ解析からモデル作成、モデルの改善などを行いました。
また、1日の中では朝会や任意参加の夕会、GMOのグループ会社の会社説明会などがあり、実際に解析にあたる時間は、8時間のうち5時間半程度でした。この量は思った以上に少ないと思われるかもしれません。私自身もそう感じました。しかし、実務でも1日のうち全ての時間を個人の業務にあてられるわけではないため、実際の経験を得られた点は非常に良かったです。
2週目は、10日目の最終発表に向けてさらにデータ分析とモデル改善を実施しました。

10日間で学んだこと

多くのことに挑戦する機会があり、様々なことを学ぶことができました!
私が今回のインターンで学んだことは、

計画・仮説を立てる重要性

メンターの方から最初に、2週間の期間での目標と一つ一つの作業に対する目的を明確にもって取り組むことを念押しされました。1日の中で何をするのか?それを行う目的は何か?その解析の仮説と予想される結果は何か?などを持つようにアドバイスをいただきました。

メンターからいただいたアドバイスをもとに、自身のインターンでの目標や学びたい目的を設定しました。今回は10日目での最終発表がありましたので、ここで何を発表するかを念頭に特徴量・モデル・分析の3点でやることを決めました。

その結果、日々の作業効率が格段に向上しました。「何のためにこの作業をするのか」という目的意識が常にあるため、優先順位が明確になり、本質的でないタスクに取り組むことができました。

また、事前に仮説を立てる習慣をつけたことで、分析結果が出た際の考察が深まりました。予想通りの結果であれば仮説の確度が高まり、予想外の結果であれば「なぜ違ったのか」を考え、次のアクションプランに繋げることができました。

この「計画→実行→(仮説と結果の)比較・考察→計画→報告」というサイクルを意識的に回せたことで、限られた期間の中でも多くの仮説検証がが行え、最終発表においても、単なる作業の羅列ではなく、一貫したストーリーのある報告を行うことができました。

時系列データ

今回初めて大規模な時系列データを扱いました。時系列特有の特徴量の作成やリークしないように注意することを学びました。

時系列特有の特徴量として、年月日や週の周期的な特徴量を追加したり、STL分解による季節性・トレンド・ノイズを追加したりなど、基本的な時系列の特徴量の追加で精度を上げることができました。

また、今回はtrain/testなどの分かれていないデータを頂きました。モデルの適切な評価にはtrain/val/testのsplitが重要です。この分け方にはリークしないように時系列で分割する方法が必要です。さらに未来の特徴量で学習しないように注意深く特徴量を自力で確認する必要がありました。4日目に既存のデータにリークする特徴量があることをメンターが発見し、それを用いないように大幅に修正を行いました。これを自力で見つけられるようになりたいと感じました。

今回のインターンで感じた決済マーケットの魅力

決済は非常に身近にある存在です。通勤時の駅での交通ICカードでの決済やコンビニでのPayPayなどのQRコード決済など日常の至る所に決済があります。この決済の手段は非常に多く、その多くを統合して決済できるサービスをGMOが裏で提供していることを今回学びました。

これら決済データは大規模であり、1日あたり数千万件の処理を行っております。この大規模データを解析できる環境はデータサイエンティストとして非常に有意義でした。

また、残念なことに決済マーケットでは日々多くの不正が横行しています。特にコロナ以降の21年から毎年不正利用額が過去最高を更新しております。特にオンラインによる不正が増えており、不正利用被害額は日本クレジット協会のデータによりますと、2024年で555億円と大規模です。この不正を未然に検知することが非常に重要です。

最終発表に向けて、実際にどの程度未然に検知できたのか評価を精度と金額の両面で行いました。その結果、自身のモデルで年間〇〇万円の不正を検知できると試算し、精度面に課題があるものの、実際にビジネス上のインパクトのある結果を出せることに達成感を感じました。

本インターンに参加した感想

本インターンシップは、データサイエンティストとして大きく成長できた、濃密な10日間でした。

技術面では、未経験であった数百万件規模の実データ、特に時系列データに対して、自分の知識がどこまで通用し、何が足りないのかを痛感しました。パートナーであるメンターの方々の手厚いサポートや同期のインターン生との日々のディスカッションのおかげで、時系列特有の特徴量作成や「リーク」させないためのデータ分割など、書籍だけでは得られない実践的なスキルを学ぶことができました。特に、自ら立てた仮説を基に分析を進め、最終的に自分のモデルがビジネスに与えるインパクトを金額として試算できた経験は、大きな達成感と自信につながりました。

また、「Cursor」や「天秤AI」といった最先端のAIツールを自由に使える開発環境は、非常に快適であり、仮説検証サイクルを高速に回すことができました。

何より、決済という社会インフラを支える仕事の最前線にインターン生の立場で触れられたことは、最も貴重な経験でした。日々巧妙化する不正利用という現実の課題に、データサイエンスの力で立ち向かうことの意義深さと責任の重さを肌で感じ、「このデータサイエンティストという立場で貢献したい」という思いが、以前にも増して強くなりました。

まとめ

末筆にはなりますが、本インターンシップでお世話になったGMOインターネットグループ、ならびにGMOペイメントゲートウェイの皆様に心より感謝申し上げます。10日間という短い期間でしたが、非常に濃密で学びの多い時間を過ごすことができました。本当にありがとうございました。

ブログの著者欄

技術広報チーム

GMOインターネットグループ株式会社

イベント活動やSNSを通じ、開発者向けにGMOインターネットグループの製品・サービス情報を発信中

採用情報

関連記事

KEYWORD

TAG

もっとタグを見る

採用情報

SNS FOLLOW

GMOインターネットグループのSNSをフォローして最新情報をチェック