開発者向けブログ・イベント

ChatGPTとConoHa AI Canvasで検証：生成AIが変えるクリエイティブ制作

AIは今や、生活や仕事に欠かせない存在です。特にChatGPTに代表される対話型AIは、幅広いタスクをこなせる“万能アシスタント”として、多くの人に活用されています。一方で、よりクリエイティブな作業――たとえば画像や動画の生成に特化したAIサービスも登場しています。『ConoHa AI Canvas』もその一つで、ビジュアルコンテンツに強みを持ち、創作の可能性をさらに広げてくれるのが特徴です。今回、ConoHa AI Canvasには動画生成モデル「Wan2.2」と画像生成モデル「Qwen-Image」がプリインストールされ、すぐに利用できるようになりました。本記事では、ChatGPTとConoHa AI Canvasで実際に生成した画像を比較しながら、それぞれのAIをどのように使い分けると効果的なのかを探っていきます。 1. 画像生成比較今回は、以下のプロンプトを使用し、ChatGPTとConoHa AI CanvasのQwen-Imageで生成した画像を比較しました。古民家の木造の軒先に座る若い女性。夏の暑い日差し。彼女はスイカを食べている。女性はGMOと青字で記載されたTシャツを着ている。横では古い扇風機が回っている。日本の田舎の夏らしい雰囲気。アニメ風、明るく爽やかでノスタルジックな描写。 1-1. ComfyUIの起動起動方法はこちらの記事をご覧ください。 1-2. テンプレート選択 ComfyUIのメニューから「テンプレートを参照」を開きます。「画像」を選択し、「Qwen-Image Text to Image」を開きます。 1-3. Qwen-Imageで画像生成プロンプトを入力し、「実行する」をクリックします 1-4. ChatGPTで画像生成 ChatGPTにも同じプロンプトを入力し、画像を生成します。 1-5. 生成された画像の比較 Qwen-Imageで生成した画像 ChatGPTで生成した画像生成時間: 180秒生成時間: 90秒ピクセル: 1328 x 1328 ピクセル: 1024 x 1536 ※ブログ掲載用にサイズを調整し、クレジットを記載しています。生成された画像の感想　どちらの画像にもGMOのロゴは正確に描かれていますが、ChatGPTの方がより自然に背景になじみ、全体として違和感が少なく感じられます。扇風機も両方に描かれていますが、羽根は回転していません。一方で、Qwen-Imageはより立体的な表現がされているものの、左右の扉にずれがあり、全体の統一感という点ではChatGPTの方が優れています。 2. Qwen-Image Editで試すAI画像編集次に、Qwen-Image Editを使用して生成した画像を編集しました。 2-1. テンプレート選択テンプレートから「画像」を選択し、「Qwen-Image Edit」を開きます。 2-2. Qwen-Image Editで画像編集先ほど生成した画像をアップロードし、プロンプトを入力します。 2-3. 生成された画像アイスクリームを食べている生成時間: 234秒浴衣を着ている Qwen-Image Editを利用した感想　メインの人物については表情やポーズを変更できますが、背景の要素を細かく指定して変えるのは難しいようです。たとえば「扇風機を回す」や「背後の扉を同じ模様にする」といった指示は、まったく反映されませんでした。Qwen-Image EditがあればAIで自由自在に画像を編集できると思っていましたが、現状ではまだ限界があると感じました。 3. Wan2.2で広がる「画像から動画」の表現最後に、Wan 2.2を使用して「画像から動画」を生成しました。 3-1. テンプレート選択テンプレートから「ビデオ」を選択し、「Wan2.2 14B Image to Video」を開きます。 3-2. Wan2.2で動画生成先ほど生成した画像をアップロードし、プロンプトと動画の長さを指定します。動画の長さはフレーム数となります。今回は81フレーム（5秒）に設定しました。 3-3. 生成された動画生成時間: 228秒 Wan2.2を利用した感想　Wan2.2は、事前の評判が良かったため期待していましたが、その期待にしっかり応えてくれました。5秒間の動画を約4分で生成でき、生成速度としてはかなり高速な印象です。　プロンプトで特に指定していないにもかかわらず、背景の鳥が自然に動いており、細部の作り込みに驚かされました。全体的に見ると、細かい部分にはまだ改善の余地があるものの、現時点でも十分に高い完成度を感じます。今後のアップデートによる進化に期待が高まります。 4. まとめ　今回の検証では、ChatGPT・Qwen-Image・Wan 2.2といった生成AIツールの連携によって、テキストから動画までを一貫して制作できる可能性を確認しました。各モデルの特性を理解し、目的に応じて使い分けることで、より効率的かつ高品質な成果物が得られると感じます。今後は、生成精度や編集自由度の向上にも注目していきたいと思います。

2025.10.22

AI/機械学習

ConoHa AI Canvasで簡単動画生成

　近年、さまざまな画像生成・動画生成サービスが登場していますが『ConoHa AI Canvas』は画像や動画そのものを生成するサービスではなく、お客様が自由に画像や動画を生成できる環境を提供するホスティングサービスである点が大きな特徴です。　高い自由度が強みである一方で、生成に至るまでにプロンプト入力以外の操作が必要であったり、UIが複雑であったりといった課題も存在します。　今回、インフラ面の実装を改善し、画像や動画をより手軽に生成できるようになりました。そこで本記事では、『ConoHa AI Canvas』上で、テキストから動画を生成できるモデル「wan2.1」を活用し、誰でも簡単に動画を作成できる方法をご紹介します。動画生成までの流れ起動から生成まで、わずか3ステップ（約5分）で動画を作成できます。 WebUI起動テンプレート選択動画生成 1. WebUI起動 ConoHaにログインし AIタブを選択、「WebUI起動」をクリックします。起動するWebUIは「ComfyUI（上級者向け）」を選択します。WebUI起動用のユーザー名とパスワードを入力して「起動」をクリックします。タブが切り替わり、WebUIが起動します。（起動には2分程かかります。） WebUIが起動したら、先ほど設定したパスワードを入力してログインします。 2. テンプレート選択 WebUI起動直後は、デフォルトのワークフロー*が表示されています。ワークフローとは、画像生成の各ステップ（テキスト入力・モデル選択・画像出力など）をブロックのような部品として並べ、線でつないで処理の流れを視覚的に組み立てる仕組みのことです。「ワークフロー」→「テンプレートを参照」からテンプレート選択画面を開きます。「ビデオ」→「wan2.1 テキストからビデオへ」を選択します。 3. 動画生成ワークフローの実行に必要なモデルは全てインストール済みです。まずは、テンプレートの「きつねの動画」を生成してみます。「実行する」をクリックします。生成には約140秒かかります。生成が完了すると、動画は自動的に再生されます。日本語で動画生成しよう！ wan2.1で使用されているテキストエンコーダー「umt5_xxl_fp8_e4m3fn_scaled.safetensors」は多言語に対応しており、日本語のテキスト入力にも対応しています。以下のように日本語で（Positive Prompt）と（Negative Prompt）を入力します。検証に利用したプロンプトの例をいくつか紹介します。 Positive Promptの例単語ではなく、文章として入力することがポイントです。満開の桜の下をゆっくりと歩く着物姿の女性。春の柔らかな日差しが降り注ぐ。近未来の東京。ホログラム広告が空中に浮かび、自動運転車が街を走る。猫がネズミを追いかけるアニメ調の動画。猫は決意に満ちた表情で素早く動き、ネズミは遊び心と必死さで逃げようとする様子が映し出されます。追いかけるシーンを際立たせるため、動きのある室内環境とダイナミックなカメラアングルエイリアンが地球を侵略する映画的な映像。巨大なエイリアンの宇宙船が都市上空に浮かび、エネルギービームを発射し、破壊を引き起こしている様子を描写する。空は暗く煙に覆われ、人々はパニックに陥って逃げ惑う。エイリアンは未来的で威嚇的なデザインで、軍隊が反撃を試みる。 Negative Promptの例 negative promptは、生成したくない要素を指定するために使用します。ぼやけた映像, 低画質, 解像度が低い, 不自然な動き, ピントが合っていない, 映像のノイズ wan2.1は多様なスタイルに対応できる一方で、アニメ調はやや苦手な印象です。3分弱で動画を生成できる点は魅力的で、アイデア出し用途には適していると感じました。動画のダウンロード ComfyUIからダウンロード動画生成が完了したら、左メニューの「キュー」をクリックします。左メニューの「キュー」からダウンロードしたい動画を選択し、表示された画像の上で右クリックして「名前を付けて画像を保存」を選択すると、ダウンロードできます。動画は、webp形式で保存されます。ファイルマネージャーからダウンロード生成された動画は全てお客様個別のオブジェクトストレージに保存されています。コンパネからファイルマネージャーを起動しダウンロードすることも可能です。「詳細情報」を開きます。「ファイルマネージャー」を開きます。【 / home / output / comfyui 】へ移動します。インフラの話題　ConoHa AI Canvasではコンテナ技術を活用し、お客様ごとに専用の実行環境を提供しています。これにより、クリエイターの皆様はAIを活用したクリエイティブ作業を、プライベートな環境で安心して行うことができます。　このプライベートな環境をいかに速く起動させるかは、インフラエンジニアにとって大きな課題です。PyTorchのようなAIフレームワークはライブラリだけで数GBあり、コンテナ全体では約10GBになります。さらに、画像・動画生成用のモデルを複数用意すると、合計サイズは100GBを超えることもあります。こうした大容量アプリケーションをGPUサーバーにスケジューリングし、短時間で起動させる必要がありますが、従来の方法では10分以上かかるのが実情です。　そこで、起動の高速化を実現するためには、システム構成を以下の3つのデータカテゴリに分けて考えることが有効です。アプリケーション：お客様ごとの差分がない部分です。WebUI停止時に毎回削除されるデータです。お客様ごとのデータ：設定ファイル、拡張機能、LoRAモデルなど、お客様固有の情報です。これらはWebUI停止時にも保持される永続的なデータです。ベースモデル：画像や動画の生成に使用される、大容量のAIモデルです。共有可能な静的リソースとして扱うことで、効率的な配置と再利用が可能になります。　これらの3つのデータカテゴリに分離したうえで、Ansibleなどの自動化ツールを用いてプロビジョニングを行うことで、コンテナの起動時間を大幅に短縮することが可能になります。おわりに　画像や動画のプロフェッショナル領域におけるAI活用には、依然として技術のさらなる進化が求められていると感じています。高精度・高品質な画像や動画の生成には、大量のデータと高性能なGPUの処理能力が不可欠であり、こうした環境を個人で整備・維持するのは、今後さらに困難になると予想されます。そのため、AIを実務レベルで導入・活用していくには、クラウドサービスの活用がますます重要になると考えています。より簡単に、そして自由度高く利用いただけるサービスを目指し、継続的な改善を進めていきます。 AI画像生成ならConoHa - ConoHa AI Canvas

2025.08.25

AI/機械学習

3ステップで完了！Podmanを使用したコンテナによるセキュリティ強化の実践方法

久々に記事を投稿します。インフラエンジニアの柳です。直近はGPUのホスティング基盤を担当しています。前回の記事は2022年、機械学習をテーマにした記事でした。2年前はここまでAIが盛り上がるとは想像していませんでした。今回はAIを支える技術としてコンテナを紹介したいと思います。AI？コンテナ？とすぐには繋がらないと思いますが、AIを支える技術の一つとしてコンテナは非常に重要な役割を担っています。AIは非常に多くの計算を必要とし、その計算はGPUで行われています。GPUはCPUと異なりマルチプロセスには向いていないため、上手くプロセスをスケジュールして実行する必要があります。それぞれのプロセスにコンテナを用いることで、全く異なる実行環境やアプリケーションでも同じGPUにプロセスをスケジュールし処理が実行できるようになります。 1．コンテナについてコンテナは現在、アプリケーションの開発と配布を効率化するために広く利用されています。しかし、その便利さの背後にはセキュリティリスクも存在します。特に、コンテナをどのように管理し実行するかは、セキュリティリスクを大きく左右します。本ブログでは、コンテナプラットフォームであるDockerとPodmanの違いと、セキュリティ面での取扱いについて解説します。 Dockerの基本とセキュリティ Docker はコンテナを作成、実行するためのプラットフォームで、多くの開発者に利用されています。Dockerはデーモン（バックグラウンドで実行されるプロセス）として動作し、通常はルートユーザー権限で実行されます。ルートユーザーはシステム上で最も強い権限を持つため、Dockerのセキュリティが侵害されると大きなリスクが生じます。ただし、最近ではRootlessモードを使うことで、通常のユーザー権限でもDockerを動作させることが可能です。このモードでは、管理者権限を持たないユーザーでもコンテナを安全に実行でき、システム全体のセキュリティが向上します。 Podmanの特徴とその利点一方、Podmanはデーモンレスで動作するコンテナプラットフォームです。つまり、バックグラウンドで常時実行するデーモンプロセスが不要で、それぞれのコンテナが独立して動作します。これにより、システム全体のセキュリティリスクが抑えられます。また、PodmanはDockerのコマンドラインインターフェース(CLI) と互換性があるため、Dockerユーザーも容易に移行が可能です。特に注目すべきは、ユーザ名前空間の取り扱いです。この機能により、コンテナ内のユーザーとホスト側のユーザーを紐付けまたは隔離することができ、アクセス権を細かく制御することが可能です。Podmanはこの点で非常に使いやすく設計されており、セキュリティ面での利点も大きいです。 2．インストール方法の違い：Docker vs Podman Ubuntu22.04、Rootlessモードのインストール方法です。GPUもコンテナから利用可能とします。共通手順 Docker, Podman共通のインストール手順です。Rootless環境のポイントは、no-cgroups、enable-linger、XDG_RUNTIME_DIRの設定です。 # [1] nvidia-container-toolkitのRepository設定 sudo curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | gpg --dearmor > /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg sudo curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | tee /etc/apt/sources.list.d/nvidia-container-toolkit.list sudo apt update # [2] パッケージインストール sudo apt install uidmap dbus-user-session slirp4netns nvidia-container-toolkit fuse-overlayfs # [3] no-cgroupsをfalseからtrueに変更します。 # ※この変更をしないとRootlessコンテナからGPUが利用できません。 sudo vi /etc/nvidia-container-runtime/config.toml no-cgroups = true # [4] Dockerをインストールする一般ユーザーを追加します。 # ※user0001にdockerをインストールする場合の例です。 sudo useradd -m user0001 -s /bin/bash # [5] enable-lingerでユーザーセッションを有効化します sudo loginctl enable-linger user0001 ■ Rootless Dockerのインストール方法下記作業は全て一般ユーザーで実行します。 # [1] systemd busの設定 cat<<EOS>> ~/.bashrc # systemd bus export XDG_RUNTIME_DIR=/run/user/$(id -u user0001) # Docker config export PATH=${HOME}/bin:$PATH export DOCKER_HOST=unix://${XDG_RUNTIME_DIR}/docker.sock EOS # [2] bashrc変更設定を反映 source ~/.bashrc # [3] Rootless Dockerのダウンロード curl -fsSL https://get.docker.com/rootless | sh # [4] Rootless Dockerのインストール dockerd-rootless-setuptool.sh install # [5] 実行確認 systemctl --user status docker docker-composeのインストール docker composeコマンドも一般ユーザーにインストールします。 [1] ディレクトリ作成 $ mkdir .docker/cli-plugins [2] インストール(v2.21.0の場合) curl -L "https://github.com/docker/compose/releases/download/v2.21.0/dockercompose-$(uname -s)-$(uname -m)" -o ~/.docker/cli-plugins/docker-compose [3] 実行権限付与 chmod +x ~/.docker/cli-plugins/docker-compose ■ Podmanのインストール方法 # [1] Repository設定 sudo curl -fsSL https://download.opensuse.org/repositories/devel:kubic:libcontainers:unstable/xUbuntu_$(lsb_release -rs)/Release.key | gpg --dearmor | tee /etc/apt/keyrings/devel_kubic_libcontainers_unstable.gpg > /dev/null sudo echo "deb [arch=$(dpkg --print-architecture) signed-by=/etc/apt/keyrings/devel_kubic_libcontainers_unstable.gpg] https://download.opensuse.org/repositories/devel:kubic:libcontainers:unstable/xUbuntu_$(lsb_release -rs)/ /" | tee /etc/apt/sources.list.d/devel:kubic:libcontainers:unstable.list > /dev/null # [2] Install sudo apt update sudo apt -y install podman # [3] sticky付け権限調整 sudo chmod u+s $(which newuidmap) sudo chmod u+s $(which newgidmap) # [4] CDI(Container Device Interface)生成 sudo mkdir /etc/cdi sudo nvidia-ctk cdi generate --output=/etc/cdi/nvidia.yaml # [5] 確認 sudo nvidia-ctk cdi list 以下表示がでればOK INFO[0000] Found 2 CDI devices nvidia.com/gpu=0 nvidia.com/gpu=all podman.socketの設定下記作業は全て一般ユーザーで実行します。 # [1] systemd busの設定 cat<<EOS>> ~/.bashrc # systemd bus export XDG_RUNTIME_DIR=/run/user/$(id -u user0001) # Docker config export PATH=${HOME}/bin:$PATH export DOCKER_HOST=unix://${XDG_RUNTIME_DIR}/podman/podman.sock EOS # [2] bashrc変更設定を反映 source ~/.bashrc # [3] podman起動 systemctl --user start podman.socket # [4] podmanのソケット確認 podman info --format '{{.Host.RemoteSocket.Path}}' # [5] gpuが読み込めるか検証 podman run --rm --device nvidia.com/gpu=0 ubuntu nvidia-smi -L podman-composeのインストール sudo apt install python3-pip sudo pip3 install podman-compose 3.YAMLファイルの違い: Docker vs Podman DockerとPodmanではGPUの指定方法が異なります。Podmanではuserns_mode: keep-idの指定が可能となります。 Dockerでのコンテナ起動 docker-compose.yml version: '3.9' name: webui-docker services: auto: ports: - "${WEBUI_PORT:-7860}:7860" volumes: - ./data:/data - ./output:/output stop_signal: SIGKILL tty: true image: ##IMAGE_ID## deploy: resources: reservations: devices: - driver: nvidia device_ids: ['0'] capabilities: [compute, utility] command: ### docker-compose up --build -d Podmanでのコンテナ起動 docker-compose.yml version: '3.9' name: webui-podman services: auto: ports: - "${WEBUI_PORT:-7860}:7860" volumes: - ./data:/data - ./output:/output stop_signal: SIGKILL tty: true image: ##IMAGE_ID## userns_mode: keep-id devices: - nvidia.com/gpu=0 command: ### podman-compose up --build -d 4.userns_mode: keep-idについて userns_mode: keep-idを設定すると、コンテナ内のユーザーID (UID) とグループID (GID) が、コンテナを起動したホストのユーザーIDとグループIDと一致するようになります。 keep-idを指定しない場合ホストの一般ユーザー(1012)が、コンテナ内のルートユーザーに名前空間で紐づけされます。 podman top -l user huser USER HUSER root 1012 keep-idを指定した場合ホスト側の一般ユーザー(1012)が、コンテナ内でも一般ユーザー(1012)に名前空間で紐づけされます。 podman top -l user huser USER HUSER 1012 1012 keep-idを利用する利点セキュリティの向上デフォルトではコンテナ環境で使用されるユーザーはrootユーザー（UID 0）ですが、userns_mode: keepid を使用することで、コンテナ内の作業を非rootユーザーで実行できるため、セキュリティリスクを低減できます。ファイルの所有権管理の簡素化コンテナ内のユーザーIDとホストのユーザーIDが一致すると、ホストとコンテナ間でファイルを共有する際の所有権やパーミッションの管理が容易になります。コンテナから作成されたファイルは、ホスト上でも同じユーザーIDによって所有されます。これにより、ファイルの所有権やパーミッションに関する問題を避けることができます。 5.パフォーマンスコンテナ環境での Stable Diffusion Web UI を利用した画像生成のパフォーマンスについて紹介させていただきます。結果コールドブート時間はL4とH100で差異はなかったH100はL4の倍以上の画像生成速度でバッチ数が増えるほど差が広がるバッチ数が増えてもリニアに生成時間が増えるわけではない GPU種別Nvidia H100(PCIE)Nvidia　L4コールドブート*18.7秒8.6秒 GPU種別Nvidia H100(PCIE)Nvidia　L4512 x 512 画像生成 - バッチ数:1 *22.26秒*33.54秒512 x 512 画像生成 - バッチ数:43.22秒8.53秒512 x 512 画像生成 - バッチ数:85.2秒17.6秒1024 x 1024 画像生成 - バッチ数:14.42秒11.7秒1024 x 1024 画像生成 - バッチ数:414.45秒55.6秒1024 x 1024 画像生成 - バッチ数:828.07秒115.7秒*1 コールドブートにはコンテナ起動時間とモデルロード時間が含まれます。*2 バッチ数は同時に生成する画像枚数です。*3 画像生成時間にはコールドブートの時間は含まれていません画像生成条件設定項目値チェックポイントmeinamix_meinaV11チェックポイントサイズ1.99GBLoRAAsuka Langley Souryuu/Shikinami (Evangelion)sampling step28 検証結果 pkgversionCUDA12.2Stable Diffusion WebUIv1.5.2Python3.10.9Pytorch2.01+cu118xformers0.0.21.dev544gradio3.32.0Docker20.10LTSContainerToolKit1.13.5 6.まとめコンテナからGPUを利用することで、推論や学習環境を簡単に切り替えられることは非常に便利だと感じます。また、DockerとPodmanは似たような機能を持ちながらも、その実行構造と安全性においては大きな違いがあります。特にセキュリティを重視する場合には、Podmanの方が優れた選択肢かもしれません。GPU+Podmanの組み合わせにより、セキュリティとコンテナによる柔軟性の両立が可能だと考えます。

2024.06.03

AI/機械学習

オープンソースで作成する音声認識Web Server -Vol.02

　普段はインフラエンジニアをやっている柳です。前回の記事「オープンソースで作成する顔認証Web Server / vol.01」と共通する部分も多いため参照ください。音声認識とは人間の声をコンピューターに認識させることです。音声認識にはWeb Speech APIという無料で使えるAPIがありhtmlとJavaScriptで実装可能です。しかしそれでは面白くない為、機械学習部分も含めサーバーを構築していきたいと思います。言語はフロントにhtml、JavaScript、バックにPythonを用います。 1.完成イメージ　Web Speech APIと同じ動作をすることを目標とします。ブラウザ上でリアルタイムに音声認識し短文としてウェブページ上に表示します。 Web Speech APIでの実装は下記となります。htmlファイルとして保存しブラウザで起動すれば動作可能です。※インターネット環境が必要です。 <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>Web Speech API</title> </head> <body> <h2>Web Speech API</h2> <button id="start_btn">start</button> <button id="stop_btn">stop</button> <small id="status"></small> <h3>Recognition Result</h3> <textarea id="show_progress" cols="100" rows="1"></textarea> <div id="show_result"></div> </body> <script> // Declare webkitSpeechRecognition window.SpeechRecognition = window.SpeechRecognition || webkitSpeechRecognition; var recognition = new webkitSpeechRecognition(); // Web Speech API Configuration // Language recognition.lang = 'ja'; // Show Progress recognition.interimResults = true; // Continuous recognition recognition.continuous = true; // Const const start_btn = document.getElementById('start_btn'); const stop_btn = document.getElementById('stop_btn'); const show_progress = document.getElementById('show_progress') const show_result = document.getElementById('show_result'); recognition.onsoundstart = function(){ document.getElementById('status').innerHTML = "Recognizing"; }; recognition.onnomatch = function(){ document.getElementById('status').innerHTML = "Try again"; }; recognition.onerror= function(){ document.getElementById('status').innerHTML = "ERROR"; }; recognition.onsoundend = function(){ document.getElementById('status').innerHTML = "Stopped"; }; start_btn.addEventListener('click' , function() { // Start recognition recognition.start(); this.disabled = true; stop_btn.disabled = false; }); stop_btn.addEventListener('click' , function() { // Stop recognition recognition.stop(); this.disabled = true; start_btn.disabled = false; show_progress.innerHTML = ''; }); recognition.onresult = function(event){ var results = event.results; for (var i = event.resultIndex; i<results.length; i++){ if(results[i].isFinal) show_result.innerHTML += '<div>'+ results[i][0].transcript +'</div>'; else show_progress.innerHTML = "[Progress] "+ results[i][0].transcript; } } </script> </html> 2.サーバー構成　フロント（HTML, API）のウェブアプリケーションフレームワークはFastAPI、バックエンドにはEnd-to-End音声処理のESPnet2を利用します。（FastAPIのアプリケーションは前回同様Gunicornで起動しリバプロにnginxを挟んでいます。）クライアント側のマイク起動はWebRTCのAPIで行い、音声データの前処理はWeb Audio APIを利用します。 3.Web Audio API 　クライアント側での音声処理ワークフローです。マイクで入力された音声をHTTPS（Port441）でサーバーにポストする処理を担当しています。（1）WebRTCのgetUserMediaでマイク起動 16bit、16kHz、モノラルを指定しマイクのアナログ入力を32ビット浮動小数点数（-1.0～1.0）でAD変換し入力します。（2）AudioContextを定義 ESPnet2で利用する16kHzのサンプルレートを指定しAudioContextを定義します。（3）MediaStreamAudioSourceNode createMediaStreamSourceでストリーム（WebRTC）からの入力ノードを作成します。（4）AudioWorkletNode AudioWorkletNodeはScriptProcessorNodeの後継となります。音声録音用のレコーダーを作成します。AudioWorkletNodeではbufferSizeを指定できませんが内部では128サンプルで処理されています。（5）recorderProcessor 入力データを処理する場合はここで定義します。今回は入力データを処理する必要がない為中身は空となります。（6）AudioDestinationNode レコーダーを出力先に接続します。（7）WebSocket WebSocketを定義しサーバーへ音声データをPostできるようにします。port.onmessageで入力データを随時サーバーへBinary Dataとしてポストします。 //(2) Declare audio context const context = new AudioContext({ sampleRate: sampleRate }); //(3) Create MediaStreamAudioSourceNode const source = context.createMediaStreamSource(stream); //(4&5) Create AudioWorkletNode await context.audioWorklet.addModule('static/js/recorderProcessor.js'); const recorder = new AudioWorkletNode(context, 'recorder'); // Connect MediaStreamAudioSourceNode and AudioWorkletNode source.connect(recorder); //(6) Connect AudioWorkletNode and AudioDestinationNode recorder.connect(context.destination); //(7) WebSocket let connection = new WebSocket(websocketUrl); // Send audio data connection.onopen = function(event) { show_status.textContent = "Recognizing"; // Send stream to websocket recorder.port.onmessage = msg => { connection.send(msg.data.buffer); }; }; サーバー側で受け取ったデータを出力先が処理可能なデータに整形し渡します。 ■ESPnet2解析時 websocketのreceive_bytes でデータを受取後ndarray（float32）へ変換します。 # Recieve binary data data = await websocket.receive_bytes() # Convert bibary to numpy ndarray(float32) np_data = np.frombuffer(data, dtype='float32') ■音声ファイル保存 32ビット浮動小数点からリニアPCM（16bit符号付整数）に変換します。※215－1を掛けることで変換できます。 # Change float32(-1.0 ~ 1.0) to 16bit signed integer(-32,768 ~ 32767) int_size = 2**(SAMPLE_SIZE - 1) – 1 np_data = (np_data * int_size).astype(np.int16) 下記ページを参考にさせて頂きました。 https://qiita.com/ryoyakawai/items/1160586653330ccbf4a4https://developer.mozilla.org/ja/docs/Web/API/Web_Audio_API 4.Websocket 双方向通信リアルタイム音声認識を実現するため、WebSocketでサーバークライアント間の双方向通信を実装する必要があります。また音声データは途切れることなくクライアントからサーバーへ送付されるため、音声データの受信処理（websocket.receive_bytes）と解析結果の送信処理（websocket.send_text）が同時にサーバー側で行えるよう非同期処理で実装します。 5.音声認識ここからはサーバー側の処理を説明します。音声認識はespnet_model_zooをインストールしESPnetの学習済みモデルを利用します。下記ページを参考にさせて頂きました。 https://tech.retrieva.jp/entry/2020/12/23/170645 # ASRモデルを指定しSpeech2Textを定義 speech2text = Speech2Text(asr_config, asr_pth, device=device) # 32bit floatの音声データ(np_data)を入力 nbests = speech2text(np_data) # 解析結果(text)を取り出し text, *_ = nbests[0] ■ESPnet2について音声認（ASR）、テキスト音声合成（TTS）、音声強調（SE）がサポートされている音声処理ツールキットです。機械学習部分にはPyTorchが採用されています。レシピと呼ばれるシェルスクリプトがありモデルの構築も可能です。詳しくは下記ページを参照ください。今回は学習済モデルを利用するためモデルの構築は必要ありません。 https://kan-bayashi.github.io/asj-espnet2-tutorial/ ■End To End音声認識について従来の音声認識技術では、音響モデル、言語モデル、発音辞書を組み合わせ、音声認識システムを構築していました。End To Endモデルでは特徴量からダイレクトに文字や単語をニューラルネットワークから予測し出力します。 https://techblog.yahoo.co.jp/entry/2020062930010545/ ■ ESPnet2でのASR（音声認識）フローについて https://tech.fusic.co.jp/posts/2021-08-03-espnet/ 6.音声区間検出（Voice Activity Detector）リアルタイム音声認識に必要となる音声区間検出についてです。会話の区切り（息継ぎ）を見つけることで短い文、単語として音声を解析させます。End To Endモデルでは長い文章で解析するより短い文に区切り解析した方が高速となります。例：「今日の天気は晴れ後曇り。/最高気温は三十度です。/夕方から雨が降る可能性があるので/傘を持っていくと安心です」（音声11秒）（A）1音声ファイルで入力した場合　　　解析時間：33秒（CPU）、2.97秒（GPU）（B）4音声ファイル（/で分割）で入力した場合　　　解析時間：14秒（CPU）、2.11秒（GPU）会話中、会話終了、無音は下記で判断します。（A）会話中　：音声区間検出あり（B）会話終了：音声区間検出なし、Speech DATAあり（C）無　音　：音声区間検出なし、Speech DATAなし ① WebSocketからデータを受信しWebsocket DATAに格納します。② Websocket DATA[リスト型]から音声をPOP（Websocket DATAリストは空となる）　後、音声区間検出（VAD）を行います。　└音声あり：データをSpeech DATAへappend（追加）し①へ　└音声なし：③へ③ Speech DATA[リスト型]から音声をPOP（Speech DATAリストは空となる）　後、データありなしを判別します。　└データあり：会話終了、解析処理を行います　└データなし：無音区間、①へ戻ります ※データをPOPしリストを空にすることが重要です。音声区間検出実行のインターバルは1～2秒が最適と思います。　└短いインターバル：音声途中で解析を行う（息継ぎ等）の可能性が高くなります　└長いインターバル：会話と会話が繋がり解析する可能性が高くなりますこのフローであれば長い文章でも単語でも息継ぎを見つけることでリアルタイム（1-2秒後）に結果を表示可能となります。 7.WebRTC マイク入力切り替え　音声認識で重要な要素の1つがマイクの性能です。ノートPC内蔵マイクでも認識可能ですが雑音が多く認識率が下がります。専用の指向性マイクを利用すると雑音が少なく認識率が良くなります。クライアント別にマイクが選択できるようWebRTCで実装しました。実装イメージは下記となります。 navigator.mediaDevices.enumerateDevicesでデバイスリストを取得し必要な部分のみ加工しHTMLへ表示させる形です。コードは下記となります。 <select id="audioSource"></select> const audioInputSelect = document.querySelector('select#audioSource'); const selectors = [audioInputSelect]; // Get device list and show list on select button function gotDevices(deviceInfos) { // Handles being called several times to update labels. Preserve values. const values = selectors.map(select => select.value); selectors.forEach(select => { while (select.firstChild) { select.removeChild(select.firstChild); } }); for (let i = 0; i !== deviceInfos.length; ++i) { const deviceInfo = deviceInfos[i]; const option = document.createElement('option'); option.value = deviceInfo.deviceId; if (deviceInfo.kind === 'audioinput') { option.text = deviceInfo.label || `microphone ${audioInputSelect.length + 1}`; audioInputSelect.appendChild(option); } } selectors.forEach((select, selectorIndex) => { if (Array.prototype.slice.call(select.childNodes).some(n => n.value === values[selectorIndex])) { select.value = values[selectorIndex]; } }); } // Create device list navigator.mediaDevices.enumerateDevices().then(gotDevices); 下記ページを参考にさせて頂きました。 https://webrtc.github.io/samples/src/content/devices/input-output/ 8.各種比較結果 ESPnet2 学習済みモデル（1）kan-bayashi/csj_asr_train_asr_transformer_raw_char_sp_valid.acc.ave コーパス：CSJ、言語：日本語、容量：411MB、周波数：16kHz、訓練時間：45時間、必要GPUメモリ：1.7GB【結果】日本語認識率○、特定の不得意な単語あり（2）Shinji Watanabe/laborotv_asr_train_asr_conformer2_latest33_raw_char_sp_valid.acc.ave Watanabe/laborotv_asr_train_asr_conformer2_latest33_raw_char_sp_valid.acc.aveコーパス：LaboroTV、言語：日本語、容量：611MB、周波数：16kHz、訓練時間：2,049 時間、必要GPUメモリ：1.7GB【結果】日本語認識率◎、全く異なる文章に変換する場合あり（3）Hoon Chung/jsut_asr_train_asr_conformer8_raw_char_sp_valid.acc.ave コーパス：JSUT、言語：日本語、容量：212MB、周波数：16kHz、訓練時間：10時間【結果】認識率✕、学習データが少ないと思います →（1）または（2）を利用するのが良いと思います。その他学習済モデルhttps://github.com/espnet/espnet_model_zoo/blob/master/espnet_model_zoo/table.csvtaskはASR、lnagはjpを選びます。※fs（周波数）に注意ください。音声区間検出（Voice Activity Detector）（1）inaSpeechSegmenter ffmpegのインストールが必要となります。wav audio形式の入力はできますがnumpy形式は不可。別途Numpy形式を入力できるよう改修が必要となります。またnumpy, typing-extensionsがデグレードするためお勧めできません。参考：https://www.ai-shift.co.jp/techblog/1686 （2）silero-vad PyTorchとの相性がよく実装が容易です。子音部分をはっきり検知するため誤認識が少なく不要な単語別れもない為まとまった文で区切られます。参考：https://pytorch.org/hub/snakers4_silero-vad_vad/ （3）pyannote-audio 話者ダイアリゼーションを得意としています。複数の話者が話している音声データを解析し話者を識別することが可能です。ただしその分解析処理に時間を要します。リアルタイム性に課題はありますが議事録作成に非常に有用と思います。参考：https://github.com/pyannote/pyannote-audio →今回は（2）silero-vadを利用し音声区間検出を実装しました。 9.開発環境準備開発はWindows 10がインストールされたノートPC1台（＋Bluetoothマイク）で進めます。全てを1台で完結させるためCPUパワーを必要としますが高速にデバッグ可能です。（1）Anacondaインストール下記ページを参考にインストールします。https://www.javadrive.jp/python/install/index5.html#section1 （2）必要なパッケージインストール Anacondaプロンプトを起動し必要なパッケージをインストールします。 conda install pytorch torchaudio cpuonly -c pytorch conda install -c conda-forge fastapi python-multipart conda install -c conda-forge uvicorn[standard] conda install aiofiles jinja2 pip3 install espnet_model_zoo pip3 install SoundFile （3）仮想環境作成 base環境をコピーし開発用の環境を作成します。 conda create -n poc --clone base conda activate poc （4）アプリケーションダウンロード conda install -c anaconda git git clone https://github.com/masayay/maispeech.git （5）Config編集 [1] maifaceへ移動リネーム　conf_sample_win.pyをconf.pyへリネーム [2] フォルダ作成＆必要に応じてconf修正　C:\User\Music\wav 　C:\User\Music\models （6）Uvicornでアプリケーション起動 [1] アプリケーションディレクトリへ移動　cd maispeech [2] アプリケーション起動　uvicorn speech_api:app 下記メッセージが表示されれば起動成功です。 SpeechRecognition started on device: cpu Using legacy_rel_pos and it will be deprecated in the future. Started server process Waiting for application startup. Application startup complete. Uvicorn running on http://127.0.0.1:8000 (Press CTRL+C to quit) マイクに向かって話すと下記のようにログが流れます。 DEBUG:uvicorn:Speech Recognition: テスト DEBUG:uvicorn:Speech Recognition: ＹｏｕＴｕｂｅ（7）接続テストブラウザでhttp://127.0.0.1:8000/を開きます。 ※http://127.0.0.1:8000/は手順（1）～（6）実施後アクセス可能です。※ブラウザよりマイクのアクセス許可を求めらますので「許可」します。（8）認識結果比較左が今回作成した音声認識ウェブサーバーで右側がWeb Speech APIを利用した結果となります。かなり等しい結果が出力されるよう作成できたと思います。 10.所感　顔認証、音声認識を提供するWebサーバーを構築し、バックエンドの機械学習部分は異なる知識が必要だと感じました。顔認証では画像から特徴を見つけ、音声認識では波形から特徴を見つけ学習します。しかしこの異なる分野も機械学習の登場により共通部分が増えて来ていると感じました。関連記事はこちら https://developers.gmo.jp/17430/

2022.06.17

AI/機械学習

オープンソースで作成する顔認証Web Server -Vol.01

　普段はインフラエンジニアをやっている柳です。今回は顔認証ウェブサーバーの構築に挑戦しました。顔認証を提供する為にはバックエンドで機械学習による画像の解析処理が必要となります。この解析処理は日々研究され様々な手法が発表されています。今回はインターネット上で公開されているものを流用し構築します。言語はフロントにhtml, javascript、バックエンドにpythonを用います。これらの言語の知識があれば構築可能ですのでぜひ挑戦してください。 1.完成イメージ　ブラウザ上でリアルタイムに顔認証結果を表示させることをゴールとします。 2.H/W構成　リアルタイム画像解析処理はGPUによる高速な演算処理が必要となります。サーバーはGPUボード（Nvidia製、GPUメモリー4GB以上推奨）を搭載したPC、クライアントはカメラ付ノートパソコン、タブレット、スマホです。サーバー＆クライアント間の通信はHTTPSとなります。 3.サーバー構成　フロント（HTML, API）のウェブアプリケーションフレームワークはFastAPI、バックエンドの機械学習フレームワークにはPyTorchを利用します。その他ミドルウェアとしてnginx（リバプロ、SSL証明書管理）, gunicorn（HTTPサーバー）, Faiss（近似最近傍探索比較）を用います。またクライアント側のカメラ起動にWebRTCのAPIを用います。上記設計に至った比較結果です。 PyTorch vs TensorflowTensorflowはPyTorchと比較し動作が遅く感じられました。kerasのライブラリで比較を行ったことが起因していると思います。*keras: TensorFlowやTheano上で動くニューラルネットワークライブラリ、TensorFlow上の高レベルAPIFastAPI vs FlaskFastAPIがFlaskよりレスポンスが早いという情報があった為です。実際2通り開発しFastAPIの方が機械学習と相性が良いと感じました。共にWebSocket通信可能なため好みで良いと思います。Faiss vs 他特微比較アルゴリズム（近似最近傍探索比較）はこちらのページのデータを参考にしました。 FaissのみがGPU対応しています。FaissにはIndexFlatL2とIndexIVFFlat（ボロノイ領域を用いた比較）があり共に実装を行いました。画像データが少ない場合はIndexFlat2による総当り比較で十分高速です。 4.顔認証論理図　顔認証システムの論理図です。画像入力から結果出力まで3ステップあります。（1）顔検出　画像から人の顔を検出する工程です。画像から顔のみを切り抜き次の工程に渡します。顔検出のアルゴリズムは下記ページを参考にさせて頂きMTCNN（マルチタスク畳込みニューラルネットワーク）を採用しました。今回の顔認証システムで演算処理が一番長いステップです。＞参考ページ（2）特徴量抽出　顔画像から顔の特徴量を抽出（数値化）するステップです。今回はInceptionResnetV1を採用しました。最終的には512次元(個)の数値をもつ特徴量ファイル（NumPy形式）とします。　*NumPy: 数値計算のためのライブラリで、ベクトルや行列の演算といった数値処理を得意にしている（3）特徴量比較　顔の特徴量を比較し一番特徴量が近いファイル名と値を返します。比較結果が0に近い程、顔の特徴量が近く同一人物と判定できます。ただ、この特徴量は同一人物でも写真が同じでない限り同じ数値にはなりません。顔の色相、彩度、明度が異れば違う数値となります。この比較結果の閾値のチューニングも顔認証では重要なポイントです。 0.1以下：ほぼ同一人物0.5以上：似た人1以上：全く別人0以下（マイナスの場合）：比較しているファイルにエラーが含まれている処理速度　ModelCore i5 2.11GHzGTX 1080 Ti(1)顔検出MTCNN（540x960）158 msec60 sec(2)顔特徴量抽出InceptionResnetV176 msec19 sec(3)顔特徴量比較Faiss（1000名）1 msec0 msec 5.ブラウザ動作設計　画像取得から認証結果表示まで全て1画面で完了するようjavascriptで実装しています。クライアント側でリアルタイムに表示されるカメラ映像の上に、サーバーからの解析結果を表示させます。こちらのページを参考にさせて頂きました。 WebRTC API（getUserMedia）にてカメラを起動カメラデータをリアルタイムでImage canvas（HTMLで定義）にレンダリングImage Canvasから画像として取得しblob化blobデータをサーバーへpost画像から顔を検知し特微量抽出、近似検索し解析解析結果をWSGIに返すjson形式でクライアントへ解析結果送付（x,y,height,width,probability,userid,groupid,…）結果をDraw Canvas（HTMLで定義, Image Canvas上にレイヤリング）へレンダリング 6.顔認証システムのThread Safe化　顔認証システムのスレッドセーフ化について解説します。顔認証のアプリケーションはgunicornのワーカー数に応じてメインメモリ領域とGPUメモリ領域にデプロイされます。GPUメモリには①顔認識（MTCNN）、②特徴量抽出（InceptionResnetV1）、③特徴量ファイル（IndexFlatL2）がロードされます。　今回の実装では1ワーカーあたりGPUメモリを1.5G消費していました。2ワーカーなら3G消費することとなります。　MTCNNやInceptionResnetV1のモデルはGPUメモリにロードされた後、データが変化することはありません。しかしFaissは画像の「登録＆削除」によりデータが変化します。GPUメモリにロードされたデータの変化はワーカー間では共有されない為、ワーカー間で全てのイベントを共有する（全てのワーカーに対して同じイベントを発生させる）仕組みが必要となります。この問題を解決するためにFaiss Event Managerを定義し全てのイベントを共有メモリ（テキストファイル・Redis）経由で管理するよう実装します。またFaiss Event Managerは親プロセスから分離し子プロセス化しイベントを適時検知＆実行できるようにします。 7.開発環境準備　開発はWindows 10がインストールされたカメラ付ノートPC1台で進めます。全てを1台で完結させるため若干CPUパワーを必要としますが高速にデバッグ可能です。Intel Core i5で4FPS（4秒に1回認証結果表示）程の速度です。（モデルの学習やファインチューニングを行う場合は、Google ColaboratoryのGPUで行うと高速です。）*ファインチューニング: 既存の学習済モデル（出力層以外の部分）を、重みデータを一部再学習して特徴量抽出機として利用する　まずAnacondaをインストールし必要なライブラリをconda/pipでインストールします。最後に今回のアプリケーションをgithubからダウンロードしコンフィグしuvicornで立ち上げます。（1）Anacondaインストールこちらのページが参考になるかと思います。（2）パッケージインストール Anaconda Promptを開き開発に必要なpkgをインストールしていきます。 # pytorch, torchvision ※CPUモード conda install pytorch torchvision cpuonly -c pytorch # facenet-pytorch pip install facenet-pytorch # webサーバー関連 conda install -c conda-forge fastapi python-multipart nest-asyncio conda install -c conda-forge uvicorn[standard] conda install -c conda-forge websockets conda install aiofiles jinja2 # faiss conda install -c conda-forge faiss # redis関連 conda install -c anaconda redis-py （3）仮想環境作成 base環境をコピーし開発用のpoc環境を作成します。 conda create -n poc --clone base conda activate poc （4）git clone アプリケーションをダウンロードします。 #gitインストール conda install -c anaconda git # clone git clone https://github.com/masayay/maiface.git （5）Config編集 # maifaceへ移動リネーム mv conf_sample.py conf.py # フォルダ作成＆必要に応じてconf修正 C:\maiface C:\maiface\embeddings C:\maiface\cache （6）Uvicornでアプリケーション起動 # アプリケーションディレクトリへ移動 cd maiface # アプリケーション起動 uvicorn face_api:app 下記メッセージが表示されれば起動成功です。 FaceDetector started on device: cpu Faiss index initialized. People: 1 Faces: 2 Faiss event manager started: Text Started server process Waiting for application startup. Application startup complete. Uvicorn running on [http://127.0.0.1:8000 (Press CTRL+C to quit)] （7）接続テストブラウザで「顔認証画面」を開きます。　→グループ選択、ID入力、キャプチャ取得し登録します。　 ※手順（1）～（6）実行後上記URLへアクセス可能です。次に「顔認証画面」を開きます。　→先程のIDとグループが画面に表示されれば成功です。　※手順（1）～（6）実行後上記URLへアクセス可能です。以上で顔認証ウェブサーバーの開発環境の構築は完了です。本番用(Linux)構築手順はgithubに記載していますので参照ください。顔認証もオープンソースを駆使し構築できることがわかりました。顔認証等のAI分野もオープンソースとしてもっと開発が進みAIが相互連携するようになれば面白いと感じます。関連記事はこちら https://developers.gmo.jp/18245/

2022.05.20

AI/機械学習

CATEGORY

KEYWORD

YEAR/MONTH

AUTHOR

SNS FOLLOW

OLD REPORT

TAG

柳匡哉の記事一覧

CATEGORY

CATEGORY

KEYWORD

YEAR/MONTH

AUTHOR

SNS FOLLOW

OLD REPORT

TAG

柳 匡哉 の記事一覧

CATEGORY

柳匡哉の記事一覧