GMOインターネットグループ デベロッパーエキスパートの市川(@Yoshihiko_ICKW)です。2024年03月11日(月)~15(金) 言語処理学会第30回年次大会 (NLP2024) @神戸国際会議場に参加してきました。目的は、最近爆発的にユースケースが増えているLLMを始めとした、自然言語処理と、ファイナンス分野への応用研究の調査のためです。よろしければご覧ください。(文章の作成に当たっては、一部Chat-GPTを利用しました)
イベントの概要
言語処理学会は1994年4月1日に設立された学術研究団体です。https://www.anlp.jp/
詳細は上記リンクに譲るのですが、近年注目が集まってきた状況下で、昨年LLMが爆発的に利用が拡大し、急速に注目が集まっているようです。参加者も過去最高だったそうです。
https://twitter.com/Yoshihiko_ICKW/status/1767107731608179040
ChatGPTなどの流行により、多くの分野から研究者が流れ込んでいます。発表量が多く、聴いているだけでも忙しい研究会です。
余談ですが、様々な会社がスポンサーとなっており、学生さんに対して「うちに来て~滑り止めで構いません~」とおっしゃっていました。この分野に限っては、人材獲得競争がかなり激化しています。
発表の概要
こちらの研究会はありがたいことに各発表の概要pdfが公開されています。https://www.anlp.jp/proceedings/annual_meeting/2024/
以下、著者の敬称略とさせて頂きます。
オープニング
参加者:2045件、発表数:599件(歴代1位)とのことでした。過去最大の大会となったそうです。
招待論文
資料が公開されていませんが、言語処理学会での優秀な論文発表者を招待しての講演でした。JGLUEの構築など、4名の方のご講演でした。
A1:言語生成技術の応用
A1-1 市況コメント生成のための少数事例選択
○川原田将之, 石垣達也, 高村大也 (産総研)
株価の数値時系列データからその値動きを説明する市況コメントを生成するタスクを考えています。特に、プロンプトに含める少数ショット事例の選択方法が性能向上のために重要であることを論じています。類似する数値時系列データからのコメントや同一時点でのコメントの傾向が類似しているという特性を活用し、これらを少数ショット事例としてプロンプトに含める新しい手法を提案しています。
ランダムに選択された少数ショット事例を用いたベースラインと比較し、提案手法がBLEU、METEOR、BERTScoreという代表的な評価指標で性能を向上させたことを示しています。
A1-2 プロンプトチューニングとkNN-LMを組み合わせたリスティング広告のタイトル自動生成
○児玉壮平 (東京理科大), 星野智紀, 石塚湖太 (HT)
リスティング広告のタイトルを自動生成するために、Instruction-Tuning済みモデルにkNN-LMを導入し、プロンプトチューニングと用例検索を組み合わせた手法の提案です。広告タイトルの生成品質を向上させるとともに、計算コストを削減することが可能です。
従来のFine-Tuningモデルとは異なり、Instruction-Tuning済みモデルとkNN-LMの組み合わせを用いることで、大規模モデルやデータが引き起こす計算コストの増加を抑えつつ、広告タイトルの生成品質を向上させています。
実験結果から、提案手法が従来手法と比較してROUGE-1、ROUGE-2共に改善されていることを確認しました。
A1-3 複数の属性に対する評価を含む宿泊施設レビューに対する多様な返信の自動生成
○村越裕太, 白井清昭 (JAIST)
宿泊施設のレビューに対して、通り一辺倒な一般的な返信ではなく、レビュー内でユーザーが述べたすべての不満点に具体的に言及する返信を自動生成する技術を開発しました。レビューを個々の文に分割し、それぞれに対する返信を生成した後、これらの返信を統合して最終的な返信文を作成します。
従来の研究では、レビュー全体に対する一括の返信生成に焦点が当てられており、レビュー内の各不満点に個別に対応することは考慮されていませんでした。この研究は、レビュー内の複数の不満点に網羅的に対応し、かつ定型的な表現を避けた多様な返信を生成することを目的としています。
楽天トラベルのデータセットを使用して、提案手法で生成された返信の品質が特に複数の属性を含むレビューにおいて向上することを実験的に確認しました。
A1-4 答案診断グラフを用いた国語記述式答案へのフィードバックの生成
○古橋萌々香, 舟山弘晃, 岩瀬裕哉, 松林優一郎 (東北大/理研), 磯部順子 (理研), 菅原朔 (NII), 乾健太郎 (MBZUAI/東北大/理研)
国語の記述式問題への個別フィードバックを生成するシステムを提案しています。記述式問題の答案を自動で採点し、学習者が犯した間違いに対して個別化されたアドバイスを提供することで、教師の負担を軽減し、学習者の理解を深めることを目指しています。
記述式答案の論理構造と談話関係を組み合わせた「答案診断グラフ」を構築し、それを用いて個別のフィードバックを生成する点でユニークです。
A1-5 多様なクイズを自動生成する手法およびその検証
○小林俊介, 河原大輔 (早大)
クイズ問題の自動生成システムを提案しています。多様なクイズ問題を生成できること、そして新規のWikipedia記事からも問題を生成できることが確認されました。
質問生成モデルの学習手法や入出力形式を変更することで、多様なクイズ問題の自動生成を実現した点にあります。問題生成時の入出力形式の変更と、学習時の損失関数の制御にあります。特に、複数の文書を参照して質問を生成するFiDモデルを用いることで、複数の視点から問題を作成できるようになりました。また、BERTScoreを用いた損失関数の制御により、生成された問題が訓練データに似過ぎることなく、多様な問題を生成できるようになっています。
多様性は、生成された問題に含まれるユニークなn-gramの割合であるDistinct指標によって、適切性は生成された問題とテストデータに存在する問題とのBERTScoreによって評価しました。また、新規のWikipedia記事から問題を生成することで、システムの適用性を検証しました。
A2:LLM分析評価(1)
A2-1 大規模言語モデルは自身の Hallucination を検知できるか?
○門谷宙, 西田光甫, 西田京介, 齋藤邦子 (NTT)
大規模言語モデル(LLM)が流暢で説得力のある応答を生成できる一方で、事実に基づかない応答をすることがあります。この現象はhallucinationと呼ばれ、本研究ではLLMが自身のhallucinationを検知できるかを検討しています。
既存のhallucination検知手法は、LLMの内部状態や外部知識を必要としますが、この研究ではLLM自身をhallucination検知器として使用するアプローチを提案しました。これにより、内部状態や外部モジュールにアクセスできないユーザーでも利用可能になる点が新規性です。
文の真偽判定タスクをhallucination検知として定式化し、Chain-of-Thought(CoT)を用いた真偽判定手法を提案しています。
実験では、GPT-3.5 Turboを用いて、生成した文の真偽をLLM自身に判定させました。その結果、GPT-3.5 TurboはCoTを用いることで自身のhallucinationを58.2%の確率で検知できることがわかりました。
A2-2 大規模言語モデルにおける日本語ゼロ照応解析能力の分析
○野末慎之介 (東北大), 石月由紀子, 松林優一郎, 坂口慶祐 (東北大/理研)
GPT-4のような大規模言語モデルが日本語のゼロ照応解析、つまり述語の省略された項を正確に同定できるかを評価する研究です。結果として、GPT-4はこのタスクで十分な性能を発揮しないことが明らかになりました。ゼロ照応解析は日本語を含む多くの言語で見られる現象であり、その解析は難易度が高いとされています。
GPT-4を用いてゼロ照応解析を行う手法を開発し、NAIST Text Corpus (NTC) 1.5というベンチマークデータセットを用いて性能を評価しました。
GPT-4のゼロ照応解析の問題点は、ヲ格とニ格に関する格フレーム知識の不足と、ニ格に関する選択選好知識の不足にあると指摘されています。これは、大規模言語モデルが日本語の深い理解に至っていないことを示唆しています。
A2-3 LLM生成コンテンツのSEO観点での品質評価
○益子怜 (横浜市立大), 木村賢 (サイバーエージェント), 越仲孝文 (横浜市立大)
Webコンテンツの制作の観点で、LLMが生成したテキストコンテンツを定量評価します。ユーザ評価ラベルが付与されたGoogle検索結果からユーザ評価予測モデルを構築し、GPT-3.5、GPT-4、CyberAgentLM2などのLLMが生成したコンテンツの自動評価を行いました。
SEOの文脈でLLM生成コンテンツの品質を定量的に評価し、予測モデルを用いた自動評価を試みる点がユニークです。
A2-4 物語文に対する大規模言語モデルの読解能力の分析
○板橋康知 (東北大), 松林優一郎 (東北大/理研)
この研究では、GPT-4をはじめとする大規模言語モデル(LLM)の、公立高校入試の国語物語文問題における読解能力を調査しました。特に、人間の心情を理解する能力、すなわち「心の理論」に焦点を当て、LLMがどの程度人間の心情を読み取る問題に対処できるかを分析しています。
新規性は、長い文脈の中から人間の心情を理解するLLMの能力を、実際の公立高校入試の問題を用いて分析した点にあります。ChatGPT(GPT-3.5-turbo, GPT-4)を用いて、2017年から2023年にかけての公立高校入試の国語物語文読解問題108問を分析しました。GPT-4はランダム選択期待値を大きく上回り、GPT-3.5-turboもわずかに上回る結果を示しました。この結果から、LLMが人間の心情を読み解く能力にある程度優れていることが示されました。
A2-6 大規模言語モデルに対する語彙置換継続事前学習の有効性の検証
○野崎雄太, 中島大, 佐藤諒, 伊藤真也, 近藤宏, 麻場直喜, 川村晋太郎 (リコー)
大規模言語モデルに対する語彙置換継続事前学習の有効性を検証した研究です。英語モデルに日本語データを継続事前学習する際、日本語に最適化されていないトークナイザーによって生じる学習効率の低下を克服する方法として、語彙置換継続事前学習を提案しています。
英語モデルを日本語データで継続事前学習する際の問題点として、英語中心のトークナイザーを用いることで日本語の学習効率が低下することが挙げられます。本研究では、トークナイザーの語彙を拡張する代わりに、既存の埋め込みを活用しつつ語彙を置換することで学習効率と精度を向上させる「語彙置換継続事前学習」手法を提案しています。
A3:LLM分析評価(2)
A3-1 NoisyICL: A Little Noise in Model Parameters Can Calibrate In-context Learning
○趙羽風, 坂井吉弘 (JAIST), 井之上直也 (JAIST/理研)
言語モデルのパラメータにランダムなノイズを加えることで、インコンテキスト学習(ICL)のパフォーマンスを向上させる手法、NoisyICLを提案しています。ICLは、少数のデモンストレーションから学習することで、パラメータの更新なしにタスクを生成的に学ぶ方法です。
従来の研究では、ICLの性能向上のために大規模なデータセットと計算コストを要するファインチューニングが行われていましたが、NoisyICLはモデルのパラメータにノイズを加えるだけで、低い計算コストでICLのキャリブレーションを実現します。
A3-2 日本語LLM構築におけるコーパスクリーニングの網羅的評価
○新里顕大 (SB Intuitions/京大), 高瀬翔, 清野舜, 李凌寒, 加藤卓也, 水本智也, 小林滉河, 佐藤潤一, 柴田知秀 (SB Intuitions)
日本語の大規模言語モデル(LLM)の事前学習に用いるコーパスをクリーニングすることがモデルの性能向上に寄与することを示しています。
クリーニング手法として、質の高い文書からN-gram言語モデルを構築してPerplexityの高い文書を除去する方法(LM)、ルールベースで特定のパターンを持つ文書を除去する方法(Rule)、類似した文書を除去する方法(Dedup)の3つを用いました。これらの手法を適用することで、質の高い文書の割合が増加し、学習効率が向上すると予想されます。
複数の質問応答タスクおよび自由記述質問応答タスクを用いて性能を比較しました。計算資源が限られている場合(250Bトークン)と十分な場合(1Tトークン)での学習を行い、クリーニングを施したコーパスとそうでないコーパスでのモデルの性能を比較しました。
A3-3 汎用言語モデルは日本語学習者データに基づく語彙難易度を予測できるのか
○梁震, 彭悦, 笹尾洋介 (京大)
GPT-4を活用して日本語の語彙難易度を分析し、その結果をもとに機械学習で語彙難易度を算出する新しい手法を提案しています。具体的には、中国語母語話者にとっての日本語語彙難易度を、既存の調査結果と比較して検証しました。
中国語母語話者201名の日本語語彙難易度データセットを使用して検証を行いました。検証結果は、既存の調査結果の99%信頼区間内に収まるデータの割合が71%となり、提案手法が比較的高い精度で語彙難易度を推定できることを示しました。
A3-4 LLM による合成文脈データを用いた表のエンティティリンキング
○大嶋悠司, 進藤裕之, 寺西裕紀, 大内啓樹, 渡辺太郎 (NAIST)
論文からの情報抽出を行い、知識ベースを作りたいというのが、大きなテーマの研究です。論文の表に含まれる情報を知識ベースと紐づけるエンティティリンキング(EL)の精度を向上させるために、大規模言語モデル(LLM)を利用して特定のセルに関連する文脈を合成する新しい手法を提案しています。
先行研究では、論文の本文からセルの文脈を抽出する必要があり、特に省略された名称や本文中に十分な説明がない場合(自明な固有名詞なども含む)に精度が低下する問題がありました。提案手法では、LLMを活用してセルに関連する文脈や補助知識を合成し、これによりリンキングに必要な情報を効果的に抽出・補完することができます。
A3-6 LLM はユーザーに適したテキストの難易度を暗黙的に考慮しているのか?
○郷原聖士, 上垣外英剛, 渡辺太郎 (NAIST)
大規模言語モデル(LLM)がユーザーの理解度に合わせたテキストの難易度を暗黙的に調整する能力を持つかどうかを調査したものです。具体的には、質問応答と対話を例に取り、LLMが生成した文章と入力文章の難易度を比較し、LLMがユーザーに合わせた難易度調整を行っているかを検証しました。
複数のLLM(ChatGPT、LLaMA-2、Vicunaなど)を用いて、異なる難易度のプロンプト(simple、normal、complex)に基づいて生成されたテキストの難易度、同義性、冗長性を評価し、LLMがユーザーの入力に応じてどの程度難易度を調整できるかを検証しました。これにより、LLMがテキストの難易度をユーザーの理解度に合わせて暗黙的に調整する能力を持っているかを明らかにしました。
C4:テーマセッション2:金融・経済ドメインのための言語処理(1)
C4-1 企業の環境活動における収益性の関係解析と改善案の自動生成
○児玉実優, 酒井浩之, 永並健吾 (成蹊大), 高野海斗, 中川慧 (野村アセット)
企業の環境活動が収益性にどのように影響するかを分析し、その結果をもとに環境活動の改善案を自動生成する方法について調査しています。特に、環境方針のみを掲げる企業と実際に方針を実行している企業の業績の差異を分析し、改善策をChatGPTを用いて自動生成しました。環境活動の記述が実際の収益性に与える影響を定量的に分析し、さらにはその分析結果を基に、階層2(実行)で止まっている企業に対して、階層3(PDCA)まで含めた環境活動の文章の改善案をChatGPTを用いて精度良く自動生成するところがユニークです。
まず企業の統合報告書から環境活動に関する記述を抽出し、それらを階層1(方針)、階層2(実行)、階層3(PDCA)に分類する手法です。さらに、この研究ではBERTを用いた機械学習モデルを活用して文書を分類し、企業の収益性と環境活動の記述の関係を分析しています。最後に、few-shot learningを使用したChatGPTによる改善案の自動生成が技術の要です。
有効性の検証は、企業の収益性指標(ROE、ROAなど)と環境活動の記述の関係を分析しています。また、自動生成された環境活動の改善案は、専門家による評価を通じてその適切性が評価され、実際に企業の環境活動改善に役立つかどうかを検証しました。
C4-2 T5を用いた技術課題・解決手段推定による特許マップ自動生成
○小堀佑樹, 酒井浩之, 永並健吾 (成蹊大)
T5モデルを用いて特許文書から技術課題と解決手段の要約を自動生成し、これらを基に直感的な特許マップを作成する方法を提案しています。
重要な点は、T5モデルを使用して特許文書から技術課題と解決手段を推定し、その結果をWord2Vecで統合するプロセスです。これにより、同じ内容でも異なる表現で出力されることがある技術課題や解決手段を統一し、より直感的に理解しやすい特許マップを生成します。
C4-3 Beige Bookのセンチメントとマクロ経済データを用いた米国金利変動予測
○藤原真幸 (京大), 中川慧 (野村アセット), 水門善之 (野村證券), 秋田祐哉 (京大)
米国の金利変動を予測する新しいモデルを提案しています。このモデルは、XGBoostアルゴリズムを用いて10年金利、2年金利、イールドスプレッドの3種類の金利変動を予測します。特徴量としては、FinBERTモデルから得られたBeige Bookのセンチメントデータと、月次マクロ経済データを組み合わせて使用しています。特に、イールドスプレッドの予測では、センチメントデータとマクロ経済データの両方を用いることで、予測精度とトレーディング収益が向上することを見出しました。
予測モデルの有効性は、1996年10月30日から2023年10月18日までのBeige Bookデータを用いて検証されました。マクロ経済データとBeige Bookから抽出されたセンチメントデータを特徴量として用い、10年金利、2年金利、イールドスプレッドの予測モデルを構築し、それぞれの予測精度とトレーディングで得られる収益を計算しました。イールドスプレッド予測において、センチメントデータとマクロ経済データの組み合わせが特に有効であることが示されました。また、FRSのDual Mandate(物価の安定と最大限の雇用の実現)に基づき、物価と雇用に関するセンチメントに焦点を当てることで、予測精度がさらに向上することも示されました。
C4-4 投資家の情報選択に対する重みを考慮した金融推奨
○高柳剛弘, 村山友理, 和泉潔 (東大)
個人投資家の異なる情報選択に対する重みを考慮した新しい金融推奨モデル「Personalized Financial Recommendation with Investors'Attention and Contextual Information (PFRIC)」を提案しています。
PFRICモデルは、情報選択モジュールとコンテキストモジュールの2つです。情報選択モジュールでは、注意機構を用いて投資家の様々な情報(テクニカル指標、ファンダメンタル指標、事業内容等)に対する選好を学習します。コンテキストモジュールでは、Neural Matrix Factorizationを基に、投資家のプロファイルや銘柄の動的特徴などのコンテキスト情報を取り入れ、これらの情報を組み合わせて投資家の金融意思決定を予測します。
オンライン証券を使用する個人投資家から収集した取引データを用いて、提案モデルの予測精度を既存手法と比較しました。
C4-5 加法構成性を活用した最適輸送による文書類似度の定量化
○赤松朋哉 (阪大), 中川慧 (野村アセット)
Semantic Text Similarity (STS) の精度向上を目指し、単語ベースと文章ベースのSTS手法の差異に着目します。特に、金融経済分野などの専門分野で使用されるフレーズ表現に焦点を当て、単語の加法構成性を利用した新たな文書類似度の定量化手法を提案します。
提案手法の核となるのは、加法構成性を持つ単語埋め込みに基づく新しい文書類似度測定法です。単語埋め込みの加法構成性を活用し、複数の単語からなるフレーズを1つの単語として近似し、これに基づいて文書間の最適輸送問題を構成します。これにより、文書間の意味的な類似度をより正確に測定することができます。
文書類似度の測定における提案手法の有効性を検証するために、株式市場の格言を含む複数の文書ペアに対して、Word2VecとBERTを用いた類似度測定を行い、それぞれの相関を分析しました。提案手法と従来手法の類似度測定結果を比較し、提案手法がフレーズ表現をより適切に捉えることができていることを示しました。
C5:テーマセッション2:金融・経済ドメインのための言語処理(2)
C5-1 DDSTM:Spike and Slab 事前分布を用いた動的スパース・トピックモデル
○増田樹 (慶應大), 中川慧 (野村アセット), 星野崇宏 (慶應大)
時間的変動と分布のスパース性を同時に扱う新しいトピックモデル、動的スパース・トピックモデル(DDSTM)を提案しています。DDSTMは動的トピックモデル(DTM)に基づき、Spike and Slab Priorを事前分布として使用することで、スパース性を保ちつつ時系列変化をモデル化します。
人工データおよび実際のテキストデータを用いた実証分析によって、提案モデルの特徴を確認しました。具体的には、ロイターニュースから抽出したビジネスニュース記事のヘッドラインを利用し、DDSTM、LDA、DSTMと比較し、提案モデルがスパース性を持ちながらも時系列変化を正確に捉えることができることを確認しました。
C5-2 ゼロショットテキスト分類によるTCFD推奨開示項目の自動判定
○土井惟成 (JPX/東大), 小田悠介 (NAIST/シェルパ), 中久保菜穂, 杉本淳 (シェルパ)
サステナビリティ情報の開示に関するTCFD(気候関連財務情報開示タスクフォース)推奨開示項目を自動で判定する手法を提案しています。具体的には、大規模言語モデルを活用したゼロショットテキスト分類を用いて、開示情報がTCFDの推奨する項目に適合しているかを機械的に分類します。これにより、開示情報の分析にかかるコストを削減できることを目指しています。従来の手法では、学習データの構築に大きなコストがかかる点が課題でしたが、この研究ではゼロショットテキスト分類を用いることで、事前にラベル付けされたデータセットが不要となります。
有価証券報告書から抽出したサステナビリティ情報を含むテキストデータを使用し、提案手法の性能を検証しました。27種類のTCFD推奨開示項目クライテリアに基づいて、100件の正解データを人手で作成し、それを用いて正解率、適合率、再現率を評価しました。その結果、提案手法が特定のクライテリアや構成要素に対して高い効果を発揮していることを確認しました。
C5-3 有価証券報告書の活用による事業セグメント関連語の拡張
○伊藤友貴 (三井物産), 平松賢士 (アイフィスジャパン)
IR(Investor Relations)活動において、企業が発行する決算短信や有価証券報告書などから事業セグメントに関する言及文を抽出する手法を開発することを目指しています。特に、事業セグメント名の検索のみに依存する既存のアプローチでは対応できなかった、関連会社の記載やサービス名・取扱商品のみが書かれた文の抽出にも対応可能な手法を提案しています。
アナリストレポートと決算短信を対象に、提案手法で事業セグメント言及文を抽出し、その精度を評価しました。提案手法は従来の事業セグメント名をベースとした検索アプローチに比べて高い性能を示し、事業セグメント言及文を効果的に抽出できることを実証しました。
C5-4 重要技術語を対象とした特許技術の時系列トレンド分析手法 Patent-GLIPICA の開発
○井畑匠越 (長岡技科大), 邊士名朝飛 (サイバーエージェント), 河野誠也 (理研), 原川良介, 岩橋政宏 (長岡技科大), 野中尋史 (愛工大)
特許情報を基にした技術トレンド分析手法として、特許文書中の重要技術要素を抽出し、それらの時系列連動性を分析する手法「Patent-GLIPICA」を提案しています。この手法は、特許文書構造を考慮したグラフベースのアプローチを用い、重要技術要素を精度良く抽出した上で、時系列連動性を分析します。特許文書内の項目間の意味関係を有向グラフとして表現し、PageRankスコアに基づいて重要技術語を抽出するグラフベースの手法。さらに、抽出された重要技術語を時系列データとして扱い、偏相関行列を用いて技術要素間の時系列連動性を分析する点に特徴があります。
比較手法として統計的手法(TF-IDF)や他のグラフベース手法(TextRank、PositionRank)との性能比較を通じて、提案手法がこれらよりも優れた重要技術語の抽出性能を持つことを示しました。また、携帯電話技術分野の特許データを用いた時系列トレンドクラスタリング実験により、ベース技術およびそれと異なるトレンドを持つ技術群を特定できることを確認しました。
C5-5 大規模言語モデルを用いた金融テキストに対する推論ベースの極性付与
○高野海斗, 中川慧 (野村アセット)
大規模言語モデル(LLM)の推論能力を利用して、特定の業種における重大なイベントの影響を分析し、極性(ポジティブかネガティブか)を付与する手法を提案しています。これまでの極性付与は、テキストに直接極性が記載されている内容が中心でしたが、実際の投資判断では、直接記載されていない情報から極性を推論する必要があります。この研究は、LLMを活用して、そのような推論ベースの極性付与を実現しようと試みています。具体的には、LLMを用いて特定の業種に影響を与えるイベントに関するテキストに対して、バックグラウンド情報を考慮しながら極性を推論し付与します。
未知のウィルスの世界的流行、極端な円安、ロシアとウクライナの紛争などのイベントが特定の業種に与える影響について、LLMに推論させました。結果は、それぞれのイベントが業種に与える影響の極性を反映しており、LLMが提供する推論が実務的に有用であることを示しています。
C6:テーマセッション2:金融・経済ドメインのための言語処理(3)
C6-1 LLM を用いたタカハトセンチメント付与タスクの検証
○川原一修 (Japan Digital Design)
中央銀行の要人発言に対して、その発言が金融政策の緩和(ハト派)か引き締め(タカ派)を示唆しているかを自動で識別するシステムを開発しました。大規模言語モデル(LLM)とプロンプトエンジニアリングの技術を活用しています。
センチメント付与のためのガイドラインをプロンプト内に明示的に組み込むことで、LLMがより正確に発言の文脈を把握し、適切なセンチメントを割り当てることができるようになりました。
FOMC(米国連邦公開市場委員会)の発言記録を含むデータセットを用いて実験を行いました。複数のプロンプト設定を試し、それぞれのセンチメント分析の精度を比較しました。特に、ガイドラインを含むプロンプトを使用した場合の精度向上が顕著であり、ファインチューニングされた小型モデルよりも優れた結果を示すケースがあったことが、実験を通じて明らかにされました。
C6-2 株価変動に対する大規模言語モデルを用いた株式用語選択
○西田隼輔, 宇津呂武仁 (筑波大)
株価変動を報じる記事の自動生成に向けて、大規模言語モデルを活用して株価変動の特徴を適切に表現する株式用語を自動で選択する手法を評価しました。数日間の株価推移を入力として、適切な株式用語(例:「急伸」「続伸」など)を選出できることを確認。特に、few-shot学習やfine-tuningを用いることで、選択精度をさらに向上させることができました。
ChatGPTなどの大規模言語モデルに対し、過去数日間の株価終値データを入力として与え、そのデータから株価変動のパターンを読み取り、対応する株式用語を選択させます。Yahoo!ファイナンスとMINKABUから収集した1,000件のニュース記事を元に、株価変動用語が含まれる612件のデータセットを構築。それを基に検証を行い、用語の定義をプロンプトに含めたzero-shot学習、選択肢を示したfew-shot学習、専用のデータセットに基づくfine-tuningという3つのアプローチが、精度向上に貢献しています。
C6-3 内積注意重みを用いた統合報告書の定量評価とポートフォリオ分析
○森田祐介, 若村浩明, 椎名唯圭, 李楚翹, 大島健斗, 齋藤哲朗, 日尾泰子 (みずほ第一フィナンシャルテクノロジー)
企業の長期価値評価に重要なESG開示情報の定量的評価手法を提案した研究です。統合報告書のテキストデータからマテリアリティウェイトと内積注意重みを使用してスコアを算出し、このスコアを基にしたポートフォリオのパフォーマンス比較を通じて、提案手法の有効性を検証しました。
SASB(サステナビリティ会計基準審議会)スタンダードの課題カテゴリーに関連するテキストデータと、統合報告書のテキストから抽出した情報を内積注意機構を用いてマッチングさせ、それに基づいて企業の統合報告書スコアを算出します。
算出された統合報告書スコアを基に、TOPIX500を対象とした三分位ポートフォリオを構成し、各ポートフォリオのパフォーマンスを比較することでスコアの有効性を検証しました。分析結果は、スコアが高いポートフォリオ(T1)が低いポートフォリオ(T3)に対して高い累積収益率を示すことから、統合報告書スコアが将来リターンに対して有効な指標となり得ることを示しました。
C6-4 金融分野における言語モデル性能評価のための日本語金融ベンチマーク構築
○平野正徳 (PFN)
この研究では、大規模言語モデル(LLM)の性能を日本語および金融分野に特化して評価するためのベンチマークを構築しました。複数のタスクを用いて主要な言語モデルの性能を計測し、GPT-4が特に優れた性能を示すこと、および新たに構築されたベンチマークが有効に機能していることを確認しました。
分野や言語に特化した言語モデルの構築および評価の必要性が高まっている中、日本語と金融分野に特化したベンチマークは存在していませんでした。本研究によって初めて、日本語金融分野におけるLLMの性能を正確に評価できるツールが提供されました。
金融分野に特化した5つのベンチマークタスク(感情分析、証券分析の基礎知識、公認会計士試験の監査タスク、ファイナンシャルプランナー試験の選択肢問題、証券外務員試験の模擬試験タスク)です。
C6-5 ファイナンシャル・プランニングの自動化に向けた GPT-4 及び RAG の性能評価
○西脇一尊, 大沼俊輔, 工藤剛, 門脇一真 (日本総研)
どんなもの?この研究では、個人の家計や人生設計に関する資金計画作成を支援するファイナンシャル・プランニングの自動化に向けて、大規模言語モデル(LLM)とRetrieval-Augmented Generation(RAG)を組み合わせたアプローチの有効性を検証しています。RAGを用いてファイナンシャル・プランニングに関する専門知識が詰まった参考書から金融知識を抽出し、その情報をGPT-4の入力として提供しています。
3級ファイナンシャル・プランニング技能検定の過去問題を使用して、RAGを活用したGPT-4と、RAGを使用しないGPT-4の両方で問題を解かせ、その性能を比較しました。RAGを利用した場合の方が全体の正答率が向上し、GPT-4がRAGから提供された金融知識を効果的に活用できていることが確認されました。
A9:言語生成
A9-2 R2T: 言語モデルの確率操作による学習なし中間文生成
○城戸晴輝, 前川在, 小杉哲, 船越孝太郎, 奥村学 (東工大)
中間文生成タスクに対して、追加の学習なしで自己回帰言語モデルを利用した新しいアプローチ「R2T」を提案しています。この手法は、最終文とトークンの埋め込み間のコサイン類似度を利用して、自己回帰言語モデルが次のトークンを予測する際の語彙の対数確率に加算します。これにより、計算コストを大幅に削減しつつ、品質の高い中間文を生成することが可能です。
ARTDatasetとROCStoriesという2つのデータセットを使用して実験を行いました。ARTDatasetでは、従来の学習なし中間文生成手法であるCOLDとDELOREANと比較し、R2Tが計算コストを大幅に削減しつつ、複数の自動評価指標で優れた性能を示したことを報告しています。
A9-5 特許請求の範囲の自動書き換え生成モデルのための大規模データセットの構築
○河野誠也 (理研/NAIST), 野中尋史 (愛工大), 吉野幸一郎 (理研/NAIST)
特許請求の範囲の自動書き換えを目的とした、新しい大規模データセットの構築に関する研究です。特許請求の範囲の書き換え事例を収録したデータセットを用いて、大規模言語モデルに基づく自動書き換え生成モデルの構築とその性能の評価を行いました。
2004年から2022年にかけて公開された特許情報から、同一の特許出願に基づく公開特許公報と特許公報の特許請求の範囲ペアを抽出し、これらを基にデータセットを構築しています。
B10:対話(2)
B10-1 ただ一つのプロンプトによるタスク指向型対話システムの実現
○鈴木順大, 石垣龍馬, 宿里晃太郎, 藤本拓真, 河窪大介, 酒造正樹, 前田英作 (東京電機大)
どんなもの?この研究では、大規模言語モデル(LLM)を用いて、ルールベースの制御に依存せず、ただ一つのプロンプトだけで制御されるタスク指向型対話システムを提案しています。先行研究では対話フェーズごとに異なるプロンプトを用意し、対話の進行をルールベースで制御していました。Dialogue Flow Prompt(DFP)と呼ばれる、対話フローを制御するための設計手法がキーとなっています。DFPは対話の進行、フェーズ遷移の条件、具体的な対話フェーズの指示、返答の条件など、対話システムを構築する上で必要な要素を一つのプロンプト内で網羅的に記述し、大規模言語モデルによる生成を制御します。
要点としては、柔軟に会話を切り替えた場合、1,「ただし,お客様の要望次第では順番を入れ替えたり,タスクを飛ばしても構いません」という記述を入れると柔軟な会話をする2,フェーズ表現、「・」ではなく、「1」「2」のように数字にした方が柔軟になるなどのポイントがありました。
B10-2 日本語日常対話コーパスへの基礎解析アノテーション
○赤間怜奈 (東北大/理研), 浅原正幸 (国語研), 若狭絢 (東北大), 大村舞 (国語研), 鈴木潤 (東北大/理研)
日常の会話を収めた「日本語日常対話コーパス」に基本的な解析情報のアノテーションを施し、Universal Dependencies (UD) 準拠の言語資源を構築しました。形態素解析や構文解析を行い、その情報を活用して依存構造解析器を作成し、既存の解析器と比較することで、その特性と有用性を評価しています。
日本語日常対話コーパスは以下のリンクです。https://github.com/jqk09a/japanese-daily-dialogue
B10-4 RealPersonaChat: 話者本人のペルソナと性格特性を含んだ雑談対話コーパス
○山下紗苗 (名大), 井上昂治 (京大), 郭傲, 望月翔太 (名大), 河原達也 (京大), 東中竜一郎 (名大)
どんなもの?この研究では、話者本人のペルソナと性格特性を反映した日本語の雑談対話コーパス「RealPersonaChat」(RPC)を構築しました。これにより、人間らしい個性を表現できる対話システムの開発が可能となります。
RPCと既存のPersonaChatコーパスの日本語版であるJPersonaChatを比較分析しました。その結果、RPCの対話はペルソナの情報を過剰に含まず、第三者による対話満足度が高いことが明らかになりました。
B10-6 敵対的発言を取り入れた議論による言語モデルの学習強化と推論力の向上
○Mengsay Loem (東工大), 金子正弘 (MBZUAI/東工大), 岡崎直観 (東工大)
敵対的議論を取り入れた学習フレームワークを提案し、言語モデルの推論能力と学習効率の向上を図っています。具体的には、モデルが不正解を出した際に正解へ誘導し、正解の場合にはわざと不正解に誘導する敵対的な議論を用いて、言語モデルの論理的思考力や説明力を高める手法を開発しました。学習モデルの出力が不正解の場合には正解に、正解の場合には不正解に誘導する敵対的議論を行うことで、学習モデルがより深い理解と論理的な思考を要求される状況を作り出します。このプロセスを通じて、モデルは議論能力を鍛え、推論時の性能を向上させることができます。
Flan-T5とGPT-3.5を用いて算術問題、常識推論、質問応答タスクにおける提案手法の性能を評価しました。その結果、提案手法は議論を行わない学習方法や、推論段階のみで議論を適用する手法、さらにはChain-of-Thought(CoT)を使用した手法と比較して、すべてのタスクにおいて高い性能を示しました。
A11:LLM手法提案
A11-1 Dynamic Inference Thought in Large Language Models
○鈴木拓真, 川本樹, 三山航, 目黒拓己, 鈴木中穂美, 高木友博 (明大)
この研究では、大規模言語モデル(LLM)を用いた推論プロセスを動的に行い、従来の手法よりも精度の高い推論を可能にする新しいフレームワークを提案しています。LLMが自身の推論を評価し、事前知識を参照しつつ、必要に応じて推論を改善するプロセスを動的に実行します。このアプローチにより、LLMはより複雑な推論問題に対しても、高い精度で解答することが可能となります。
このアプローチでは推論の各ステップを分割し、動的に推論を改善していくことで、より高度な推論能力を実現しています。特に、ANLIデータセットを用いた実験では、従来手法と比較して最大で32%の精度向上を達成しており、その効果を実証しています。
どうやって有効だと検証した?提案フレームワークの有効性は、ANLIデータセットを用いた実験によって検証されました。従来の手法(IO、CoT、SI)と比較して、提案フレームワークが最良の精度を達成していることが示されています。また、推論プロセスの明確さと論理的な一貫性も強調されており、動的な推論プロセスの効果が定量的にも定性的にも証明されています。
A11-2 大規模言語モデル事前学習の安定化
○高瀬翔, 清野舜 (LINEヤフー/SB Intuitions), 小林颯介, 鈴木潤 (東北大)
大規模言語モデル(LLM)の事前学習における損失スパイク問題の原因とその対策について分析しています。損失スパイクはモデルの性能を低下させ、学習の失敗につながることがあると指摘されています。特に、Layer Normalization(LN)層が勾配爆発を引き起こすことがこの問題の一因であるとし、LN層での勾配爆発を抑制することにより損失スパイクも抑制できることを実験を通じて示しています。
A11-3 大規模言語モデルに対するサンプリングを活用したメンバーシップ推論攻撃
○綿祐貴 (東工大), 金子正弘 (MBZUAI/東工大), Youmi Ma, 岡崎直観 (東工大)
この論文は、大規模言語モデル(LLM)の学習データに特定のテキストが含まれていたかどうかを判断するメンバーシップ推論攻撃に関するものです。従来の手法がモデルの計算する尤度に依存していたのに対し、本研究では出力テキストのみから判断するサンプリングベースのメンバーシップ推論攻撃を提案しています。これは、特に長いテキストに対して高い性能を示しました。MIA(Membership Inference Attacks):LLMの学習データに特定のテキストが含まれるかどうか確認する手法。著作権の関係で、チェックすることが重要だと考えられています。
この研究では尤度を直接用いないため、尤度を提供しないモデルにも適用可能です。特に、長いテキストに対する検出で高い性能を発揮する点が優れています。
提案手法の検出性能を既存手法と比較し、ROUGE-1とzlib圧縮エントロピーを用いた実験で、尤度を利用しないにもかかわらず既存手法と肩を並べる、またはそれを上回る性能を発揮しました。特に、長いテキストを対象とした検出での高性能が示されました。
雑感
上記で書かせていただいたもの以外にも、大変高名な先生の基調講演があったり、ポスターセッションも素晴らしい発表ばかりでした。夜は懇親会等にも顔を出させて頂きまして、大変勉強になりました。
この分野、皆さん勢いがありますね。基調講演の先生がいろいろやりたいことがあって忙しいらしく、「日本では最近、ワークライフバランスという言葉があるらしいが・・・・」とおっしゃっていたのが印象的でした。
とはいえ、みなさん前向きな印象でしたね。技術の進歩を心から楽しんでいる、そんなイメージを持ちました。