アイキャッチ画像

「危険すぎる」と話題になった文章生成AI、GPT2の日本語版制作プロジェクトが、クラウドファウンディングで支援を募集

「危険すぎる」と話題になった文章生成AI、GPT2の日本語版をトレーニングし、一般公開するプロジェクトが開始されました。AIは既に産業に応用されつつありますが、実際の応用開発には、学習済みの一般モデルが利用出来るかどうかが重要になります。本プロジェクトの実施を通じて、日本のAI開発能力と、ひいては日本の国際競争力の向上に貢献します。

機械学習エンジニア 坂本俊之は、「危険すぎる」と話題になった文章生成AI、GPT2の日本語版をトレーニングし、一般公開するプロジェクトを開始しました。

既にコーパスのクローリングは完了済みで、最小の小説生成モデルは公開しています。より大きなモデルのトレーニングには、高額なサーバーが必要です。

サーバー代を賄うため、9/21 23:59:59 までクラウドファウンディングで支援を募集しています。

 

▼CAMPFIREプロジェクトページ:https://camp-fire.jp/projects/view/320938

 

■日本の国際競争力のためにも、ローカライズされたAIを一般公開したい

 

GPT2は、人工知能を研究する非営利組織のOpenAIが開発したAIで、まるで人間が書いたかのような自然な文章を生成することが出来ると話題になりました。

現在、英語版のGPT2は、OpenAIが一般に公開しており、誰でも利用出来るようになっています。
そして、OpenAIと研究機関が様々な言語学的研究を行いました。(例えば、コーネル大学はAIが生成する偽文章への人間の感受性について研究しました)
このように、アメリカでは、企業が費用のかかるAIの作成を行い一般公開する一方で、大学などの研究機関がその公開されたAIを利用して研究を行うという、エコシステムが出来上がっています。

例えば、画像認識系のAIでは、ModelZOOというAI群が、様々な研究や製品開発に利用出来るように一般公開されています。

既にAIは、実際の製品に利用される段階に入っており、一般公開されたAIが利用出来るかどうかで、製品開発の競争力や、ひいてはその国の国際競争力が左右されると言っても過言ではありません。

しかしながら、(言語に依存せず)世界で共通して利用出来る画像認識系のAIとは異なり、自然言語処理系のAIでは、その国で話されている言語でAIを新たにトレーニングする必要があります。
日本語はローカルな言語なので、誰か日本人がAIをトレーニングして公開しないと、日本語でのAIは利用出来ず、ひいては日本国の国際競争力が低下するような事態まで招きかねません。
 

■AIのトレーニングを行うための費用にクラウドファウンディングで支援を求める


ところがAIのトレーニングは、大量の高性能サーバーを利用する必要があるため、非常にコストのかかる工程です。
日本には、大きな利益を上げている企業がAIを作成し、大学などは公開されたAIを使って研究するというエコシステムが無く、個人や大学の研究室レベルで、細々とAIのローカライズがなされているに過ぎません。

上記の日本語版GPT2も、坂本俊之が個人的な作業として作成した物ですが、
・ワード単位ではなくバイト単位でトレーニングしてある
・最も小さな(最も性能の低い)117Mのモデルしかない
という問題があります。

そして、より大きなモデルをトレーニングするには、117Mモデルをトレーニングするのに使用したGPUマシンではGPUメモリが足りず(バッチサイズを最小の1にしても1バッチがGPUメモリに乗り切らない)、サーバーを借りる必要があります。

それには、個人で出すには腰が引ける金額のサーバー代が必要になります。
例えば、Google Cloud PlatformでのGPUサーバーの代金は$1267.28 per GPU/ monthで、それを使えば一つ大きな345Mのモデルがトレーニング出来ます。
さらに、TPUサーバーの代金は、$3,285 / monthとなっており、それを2ヶ月ほど使えば、もう一つ大きな774Mのモデルがトレーニング出来ます。

また、トレーニングの教師データには日本語の大規模コーパスが必要ですが、そのような大規模コーパスは20万円ほどの利用許諾料が必要になります。(本プロジェクトは、大学などの研究室に属さない個人が行うため、個人利用となり、利用許諾料も高額になります)

このように、日本語にローカライズされたAIを一般に公開することは、日本のAI研究の進歩に寄与し、ひいては日本国の国際競争力強化に値するプロジェクトなのですが、かかる費用のためより大きなモデルのトレーニングが出来ずにいます。

そこで、クラウドファウンディングを利用して支援を求める事となりました。

 

■プロジェクト概要

プロジェクト名 |「危険すぎる」と話題になった文章生成AI、GPT2の日本語版を作成したい

URL |https://camp-fire.jp/projects/view/320938

目標金額 |60万円

募集期日 |2020年8月26日~9月21日

 

リターン内容

・学習済みモデルの公開時にメールでお知らせ 500円

・上記+special_thanks.txtにお名前を掲載 3000円

・上記+クローリングプログラム&トレーニングのためのソースコード提供 10000円

 

坂本俊之について

 

機械学習エンジニア

ITコンサルタント、データサイエンティストとして活動しつつ、AIの啓蒙のために著作活動を行う

著作一覧:https://www.amazon.co.jp/%E5%9D%82%E6%9C%AC-%E4%BF%8A%E4%B9%8B/e/B00IJ93FBK?ref_=dbs_p_pbk_r00_abau_000000

 

CAMPFIREについて

 

株式会社CAMPFIREはあらゆるファイナンスニーズに応えるべく、“資金調達の民主化” をミッションに、個人やクリエイター、企業、NPO、大学、地方自治体など、様々な挑戦を後押ししております。2011年サービス開始の国内最大級の購入型クラウドファンディングプラットフォーム「CAMPFIRE」をはじめ、地域特化型の「FAAVO」、融資型の「CAMPFIRE Owners」 などを運営しています。

 

株式会社CAMPFIRE:https://campfire.co.jp

購入型クラウドファンディングプラットフォーム「CAMPFIRE」:https://camp-fire.jp

地域特化型クラウドファンディングプラットフォーム「FAAVO」:https://faavo.jp/

融資型クラウドファンディングプラットフォーム「CAMPFIRE Owners」:https://owners.camp-fire.jp/



ログインするとメディアの方限定で公開されている
お問い合わせ先や情報がご覧いただけます

添付画像・資料

添付画像をまとめてダウンロード

企業情報

企業名 坂本俊之
代表者名 坂本俊之
業種 コンピュータ・通信機器

コラム

    • クリックして、タイトル・URLをコピーします
    • facebook
    • line
    • このエントリーをはてなブックマークに追加

    プレスリリース詳細検索

    キーワード

    配信日(期間)

    年  月  日 〜 年  月 

    カテゴリ

    業界(ジャンル)

    地域