アイキャッチ画像

「AIを含むPoCの88%が本番導入に至らず(IDC×Lenovo調査)」ロス(コスト・タイム・作業)を劇的に改善させる「バーチャルPoC」を開発

メンタルナビ(東京都西東京市 代表:村田芳実、日本心理学会認定心理士・人工知能学会会員)は、「バーチャルPoC(概念実証)」を開発したことをお知らせします。実証実験では、AIプロジェクトにおけるボトルネックとなっているPoCを「200件のPoCを担当者1名・30分以内で完了」。

■ 背景:AI PoCの“88%が本番導入に至らない”という深刻な現実

IDCとLenovoが実施した調査では、観測されたAI PoCの88%が本番導入に至らなかったと報告されています (※)。この中には、ハードルの低い案件も含まれていますので、高リスク案件に関して言えば、更に深刻だと考えます。これは“品質保証・運用設計・再現性の仕組みが業界全体で整っていない” という構造的な課題を示しています。その主因についても、様々な調査・議論が行われていますが、次のように指摘されています。目的設定の曖昧さ、評価軸のズレ、再現性の欠如、組織側の準備不足、データ準備の不備、ガバナンス不在。

これらは“設計戦略の欠如” にあります。

(※) AI PoCの88%が本番導入に至らない(CIO.com)“88% of AI pilots fail to reach production”

■ 課題:PoCの長期化・高コスト化がAI導入の最大の障壁に

従来のPoCは、期間:数ヶ月〜数年、費用:数千万円〜数億円、人員:専門家数十〜数百名という莫大なリソースを必要とし、AI導入の障壁となっていました。

 

■ 解決策:AIが自ら応答を評価する「バーチャルPoC」

現在のPoCの業務プロセスは、人間が課題を一つ一つ対応していき、検証して最適化を図ります。バーチャルPoCはAIというバーチャル空間で、AIが自ら生成した応答文を評価する形です。AIは読解力や分析力は人間より優れています。AIの自己評価機構を用いるため、外部専門家の工数や検証環境構築を必要としません。

前述の本番導入に至らない主因のうち、次の「①~⑤」については、バーチャルPoCで解決が可能です。そして、「⑥」については構造的応答制御技術(※)で解決します。

(※)複数のセーフティガードを設け、AIの問題行動を抑制する技術

①      目的設定の曖昧さ(マニュアルで目的を固定)

②      評価軸のズレ(マニュアルに合否基準を明記)

③      再現性の欠如(マニュアルに再現性100%で固定)

④      組織側の準備不足(マニュアルを完備することで準備が完了する)

⑤      データ準備の不備(マニュアルなどをAIにリライトさせることで不備を防止)

⑥      ガバナンス不在(構造的応答制御のセーフティガードで強制的に担保)

 

「バーチャルPoC」 は、AIが自ら生成した応答を決められたマニュアルに基づき評価し、コストロス・タイムロス・作業ロスを劇的に改善させる技術です。

■クライアントのPoCに対する不満

クライアントのPoCに対する不満をAIに検索させ、バーチャルPoCの対応を表にしました。この通り、バーチャルPoCはクライアントの不満を解消する「高信頼インフラ」に引き上げます。

クライアントの不満

バーチャルPoC

納期が長い 200件実施時間30分(現状:数か月~1年以上)
費用が高い 30分分の人件費・AI使用料のみ(現状:数千万円~数億円)
成果が曖昧 KPIを明確にしてマニュアルを設計
データ準備が大変 資料をAIにリライトさせるだけの作業
コミュニケーション不足 マニュアルとプロンプトの手順を標準化している

 

■ バーチャルPoCの効果検証実験(N=25問×4種のAI=200)

実験対象:構造的応答制御技術を施したChatGPT、Gemini、Claude、Copilotの4種

AIに実務レベルの難度の高い監査論点の質問25問を作成させた

実験で使用した監査論点25問を呈示して回答させ、評価する

「逐次検証プロトコル(バーチャルPoC)」によりAIによる自己回答評価を行った

評価項目:誤答なし、要件適合、再現性

 

  ChatGPT Gemini Claude Copilot Poc数 所要時間
構造的応答制御技術適用 25 25 25 25 200 30分
 同所要時間 5分弱 5分弱 5分弱 5分弱
同技術不適用 25 25 25 25
 同所要時間 5分弱 5分弱 5分弱 5分弱

結果

ChatGPT、Gemini、Claude、Copilotのいずれのモデルにおいても5分以内で合否の結果をアウトプットしました。実験者による状況確認、記録などを加味しても10分以内のバーチャルPoCが実現しました。ただし、これはテスト実行だけの時間です。また、これは、合否を確認する作業ですので、個別の分析作業は含まれていません。

本検証は、実システムへの直接導入を伴わないが、実務上想定される判断条件を用いた挙動確認を目的とする点で、PoCに加えてフィールドテスト的性格を有する

以前行った実験では、構造的応答制御技術未適応のAIは不適切応答を行うことが分かりました。このことから、バーチャルPoCを適正に機能させるためには同技術を適用することが前提となります。

■一連のPoC作業にかかる時間の試算(1/400~1/600に縮減)
評価シナリオ設計、テスト実行、結果整理・報告という作業を想定した試算します。

①      従来:一般的なPoCでは「1 PoCあたり2~3日、つまり、200 PoC×2~3日=400~600人日」とされる

②      バーチャルPoC:1人日(根拠は次の通り)

この実験では、AIの支援を受け1.5時間ほどで完了。一般の人が作業した場合、AIの支援を受ければ、①評価シナリオ設計:2〜3時間、②テスト実行:30分~1時間、③結果整理・報告:2〜3時間、合計5~7時間ですから1人日ということになります。

このデータをAIが分析すれば、①失敗パターンの分類、②評価観点の偏り、③シナリオ設計自体の問題、などの内容的な問題点も明らかにできるでしょう。

■ 期待される効果

①      バーチャルだから

実証が困難なケースも空間でPoCが可能

原子炉管理、航空管制、航空機操縦、自動運転、鉄道運行管理、医療などにも対応

これら、超リスク案件では数千から数万のPoCが求められるが、作業を標準化しているため対応可能。例えば、1日500件として、10人で手分けすれば、1日5,000件、10日で50,000件のPoCが可能

したがって、万全の態勢で実運用に望め、品質を高めることができる

②      テキストデータを読み込ませる方式のため

透明性確保や説明責任が容易⇒規制対応

機械学習など専門的な知識は必要ない

スキルレス化による人材不足解消

③      短時間で大量のPoCが可能

統計で安全性を数値化できる⇒信頼性の確保

自由自在に様々なケースを想定して設計できる

作業期間・コストの大幅軽減(1/400~1/600に縮減)

PDCAを高速で回せ、改善速度が速くなりPoCでの失敗を防止することができる

 

特に、AI PoCの88%が本番導入に至らないという課題に対し、日本発の技術が“構造的解決策”を提示する点 は大きな意義があります。

 

【お問い合わせ】

村田芳実

Eメール:biribiriglay☆jcom.home.ne.jp(☆マークに@を入れてください)

 

 



ログインするとメディアの方限定で公開されている
お問い合わせ先や情報がご覧いただけます

添付画像・資料

添付画像をまとめてダウンロード

企業情報

企業名 メンタルナビ
代表者名 村田芳実
業種 コンピュータ・通信機器

コラム

    メンタルナビの
    関連プレスリリース

    メンタルナビの
    関連プレスリリースをもっと見る

    • クリックして、タイトル・URLをコピーします
    • facebook
    • line
    • このエントリーをはてなブックマークに追加

    プレスリリース詳細検索

    キーワード

    配信日(期間)

    年  月  日 〜 年  月 

    カテゴリ

    業界(ジャンル)

    地域