子宮頸がん検診を高精度に迅速化する病理AIの開発に成功 - Cancersに論文が掲載

医療・健康

デジタル病理支援ソリューション「PidPort」を提供するメドメイン株式会社（本社：福岡県福岡市、代表取締役：飯塚統）は、Deep Learning（深層学習）を用いることで、子宮頸がん検診で使用される液状化細胞診デジタル標本において、がんを含む上皮性腫瘍を疑う病変の存在をスクリーニングする人工知能の開発に成功しました。今回開発した人工知能を用いることで、液状化細胞診による子宮頸がん検診のスクリーニングの迅速化ならびに精度の向上と均質化が期待されます。また、この開発に関する論文がMDPI（https://www.mdpi.com）が発行するCancersのArtificial Intelligence in Oncologyの特集号にて掲載されたことをお知らせします。（掲載箇所：https://www.mdpi.com/2072-6694/14/5/1159）

デジタル病理支援ソリューション「PidPort」を提供するメドメイン株式会社 ( 本社：福岡県福岡市、代表取締役CEO：飯塚統、以下「メドメイン」)は、Deep Learning（深層学習）を用いることで、子宮頸がん検診で使用される液状化細胞診デジタル標本において、がんを含む上皮性腫瘍を疑う病変の存在をスクリーニングする人工知能の開発に成功しました。今回開発した人工知能を用いることで、液状化細胞診による子宮頸がん検診のスクリーニングの迅速化ならびに精度の向上と均質化が期待されます。

また、この開発に関する論文をMDPI（https://www.mdpi.com）が発行するCancersに投稿し、2022年2月24日にArtificial Intelligence in Oncologyの特集号にて掲載されたことをお知らせします。（掲載箇所：https://www.mdpi.com/2072-6694/14/5/1159）

■本研究成果の概要
子宮頸がん検診で使用される液状化細胞診（ThinPrep）デジタル標本において、子宮頸部のがんを含む上皮性腫瘍を疑う病変をスクリーニングする人工知能の開発に成功しました。子宮頸がん検診は、20歳以上の女性が2年に1度定期的に受診することが推奨されています。
子宮頸がん検診の現場では、多数の細胞検体を迅速かつ精確にスクリーニングすることが求められており、今回開発した人工知能を用いることで、高いスクリーニングの精度を担保しつつ、迅速化することが可能になります。

■本研究の背景
本研究は、これまで弊社で研究開発してきた病理組織におけるAI開発に加え、子宮頸部腫瘍性病変のスクリーニングを目的とした液状化細胞診（ThinPrep）における深層学習による病理AI開発です。
わが国の女性におけるがんの中で、子宮頸がんは比較的多く、20歳代から40歳代の女性で近年増加傾向が認められます。子宮頸がん検診の重要性は広く周知されており、細胞診は子宮頸がん検診の現場で推奨されている検査方法です。
近年の子宮頸がん検診では、不適切標本の回避や、子宮頸がん発症に深く関与するヒトパピローマウイルス（HPV）検査の重要性などを背景として、液状化細胞診（Liquid-based cytology: LBC）が急速に普及してきています。
以上の臨床的背景から、本研究の目的は、子宮頸部液状化細胞診（ThinPrep）デジタル標本において、がんを含む上皮性腫瘍を疑う病変の存在をスクリーニングすることが可能な人工知能を、深層学習を用いて開発することにあります。

■本研究の内容
本研究では、国内の施設から提供を受けたThinPrep法により作製された子宮頸部液状化細胞診標本をデジタル化し、病理医および細胞検査士によるアノテーションデータを含む教師データを、畳み込みニューラルネットワーク（CNN）および回帰型ニューラルネットワーク（RNN）を併用して深層学習させることで、子宮頸部の上皮性腫瘍を疑う病変の存在を細胞レベル並びにバーチャルスライド（whole-slide image）レベルでスクリーニング可能な人工知能を開発しました。また、開発した人工知能は、教師データとは異なる検証データを用いて、精度の検証を行いました。

■本研究の成果
開発した人工知能モデルを検証したところ、子宮頸部上皮性腫瘍においてROC-AUCが0.960という極めて高い精度の結果が得られました。また、ヒートマップにより表示された人工知能が識別した上皮性腫瘍を疑う細胞については、複数の病理医および細胞検査士による検証の結果、妥当であることが確認されました。以上のことから、子宮頸部液状化細胞診（ThinPrep）デジタル標本において、高精度に上皮性腫瘍を疑う病変の存在をバーチャルスライド（whole-slide image）および細胞レベルでスクリーニングする人工知能の開発に成功しました。

本研究成果のポイントは、標本単位（バーチャルスライド単位：whole-slide image）ならびに標本内の細胞単位で、子宮頸部のがんを含む上皮性腫瘍を疑う病変の存在を推論することが可能になり、デジタル化された大量の標本をシームレスに深層学習型人工知能により解析できることにあります。
今回開発した深層学習型人工知能モデルについて、複数施設ならびに大規模症例にて検証試験をさらに進めてまいります。

■ 共同研究者のコメント～本研究の意義と今後の展望について～
札幌厚生病院病理診断科主任部長
市原真

ようやくできた！という安堵の気持ちでいっぱいです。子宮頸部細胞診のAIは、待ち望まれていた技術でした。なぜなら、子宮頸がん検診において、精度の高い自動化技術の導入は必然であると同時に、悲願でもあったからです。

日本においては子宮頸がん検診を含めたがん検診の受診率があまり高くありませんでしたが、近年は少しずつ改善の見込みが見えてきました。平成30年3月の厚生労働省・がん対策推進基本計画（第3期）1)によれば、子宮頸がん検診の受診率は2010年には37.7％、2016年には42.4％と、年を経るごとに増加しています。ただし、厚生労働省の定める目標値である50％には届いていません。さらに言えば、欧米諸国は80％以上の受診率とされ2)、それに比べると我が国の子宮頸がん検診への取り組みはまだまだ遅れています。

今後、国や医療施設が一丸となって、子宮頸がん検診の受診率を上げる取り組みが行われることでしょう。ただし、受診率が上がると、今度は別の問題が現れます。
それは、スクリーニングにおける「見逃し」や「過剰診断」の問題です。

子宮頸がん検診は、細胞検査士という資格を持った臨床検査技師が中心となって行う検査です。細胞検査士試験は難関として有名で、努力を重ねた技師だけが手にすることができる資格です。しかし、人が行う検査である以上、受診者数が増えればそれだけ現場の労力が増し、エラーも起こりやすくなります。まして、多数の正常細胞の中にまれに混在する（かもしれない）腫瘍細胞を探し出すというのは、精神論では克服できない（注意してがんばればよいという問題ではない）レベルの大変な仕事です。どんなに優れた人間であっても、ヒューマンエラーからは逃れられません。

ですから、エラーを可視化し、可能な限り減らし、あるいはエラーが起こってもすかさずリカバーするような取り組み（精度管理と言います）が必要になります。実際に、診療の現場ではさまざまな精度管理が行われています。

たとえば日本では、「10％ランダム再検査」と言って、技師が陰性（前がん病変なし）と判定した検体のうち10％を再検査して、見落としを防ぐシステムが導入されています。一方の米国では、なんと1996年の時点で機械による「自動スクリーニング支援システム」がFDA承認され、広く臨床応用されています。細胞の乗ったプレパラートを機械で写真撮影し、正常の細胞から「かけ離れた」細胞があればチェックする、という単純な仕組みですがその効果は高く、日本でも「10％ランダム再検査よりもエラーを発見しやすいのではないか」という報告がなされています2)。

ただし、杉山らの班会議報告2)によれば、本邦の検体を用いて機械でのチェックを試みたところ、「実測不能」のケースが18％近くあったとのことです。「機械に適した染色をしなければいけない」という、機械化ゆえの問題も指摘されています。少なくとも、本邦の津々浦々の病院で現在施行されているヒト技師による細胞診を、すべて既存の自動スクリーニング支援システムに置き換えることは難しいのではないかと言われています。

ここまでをまとめますと、
・子宮頸がん検診は細胞診というハイレベルな人力検査によって支えられている
・人力でやる以上、エラーは避けられないので、精度管理のために機械化したい
・しかし従来の自動システムを導入するには困難がある

となります。もうピンと来る方が多いと思いますが、だからこそ、冒頭の「子宮頸部細胞診のAIは、待ち望まれていた技術でした」という言葉が出てくるわけです。

そして我々は、この度ついに子宮頸部細胞診AIを完成させました。ROC-AUCという精度の目安を示す数字が0.960です。この数字の素晴らしさは、日ごろ、検査の精度についてお考えになっている医療者や、検査室の運営に携わる方々、さらには機械学習をなさったことのある方なら実感できるのではないでしょうか。

ただ、専門的な技術と数字の話以上に、本AIの開発の過程では、我々が非常に驚いた話があったので、本プレスリリースではそちらの話を書きます。以下は「AI開発現場のナラティブ」です。

AI開発の過程で、はからずも、「ヒト細胞検査士がスクリーニングをすること自体への疑義」が浮き彫りになりました。それは、本論文のTable 1に見ることができます。

「ROC-AUC 0.960, Log Loss 2.244」という脅威のデータの上に、「Full Agreement」と書かれているのにお気づきでしょうか？　AIの精度を検証する際には、まず細胞診プレパラートを複数の細胞検査士がチェックし、「ヒトによる診断」を用意します（正解を用意するのです）。その結果とAIの判定とを比べて、ROC-AUCやLog Lossなどの評価を行います。このとき、参加者全員の診断が一致していたデータを「Full Agreement」と名付けました。つまり、細胞検査士が全員良性、もしくは全員悪性と判断したプレパラートに関しては、AIは驚異的な正解率を誇った、ということがわかります。

一方で、「Clinical Balance」や「Equal Balance」と書かれたデータセットは、「細胞検査士の意見が割れたケース」です。多数決によって「ヒトによる最終診断」を決めて、AIに予測させたところ、ROC-AUCはそれぞれ0.774と0.827でした。悪くはないですが、決していい数字でもありません。

「でも、これ、外して当たり前だよな……」と私は思ったのです。

だって、歴戦の細胞検査士の意見が割れているケースですよ？　「多数決で正解を決めた」とは言え、AIの判断が多数決の結果と違っていたというだけで「誤診」と判定するのは厳しすぎます。

そこで我々は一考し、データセットの中から、「あまりに細胞検査士の意見が割れすぎたもの」をデータから除外しました。それがClinical Balance-rev.と、Equal Balance-rev.です。結果は驚くべきものでした。

Clinical Balance ROC-AUC 0.774　→　Clinical Balance rev. ROC-AUC 0.890↑
Equal Balance ROC-AUC 0.827　→　Equal Balance rev. 0.915↑

「人間の診断結果がぶれたもの」を取り除くと、AIの判断精度が目に見えて良くなったのです。「教師がぶれていれば生徒の点数は下がる」という当たり前のことをまざまざと見せつけられたようなものです。

実際の臨床現場では、意見の対立があるこれらの技師たちが、それぞれ責任をもって診断をしているのだよなあ……と、少し複雑な気分になりました。

これは、ヒトが信頼できない、という意味で言っているのではありません。そもそも、さまざまな検査・診断において、「検査者間のぶれ」があることは当たり前・織り込み済みなのです。ぶれがあることを前提として、医療は組まれています。しかし、強力なAIができたことで、「これまでどうしようもなかった、検査を行う人間どうしの不一致」が、もしかするとAIを用いれば解消できるかもしれない、ということに気づいてしまいました。

たとえば、米国の自動スクリーニング支援システムは強力ですが、人間の仕事に置き換わることは不可能とされています。米国では一部の検査センターなどで一次スクリーニングに自動スクリーニング支援システムが導入されていますが、日本のヒト細胞検査士の精度にくらべると精度が悪く、本邦ではあえて精度を落としてまでスクリーニングを機械に任せることはできません。それに、米国以外のさまざまな国や地域が、すべて自動スクリーニング支援システム用の染色を行わなければいけないというのも現実的ではありません。

でも、ディープラーニングを用いたAIであれば話は別かもしれません。ヒト検査士よりもぶれの少ない、よりエラーの少ないシステムが導入できるかもしれないという夢を、本論文は見せてくれるのです。

……と、ここまでで終わってしまうと、あたかも「ヒト vs AIでまたヒトが敗北してしまったな……」という記事に読めてしまいますので、最後にひとつ付け加えておきます。

本論文に掲載されているAIは、じつに２年間の開発期間を経て完成しました。我々が過去に開発してきたAIに比べても、これはかなり手こずった方です。しかし、開発の終盤に、複数の細胞検査士たちに研究に参画していただいたことが功を奏しました。AIのアルゴリズムを考えるにあたり、「細胞検査士たちがこれまで積み上げてきた現場の臨床知」を組み入れてみたところ、すばらしい精度のAIが達成できたのです。

すぐれたAIがあれば人間は不要、とは全く考えていません。人間が現場に関わり続けることで、言語化できる知識もできない知恵も含めて、人間がこれまでディープに学習してきた内容を、AIに実装することができます。今後も、細胞のことを知り尽くした人間と共に、よりロバストなAIを開発し、さまざまな臓器における診断の風景を少しずつ改善していけたらいいと願っています。AIがスクリーニング作業を肩代わりしてくれるなら、細胞検査士も病理医も、自らの技能をより高度な仕事に応用すればいいだけの話。いいことづくめじゃないですか。

この項の参考文献：
1.厚生労働省ウェブサイト　がん対策推進基本計画　https://www.mhlw.go.jp/stf/seisakunitsuite/bunya/0000183313.html　（閲覧：2022年2月25日）
2．杉山裕子，佐々木寛，小松京子ほか．班研究報告：子宮頸部細胞診精度管理における自動スクリーニング支援システムの有用性について．日本臨床細胞学会雑誌，2018；57(1)：19-34．

■原著論文
▼論文タイトル：A deep learning model for cervical cancer screening on liquid-based cytology specimens in whole slide images
▼日本語訳：液状化細胞診デジタル標本における「子宮頸部の上皮性腫瘍を疑う病変」のスクリーニングを可能にする深層学習を用いた人工知能の開発
▼DOI：https://doi.org/10.3390/cancers14051159

■著者・所属
＜札幌厚生病院医療技術部臨床検査技術科＞
廣瀬尚樹、石井貴裕、福田彩夏
＜札幌厚生病院病理診断科主任部長＞
市原真
＜メドメイン株式会社＞
常木雅之、Fahdi Kanavati

■会社概要
【会社名】メドメイン株式会社 (Medmain Inc.)
※経済産業省 J-START UP 選出企業　 https://www.j-startup.go.jp/startups
【設立日】2018年1月11日
【事業内容】医療ソフトウェア・クラウドサービスの企画・開発・運営および販売
【代表取締役/CEO】飯塚統
【所在地】[東京オフィス] 東京都港区南青山2-10-11 A青山ビル２F / [福岡オフィス] 福岡県福岡市中央区赤坂2-4−5 シャトレサクシーズ104

■各種関連サイト
【コーポレートサイト】https://medmain.com
【プロダクトサイト】https://medmain.com/products
デジタル病理支援ソリューション「PidPort」
「Imaging Center」～病理標本の高品質デジタル化サービス～