メディアプラットフォーム「note」を運営するnote株式会社は、顧客からの問い合わせ対応に生成AIを活用するため、個人情報保護とデータ活用の両立という課題解決を迫られていた。noteにおける問い合わせフォームは、ユーザーが自由に文章を入力するテキストエリアで構成される。そのため、問い合わせには多様な個人情報が含まれる場合がある。当初は内製で個人を特定する情報のマスク処理を試みたが、より完璧さを求め専門のマスキングツールの導入を決めた。その結果、高精度のマスク処理や、カスタマイズの容易さ、使いやすいUIが評価され、Insight Maskingが選ばれた。AIとルールベースを併用したマスキングで、個人を特定できる情報を確実に保護しながら、生成AIによる問い合わせ分類の自動化を実現。これにより、問い合わせ対応の迅速化と効率化、より手厚い顧客サポートが可能になった。
月に20時間以上必要だった個人情報のマスキング作業が数分になりました。個人情報を適切に保護したうえでAIで問い合わせを分類できるため、よりきめ細やかな状況分析が可能となりました。
メールアドレスや電話番号などはInsight Maskingに搭載されたAIがほぼ確実にマスクしてくれます。全体で見ても、マスクが必要な情報の7割程度はAIで検出でき、残りをルールベースで補っています。
note株式会社 CS リーダー
村岡 俊介氏
外部の生成AIを活用するためにデータのマスキングが必要
「だれもが創作をはじめ、続けられるようにする」をミッションに掲げるnote。それを実現するために、クリエイターを支援するさまざまなサービスを展開している。
「noteはクリエイターが文章や画像、音声、動画を投稿して、ユーザーがそのコンテンツを楽しんで応援できるメディアプラットフォームです。だれもが創作を楽しんで続けられるよう、安心できる雰囲気や、多様性を大切にしています。」と言うのは、note CS リーダー 村岡俊介氏だ。
CS リーダー 村岡 俊介氏
インターネット上のサービスであるnoteにとって、ITの仕組みはビジネスの根幹だ。データの適切な管理と活用は、サービス改善に不可欠である。クリエイターが創作したコンテンツはクリエイターの重要な資産であり、noteではそれらを適切に管理する責任を負う。
サービス改善と業務効率化を目的に、noteではAIなどの新しい技術を積極的に活用している。その一環として、問い合わせ業務の自動化と効率化に生成AIの活用を検討していた。
しかし、noteの社内ガイドラインでは、個人を特定できる情報などを生成AIに読み込ませることを禁じている。検討の結果、情報を適切にマスキングできれば、生成AIの活用も可能になると判断した。
品質を重視し専用のデータマスキングを選ぶ
noteの問い合わせフォームは、ユーザーが自由に文章を入力できるテキストエリアで構成されている。そのため、入力された問い合わせ内容には、アカウント名、氏名、住所、クレジットカード番号など、多様な個人情報が含まれる場合がある。フリーフォーマットのテキストから個人を特定できる情報を確実に検出し、マスクする必要があった。
noteでは、2023年後半から問い合わせ情報のマスキング方法の検討を開始した。村岡氏はまず、Pythonを用いて、内製でマスキングできるか検証した。「ルールベースであれば、正規表現を用いることである程度対応できました。ルールで厳しかったところは自然言語処理ライブラリなども試しましたが、実用に問題ないレベルの精度を実現するのは、かなり難易度が高いと分かりました」と言う。個人の情報が入るカラムが特定できれば、内製でも高い精度でマスクの処理ができる。しかし、自由な表現の文章から、個人を特定できる情報の確実な抽出は容易ではなかった。
この検証結果を考慮し、専門のデータマスキングサービスを利用する判断に至る。noteでは、2023年末頃からデータマスキングサービスの選定を開始した。”個人情報 マスキング”などのワードで検索すると、数社のサービスが見つかった。資料を取り寄せ、事例なども確認し、マスキング精度やカスタマイズの可否などの要件で候補を絞り込む。さらに実データでも検証し、選ばれたのがInsight Maskingだった。
最終候補の二つは、コスト面に大きな差はなかった。Insight Maskingはユーザーインターフェースが分かりやすく、ルールベース処理の追加ができるなど、カスタマイズが容易であった。また、カスタマイズによる効果検証が可能な点も高く評価された。
村岡氏は、人手とInsight Masking活用時の差分を説明し、マネジメント層から承認を得た。人手で行う場合、月に3人日ほど(20時間以上)の工数が必要なマスキング作業が、Insight Maskingを利用すれば数分で完了するとの試算結果も、Insight Masking採用を後押しした。
AIとルールベースの併用で高精度なマスキングを実現
noteでは、顧客からの問い合わせ対応に利用しているZendeskから、ETLツールを用いて問い合わせの生データを取得しAmazon Simple Storage Service (Amazon S3) に蓄積する。そこからデータを抽出してスプレッドシートに展開し、そのデータをInsight MaskingにWeb API経由で渡してマスク処理をする。結果は担当者が確認し、安全性が確保されたデータをLLMに渡す。マスクされた問い合わせの内容に応じて、たとえば決済系か技術系かなど問い合わせの分類を生成AIで行う。詳細に分類することで、より迅速で手厚い対応ができるようサポートの改善や、問い合わせ種別を参考にしたサービス改善へ取り組んでいる。
Insight Maskingでは、名前や住所などの一般的な個人情報のマスク処理にAIを利用している。それに加え、note特有のURL表現や、独自の決済IDなどのマスクに、一部正規表現を用いたルールベースのマスク処理を加えている。「Insight Maskingの機能が、名前や住所はほぼ確実にマスクしてくれます。全体で見てもマスクが必要な情報の7割程度はAIで検出でき、残りをルールベースで補う感じです」と村岡氏は言う。
AIだけで、100%の検出精度を達成するのは困難だ。ルールも加えてセンシティブな情報は確実にマスクし、問い合わせが個人と紐付かないようにしている。そのうえで、最後は人が確認する。「現状では、人が追加でマスク処理をすることはほぼありません」とも言う。
noteでは、Insight MaskingのSaaS版を利用したことで、サーバーの用意やインストールなども必要なく、Web API経由で直ぐにマスキングの機能を使い始めることができた。そのためエンジニアでなくともフローの構築が容易だったという。「容易にルールベース処理の条件が作れ、非エンジニアでも簡単に使えます」と村岡氏は評価する。事前に十分に検証を行い、ルールベースのマスキング処理を追加しているため、現場の担当者からルール修正などの要望は出ていない。処理結果は、現場で満足できるレベルになっている。
今回の結果を受け、他の領域でのInsight Masking利用拡大の可能性も検討している。
今後Insight Maskingがさらに進化すれば、今回カスタマイズで追加したルールベースの処理も含め完璧なマスク処理を実現できるようになる。そうなれば、Insight Maskingの利用範囲のさらなる拡大も期待できると村岡氏は言う。