AIシステムを評価する5つの方法

テクノロジーを駆使した人事・人材関連サービスを提供するHR Tech(HRテック)事業者は、そのほとんどが人工知能(AI)を活用していることを強調します。もし、あなたが使用している製品にAIが活用されていないのなら、「AI」を一過性の流行に仕立て上げ、AIツールの印象を希薄化し、しまいにはAIなんて存在しないと主張するのも賢い考えです。しかし、採用業務を向上させるためにAIを活用するツールは、実際にいくつも存在しています。では、いったい誰がAIを活用できているのでしょう? その良し悪しは? 私たちはこれらをどのように評価すればよいのでしょうか? そこで、AIシステムを評価する際に役立つ5つのポイントを紹介します。

  1. 人間主体の機能性
  2. 専門家によって作られているか
  3. 透明性を保てるか
  4. システムではなくユーザーに主導権があるか
  5. バイアスの軽減

人間主体の機能性

AIは人間の行動を基に設計されることが保証されていなければいけませんし、実際にそのように設計されています。

機械学習と自動化の大きな違いの一つは、前者は本物の人間と似た判断の仕方を機械に教えることである一方で、後者は同じ作業を人間よりも早くこなすことをコンピューターに教えるにすぎません。

キーワード検索は自動化を説明するための良い例です。検索アルゴリズムがどれだけ高度なものであっても、機械学習とは言えません。対してセマンティック検索(意味検索)は、自然言語理解に基づいた検索であり、機械学習の一例です。

こうしたシステムでは、何十万通という履歴書の中からキーワードを探します。そしてキーワードが見つかったら、そのキーワードのそばで、文章の内容を把握するのに役立つワードを探します。これは、バリスタの履歴書に書かれている「ジャバ(Java)」と、ソフトウェア開発者の履歴書に書かれている「ジャバ(Java)」の意味の違いを理解するうえで重要です。つまり、システムにおいてプロの採用担当者のように履歴書を見ることができているか? AIは採用担当者が何をどのように考えているかを理解し再現しているか? 応募者と採用担当者間、あるいは採用担当者と人事マネージャー間の会話にも対応できているか?――これらのことが重要なのです。 

ポイント:そのシステムは、どのように、文章内の情報に基づいて判定を行っているのか?

専門家によって作られているか

あなたが使用しているシステムが「エキスパートシステム」であるかどうかは重要な問題です。

まず、そのシステムは専門家によって訓練されたものでしょうか? これは、単にAIの訓練にとって重要なだけなく、ユーザーインターフェースの開発において、簡単に使用でき、また使用にあたって特段の習得を必要とせず、かつ採用担当者の業務フローを変更したり入れ換えたりすることなく既存のフローにフィットさせるという点でも重要です。

次に、採用されている分類法はプロの採用担当者が作ったものでしょうか? それとも言語学者によってでしょうか? そのツールは、トークン化から品詞タグ付けや単語埋め込み(word embedding)まで、ゼロから作られたものでしょうか? ツールは、履歴書や求人情報を基に訓練されている必要があります。ロマンス小説や新聞記事などではダメです。そして、言語学者ではなくプロの採用担当者によって訓練されたものが最良のツールだと言えます。

履歴書や求人情報においては、言語処理の観点から独特の課題があるため、この点は非常に重要です。一貫性のない書式設定、意味のある内容とそうでないものの混在、業界や業種特有の様々な専門用語、経験における時間的側面などはすべて、それぞれに特化したソリューションが必要な課題なのです。

ですから、一般的なAIを備えた既製品を買うだけでは不十分で、それでは残念な結果しか得られないでしょう。自然言語処理した文章のほとんどに不自然さが見られます。Googleですら、基礎ツールについて、それを基に複雑なシステムを構築するには正確さが不十分だと非難しています。だからこそ、採用担当者をモデルとし、採用に関連するデータを使って採用担当者によって訓練され、採用業務の複雑さに基づいて構築されたエキスパートシステムでなければならないのです。

ポイント:そのAIは、誰がどのデータを使って訓練したものなのか?

透明性を保てるか

機械学習においてブラックボックスの問題が大きな課題となっています。これはつまり、モデルがますます複雑化するにつれ、結果がなぜそうなったかを説明するのがさらに難しくなっているということです。意思決定プロセスにおけるデータポイントのそれぞれについて、その重要性を説明するのは容易ではありません。しかし、雇用においてはブラックボックスのままでは、アメリカの雇用規則にも、そしてEUの一般データ保護規則(GDPR)にも違反してしまうことになります。

それなら、ブラックボックス化されたディープラーニングよりも、線形モデルを実装する方が良いでしょう。その方が必要なデータセットも少なく、学習時間も短くなり、さらに完全な透明性を保てるという利点も加わるのです。 何がデータポイントであり、それぞれがどれくらい加重されているかを知ることが重要です。ユーザーは目に見えるものを信頼し、賛否の判断をします。事例としてはあまりないことですが、システムに誤りがあったとき、透明性があることで原因を発見しやすくなります。システムが出来の悪い履歴書を表示することについてユーザーと話をすると、大抵「でも、なぜこういう間違いを起こしたのかは理解できる」といった言葉が返ってきます。答えが正しくても間違っていても、筋が通るのです。

信頼を築き、将来的な制約への懸念を失くすためには、アルゴリズムがどう機能するのか、どのように結果が導き出されるのかをユーザーが理解することは重要です。

ポイント:年齢、ジェンダーその他保護対象の部類に対する差別に該当しうるデータポイントに基づいて意思決定がなされていないことを証明できるか?

システムではなくユーザーに主導権があるか

上記で言及したように、ブラックボックスの問題は機械学習における大きな課題です。これは、モデルがもっと複雑化するにつれ、結果がなぜそうなったかを説明するのがさらに難しくなる、ということを意味します。人間はシステムをコントロールできず、逆にシステムにコントロールされるのではないかという恐れを抱きます。人間のためのシステムを構築することが重要です。だからこそ、システムが人間に耳を傾ける必要があるのです。データサイエンスではこれを「強化学習」と呼んでいます。

優れたツールは、アルゴリズムではなくユーザーに主導権を与えます。これらのツールでは、応募者の採用・不採用などで、ユーザーの意思決定や行動に重きを置くことにより、ユーザーがアルゴリズムを回避できるようにします。そして、システムはユーザーのフィードバックから学習してより正確な検索を実現し、標準的な基準ではなくそのユーザーの採用基準に基づいて応募者が示されるようにカスタマイズされていきます。ユーザーがシステムを使うたびに、システムに学習させていくのです。

 ポイント:ユーザーとアルゴリズム、主導権はどちらにあるのか?

バイアスの軽減

無意識のバイアスには2種類の形があります。それは、バイアスのかかったデータと、バイアスのかかったパラメータ調整あるいは特徴量設計(feature engineering) です。

私たちは採用業務に携わっています。人と関わる仕事です。人にはバイアスがかかるものです。採用担当者が書く業務概要はどれも、担当者から見た現実と理想を反映したものですが、履歴書にも同じことが言えます。問題は「無意識にバイアスがかかっていないか?」ということではなく、「無意識のバイアスにどう対応するか?」ということなのです。

こうしたバイアスの影響を軽減するためのステップを紹介します。

  • ソースデータ(履歴書や求人情報)を多様化することで、学習において、単一のデータ収集によるバイアスの影響を生じさせない。
  • トピックモデルなど、文書の内容を平均化して意思決定を導くようなアルゴリズムの使用を避ける。
  • 用語にフォーカスする。何千もの用語事例を見て、目の前にある用語だけに限定しないで検索すべきものを決定する。

(特徴量設計の観点から)

  • 保護対象であるステータスの特徴を評価しない、もしくは、保護対象であるステータスの予測子をモデルに含めない。
  • 線形モデルを使う。それぞれの特徴は結果を見れば簡単に監査することができる。望ましくない特徴は複数の結果をレビューすることですぐに分かり、ユーザーが選択または却下することで取り除くことができる。

ポイント:無意識のバイアスにどのように対応するか?

この5つのポイントによって、早い段階で事業者のハッタリを見抜くことができるでしょう。その次の段階として、実際にシステムを使ってみて、ご自分の会社や業界の環境にどの程度対応できるのかを確認することをお勧めします。

Source: Recruiting Daily
Author: Felix Wetxel
Original Article: 原文

 

Tags: