Amsterdam の生活保護詐欺を検出する公正な人工知能システム構築の野心的な試みが失敗に終わり、AIシステムからバイアスを排除することの複雑な課題が浮き彫りになった。この オランダ の首都は、偏見のない機械学習モデルの構築に数年を費やしたが、ある集団に対する差別を修正すると、しばしば他の集団に新たな問題を生み出すことを発見した。
市の社会保障機関である Dienst は、どの生活保護申請がさらなる調査に値するかを予測するシステムを設計した。秘密裏に運用される多くの政府AIシステムとは異なり、Amsterdam は公正性の懸念に対処する真摯な努力を行い、調査員とコードや手法を共有さえした。
基本的真実問題により公正なAIはほぼ不可能に
コミュニティでの議論は、真に公正なAIシステムの実現を極めて困難にする根本的な課題を明らかにしている。核心的な問題は専門家が基本的真実問題と呼ぶものである - 以前の人間主導の調査自体が潜在的に偏見を持っていたため、異なる人口統計グループ間での実際の詐欺率を我々は単純に知らないのである。
「このような試みの困難の大部分は、我々が基本的真実を知らないことにある。モデルが公正または偏見がないとは、そのパフォーマンスがすべてのグループに対して等しく良好である場合である。」
これは循環的な問題を生み出す。偏見のないシステムを構築するには、偏見のない訓練データが必要である。しかし、歴史的データが偏見のある人間の決定から来ている場合、AIは同じ偏見を学習し増幅する。Amsterdam はモデルの重みを調整することでこれを解決しようとしたが、このアプローチは予期しない結果をもたらした。
Amsterdam のシステムが使用するモデル特徴量:
- 前年の福祉活動への参加率
- 最近の精神的障害の状況
- 保護観察官による面接予約の状況
- 滞納額と債務支援状況の合計
- 生活保護受給期間
- 過去の給付履歴と支給不足の状況
- 福祉規則違反に対する平均的な処罰
重み付け調整は古い問題を解決しながら新しい問題を生み出す
Amsterdam の解決策は、非 オランダ 系申請者に対するバイアスを減らすために重み付け調整と呼ばれる技術を含んでいた。当初、モデルは移民背景を持つ人々を オランダ 系申請者の34.53%と比較して55.36%という遥かに高い率でフラグ付けしていた。重み付け調整プロセスはこの格差を成功裏に減少させた。
しかし、3か月のパイロット期間中に現実世界で展開されたとき、バイアスは消失せず、方向が逆転した。調整されたモデルは、元々保護するよう設計されたグループよりも オランダ 国民と女性を高い率で誤ってフラグ付けし始めた。女性は男性よりも12%高い確率で誤ってフラグ付けされるようになった。
この結果は、多くの公正性支持者が見落とす数学的現実を示している:あるグループの公正性を改善することは、しばしば他のグループに影響するトレードオフを必要とする。すべての公正性の定義を同時に最適化することはできない。
再重み付け前後のバイアス指標:
- 元のモデル: 非 Dutch 申請者は55.36%でフラグ付けされ、 Dutch は34.53%
- 再重み付け後: 非 Dutch のバイアスは軽減されたが、他のグループにシフト
- パイロット結果: 女性は男性より12%多く誤ってフラグ付けされる可能性が高い
- パフォーマンス: 調査量が増加する一方で、全体的な検出能力は低下
パフォーマンス低下がプロジェクトを終了に追い込む
バイアス問題を超えて、モデルの全体的なパフォーマンスは現実世界のテスト中に大幅に悪化した。意図されていた調査の削減の代わりに、システムは実際の詐欺事例の検出をほとんど改善しないまま作業負荷を実際に増加させた。
パイロットは3か月間で3,510人を調査対象としてフラグ付けしたが、過少支払いの証拠を発見したのはわずか526件だった。さらに問題なのは、626件の調査が十分な証拠を見つけられずに終了せざるを得ず、17人の生活保護申請者が調査を不当に課されたとして異議申し立てに成功したことである。
コミュニティの観察者は、記事が公正性指標に重点を置いているが、実際に詐欺を捕捉したり納税者の資金を節約したりするシステムの有効性についてはほとんど証拠を提供していないと指摘した。これはAI公正性イニシアチブの共通問題を浮き彫りにしている - 有用であることよりも公正に見えることを優先することが多い。
パイロット結果(3か月間):
- フラグ付けされた総数: 3,510人
- 発見された有効なケース: 526件の過少支払いケース
- 証拠不十分で終了: 626件の調査
- 中止された調査: 11件
- 成功した異議申し立て: 17件(不当な調査)
将来のAI開発への教訓
Amsterdam の経験は、公正なAIシステムの構築を試みる他の政府や組織にとって貴重な教訓を提供している。このプロジェクトは、善意と透明性だけでは、アルゴリズム的公正性の根本的な数学的・哲学的課題を克服するには不十分であることを実証している。
市は最終的に、依然としてバイアスを示しながら人間の調査員よりも悪いパフォーマンスを示すシステムを展開するよりも、プロジェクトを断念する正しい決定を下した。この失敗の正直な認識は、失望的ではあるが、適切な評価なしに偏見のあるシステムを展開する多くの組織よりも誠実さを示している。
この事例はまた、公正性を定義することがなぜこれほど論争的なのかを明らかにしている。公正性の異なる数学的定義は互いに矛盾する可能性があり、開発者はどのグループが保護に値するか、どのようなトレードオフが受け入れ可能かについて価値判断を迫られる。これらの決定は本質的に政治的であり、技術的手段だけでは解決できない。
Amsterdam の失敗した実験は、敏感なアプリケーションにおける現在のAI技術の限界についての警告的な物語として機能している。バイアスを処理し基本的真実データを改善するより良い方法を開発するまで、真に公正なAIシステムは達成可能な現実というよりも捉えがたい目標のままかもしれない。
参考文献: Here we investigated Amsterdam's attempt to build a 'fair' fraud detection model