Glossary

データクレンジング

データクレンジング(data cleansing)とはデータを分析・活用するために整備する・きれいにする作業を指す。データクリーニングと呼ぶ場合もある。

今やビジネス上のあらゆる物事の判断に「データ・ドリブン」の視点は欠かせない。勘や経験ではなく、蓄積されてきたデータを分析しながら最適と思われる判断をするのは当たり前の思考である。また全ての産業においてAIの開発・導入が進む昨今、日々の生活やビジネスにおいてAIを用いたサービス・技術に触れる機会は珍しくない。今後さらに身近な技術となることは言うまでもない。

こうしたデータを活用した分析、あるいはAI開発の現場で必ず課題となるのがデータの品質である。多種多様なシステムから収集した(する)データが完璧な形であることはまずない。そのまま処理しきれない形のデータが混じっているケースが多く、このデータを処理可能な形に整える作業をデータクレンジングという。具体的な作業内容はデータの種類や形式、利用目的などで異なるが、誤字・脱字の修正や表記ゆれの統一、重複データ削除や不足データの補てん、正規化などを指す場合が一般的だ。

対象となるデータのクオリティはデータ活用や機械学習のクオリティに直結するため、データクレンジングの工程は不可欠である。また機械学習の場合には、さらに「アノテーション(用語集:アノテーション)」を行い、モデルに学習させるための教師データ(正解データ、ラベル)を作成するケースも多い。市場ではアノテーションを高品質かつ効率的に実施できるよう、アノテーション専用のツールを開発したり、サービスとして請け負う企業が増えている。(アディッシュ「アノテーション代行サービス」