Glossary

アノテーション

アノテーション(annotation)とは元々「注釈」という意味の英語である。ITの用語としては「あるデータに対してタグやメタデータと呼ばれる情報を付加すること」という定義が一般的だが、他にも具体的な活用法や特定の機能の呼称となっている場合がある。

<ITの世界における「アノテーション」の具体例>
  ・Javaのプログラミング用語〜プログラムの中に注釈を加える手法
  ・コピー機などの印刷機能〜ページ番号や日付、「社外秘」「緊急」などの文字を加えて印刷する
  ・Youtubeの機能〜動画上にクリック可能なテキストやエリアを表示させる

ただし、これらも元のデータに情報を追加し活用しやすくするという意味では、一般的な定義や本来の「注釈」と同様の使い方と言える。

高まるアノテーション需要の背景とその具体例

アノテーションの需要が飛躍的に増加している背景には、「ビッグデータの活用」や「AI開発・機械学習へのチャレンジ」といった市場の動向が挙げられる。アノテーションは、タグ付けやメタデータの追加という加工を通じ対象のデータに特定の意味を与えるため、データの集計や分析の実施に重要だからである。

ビッグデータの活用

いまやビッグデータという言葉が浸透し、膨大なデータ・情報を資産として利活用しビジネスに役立てようと取り組む企業は少なくない。実際にビッグデータをどのように活用し価値を生み出していくのかは、事業戦略やノウハウに依るところだが、基本的には膨大なデータを分析し、傾向を把握するプロセスが発生する。

しかし多くの場合、分析対象のデータは事前にデータ整備を行う必要がある。誤ったデータが登録されていたり、データ作成のプロセスが属人化しているためにそのまま分類できない状態であったり、複数のデータを組み合わせて分析可能な大きなデータとして再編集する必要があったりするからだ。このデータ整備において、アノテーションは重要な役割を果たす。アノテーションにより「それが何のデータなのか」認識可能な状態にできるため、実践的なデータ活用に欠かすことができないのだ。

たとえばプロモーションを企画するための顧客データの整備である。顧客データを分析する場合に、各項目に整然とデータが入力されているとは限らない。データ入力者が該当入力欄がないと判断した場合や、メモがわりに取り急ぎ重要事項を備考欄に書き込んでいたりする。これらの備考欄を精査し、分類できるようにアノテーションを行うことで、分析そのものの精度が格段に上がる。また、顧客データはウェブサイトのログやオフラインで入手したデータなど、他のデータと組み合わせて利用するケースも少なくない。ここでも顧客データに必要な情報を追加し、加工しやすい状態にするアノテーションは必須の作業と言える。

AI開発・機械学習の実践

AI開発(人工知能)において、AIへ正しく学習させるためには数百万、数千万といった大量のデータが必要となる。AIは大量のデータから特定の法則や特徴を見つけ出し、将来のデータを予測したり未知のデータに対し回答することができるようになるのである。そのためこの大量なデータに対して適切なタグ付けを行うことが重要である。

タグ付けされたデータは教師データ(正解データ、ラベル)と呼ばれる。アノテーションは機械学習における「教師あり学習」のためのデータ作成である。その品質はAIの学習精度を大きく左右する。

また、アノテーションにはいくつかの手法がある。画像に関しては、画像の中の物体を検出する作業、特定の領域だけを抽出する作業、画像の物体に属性を追記し分類できるようにする作業、というのが代表的である。用途に応じて必要な情報を追加し、データを加工可能な状態にする。

その他、音声データにもアノテーションは行われている。例えば、音声高精度な音声認識製品を開発する場合などである。製品の品質(認識精度)を上げるためには、あらゆるパターンで話す人やその環境を考慮する必要がある。そのために大量の音声データを正しく書き起こしてテキスト化したり、音声認識ソフトなどでテキスト化されたデータが正しいかを確認する作業が音声のアノテーションである。

市場ではアノテーションを高品質かつ効率的に実施できるよう、アノテーション専用のツールを開発したり、サービスとして請け負う企業が増えている。これからのビジネス環境において、データの利活用、AIの開発・運用というニーズは避けては通れない。大量のデータを有意かつ正しく扱うために欠かせないアノテーションは、ITの専門用語ではなくビジネス用語として考えても良いだろう。