0120-5464-77

  • TEL
  • MAIL
  • DOCUMENT

2019/01/30

ビッグデータの活用や人工知能(AI)の機械学習に欠かせないアノテーションの基礎を知ろう。

このエントリーをはてなブックマークに追加

世間の関心が高まり、すっかり耳慣れた言葉となったビッグデータ活用や人工知能(AI)を用いたサービスの開発や運用。これからの企業経営において、目的に応じた精度の高いデータ活用が欠かせないのはいうまでもありません。そのデータを扱う現場において非常に重要となっているのが「アノテーション」に関わる業務です。アノテーションとは何か、どのような業務が必要とされているのか、基本的な知識と市場の関連サービスについて押さえていきましょう。

1、アノテーションとは何か

アノテーション(annotation)とは元々「注釈」という意味の英語です。この「意味を与える」という側面からビジネスの現場ではデータ活用の場面で用いられることが多く、ITの用語としては「あるデータに対してタグやメタデータと呼ばれる情報を付加すること」と定義することができます。(詳しくは別途用語集のアノテーションをご参照ください)

2、アノテーションの需要の高まり

冒頭で述べたとおり、アノテーションの需要が高まっている背景には、ビッグデータ関連のサービスやAIに関わる市場の活性化が挙げられます。なぜならアノテーションによって”タグ付けやメタデータを追加する”ことは、対象となるデータに特定の意味を与えるからです。多種多様な、あるいは大量のデータを集計したり分析を行う上で欠かせない作業と言えます。

それではまず、アノテーションに関連する市場の最新動向について見てみましょう。

(1)ビッグデータ

ビッグデータの定義は曖昧ですが、様々な種類や形式が含まれている巨大なデータ群で、構造化や定型化がされておらず日々膨大に生成されるリアルタイム性のある類のデータ群を指すことが多いでしょう。幅広い技術とさまざまなソフトウェア、サービスが関わるテーマであり、昨今のビジネスシーンではデジタルトランスフォーメーション(DX)という切り口で多くの企業の注目を集めています。

IT専門調査会社 IDC Japan 株式会社が2018年8月に発表した『国内ビッグデータ/アナリティクスソフトウェア 市場予測』によると、2017年の同市場規模は2,517億7,600万円、前年比9.4%の高成長となっています。大企業を中心にDXの取り組みが活発で、市場規模は今後も年間平均成長率8.6%で成長、2022年には3,800億2,400万円に達すると予測されています。

あらゆるものからデータ取得できる環境設備(IoTなど)やデータを処理する技術の革新、それらのデータの解析など、ビッグデータの活用にはデータを正確かつ迅速に処理できる仕組みが不可欠です。そのすべての場面でデータを特定し分類する作業や、効率的に処理を実行するパターン化などでアノテーションは重要な役割を果たします。アノテーションにより「それが何のデータなのか」を認識できるようになるため、実践的なデータ活用に欠かすことはできません。

 

(2)AI開発における機械学習

同様に株式会社MM総研が発表した『企業の人工知能(AI)導入実態調査(2018年9月)』によると、2017年度の国内AIビジネス市場規模は2,568億円、今後も増加傾向にあるということです。本調査は国内企業20,936社を対象に人工知能の導入状況や、導入/検討している業種・サービスの種類、導入しているサービスの効果などをヒアリングした結果ですが、導入率は全体の4.4%で、その6割の企業が効果を感じているとのこと。特に金融業や情報通信業の企業が先行して取り組んでいることがわかっています。

また、実際にAIソリューションを活用している、または活用検討している企業(n=513)が期待する主な利用場面は「需要予測や予兆分析などのデータ分析サービス」や「大量の文書データからセンテンスを抽出してくれるサービス」です。このように、具体的な改善目的や将来のビジネスの構想をもとに、多くの企業がAIソリューションに期待していることがうかがえます。

AIは大量のデータから見つけ出した特定の法則や特徴をもとに、将来のデータを予測したり未知のデータに対し回答できるようになります。そのためAI開発において、正しく学習させるためには数百万、数千万といった大量のデータが必要であり、そのデータに適切なタグ付けを行うことが重要です。アノテーションはまさに機械学習における「教師あり学習」のためのデータ作成であり、タグ付けされたデータは教師データ(正解データ、ラベル)と呼ばれます。つまり、AIの学習精度はアノテーションの品質次第ということです。アノテーションの重要性、そしてその精度やスピードに未来への期待がかかっていることは明白です。

3、アノテーション業務の具体例

先に挙げた通り、アノテーションは「あるデータに対してタグやメタデータと呼ばれる情報を付加すること」であり、こと機械学習においては、モデルに学習させるための「教師データ(正解データ、ラベル)の作成」にあたります。

では実際にどのような作業を行うのか、対象となるデータの種類ごとにアノテーション業務の具体例を見ていきましょう。

(1)画像や動画のアノテーション

画像のアノテーションには3つの代表的な手法があります。「家」「猫」というように画像の中の物体を検出する作業、特定の領域だけを抽出する作業、画像の物体に属性を追記し分類できるようにする作業の三つです。例えば領域抽出は自動運転において道路の特定範囲を抽出するといった用途で利用されています。

また、アノテーションにより教師付きデータを作成しモデルを学習させることで、さらに効率的に画像を抽出・分類し検索することができるようになります。工場や店舗などで撮影した映像やテレビや映画で放送された映像、SNSへの投稿動画から特定シーンを検出するという動画のアノテーションもこの延長にあります。

 

(2)テキスト

対象がテキストデータの場合も幅広い目的でアノテーションが行われています。

例えばプロモーション実施のため、顧客データを整備、分析する場合などがそれに当たります。複数のシステムに分散する大量のデータから顧客データを整備する場合に、名寄せするデータを抽出したり、事前に決めた分類項目に従って備考欄をタグ付け、グルーピングしたりすることで集計や分析を実施可能にします。この用途に関しては、データクレンジングの専門サービスやETL(Extract Transform Load)と呼ばれる類のソフトウェアを活用することが一般的です。

ほかに最近では、ブログの文章やSNSの投稿内容から情報を分類したり不適切なコンテンツを摘出する場面でも利用されています。AIを用いたサービスの場合、テキストのアノテーションも画像と同様で、作成した教師付きデータからモデルを学習させることで、よりいっそう効率的に判断できるようになります。

 

(3)音声

音声のアノテーションは、高精度な音声認識製品を開発する場合などに用いられます。製品の品質(認識精度)向上にはあらゆるパターンで話す人やその環境を考慮する必要があるため、大量の音声データを正しく書き起こしてテキスト化したり、音声認識ソフトなどでテキスト化されたデータが正しいかを確認する作業を行います。

4、アノテーション業務の課題と市場のサービス

アノテーションの必要性は増すばかりですが、まだまだ実業務では課題も多いのが現状です。そのひとつは人材・リソースの課題です。ビッグデータのような多種多様で変化し続けるデータが対象となれば、少なくとも専任者を置き、然るべき技術を用いて対応する必要があります。しかし、これは単なる作業ではありません。任せられるのは本来のデータ活用の目的やデータの成り立ち、業務を理解して適切に技術を使える(選べる)人ですが、最適な人材がいないというケースが往々にしてあります。ましてやAIの活用となると、適切な機械学習の進め方など未知の領域で、取り組み方がわからないという問題に直面します。

ビッグデータ活用という観点では、先に挙げたETLやデータクレンジングサービスのほか、BI(ビジネスインテリジェンス)ツールのように、利用場面に特化してさまざまなソフトウェアやサービスがすでに存在します。しかしAI時代ともいうべき昨今の市場状況下で、アノテーションを高品質かつ効率的に実施できるよう、アノテーション専用ツールを開発したり、サービスとして請け負う企業が増えています。業界では人手を提供するサービスが多い印象ですが、専用ツールの販売、もしくは両方を併せたサービスも登場しています。

アノテーション関連サービスを提供している企業(主にAI関連で一部抜粋)

・株式会社キーリンクス(旧社名チャーリーハウス)チャーリーハウス
  事業:アノテーション受託・トレーニング
  内容:AI/人工知能の技術を活用する 製造業、流通業、小売業、物流業、金融機関、医療機関などのためにAI用教師データ、学習データを作成する

 

・トランスコスモス株式会社
 事業:教師データ作成に専門特化したアノテーションセンターを開設
 内容:ツール開発と人材を提供
  ・アノテーションツールの開発
  ・音声認識ソフトで書き起こした文字データを修正
  ・チャットbot用FAQのように、想定される質問に対して回答を作成する文章のアノテーション
  ・画像データに対して年齢や性別といったラベルを付与する画像のアノテーション

 

・東芝ピーエム株式会社
 事業:機械学習のための高品質なアノテーションサービスを実施
 内容:充実した人材・体制が特徴
  ・クラウドワーカーと専任ワーカーの2重チェック

 

・株式会社ABEJA
 事業:ディープラーニングの活用で多様な業界のビジネスのイノベーションを促進
 内容:ツール開発と人材確保の両輪でディープラーニングに関するサービスを提供
  ・アノテーションの工程を自動化、省力化
  ・アノテーション作業画面の作成及びマニュアルが作成可能なWebアプリケーション
  ・即時に大量なデータのアノテーションを行える人材をABEJAの管理下で提供
  ・AIの継続的なインテグレーションに必要なデータの取得、蓄積、学習、デプロイ、推論・再学習の実装が可能な包括的なパイプライン「ABEJA Platform」の正式版の提供を2018年2月22日より開始

5、まとめ

このとおりアノテーションは定義が抽象的であり、アノテーション業務の対象は非常に幅広いものになります。先の具体例もあくまで作業例で、目的について深く触れていないように、実際の現場ではアノテーションという認識がなく一連のプロセスとしてこなされている場合もあるでしょう。

しかし、これからの企業経営においてはデータ・ドリブンの意思決定が必須です。ビッグデータの活用やAIの開発・運用は、その鍵を握る重要なテーマです。その意味で、アノテーションはもはやITの専門用語ではなく、ビジネス用語といっても過言ではありません。そしてアノテーション業務は、企業の意思決定を支えるデータを作り、正しく扱うための重要な仕事です。その成否を決める最初のポイントは、データ活用の目的を本質的に理解しアノテーションのゴールを正しく定めることではないでしょうか。

今回は主にAI活用の視点で提供されているいくつかのサービスをご紹介しました。今後の取り組みで悩まれている方の参考になれば幸いです。また、アディッシュでもインターネットモニタリングのノウハウを生かし、アノテーション業務の代行、支援を実施しています。サービス内容にご興味のある方はお気軽にお問い合わせください。

    ダウンロード資料  

関連するページ

まずはお気軽にご相談ください

お急ぎの方はこちら

0120-5464-77