世間の関心が高まり、すっかり耳慣れた言葉となったビッグデータ活用や人工知能(AI)を用いたサービスの開発や運用。これからの企業経営において、目的に応じた精度の高いデータ活用が欠かせないのはいうまでもありません。そのデータを扱う現場において非常に重要となっているのが「アノテーション」に関わる業務です。アノテーションとは何か、どのような業務が必要とされているのか、基本的な知識と市場の関連サービスについて押さえていきましょう。
1.アノテーションとは何か
アノテーション(annotation)とは元々「注釈」という意味の英語です。この「意味を与える」という側面からビジネスの現場ではデータ活用の場面で用いられることが多く、ITの用語としては「あるデータに対してタグやメタデータと呼ばれる情報を付加すること」と定義することができます。(詳しくは別途用語集のアノテーションをご参照ください)
2.アノテーションの需要の高まり
冒頭で述べたとおり、アノテーションの需要が高まっている背景には、ビッグデータ関連のサービスやAIに関わる市場の活性化が挙げられます。なぜならアノテーションによって”タグ付けやメタデータを追加する”ことは、対象となるデータに特定の意味を与えるからです。多種多様な、あるいは大量のデータを集計したり分析を行う上で欠かせない作業と言えます。
それではまず、アノテーションに関連する市場の最新動向について見てみましょう。
(1)AI開発における機械学習
まずは比較のために、2018年9月に株式会社MM総研が発表した『企業の人工知能(AI)導入実態調査』のデータを見てみましょう。それによると、2017年度の国内AIビジネス市場規模は2,568億円、今後も増加傾向にあるということです。本調査は国内企業20,936社を対象に人工知能の導入状況や、導入/検討している業種・サービスの種類、導入しているサービスの効果などをヒアリングした結果ですが、導入率は全体の4.4%で、その6割の企業が効果を感じているとのこと。特に金融業や情報通信業の企業が先行して取り組んでいることがわかっています。
また、実際にAIソリューションを活用している、または活用検討している企業(n=513)が期待する主な利用場面は「需要予測や予兆分析などのデータ分析サービス」や「大量の文書データからセンテンスを抽出してくれるサービス」です。このように、具体的な改善目的や将来のビジネスの構想をもとに、多くの企業がAIソリューションに期待していることがうかがえます。
その後、同社は2020年5月に『国内法人におけるAI導入実態調査』を実施しました。本調査によると、調査対象(n=7,487)で何らかのAIソリューションを導入している企業が全体の15.1%を占めています。2018年9月と単純比較はできないですが、AIを導入・活用している企業が約1年半で大幅に増えていることが推測できます。
ただ一方で、導入したAIソリューションの適用分野については「コスト削減」や「業務効率化」などバックオフィス的領域が多く、課題と感じている企業が多い「新しいビジネスの創出」「販売・営業・マーケティングの強化」「新規顧客の獲得」などのフロント領域には導入が進んでいない傾向があります。フロント領域への導入はまだこれからのようです。
AIは大量のデータから見つけ出した特定の法則や特徴をもとに、将来のデータを予測したり未知のデータに対し回答できるようになります。そのためAI開発において、正しく学習させるためには数百万、数千万といった大量のデータが必要であり、そのデータに適切なタグ付けを行うことが重要です。アノテーションはまさに機械学習における「教師あり学習」のためのデータ作成であり、タグ付けされたデータは教師データ(正解データ、ラベル)と呼ばれます。つまり、AIの学習精度はアノテーションの品質次第ということです。アノテーションの重要性、そしてその精度やスピードに未来への期待がかかっていることは明白です。
(抜粋 「2017年度の国内AIビジネス市場規模は2,568億円 企業の人工知能(AI)導入実態調査(2018年9月)」より)
(2)ビッグデータ
ビッグデータの定義は曖昧ですが、様々な種類や形式が含まれている巨大なデータ群で、構造化や定型化がされておらず日々膨大に生成されるリアルタイム性のある類のデータ群を指すことが多いでしょう。幅広い技術とさまざまなソフトウェア、サービスが関わるテーマであり、昨今のビジネスシーンではデジタルトランスフォーメーション(DX)という切り口で多くの企業の注目を集めています。
IT専門調査会社 IDC Japan 株式会社が2019年7月に発表した『国内ビッグデータ/アナリティクスソフトウェア 市場予測』によると、2018年の同市場規模は2,778億7,500万円、前年比9.6%の高成長となっています。大企業を中心にDXの取り組みが活発で、市場規模は2023年までは年間平均成長率8.5%で成長、2022年には4,000億円を超えると予測されています。
あらゆるものからデータ取得できる環境設備(IoTなど)やデータを処理する技術の革新、それらのデータの解析など、ビッグデータの活用にはデータを正確かつ迅速に処理できる仕組みが不可欠です。そのすべての場面でデータを特定し分類する作業や、効率的に処理を実行するパターン化などでアノテーションは重要な役割を果たします。アノテーションにより「それが何のデータなのか」を認識できるようになるため、実践的なデータ活用に欠かすことはできません。
3.アノテーション業務の具体例
先に挙げた通り、アノテーションは「あるデータに対してタグやメタデータと呼ばれる情報を付加すること」であり、こと機械学習においては、モデルに学習させるための「教師データ(正解データ、ラベル)の作成」にあたります。
では実際にどのような作業を行うのか、対象となるデータの種類ごとにアノテーション業務の具体例を見ていきましょう。
(1)画像や動画のアノテーション
画像のアノテーションには3つの代表的な手法があります。「家」「猫」というように画像の中の物体を検出する作業、特定の領域だけを抽出する作業、画像の物体に属性を追記し分類できるようにする作業の3つです。例えば領域抽出は自動運転において道路の特定範囲を抽出するといった用途で利用されています。
また、アノテーションにより教師データを作成しモデルを学習させることで、さらに効率的に画像を抽出・分類し検索することができるようになります。工場や店舗などで撮影した映像やテレビや映画で放送された映像、SNSへの投稿動画から特定シーンを検出するという動画のアノテーションもこの延長にあります。
(2)テキスト
対象がテキストデータの場合も幅広い目的でアノテーションが行われています。
例えばプロモーション実施のため、顧客データを整備、分析する場合などがこれに当たります。複数のシステムに分散する大量のデータから顧客データを整備する場合に、名寄せするデータを抽出したり、事前に決めた分類項目に従って備考欄をタグ付け、グルーピングしたりすることで集計や分析を実施可能にします。この用途に関しては、データクレンジングの専門サービスやETL(Extract Transform Load)と呼ばれる類のソフトウェアを活用することが一般的です。
ほかに最近では、ブログの文章やSNSの投稿内容から情報を分類したり不適切なコンテンツを摘出する場面でも利用されています。AIを用いたサービスの場合、テキストのアノテーションも画像と同様で、作成した教師データからモデルを学習させることで、よりいっそう効率的に判断できるようになります。
(3)音声
音声のアノテーションは、高精度な音声認識製品を開発する場合などに用いられます。製品の品質(認識精度)向上にはあらゆるパターンで話す人やその環境を考慮する必要があるため、大量の音声データを正しく書き起こしてテキスト化したり、音声認識ソフトなどでテキスト化されたデータが正しいかを確認する作業を行います。
4.アノテーション業務の課題と市場のサービス
アノテーションの必要性は増すばかりですが、まだまだ実業務では課題も多いのが現状です。そのひとつは人材・リソースの課題です。ビッグデータのような多種多様で変化し続けるデータが対象となれば、少なくとも専任者を置き、然るべき技術を用いて対応する必要があります。しかし、これは単なる作業ではありません。任せられるのは本来のデータ活用の目的やデータの成り立ち、業務を理解して適切に技術を使える(選べる)人ですが、最適な人材がいないというケースが往々にしてあります。ましてやAIの活用となると、適切な機械学習の進め方など未知の領域で、取り組み方がわからないという問題に直面します。
ビッグデータ活用という観点では、先に挙げたETLやデータクレンジングサービスのほか、BI(ビジネスインテリジェンス)ツールのように、利用場面に特化してさまざまなソフトウェアやサービスがすでに存在します。しかしAI時代ともいうべき昨今の市場状況下で、アノテーションを高品質かつ効率的に実施できるよう、アノテーション専用ツールを開発したり、サービスとして請け負う企業が増えています。業界では人手を提供するサービスが多い印象ですが、専用ツールの販売、もしくは両方を併せたサービスも登場しています。
アノテーション関連サービスを提供している企業(主にAI関連で一部抜粋)
・トランスコスモス株式会社
事業:教師データ作成に専門特化したアノテーションセンターを開設
内容:ツール開発と人材を提供
・アノテーションツールの開発
・音声認識ソフトで書き起こした文字データを修正
・チャットbot用FAQのように、想定される質問に対して回答を作成する文章のアノテーション
・画像データに対して年齢や性別といったラベルを付与する画像のアノテーション
・ライオンブリッジジャパン株式会社
事業:米国に本社を構える。翻訳業からスタートし、言語サービス全般、コンテンツ制作、人工知能(AI)など、様々な分野を手掛ける
内容:各種コンテンツの作成/変換/テスト/トレーニング
・商品分類
・文字起こし
・音声分析
・株式会社ブライセン
事業:日本・ベトナム・ミャンマー・カンボジア・韓国のオフショア拠点にて画像アノテーションを提供
内容:イメージング/物流/流通等の分野での商品/システムの開発
・画像分類
・物体検出
・領域分類
・株式会社ABEJA
事業:ディープラーニングの活用で多様な業界のビジネスのイノベーションを促進
内容:ツール開発と人材確保の両輪でディープラーニングに関するサービスを提供
・アノテーションの工程を自動化、省力化
・アノテーション作業画面の作成及びマニュアルが作成可能なWebアプリケーション
・即時に大量のデータのアノテーションを行える人材をABEJAの管理下で提供
・AIの継続的なインテグレーションに必要なデータの取得、蓄積、学習、デプロイ、推論・再学習の実装が可能な包括的なパイプライン「ABEJA Platform」を提供
・アディッシュ株式会社
事業:インターネットモニタリング、学校向けネットパトロールサービス、カスタマーサポート、SNS運用支援等を提供。目視によるチェック体制に強みを持つ
内容:国内拠点(東京、仙台、福岡、沖縄)にて文章/画像/動画を中心としたアノテーションサービスを提供
・画像分類
・テキスト分類
・物体検出
・領域抽出
5.まとめ
このとおりアノテーションは定義が抽象的であり、アノテーション業務の対象は非常に幅広いものになります。先の具体例もあくまで作業例で、目的について深く触れていないように、実際の現場ではアノテーションという認識がなく一連のプロセスとしてこなされている場合もあるでしょう。
しかし、これからの企業経営においてはデータ・ドリブンに意思決定をすることやAIを活用した事業展開が必要です。ビッグデータの活用やAIの教師データ作成・開発・運用は、その鍵を握る重要なテーマです。その意味で、アノテーションはもはやITの専門用語ではなく、ビジネス用語といっても過言ではありません。そしてアノテーション業務は、企業の意思決定を支えるデータを作り、正しく扱うための重要な仕事です。その成否を決める最初のポイントは、データ活用の目的を本質的に理解しアノテーションのゴールを正しく定めることではないでしょうか。
今回は主にAI活用の視点で提供されているいくつかのサービスをご紹介しました。今後の取り組みで悩まれている方の参考になれば幸いです。また、アディッシュでもインターネットモニタリングのノウハウを生かし、アノテーション業務の代行、支援を実施しています。サービス内容にご興味のある方はお気軽にお問い合わせください。