ディープラーニングを導入し業務を効率化したい。

ディープラーニングについて

ここ数年でよく聞くようになった言葉に『ディープラーニング』というものがあります。皆さんも聞いたことあるかと思います。将棋の世界や囲碁の世界で現役のトッププロたちを負かしたり、自動運転技術であったり、または企業で業務を効率化して無駄を省くことで生産性が向上したという話も聞いたことがあるかもしれません。ディープラーニングとは機械に大量にデータを与え、統計的に答えを導く技術です。将棋などでは1手では勝負は決しませんが、その後の盤面の優劣を判断し最善手を見つけ出します。すると、人間が定石だと思っていたはずの手が選択されない場合があり、それによってトッププロが負けてしまうということもあるのです。

また、画像認識技術などでは、上の写真を見たときに「アジサイ」と認識するだろうと人間は思います。しかし、コンピュータは「花」とか「ボンボン」とか認識したりするのです。業務によって、先の写真を「アジサイ」として認識しないと困る場合と、困らない場合があります。これをビジネス等で「アジサイ」にしていくには「学習」させてほぼ100%「アジサイ」と返答するようにさせます。 それには膨大な「アジサイ」のデータが必要になります。ディープラーニングを行う上でまず大量データがあるかどうかが重要になります。


ディープラーニングを導入できるかどうか

「ディープラーニングを自社に取り込めば必ず効率化できる」とお思いの方もおられるかと思いますが、必ずしもそうではないです。特に中小企業ではデータ量が全然足りないか、まったく用意できていない場合が多くあります。 また、過度にディープラーニングに期待しすぎて、いざ導入しても思ったほど効果が表れない場合が多々あります。そうなる前に以下の表を参考に導入するのか判断していただければと思います。

大量に画像データorテキストデータor音声データがあり、そのデータの評価付けができている。 ディープラーニングを導入しメリットを享受できる可能性が高いです
大量に画像データorテキストデータor音声データがあり、そのデータの評価付けができていない。 データの評価付けを行うプロジェクトを先に起こしましょう。その後ディープラーニングを実験導入する方法をお勧めいたします
少量のデータがある。 データを採取し纏めるプロジェクトを先に起こしましょう。効率化できるかは内容次第です
データがない。 データを採取するプロジェクトを先に起こしましょう。取り扱うデータは画像なのかテキストなのか音声なのかから決めないといけません。

ただ単に画像ファイルがいっぱいあってもそれではダメなんです

画像や映像ファイルが大量にあっても、検出器の制度が悪いとうまく画像認識ができません。
ディープラーニングに使うデータを簡単に仕分けしてディープラーニング用の学習素材としなければなりません。
また、画像のサイズや、明るさをなるべく揃えて学習させると良いです
下の画像は船について何も学習していない検出器(OpenCVを使った物体検知機能)で船の画像を読み込ませて、オブジェクト(物体)を検知させてみたのが下記です。

黄色い枠が物体を検知した箇所です。 このように、画像だけあっても検出器に対象となるものを教えなければ、意味をなさないのです。
手順としては次のようにディープラーニングさせていきます。
1.大量のデータの中から学習させたい箇所が映っている画像を抜き出す(OpenCVによる検出器を使うと効率が良い)
2.抜き出したデータそれぞれを『叩き込み学習』を行う
3.すると特徴などをコンピュータ自身が学習していきます。
4.新たに画像を解析させると、似た特徴のものを引っ張ってきます
5.それが良品なのか不良品なのかがわかるようになるので機械によって不良品判定ができるようになります