Sassorさんによる、「IoT領域におけるデータ分析の現状とこれから」というセミナーに行ってきました。 イベント概要はこちら。
Sassorさんは2010年に創業されて、IoTという言葉が言われ始めた頃から、デバイス作成からサービスまでワンストップで提供されているそうです。
セミナーは4つのセッションに分かれていました。それぞれの詳細は割愛しますが、気になったところをあげていきたいと思います。
データを活用しないと意味がない
以前と比べてハードウェアは作りやすくなり、IoTデバイスを作ること自体は強みにはならなくなっているとのこと。また、デバイスとインターネットを連携させるだけでもダメで、データをためるだけでもダメ。私もどうしても目新しいデバイスに目が行きがちですが、結局は集めたデータを活用できなければ意味がないんですよね。Sassorさんへのデータ分析依頼は急増しているとのことで、各社ともデータの活用方法を模索している状況なのかもしれません。
IoT領域におけるデータ分析市場の動向
IoTデバイス数は右肩上がりに増えており、2020年には530億デバイスに達する見込みとのこと。センサー単価は逆に右肩下がりに安くなっているそうです。2020年まで年間平均成長率16.9%で成長するという予測で、13.8兆円の市場に達する見込み。電力自由化やガス小売自由化などもこれに拍車をかける要因と見られているということで、データ分析市場の動向としても、2020年には280億円ぐらいという予測のようです。
IoTビジネスのステップアップ
IoTビジネスは下記のステップを経ていくということでした。
- Monitoring: 電力モニタリング、ウェアブルデバイスなど
- Control: エアコン制御など
- Optimization: 製造業ロボットアーム、スマートハウスなど
- Autonomy: 自動運転車など
ソリューションとしては製造業や小売業へのソリューションが多いそうですが、今後は家庭に入り込んでくるため、そのときのステップが課題ということでした。
RとPython
データ分析といえばRとPythonですが、どっちがいいのか?ということで比較されていました。
- Rの方がプログラミング経験がなくても使いやすい
- Pythonの方が汎用のプログラミング言語なので発展性がある
- 開発環境はPythonの方が使いやすい
- 情報量はR
- ライブラリや日本語対応はR
- レポーティングはPython(Jupyter Notebook)
これから始めるのであればまずは Notebook を覚えるのが良いとのことでした。また、それ以外の情報として、データマイニング関連の情報が豊富な KDnuggets というサイトや、ノンプログラミングでデータマイニングができる RapidMiner をご紹介いただきました。
また、データがどんどん増えてくるとローカルPCではスペックが追いつかなくなってくるのですが、そういうケースでは EC2 と Jupyter Notebook を使うことで問題を解決できるということでした。
ディープラーニングの敷居は低くなった
最近では TensorFlow や Chainer 、 Caffe 等の登場で、誰でも簡単にディープラーニングを試せる時代になり、そこそこの精度も出るようになってきました。ただし良い結果を出すにはやはり経験が必要ということで、ここがプロの腕の見せ所ですね。
AIといっても切り口はたくさんある
一口にAIといっても、その切り口としては下記のようなものがあります。
- やりたいこと
- 人工知能の分野
- 使う道具 など
また、人工知能の定義としても、下記のように主に二つの立場があるようです。
- 人間の知能そのものをもつ機械を作ろうとする立場:強いAI
- 人間が知能を使ってすることを機械にさせようとする立場:弱いAI
前者は人間と同じことが汎用的になんでもできるロボットのようなイメージですね。データ分析については後者の話になります。
赤ちゃんが学ぶ過程はAIと同じ:ママだと泣かなくて、パパだと泣く
面白かったのは、赤ちゃんが生まれてからいろいろな情報を元に自分の中に判定ロジックを作っていくのは、AIがデータを元に学習していくのと同じだという話でした。赤ちゃんは嗅覚、触覚、聴覚、味覚、視覚というセンサーから大量のデータを入力していきます。そしてよくありがちな、「ママだと泣かなくて、パパだと泣く」という状況になったりします。これは赤ちゃんが、ママがミルクをくれたり様々な世話をしてくれたりという状況から得た情報を元に人間を「ママ」と「それ以外」というモデルに分類し、「ママ」はいい人、というような判定になるためです。パパにとってはこの状況は当然よろしくないので、パパとしては自分が「それ以外」にカテゴライズされないよう、「ママ」と「それ以外」とは別に「パパ」という区分を認識してもらえるよう、様々な働きかけをする(データを入力する)必要があるというわけです。
AIにおいて重要なこと:サービスとして何をやるのかを決める
最近では様々なフレームワークなどが出てきたことで、道具としてはなんでもできる環境が整ってきました。
- Microsoft Azure, IBM Watson
- R, Python, Ruby, MATLAB
- Spicy, Numpy, TensorFlow, Chainer
- Tableau, Power BI, SAS etc..
ただやはり重要なのは、サービスとして何をするのか、目的関数を設定することとのこと。決め方としては TopDown か BottomUp。 TopDown はトップのニーズから実現したいサービスを決定し、その実現方法を人工知能、データ解析の言葉にしていくことです。逆にBottomUp は現状で持っているデータを簡易に分析してみてデータの特徴を見ながらできそうなサービスを想定してトップニーズ、ユースケースとリンクさせる決め方です。これはどちらがいいというわけではなく、状況に応じて使い分けが必要ということでした。
データを持っている人の勝ち?
第3次AIブームにおいては、データさえあれば一般的な人工知能が作れる状況になってきました。ということは大量のデータを持っている会社、Amazon、Facebook、Google、IBM、Microsoft等の大企業が当然有利であり、さらに最近この5社がAI領域において提携するという発表がありました。
これはもう普通の会社ではディープラーニング分野では到底勝ち目がありません。じゃあどうするのか。これに対抗するのは、パーソナライズ:個別適応とのことでした。一般的なセグメントのモデルを利用して、個別データで再学習し、各個人が外に出さないような情報で、各個人専用にパーソナライズしていくということです。私のイメージとしては、大手が狙うボリュームゾーンを外した領域を狙うイメージかと思っています。これによってある領域のエキスパートの思考をAI化することができれば、大手とは違う領域で勝負ができるのではないかと思いました。
グラフィカルモデル
最後に、これから重要になるのはグラフィカルモデルということで、私はまだグラフィカルモデルってどういうものかわかっていないのですが、今度の11月の人工知能学会では確率的グラフィカルモデルがテーマになっているそうです。
数学協働プログラム「確率的グラフィカルモデルの産業界への応用」
平日なのと、まだあんまり知識のない状態で行って話が理解できるのかというところがあるのですが、都合がつきそうだったら少し行ってみたいと思っています。