大規模データ分析の新潮流 - msi.co.jp · 黎明期 ビッグデータ時代...
TRANSCRIPT
Copyright © 2015 NTT DATA Corporation
2015/11/20株式会社NTTデータ
技術開発本部サービスイノベーションセンタデータウェアハウス/ビジネスインテリジェンス・ラボ®
大規模データ分析の新潮流~In-Database Analyticsが実現する
圧倒的なデータ分析パフォーマンス~
Web掲載版
1Copyright © 2015 NTT DATA Corporation
アジェンダ
1.NTTデータのビッグデータに対する取り組みについて
2.In-Database Analytics開発
Copyright © 2015 NTT DATA Corporation 2
1.NTTデータのビッグデータに対する取り組みについて
3Copyright © 2015 NTT DATA Corporation
1.NTTデータのビッグデータに対する取り組みについて
ビッグデータビジネスの推進体制
R&D
システム開発
ソリューション提供
分析コンサルティング
技術開発本部 As COE of Business Intelligence in NTT DATA Group Evaluation of State-of-the-art Promotion of technical development and demonstration
お客様
NTTデータ数理システム Original Data Analysis Packages > 80 Data Scientists > 200 Analysis Use Cases
ビッグデータビジネス推進室 Cloud Based Solutions : BizXaaS BA Telco., Insurance, Banking, Retail, Manufacture…
NTTデータのビッグデータ活用=「ビジネスインテリジェンス」および「ビジネスアナリティクス」を
ベースとしたアプローチ
4Copyright © 2015 NTT DATA Corporation
1.NTTデータのビッグデータに対する取り組みについて
ビッグデータのとらえ方
ヒト地球人口=70億人以上
モノIoTデバイス=300億以上(*)
センシング・データ ライフログ・データ
RFIDモノの運搬
各種センサ機器や構造体の状態
リモートセンシング環境、災害
HEMSエネルギー消費量履歴
SNSやブログ個人が発信する多様なデータ
EC商品探索プロセス
交通系ICカード電車の移動履歴
GPS車や人の位置
IB/ATM決済履歴
ヘルスケアデバイス健康状態
ビッグデータ
*2020年時点のGartner等による推定値
現実世界のデータ化
5Copyright © 2015 NTT DATA Corporation
1.NTTデータのビッグデータに対する取り組みについて
変化する顧客ニーズ
見える化予測
(意思決定)
バッチ リアルタイム
SIベンダー(受託)
システム自身(自動学習)
従来 現在
分析目的
アルゴリズム/システムのブラッシュアップ主体
分析処理
全体傾向 個人単位分析対象
お客様のシステムへの期待の変化
6Copyright © 2015 NTT DATA Corporation
プロアクティブ型BI WHAT-IF型BI
発見型BI
1.NTTデータのビッグデータに対する取り組みについて
4つのBIと情報分析・活用シナリオ
ターゲティング型
異常検出型
予兆発見型
与信管理型
外れ値検出型
不正検出型
コンテクスト・アウェアネス型
マーチャンダイジング型
予測・制御型
リスク・シミュレーション型
収益シミュレーション型
リスクヘッジ型
最適化型
集計分析型BI
評価・要因分析型
プロセス・トレース型
7Copyright © 2015 NTT DATA Corporation
プロアクティブ型BI WHAT-IF型BI
発見型BI
1.NTTデータのビッグデータに対する取り組みについて
4つのBIと情報分析・活用シナリオ
ターゲティング型
異常検出型
予兆発見型
与信管理型
外れ値検出型
不正検出型
コンテクスト・アウェアネス型
マーチャンダイジング型
予測・制御型
リスク・シミュレーション型
収益シミュレーション型
リスクヘッジ型
最適化型
集計分析型BI
評価・要因分析型
プロセス・トレース型
目的に応じたシナリオを組込むことでビッグデータ活用を高度化する
8Copyright © 2015 NTT DATA Corporation
分析シナリオ類型 概要
① 予兆発見型 行動変化や状態変化の監視による予兆の発見
② 異常検出型 不正検出型 不正・異常の定義と合致/類似する行動・状態の検出
外れ値検出型 標準的な行動・状態の定義と逸脱の検出
③ 予測・制御型 収益シミュレーション型 業務改善による増収効果の試算
リスク・シミュレーション型 業務のモデル化と不確実要素によるリスクの試算
リスク・ヘッジ型 業務のモデル化と最適化手法を用いた意思決定策の提示
最適化型 業務のモデル化とリスク分散手法を用いたリスク低減策の提示
④ ターゲティング型 見込み顧客など重点アプローチすべきターゲットの抽出
⑤ 与信管理型 顧客・企業の滞納・倒産リスクの試算
⑥ 評価・要因分析型 さまざまな対象の比較評価と改善要因の特定
⑦ マーチャンダイジング型 さまざまな視点での売れ筋ランクの作成と品揃えの決定
⑧ コンテクスト・アウェアネス型 行動履歴・嗜好の分析から一歩先回りしたサービスの提示
⑨ プロセス・トレース型 成長・発展プロセスの抽出と促進・阻害の特定
1.NTTデータのビッグデータに対する取り組みについて
【参考】BICLAVISシナリオ類型概要
9Copyright © 2015 NTT DATA Corporation
1.NTTデータのビッグデータに対する取り組みについて
データ分析および技術の変遷
黎明期 ビッグデータ時代
分析トレンド
技術トレンド
分析ツールの登場(デスクトップ)
RDBMS+分析デスクトップツール
構造化データ非構造化データ
並列分散処理での大規模化(Hadoop)
CEP等でのリアルタイム化
RDBMS+分析サーバ
蓄積基盤と分析基盤の融合(In-Database Analytics)
コプロセッサへの処理オフロード
クラウド基盤の活用
単一データ
大規模化
リアルタイム化 大規模高速化
量的集約データ
量的個別データ質的データ
複雑な関係教師なしデータ
大規模化
統計解析多変量解析線型モデル
非線形モデル機械学習データマイニングテキストマイニング
並列処理集団学習
強化学習人工知能
自動化
Copyright © 2015 NTT DATA Corporation 10
2.In-Database Analytics開発
11Copyright © 2015 NTT DATA Corporation
2.In-Database Analytics開発
In-Database Analyticsへの取り組み(FY2014~)
データ活用AP
状況1(Volume:量の問題)
状況2(Variety:多様性の問題)
状況3(Velocity:速度の問題)
• 大量データをNWを介してDWHから分析処理に受け渡すのは非現実的
• 企業横断的な複合データで分析を行うため共通DB(統合DWH)が必要
• 発生し続けるデータを即座に分析する必要がある• ビジネススピードの速度に合わせて分析モデルを更新する必要がある
データ分析に関する要素技術は出そろってきている感はあるが、ビッグデータ分析プラットフォームは発展途上状態
DWH(データ蓄積基盤)
分析ツール(データ分析基盤)各種データ
12Copyright © 2015 NTT DATA Corporation
2.In-Database Analytics開発
In-Database Analytics概要
ステージング /正規化領域
分析モデル適用
分析モデル構築
エンドユーザ(ビジネスサイド)
データロード
分析者
変換
分析モデルデプロイ
DWH
各種データソース
サンプリング
従来のアプローチ
TypeA. すべての処理はDWH内で実施
分析モデル
SQL
ApplicationBuilding
TypeB. 主な処理はDWH内で実施し、小さな結果セットを分析ツールに受け渡す
(プッシュダウン / パススルー)
In-Database Analytics=DWHからのデータ抽出を行うことなく、高速に大量データに対するデータ分析の実現
13Copyright © 2015 NTT DATA Corporation
2.In-Database Analytics開発
In-Database Analyticsへの取り組み目的
データガバナンスの確立
分析モデルのポータビリティ向上
統合DWHにてデータ分析処理を実施することによる
Single Version of Truthの実現
構築された分析モデル(数式)をスコアリングAP(Java、SQL等)に
組み替える手間を省く
大量のデータに対して統合蓄積基盤(DWH)内で高速にデータ分析処理を実現
目的To-Be(ビッグデータ対応)
分析スコアリングのパフォーマンス向上
分析チームの生産性向上
データのコピーを減らす
QCDの確保
データの移動を減らす
状況1(Volume)
課題
状況3(Velocity)
状況2(Variety)
ビッグデータに対する高速なデータ分析処理の実現=蓄積基盤(DWH)上での並列分散処理
14Copyright © 2015 NTT DATA Corporation
2.In-Database Analytics開発
NTTデータ版In-Database Analyticsのコンセプト
NTTデータ独自の分析方法論「BICLAVIS®」に対応したアルゴリズムの搭載→分析目的が明確になれば分析シナリオが決まり、分析アルゴリズムも定まる
NTTデータ数理システムのノウハウや資産を活かした短期・高品質の開発→分析精度の確保、大量データのハンドリング、計算量低減の工夫
0
Simulation
Engine
Statistics
Engine
Optimization
Engine
Analysis Scenario
Database
Analysis Procedure
Datafor Analysis
優位性
チャレンジ
マルチプラットフォーム対応 特定の製品の非依存 並列分散処理への対応→多くの分析ツールはシングルスレッド処理
モデルの適用をリアルタイムに→CEPへの分析モデル組み込み
ビッグデータ時代の分析処理(大量、高速)を実行するためのコアエンジン
15Copyright © 2015 NTT DATA Corporation
[需要予測] Linear
Regression ARIMA
etc.
[スコアリング] Random Forest Neural Network
etc.
[セグメント分割] K-Means Matrix
Decompositionetc.
2.In-Database Analytics開発
In-Database Analyticsに適合するBICLAVISシナリオ
④ターゲティング型
③予測・制御型
⑧コンテクスト・アウェアネス型
BICLAVISシナリオ
説明
ターゲット層発見の起点となるセグメント分割
ターゲット顧客発見のためのスコアリング
過去時系列から将来推移の予測
商品などのアイテムレコメンド
[レコメンデーション] Collaborative
Filtering Matrix
Decompositionetc.
赤字:FY2014実装
16Copyright © 2015 NTT DATA Corporation
2.In-Database Analytics開発
In-Database Analyticsに適合するアルゴリズムタイプ
1つの処理を細かなサブタスクに分割し並列処理できるアルゴリズム
1つの処理はそれ以上細分化は出来ないが、同様の処理を異なる入力データ・パラメータで同時に実行させ、出力結果をマージする
K-Meansetc.
Linear Regression Random Forest
etc.
処理速度向上大量データ処理
処理速度向上分析精度向上
処理のタイプ アルゴリズム例 効果
17Copyright © 2015 NTT DATA Corporation
2.In-Database Analytics開発
In-Database Analytics現状と今後の予定
TeradataHANA/IQOracle
In-Database Analytics Engine Core
I/F for Oracle
I/F for SAP
・・・
DW Platform
I/FUsing UDF
Random Forest
K-Means ・・・
ApplicationJava, C etc.
R, Python VMStudio・・・
Algorithms
開発スコープ
SQL Push Down
I/F for Teradata
Linear Regression
FY2014 FY2015※
プラットフォーム SAP Oracle
アルゴリズム 3種類 ニーズに応じて拡張
分析モデル形式 オリジナル PMML対応
※FY2015以降の方針については予告なく変わることがあります
※現在性能評価中UI VMStudio、Python ニーズに応じて拡張
お客様とのPoCを通じて成長・発展させていく
18Copyright © 2015 NTT DATA Corporation
SQL処理パート
In-Database Analyticsは各RDBMSが備える、独自のユーザ定義関数を実装するための機能であるUDF(User Defined Function)を用いて、C/C++で実装
分析アルゴリズム処理はSQL処理パートとUDF処理パートに分けられる
UDF処理パート
分析モデル構築分析モデル構築前処理前処理
2.In-Database Analytics開発
In-Database Analytics実装方式
分析モデル構築前処理
学習データ
縦横変換等
分析モデル
分析モデル統合
Reduce
分析モデル構築
Mapサ
ンプリング
カテゴリ値→
数値
変換処理
学習データ情報
分析パラメータ
実行パラメータ
モデル構築
UD
F
入力
モデル構築
UD
F
出力
モデル構築S
P
入力
カテゴリ値→
数値
変換マップ作成
分析モデル
(一次)
19Copyright © 2015 NTT DATA Corporation
2.In-Database Analytics開発
リアルタイムデータ分析
DWH
CEPストリームデータ
モデル構築(バッチ処理)
モデル適用(リアルタイム処理)
モデル適用(バッチ処理)
AnalysisModel
ModelDeploy
DWH内で作成した分析モデルをCEPに適用することで、ストリームデータに対してリアルタイムに予測・スコアリングが可能となる
モデル構築(R等)
モデル適用(その他AP)
リアルタイム予測・スコアリング
データ分析におけるこれまでの課題
分析モデルの適用には別途アプリケーション化が必要→QCDの低下につながる
どの製品でも実現できていないため、個別開発が必要
分析モデルにPMML等のポータビリティを持たせる
20Copyright © 2015 NTT DATA Corporation
まとめ
NTT DATA In-Database Analytics
蓄積された大量データに対するデータ分析を高速に実行するための分析技術 これまでのデータ分析では扱えなかったデータ量を処理することで新たな価値を創出 NTTデータ数理システムの信頼性の高い分析アルゴリズムを搭載 NTTデータのデータ分析方法論「BICLAVIS」をベースとしたアルゴリズムの選定
企業内DWHの大量データを高速に分析を行うことで新しいビジネス価値の創出をご支援します
Copyright © 2011 NTT DATA Corporation
Copyright © 2015 NTT DATA Corporation
※記載されている会社名、商品名、サービス名は各社の登録商標または商標です。