fraud system based on big data and machine learning

40
هؼواریى دادستر کقلة تر ت تطخیع ت هاضیيریادگی یرهاتیکفت ای ضرکت خذهاش تجار گرریػی الذیيل دکتر ج- رهاتیکفت ا ضرکت خذهار هطا- آریا پایا هلی تطخیع تقلة در ساهاشی پر هذیر ف- [email protected] یام رضایذس ال ه- هلیای رضذ در ساها تحلیلگر ا پرداخت[email protected]

Upload: jalal-a-nasiri

Post on 16-Apr-2017

417 views

Category:

Data & Analytics


2 download

TRANSCRIPT

تطخیع تقلة تر تستر کالى داد هؼواری یادگیری هاضیي

گر ش تجاری ضرکت خذهات افرهاتیک

دکتر جالل الذیي ػیری هطار ضرکت خذهات افرهاتیک - هذیر فی پرش تطخیع تقلة در ساها هلی آریا پایا [email protected]

هذس الام رضایی پرداختتحلیلگر ارضذ در ساها ای هلی -

[email protected]

1

؟چیستتقلة

.خد تقلة گیذغیر هجاز سء استفاد از حقق دیگراى در جت هافغ ت رگ فؼالیت

1

تقلة آثارهتقلثا ای تراکص اجام از ا تاک هستقین زیاى ا سریس ترخی از استفاد از هطتریاى ترخی ضذى خارج هطتریاى اػتواد دادى دست از ...

2

رضذ تقلة

2

درصذ ضرکت ای هالی ک در آا تقلب صرت گرفت است

رذ تغییرات تقلب ب گسارش باک هرکسی ارپا

3 3

عاهل ضاسایی تقلب 2013آهار تقلب در سال

ػاهل ضاسایی تقلة تزیغ رضای تقلة

4

تقلة؟چرا افسایص

ودى و تقلةػذم تاایی در هتقف •

افسایص خذهات سریس ا پیطرفت تکلشی•

درآهذ تیطتر تقلة•

جدید افسایص رضای هتقلثا پیاد سازی رش ای اهیتی جذیذ •

4

5

هؼواری سیستن کطف تقلة

5

6

اقالم اطالػاتی سیستن کطف تقلة

6

تاریخ اجام تراکصساعت اجام

تراکص

هحل اجام تراکص

ATM,POS,INTERNET,BRANCH

,…

سي،ضغل،تحصیالت...ضعیت تال

چ هقذار تسط چ کسی

ب چ کسی ع تراکص

اطالعات تکویلی

اطالعات جغرافیلی

کاال اجام تراکص

اطالعات زهای

اطالعات تراکص

بررسی سالیق ، عادات طبق

اجتواعی ضخص با تراکص جاری

سابق تراکص از ایي هکاى

اهکاى حضر ضخص

در ایي هکاى

سابق استفاد از ایي کاال

اهکاى استفاد ضخص از کاال

سابق استفاد از ایي تاریخ

اهکاى استفاد ضخص از ایي

ساعت

سابق تراکص با هحذد هبلغ

سابق تراکص ب

افراد/فرد

7

هؼواری سیستن کطف تقلة

7

8 8

هطخصات سیستن کطف تقلب

تػوین گیری تر اساس ع تقلة

9 9 9

فؼالیت ای هاج تا تقلة

10 10 10

ساری تػوین گیری ترای هاج تا تقلة

11 11 11

هؼواری سیستن کطف تقلة

دست تذی ااع آالیسای تطخیع تقلة

12

© 2014 Deloitte The Netherlands

زیرسیستن هثتی تر قاػذ( 1

13

.هاسة ترای تقلة ای آساى الگای ضاخت ضذ• . داری سرػت تاال پیچیذگی کن• .تسیار ضؼیف در هقاتل تقلة ای جذیذ•

:هثال فردی ک از تراى تراکص داضت است وی تاذ در هذى زهاى کن از کیص در خاست داضت تاضذ. کارهذ تاک وی تاذ در رز تؼطیل تراکص ثثت کذ.

14

زیر سیستن هثتی تر پرفایل( 2

سایر ضرا

ضر دم

ضر ال

کاال سایرPOS

کاالATM

کاال چک

هاکسیون تراکص

تؼذاد تراکص

رزا

ام هطتری

طبس 10%20%

تراى 70%

جالل الذیي 12 هیلیى10 10% 20% 65% 5% صیری

کیص 1%4%

تراى95%

هفرض ضرکت 107 هیلیارد 12 60% 0% 5% 35%

هقذار کاال ضر تراکص

ضوار تراکص

ام هطتری

جالل الذیي 21 هیلیى 100 ساتا اصفاى صیری

.اطالعات ضت ضذ فرضی هی باضذ

زیر سیستن هثتی تر پرفایل( 2

15

رفتار سجی

هتغیرای جغرافیایی

هتغیرای زهای

هتغیرای هقذار هالی

تراکص درخاستی

ل هذ

غ وی

جت

آالرم هارد هطکک

تػوین گیری

هتغیرای کاال

....هتغیرای

زیر سیستن هثتی تر پرفایل( 2

16

:قاط قت .سثتا کارآهذ است سثت ت رش ای جذیذ تقلة• .ػلت هطکک ضذى، هطخع است• .پیچیذگی هتسط زیر سیستن•

:قاط ضؼف (Concept Drift)ػذم پطتیثای هفم تغییر رفتار • .یاز ت تظین سطح حساسیت دارد• .تقلة ای پیچیذ را پیذا وی کذ•

Concept Drift چیست ؟ تغییرات رفتار اقؼی یک هایت در طل زهاى

سایر ضرا

ضر دم

ضر ال

کاال سایرPOS

کاالATM

کاال چک

هاکسیون تراکص

تؼذاد تراکص

رزا

ام هطتری

طبس 10%20%

تراى 70%

جالل الذیي 12 هیلیى50 10% 20% 65% 5% هطار-صیری

هطذ 1%39%

تراى60%

جالل الذیي 2 سار 500 0% 50% 40% 10% داطج-صیری

زیر سیستن هثتی تر یادگیری هاضیي( 3

17

.ذف در رضای یادگیری هاضیي استخراج داص یادگیری الگا در داد ا هی تاضذ•

.رش ای یادگیری هاضیي هؼوال ت د دست تک کالس چذ کالس تقسین هی ضذ•

زیر سیستن هثتی تر یادگیری هاضیي( 3

18

… ,OC-SVM, SVDD: هوتریي رش ای تک کالس • : هوتریي رضای چذ کالس •• Neural Network, SVM, Decision tree, …

.هؼوال رش ای چذ کالس از دقت تیطتری ترخردار ستذ•

زیر سیستن هثتی تر یادگیری هاضیي(3

19

:قاط قت .تاایی کطف تقلة ای پیچیذ•

:قاط ضؼف .پیچیذگی تاالی سیستن ای هثتی تر یادگیری هاضیي• (.ضکل پاییي)حساس ت هسال دادگاى اهتازى • .یاز ت هتخػػاى داد کای ک درک ختی از کسة کار داضت تاضذ•

زیر سیستن هثتی تر تحلیل ضثک اجتواػی( 4

20

30

2

37

22 5

1 2

3 4

ضوار هطتری

ال

ضوار هطتری

دم

هثلغ اریسی

1 2 30

1 3 5

2 3 22

2 4 2

3 4 37

زیر سیستن هثتی تر تحلیل ضثک اجتواػی( 4

21

:تؼریف ایی ساختاری اجتواػی • ( ک ػوها فردی یا سازهای ستذ)است ک از گر

است ک تسط یک یا چذ ع خاظ از اتستگی هاذ دست ، —تطکیل ضذ .تثادالت هالی ت ن هتػل اذ

.در و تاک ا ها چذیي ضثک هالی اجتواػی دارین سیستن ای کارت- ساها هتورکس تاکی--.....

.هؼرفی هی گردد( edge) یال ( node)ر ضثک اجتواػی هجوػ ای از گر •

.داص ساختاری تسیار هفیذی در یک ضثک اجتواػی جد دارد•

زیر سیستن هثتی تر تحلیل ضثک اجتواػی( 4

22

ضوار هطتری

ال

ضوار هطتری

دم

هثلغ اریسی

1 10 30

2 10 5

3 10 22

4 10 2

5 10 37

زیر سیستن هثتی تر تحلیل ضثک اجتواػی( 4

23

زیر سیستن هثتی تر تحلیل ضثک اجتواػی( 4

24

هطتریاى ک ت غرت قی وثذ ستذ چ افرادی ستذ؟ Strongly Connected Component ریفغ احذ، اػتثارسجی تطخیع تقلة: کارترد

اتطار ترچسة درضثک تاکی چگ اجام ضد؟ Label Propagation اتطار ترچسة فرد هتقلة: کارترد

25

!پس هطکل کجاست؟

So what's the problem?

26

:هطکالت سیستن ای تطخیع تقلة حجن تاالی تراکص رش ای یادگیری هاضیي تسیار زهاى تر ػذم تاایی آالیس ضثک ای اجتواػی در پایگا داد راتط ای ػذم تاایی پردازش جریاى داد در لحظ (هاذ ادرس)فیلذای ضث ساختاری (اطالػات جغرافیایی)کافی ثدى اقالم اطالػاتی

27

!را حل چیست؟

28

29 29 29

هؼواری سیستن کطف تقلة

(Big Data)کالى داد

30

هجوػ تکلشی ای پردازش کالى داد

31

32

چرا کالى داد ترای تطخیع تقلة الزم هی تاضذ؟

33

- Ad-hoc querying and reporting - Data mining techniques - Structured data, typical sources - Small to mid-size datasets

- Optimizations and predictive analytics - Complex statistical analysis - All types of data, and many sources - Very large datasets - More of a real-time

33

چرا کالى داد ترای تطخیع تقلة الزم هی تاضذ؟

34

را ای افسایص تاى پردازش

35

36

اکسیستن اسپارک

37

Logistic regression in Hadoop and Spark

38 ”Big Data Storymap“تا تطکر از جاب اقای هذس هیثوی ترای ارسال

39

هراجغ

J.P.Morgan . (2014) .2014 AFP Payments Fraud and Control Survey , Report of Survey Results

www.ismgcorp.com 94ضرکت خذهات افرهاتیک آرر –هذیریت فاری هذسی کسة کار .تررسی سیستن ای هذیریت تقلة کارت

The Forrester Wave™: Enterprise Fraud Management, Forrester, 2013

2015 IBM Corporation Fraud Detection & Management System A real time actionable counter fraud decision management system Antonio

Dell’Olio – Senior IT Architect Barbara Camandone – Client IT Manager

Montazer, G. A., & ArabYarmohammadi, S. (2015). Detection of phishing attacks in Iranian e-banking using a fuzzy–rough hybrid system. Applied Soft Computing, 35, 482-492. doi:10.1016/j.asoc.2015.05.059 Alcaraz, C., Cazorla, L., & Fernandez, G. (2014). Context-Awareness Using Anomaly-Based Detectors for Smart Grid Domains. In Risks and Security of Internet and Systems (pp. 17-34). Springer International Publishing. doi: 10.1007/978-3-319-17127-2_2 Pfitzmann, B., Powers, C., & Waidner, M. (2007). IBM’s Unified Governance Framework (UGF) Initiative. IBM Research Division. Research Report RZ, 3699(99709), 10. Kaisler, S. H., Espinosa, J. A., Armour, F., & Money, W. H. (2014, January). Advanced Analytics--Issues and Challenges in a Global Environment. In System Sciences (HICSS), 2014 47th Hawaii International Conference on (pp. 729-738). IEEE. Katal, A., Wazid, M., & Goudar, R. H. (2013, August). Big data: Issues, challenges, tools and Good practices. In Contemporary Computing (IC3), 2013 Sixth International Conference on (pp. 404-409). IEEE. Mohanty, S., Jagadeesh, M., & Srivatsa, H. (2013). Big Data Imperatives: Enterprise ‘Big Data’Warehouse,‘BI’Implementations and Analytics. Apress. Chandola, V., Banerjee, A., & Kumar, V. (2009). Anomaly detection: A survey. ACM computing surveys (CSUR), 41(3), 15. Doi:10.1145/1541880.1541882 Kovach.S, Ruggiero. W.V. (2011). Online Banking Fraud Detection Based on Local and Global Behavior. The Fifth International Conference on Digital Society 29-43). ACM. Dean, J., & Ghemawat, S. (2008). MapReduce: simplified data processing on large clusters. Communications of the ACM, 51(1), 107-113.