adtech ip2location

12
IP2LOCATION Đơn vị: Adtech Thành viên: Nguyễn Hùng Cường, Đỗ Viết Dũng, Trần Ngọc Trường, Nguyễn Đức Trung, Hoàng Anh Tuấn

Upload: nguyen-thanh

Post on 27-Jun-2015

62 views

Category:

Data & Analytics


2 download

TRANSCRIPT

Page 1: Adtech ip2location

IP2LOCATION

Đơn vị: AdtechThành viên: Nguyễn Hùng Cường, Đỗ Viết Dũng, Trần Ngọc Trường, Nguyễn Đức Trung, Hoàng Anh Tuấn

Page 2: Adtech ip2location

Nội dung Đặt vấn đề. Những khó khăn. Giải pháp.

Giải thuật hội tụ. Xử lý dữ liệu. APIs cho các hệ thống ngoài.

Kết quả.

Page 3: Adtech ip2location

Đặt vấn đề VCC phục vụ lượng khách hàng lớn: 25M

unique visitors, khoảng 1.2B truy cập hàng tháng.

Người dùng có nhiều thông tin: IP, nhóm tuổi, giới tính, vùng miền, thói quen,…

Càng “hiểu” người dùng có khả năng phục vụ tốt hơn.

Thông tin quan trọng cần quan tâm: IP và vùng miền của khách hàng. IP <-> vùng miền.

Page 4: Adtech ip2location

Đặt vấn đề

Thông tin vùng miền: Phân phối nội dung: cung cấp nội dung

đúng với vùng miền. Định hướng quảng cáo: định hướng theo

vùng miền. Phân phối quảng cáo như mong đợi: tăng tỉ

lệ CTR. Chống gian lận trong TMĐT Giúp thu thập các thông tin khác về khách

hàng.

Page 5: Adtech ip2location

Những khó khăn Không có thông tin chính xác về vùng miền

của khách hàng. Chỉ có thông tin IP của khách hàng, nhưng

thay đổi liên tục. Dữ liệu IP được cung cấp bởi ISP có chất lượng

thấp, sai nhiều, phân bố không đồng nhất. Lượng dữ liệu cần khai thác lớn: 60 tỷ bản ghi

log, 25TB dữ liệu. Dữ liệu tăng theo hàng tháng nhanh chóng: 15

tỷ bản ghi log, 6TB dữ liệu.

Page 6: Adtech ip2location

Giải pháp Xây dựng giải thuật xác định vùng miền của IP,

sử dụng phương pháp hội tụ. Xác định miền bắc, trung, nam đối với 1 IP

Xây dựng cơ chế lưu trữ, xử lý dữ liệu log thông tin khách hàng, IP.

Xây dựng APIs cho các hệ thống ngoài có thể sử dụng giải pháp.

Page 7: Adtech ip2location

Giải thuật hội tụ

User-1

User-2

User-3

User-4

User-n

IP-1

IP-2

IP-3

IP-4

IP-n

Page 8: Adtech ip2location

Giải thuật hội tụ Xây dựng Web Graph để mapping giữa User và IP

User1 -> (IP1, IP2,…IPN) IP1 -> (User1, User2,… UserN)

Xuất phát với bộ dữ liệu mẫu về IP và vùng miền (bao gồm cả dữ liệu sai)

IP1 -> (ScoreB, ScoreT, ScoreN) -> vùng miền của IP1 Ưu điểm của giải thuật:

Tận dụng, xử lý được toàn bộ nguồn dữ liệu log của VC. Sử dụng thuật toán hội tụ, nên tỉ lệ chính xác cao. Thời gian tính toán không nhiều, tận dụng được kết quả các

lần tính toán trước.

Page 9: Adtech ip2location

Xử lý dữ liệu Xử lý phân tán, sử dụng Hadoop, Map-Reduce,

HDFS. Lưu trữ 60 tỷ bản ghi khách hàng, tổng cộng

25TB dữ liệu. Cập nhật dữ liệu theo tuần, mỗi tuần 4 tỷ bản

ghi, 1.5TB dữ liệu, cập nhật lại toàn bộ dữ liệu.

Page 10: Adtech ip2location

APIs cho hệ thống ngoài Đưa dữ liệu về IP và vùng miền cho các hệ

thống sử dụng. Sử dụng Redis để chịu tải cho hệ thống phục

vụ phần lớn các yêu cầu đọc.

Page 11: Adtech ip2location

Kết quả Tổng số IP hệ thống nhận diện

được vùng miền: 2,4 triệu. Tỉ lệ nhận diện chính xác: trên

90%. Đang được triển khai cho box

nhà đất của enbac, trên hệ thống muachung

Page 12: Adtech ip2location

CHÂN THÀNH CẢM ƠN!