adtech ip2location

Post on 27-Jun-2015

62 Views

Category:

Data & Analytics

2 Downloads

Preview:

Click to see full reader

TRANSCRIPT

IP2LOCATION

Đơn vị: AdtechThành viên: Nguyễn Hùng Cường, Đỗ Viết Dũng, Trần Ngọc Trường, Nguyễn Đức Trung, Hoàng Anh Tuấn

Nội dung Đặt vấn đề. Những khó khăn. Giải pháp.

Giải thuật hội tụ. Xử lý dữ liệu. APIs cho các hệ thống ngoài.

Kết quả.

Đặt vấn đề VCC phục vụ lượng khách hàng lớn: 25M

unique visitors, khoảng 1.2B truy cập hàng tháng.

Người dùng có nhiều thông tin: IP, nhóm tuổi, giới tính, vùng miền, thói quen,…

Càng “hiểu” người dùng có khả năng phục vụ tốt hơn.

Thông tin quan trọng cần quan tâm: IP và vùng miền của khách hàng. IP <-> vùng miền.

Đặt vấn đề

Thông tin vùng miền: Phân phối nội dung: cung cấp nội dung

đúng với vùng miền. Định hướng quảng cáo: định hướng theo

vùng miền. Phân phối quảng cáo như mong đợi: tăng tỉ

lệ CTR. Chống gian lận trong TMĐT Giúp thu thập các thông tin khác về khách

hàng.

Những khó khăn Không có thông tin chính xác về vùng miền

của khách hàng. Chỉ có thông tin IP của khách hàng, nhưng

thay đổi liên tục. Dữ liệu IP được cung cấp bởi ISP có chất lượng

thấp, sai nhiều, phân bố không đồng nhất. Lượng dữ liệu cần khai thác lớn: 60 tỷ bản ghi

log, 25TB dữ liệu. Dữ liệu tăng theo hàng tháng nhanh chóng: 15

tỷ bản ghi log, 6TB dữ liệu.

Giải pháp Xây dựng giải thuật xác định vùng miền của IP,

sử dụng phương pháp hội tụ. Xác định miền bắc, trung, nam đối với 1 IP

Xây dựng cơ chế lưu trữ, xử lý dữ liệu log thông tin khách hàng, IP.

Xây dựng APIs cho các hệ thống ngoài có thể sử dụng giải pháp.

Giải thuật hội tụ

User-1

User-2

User-3

User-4

User-n

IP-1

IP-2

IP-3

IP-4

IP-n

Giải thuật hội tụ Xây dựng Web Graph để mapping giữa User và IP

User1 -> (IP1, IP2,…IPN) IP1 -> (User1, User2,… UserN)

Xuất phát với bộ dữ liệu mẫu về IP và vùng miền (bao gồm cả dữ liệu sai)

IP1 -> (ScoreB, ScoreT, ScoreN) -> vùng miền của IP1 Ưu điểm của giải thuật:

Tận dụng, xử lý được toàn bộ nguồn dữ liệu log của VC. Sử dụng thuật toán hội tụ, nên tỉ lệ chính xác cao. Thời gian tính toán không nhiều, tận dụng được kết quả các

lần tính toán trước.

Xử lý dữ liệu Xử lý phân tán, sử dụng Hadoop, Map-Reduce,

HDFS. Lưu trữ 60 tỷ bản ghi khách hàng, tổng cộng

25TB dữ liệu. Cập nhật dữ liệu theo tuần, mỗi tuần 4 tỷ bản

ghi, 1.5TB dữ liệu, cập nhật lại toàn bộ dữ liệu.

APIs cho hệ thống ngoài Đưa dữ liệu về IP và vùng miền cho các hệ

thống sử dụng. Sử dụng Redis để chịu tải cho hệ thống phục

vụ phần lớn các yêu cầu đọc.

Kết quả Tổng số IP hệ thống nhận diện

được vùng miền: 2,4 triệu. Tỉ lệ nhận diện chính xác: trên

90%. Đang được triển khai cho box

nhà đất của enbac, trên hệ thống muachung

CHÂN THÀNH CẢM ƠN!

top related