Cách xử lý big data của google

Google Analytics là công cụ trực tuyến miễn phí giúp bạn theo dõi số liệu liên quan đến hoạt động của website. Việc phân tích dữ liệu Google Analytics sẽ giúp bạn đánh giá hiệu quả website qua các kênh truyền thông, biết được sự quan tâm của khách hàng đến các sản phẩm – dịch vụ của mình như thế nào cũng như những thông tin liên quan đến thói quen truy cập website của khách hàng để có những chiến lược marketing phù hợp nhất.

Ngoài việc sử dụng công cụ Google Analytics trực tuyến để phân tích số liệu thu thập, bạn còn có thể kết nối API (Google Query Explorer) để rút trích, download và thực hiện xử lý, phân tích và trực quan hóa các dữ liệu Google Analytics theo các tiêu chí của riêng mình, trả lời cho các vấn đề bạn đang quan tâm và có thể bạn sẽ phát hiện thêm các insight có 1-0-2 từ dữ liệu!

1.Google Query Explorer

Cách xử lý big data của google

Nếu bạn đã đăng nhập và tài khoản Google của bạn kết nối với Google Analytics thì thông tin Account (Tài khoản), Property (Thuộc tính) và View (Chế độ xem) của Google Analytics sẽ được tự động điền danh sách giá trị và bạn chỉ việc chọn giá trị phù hợp trong danh sách. Giá trị ids – ViewID sẽ tự động thay đổi tương ứng với các giá trị bạn chọn trong danh sách.

Dimensions: là thuộc tính của dữ liệu. Ví dụ: City là tên các thành phố, ví dụ: "Hồ Chí Minh" hoặc "Hà Nội" nơi người dùng truy cập website. Hay Page sẽ cho biết địa chỉ URL của trang được người dùng xem.

Metrics: là các số liệu định lượng. Ví dụ như Sessions là tổng số session truy cập, Pages/Session là số trang trung bình được xem trong mỗi session.

Cách xử lý big data của google

Ví dụ 1 báo cáo Google Analytics với dimension là Channel và các metrics là các cột tương ứng

Với Query Explorer bạn sẽ xác định các dimension và metrics cần thiết để có số liệu như mong muốn. Bạn cũng có thể áp dụng các bộ lọc và sắp xếp để lấy dữ liệu theo điều kiện nào đó.

Cách xử lý big data của google

Nếu bạn chưa rõ về các dimensions và metrics mà Google Analytics có thể hỗ trợ, bạn có thể chọn Dimensions & Metrics Explorer để xem giải thích chi tiết, kiểu dữ liệu của các dimesions và metrics theo từng nhóm thông tin như : User, Session, Traffic Sources,... Chỉ có lưu ý là bạn chỉ chọn trong giới hạn 7 dimensions và 10 metrics nên bạn cần cân nhắc các thông tin dùng để rút trích và phân tích dữ liệu.

Cách xử lý big data của google

Ngoài ra, bạn cũng có thể lọc dữ liệu bằng cách xác định biểu thức lọc, ví dụ như bạn chỉ muốn lấy các dữ liệu liên quan đến người dùng sử dụng Google search tìm đến website của bạn như sau:

Cách xử lý big data của google

Hoặc bạn chỉ muốn lấy các thông tin liên quan đến người dùng có thời gian lưu lại trên trang của bạn > 10 giây, bạn sẽ xác định như sau:

Cách xử lý big data của google

2.Dùng Python rút trích dữ liệu từ Google Analytics

Trước khi bạn có thể rút trích được các thông tin từ tài khoản Google Analytics, bạn phải xác nhận ứng dụng của bạn có quyền truy cập vào tài khoản Google Analytics. Để làm được điều đó bạn phải có thông tin mã ủy quyền truy cập để gửi tới API Analytics. 

Cách xử lý big data của google

Bạn điền các thông tin cần thiết, hệ thống sẽ tạo cho bạn các cặp giá trị public/private key, bạn chọn lưu lại dưới dạng tập tin JSON để sau này có thể sử dụng các hàm thư viện Google API để kết nối và đọc dữ liệu. 

Sau đó trên Python (Jupyter Notebook) bạn sẽ import các thư viện cần dùng như sau:

Cách xử lý big data của google

Giả sử tập tin chứa thông tin đăng nhập là key.json và giá trị VIEW_ID tương ứng với viewID trên Google Analytics, bạn sẽ xây dựng các hàm để đọc và xử lý dữ liệu như sau:

Cách xử lý big data của google

Cách xử lý big data của google

Cách xử lý big data của google

Vậy là đã xong các hàm cần thiết, lúc này bạn có thể rút trích dữ liệu Google Analytics theo khoảng thời gian xác định, ví dụ từ 01/01/2019 đến 01/06/2020 :

Cách xử lý big data của google
  

3.Phân tích – trực quan hóa dữ liệu 

Dựa trên dữ liệu rút trích được từ Google Analytics và các thư viện xử lý dữ liệu, trực quan hóa dữ liệu của Python bạn có thể phát hiện được nhiều thông tin bổ ích. 

Ví dụ như bạn có thể biết được khách hàng tìm năng, nơi truy cập đến website nhiều nhất là những địa điểm nào, một cách trực quan trên bản đồ như sau:

Cách xử lý big data của google

Hay bạn có thể muốn biết trong vòng bán kính xung quanh một địa điểm nào đó có bao nhiêu Trường Đại học, Cao đẳng. Nhưng nếu bạn kinh doanh nhà hàng Pizza thì khi phân tích, trực quan hóa bạn sẽ muốn biết lân cận khu vực bạn muốn mở nhà hàng có những nhà hàng Pizza nào, quán ăn nào....

Cách xử lý big data của google

Bạn cũng có thể muốn biết người dùng website của bạn hay sử dụng các thiết bị nào để có những chiến lược nội dung phù hợp, tránh trường hợp bỏ rơi phiên bản website mobile trong khi khách hàng dùng mobile lướt web bạn rất nhiều :

Cách xử lý big data của google

Bạn cũng có thể phân tích, biết được người dùng hay truy cập website vào những ngày nào trong tuần và những giờ nào trong ngày để biết được thói quen của người dùng mà có chiến lược marketing phù hợp.

Cách xử lý big data của google

Và còn rất rất nhiều cách phân tích và góc nhìn khác nhau dựa trên dữ liệu bạn đã thu thập được từ Google Analytics. Bạn sẽ tùy biến phân tích dữ liệu theo ý mình để giải quyết vấn đề một cách chặt chẽ và trực quan hơn là sử dụng công cụ Google Analytics có sẵn. 

Ngoài ra, bạn cũng có thể áp dụng các thuật toán Machine Learning như phân cụm khách hàng để biết những nhóm khách hàng nào sẽ có những đặc trưng khác nhau như thế nào, thói quen của khách hàng khi chốt đơn hàng, dự đoán xu hướng khách hàng truy cập website trong tương lai, .... Dữ liệu sẽ trở thành thông tin hữu ích, có giá trị hơn nhiều khi bạn biết cách áp dụng các kỹ thuật phân tích dữ liệu Data Science phù hợp. 

Ở đâu có dữ liệu, ở đó cần Data Science – Ngành hot trong thế kỷ 21.

Trung tâm Tin học - Trường Đại học Khoa học Tự nhiên