Phân tích người tiêu dùng bằng NLP và AI trong HPC Cloud

phân tích người tiêu dùng

Các công ty thương mại điện tử đang phát triển nhanh chóng đã mang lại dữ liệu lớn thực tế là kết quả của những phát triển này. Sự phổ biến rộng rãi của dữ liệu lớn trên phương tiện truyền thông xã hội cho phép người mua bày tỏ ý kiến ​​và quan điểm của họ về một loạt các chủ đề, chẳng hạn như tình trạng của nền kinh tế hoặc bày tỏ sự không hài lòng của họ với các sản phẩm hoặc dịch vụ cụ thể hoặc bày tỏ phân tích người tiêu dùng niềm vui với mua hàng.

Một số lượng đáng kể nhận xét của người tiêu dùng và đánh giá sản phẩm cung cấp nhiều thông tin hữu ích và gần đây đã trở thành nguồn lực quan trọng cho cả người tiêu dùng và doanh nghiệp. Người tiêu dùng thường xuyên tìm kiếm thông tin chất lượng từ các bài đánh giá trực tuyến trước khi mua sản phẩm và nhiều doanh nghiệp sử dụng các bài đánh giá trực tuyến làm đầu vào quan trọng cho sản phẩm, tiếp thị và quản lý quan hệ khách hàng của họ.

Do đó, hiểu được tâm lý đằng sau hành vi của người tiêu dùng trực tuyến đã trở thành chìa khóa để cạnh tranh trong các thị trường ngày nay được đặc trưng bởi sự cạnh tranh và toàn cầu hóa ngày càng gia tăng.

Phân tích cảm xúc và phân tích văn bản là ứng dụng của phân tích người tiêu dùng dữ liệu lớn, nhằm mục đích tổng hợp và trích xuất cảm xúc và cảm xúc từ nhiều loại đánh giá. Những dữ liệu lớn đang phát triển theo cấp số nhân này chủ yếu có sẵn ở định dạng phi cấu trúc, khiến cho việc giải thích không thể xảy ra với nỗ lực của con người. Do đó, việc sử dụng máy học xử lý ngôn ngữ tự nhiên (NLP), tập trung vào việc thu thập dữ kiện và ý kiến ​​từ lượng thông tin khổng lồ có sẵn trên internet, là rất quan trọng.

Bài viết này, phân tích người tiêu dùng dựa trên nghiên cứu điển hình UberCloud mở rộng hơn, trình bày việc áp dụng NLP – mô hình học máy để dự đoán cảm xúc dựa trên đánh giá nhận xét sản phẩm phân tích người tiêu dùng của người tiêu dùng được lấy từ các trang web thương mại điện tử và truyền thông xã hội.

phân tích người tiêu dùng
phân tích người tiêu dùng

Quy trình phân tích người tiêu dùng NLP bao gồm một số bước

Xử lý trước dữ liệu và trích xuất tính năng, theo đó văn bản của bạn được chuyển đổi thành định dạng có thể dự đoán và phân tích được cho nhiệm vụ của bạn. Nó cũng có thể giúp bạn trích xuất các tính năng để hiểu sự phân bố của văn bản đánh giá. Mã hóa, viết hoa thấp hơn, loại bỏ ngắt từ, viết gốc, lemmatization và gắn thẻ các phần của giọng nói là một số giai đoạn liên quan đến việc xử lý phân tích người tiêu dùng trước dữ liệu và trích xuất tính năng.

Phân tích tình cảm được thực hiện trên mỗi bài đánh giá, phân loại nó là xuất sắc hoặc kém, và sau đó cảm xúc được tạo ra. Điểm tình cảm là một hàm của tính phân cực và tính chủ quan. Cả hai tham số đều được trích xuất từ ​​văn bản đánh giá bằng cách sử dụng thuật toán NLP để hiểu được cảm xúc tổng thể.

Dấu hiệu của điểm phân cực thường được sử dụng để suy ra liệu tình cảm tổng thể là tích cực, trung tính hay tiêu cực. Polarity là một số thực trong phạm vi [-1,1], trong đó 1 đại diện cho một tuyên bố tích cực và -1 đại diện cho một tuyên bố phủ định. Câu chủ quan thường đề cập đến quan điểm, cảm xúc hoặc phán đoán cá nhân, trong khi câu khách quan đề cập đến thông tin thực tế.

Lập mô hình chủ đề được sử dụng để tìm chủ đề quan tâm từ một tập hợp dữ liệu đánh giá. Đây là những khía cạnh và có thể có nhiều từ cho cùng một khía cạnh. Nó cho phép các công cụ tìm kiếm tập trung vào các chủ đề quan trọng nhất trong tài liệu. Thuật toán Phân bổ Dirichlet tiềm ẩn (LDA), phân tích người tiêu dùng một kiểu học không giám sát coi tài liệu là một túi từ, được sử dụng để phân tích người tiêu dùng các chủ đề và tạo ra xác suất xuất hiện của các chủ đề trong tài liệu dựa trên các từ đó.

Từ tất cả các bước của quy trình NLP tổng thể, mô hình hóa chủ đề (thuật toán LDA) cho đến nay là phần tính toán chuyên sâu nhất của quy trình và trong khi các bước khác (làm sạch dữ liệu và kỹ thuật tính năng, trực quan hóa dữ liệu, phân tích cảm tính và phân tích dự đoán ) hầu như không phụ thuộc vào số lượng đánh giá, nỗ lực cho việc lập mô hình chủ đề tăng lên theo cấp số nhân với số lượng đánh giá ngày càng tăng.

Do đó, chúng tôi đang tìm kiếm một phiên bản song song cao của thuật toán LDA có thể chạy hiệu quả cao trên các hệ thống HPC tại cơ sở hoặc trong HPC Cloud (ví dụ: AWS, Azure, Google GCP, xem bên dưới).

Phát triển thuật toán hoặc tạo mô hình dự đoán có thể dự đoán và phân loại bất kỳ câu lệnh đánh giá đầu vào nào bằng cách sử dụng kỹ thuật máy học tận dụng các phương pháp thống kê để tính toán điểm số cảm nhận. Họ tinh chỉnh các quy tắc của riêng mình bằng cách đào tạo lặp lại dựa trên dữ liệu đào tạo mà họ được cung cấp.

Độ chính xác và xác thực của mô hình trở thành tiêu chí quan trọng để lựa chọn thuật toán. Mô hình dự đoán có thể được phát triển bằng cách sử dụng cả phương pháp học có giám sát và không giám sát.

Nghiên cứu này giải quyết thách thức cơ bản về hành vi của khách hàng bằng cách sử dụng các thuật toán học máy nâng cao nhằm dân chủ hóa và cho phép truy cập theo thời gian thực vào những thông tin chi tiết chính cho thị trường ngách của bạn.

Đây là một tài nguyên hữu ích để đánh giá thông tin phân tích người tiêu dùng tình cảm trong các nền tảng xã hội và kênh thương mại điện tử, vì nó không chỉ dựa vào các từ khóa theo miền cụ thể mà còn dựa trên kiến ​​thức thông thường cho phép ngoại suy thông tin nhận thức và tình cảm được kết nối với văn bản ngôn ngữ tự nhiên.

Đo điểm chuẩn hiệu suất trên phân tích người tiêu dùng Máy trạm và HPC Cloud

NLP – thuật toán học máy cho thương mại điện tử là một kỹ thuật tính toán chuyên sâu, đặc biệt là thuật toán LDA, như đã đề cập ở trên. Do đó, để hoàn thành nghiên cứu, trước tiên chúng tôi đã chạy phân tích hiệu suất bằng cách sử dụng một máy tính để bàn hiệu suất cao có 16 lõi CPU và 32 GB RAM. phân tích người tiêu dùng hiệu suất được thực hiện để nghiên cứu yêu cầu của hệ thống máy tính để chạy tới 20 triệu dữ liệu đánh giá với các kết quả điểm chuẩn sau:

Nỗ lực cho việc lập mô hình chủ đề tăng lên theo cấp số nhân, do thuật toán LDA. Để khắc phục nhược điểm đó, chúng tôi đã tìm ra các phương pháp mô hình hóa chủ đề LDA song song, ví dụ: dựa trên kiến ​​trúc MapReduce bằng cách sử dụng mô hình lập trình phân tán, nghĩa là triển khai song song mô hình chủ đề LDA bằng cách sử dụng nền tảng tính toán song song Hadoop.

Kết quả cho thấy rằng, khi xử lý một lượng lớn đánh giá, phương pháp phân tích người tiêu dùng song song này có thể tăng tốc độ gần tuyến tính, rất phù hợp cho các tài nguyên HPC và HPC tại chỗ trên đám mây.

Môi trường HPC có nền tảng Anaconda dựa trên Python hỗ trợ phân tích dữ liệu và xây dựng các mô hình dự đoán. Như chúng tôi đã trình bày, xử lý khối lượng dữ liệu lớn như vậy là một thách thức thực sự đối với dự án NLP này và đòi hỏi một lượng sức mạnh tính toán đáng kể. Do đó, chúng tôi nhận thấy rằng việc xử lý và tăng tốc xử lý lượng dữ liệu khổng lồ như vậy có thể thực hiện được bằng cách mở rộng thuật toán trên đám mây HPC.

phân tích người tiêu dùng
phân tích người tiêu dùng

Các thử nghiệm tiếp theo được tiến hành trong môi trường đám mây HPC sẽ chứng minh khả năng thiết lập và chạy phân tích dữ liệu lớn từ xa cũng như xây dựng các mô hình AI trên đám mây. Tiếp theo, các yêu cầu thiết lập mô hình học máy AI sẽ được cài đặt sẵn trong các vùng chứa ứng dụng HPC trên Nền tảng mô phỏng kỹ thuật UberCloud, cho phép người dùng truy cập và chạy quy trình làm việc NLP mà không cần cài đặt bất kỳ loại thiết lập trước nào.

Lời cảm ơn: Các tác giả xin cảm ơn Praveen Bhat, chuyên gia tư vấn công nghệ HPC / Python, đã hỗ trợ ông trong quá trình triển khai và đo điểm chuẩn của ứng dụng NLP.

Giới thiệu về tác giả: Veena Mokal là Chuyên gia Khoa học Dữ liệu có bằng MBA về Phân tích Kinh doanh tại Học viện Công nghệ Quản lý ở Ấn Độ. Wolfgang Gentzsch là đồng sáng lập và chủ tịch của UberCloud, công ty phát triển Nền tảng mô phỏng kỹ thuật tự động và tùy chỉnh cho các mô phỏng đa vật lý kỹ thuật phức tạp, phân tích người tiêu dùng AI / Machine learning, sinh đôi, phân tích dữ liệu, chăm sóc sức khỏe cá nhân hóa và xử lý ngôn ngữ tự nhiên.

Từ khóa:

  • Lý thuyết hành vi người tiêu dùng
  • Luận văn nghiên cứu hành vi người tiêu dùng
  • Ví dụ về hành vi mua của người tiêu dùng
  • Ý nghĩa của việc nghiên cứu hành vi người tiêu dùng
  • Ví dụ về vai trò của người tiêu dùng
  • Khái niệm người tiêu dùng trong marketing
  • Hành vi người tiêu dùng
  • Mục tiêu của người tiêu dùng

Nội dung liên quan: