phân tích tính tích cực và tiêu cực trong câu bình luận bằng phương pháp sentiment (rapid miner)


Mục lục



 

LỜI CẢM ƠN
Trên thực tế không có sự thành công nào mà không gắn liền với những hỗ trợ, sự giúp đỡ dù ít hay nhiều, dù là trực tiếp hay gián tiếp của người khác. Trong suốt thời gian từ khi bắt đầu học tập ở giảng đường Đại Học đến nay, em đã nhận được rất nhiều sự quan tâm, giúp đỡ của thầy cô, gia đình, bạn bè và đồng nghiệp.
 Xin gửi lời cảm ơn chân thành đến thầy cô và bạn bè, đặc biệt là TS.Nguyễn Thị Thu Hà đã luôn là nguồn động viên to lớn, giúp chúng em vượt qua những khó khăn trong suốt quá trình học tập và thực hiện báo cáo môn học.
Nhóm em đã cố gắng hoàn thành bài báo cáo tuy nhiên không thể tránh khỏi những thiếu sót. Em rất mong nhận được sự quan tâm, thông cảm và những đóng góp quý báu của thầy cô và các bạn để báo môn học này của nhóm em ngày càng hoàn thiện hơn.
 Sau cùng em xin kính chúc các thầy cô dồi dào sức khỏe, niền tin để tiếp tục thực hiện sứ mệnh cao đẹp của mình là truyền đạt kiến thức cho thế hệ mai sau.

Trân trọng cảm ơn!
                                                                                   

 

MỞ ĐẦU

Trong thời buổi kinh tế thị trường ngày hôm nay, một doanh nghiệp muốn tồn tại và phát triển thì cần phải khai thác và thu thập được các ý kiến phản hồi của người dùng về sản phẩm hay dịch vụ của mình từ đó đưa ra những định hướng và điều chỉnh về hoạt động sản xuất kinh doanh phù hợp hơn.
Cùng với sự ra đời của internet, sự xuất hiện và phát triển không ngừng của lĩnh vực thương mại điện tử khiến cho việc xúc tiến các hoạt động kinh doanh, buôn bán, quảng bá sản phẩm, dịch vụ diễn ra trên khắp các kênh thông tin xã hội đặc biệt là trên mạng internet. Điều này vô hình dung tạo nên cầu nối giữa người dùng nhà cung cấp, và từ cầu nối này người dùng có thể đưa ra ý kiến của họ đối với sản phẩm hay dịch vụ mà nhà cung cấp manglại.
Như chúng ta đã biết ngày nay mọi thông tin đều được đưa lên các trang mạng xã hội dưới dạng các posts và rất nhiều người dùng để lại các các nhận xét của mình về các posts này dưới dạng các comments, ta nhận thấy đây là kho thông tin khổng lồ mà từ đó nếu chúng ta có thể khai phá và trích rút tất cả các comments của người dùng, sau đó phân tích và phân loại dữ liệu ấy, chúng ta có thể thu được các kết quả khảo sát cần thiết phục vụ cho hoạt động sản xuất kinh doanh. Kết quả khảo sát ấy có thể là tỉ lệ người dùng thích, không thích hay không có ý kiến đối với sản phẩm hay dịch vụ mà họ quantâm.
Từ việc nhìn thấy kho dữ liệu khổng lồ có thể trích rút được từ các trang mạng xã hội, kết hợp với niềm cảm hứng về một dự án khảo sát ý kiến của người tiêu dùng đối với các sản phẩm trong điều kiện phát triển mạnh mẽ của lĩnh vực thương mại điện tử, tôi quyết



định xây dựng đề tài “các mạng xã hội để khảo sát ý kiến của khách hàng đối với một sản phẩm thương mại điện tử”.

o Tìm hiểu tổng quan về các kĩ thuật tách từ tiếngViệt.
o Tìm hiểu tổng quan về các kĩ thuật các phương pháp phân loại ý kiến hiệnnay.
v Về mặt thực nghiệm:
o Trình bày và ứng dụng phương pháp sentiment classìication để phân loại ý kiến của khách hàng đối với một sản phẩm thương mại điện tử. Áp dụng trên miền sản phẩm điện thoạiIphone5.
o Chỉ xử lý đối với văn bản tiếng Việt códấu.
o Có nhiều tiêu chí để phân loại ý kiến, trong đề tài tôi chỉ xét ba tiêu chi cơ bản đó là tích cực, tiêu cực và không xácđịnh.

3.  Phương pháp nghiên cứu

-   Tìm hiểu các kĩ thuật phân loại văn bản tiếngViệt.
-   Tìm hiểu các kỹ thuật tách từ tiếngViệt
-   Tìm hiểu các phương pháp phân loại ý kiến hiệnnay.
-   Phân tích thiết kế hệ thống chương trình ứngdụng.
-   Xây dựng kho dữ liệu huấn luyện thể hiện quan điểm của người dùng đối với một sản phẩm thương mại điện tử

4.  Ý nghĩa khoa học và thựctiễn

-   Ý nghĩa khoa học: Nghiên cứu và tìm hiểu các kĩ thuật trích rút thông tin, xử lý ngôn ngữ tự nhiên, xử lý văn bản tiếng việt và các phương pháp phân loại ý kiến hiện nay.Tạo tiền đề cho những nghiên cứu tiếp theo trong tươnglai.
-   Ý nghĩa thực tiễn: Xây dựng giải pháp cơ bản về khảo sátý
kiến của khách hàng đối với một sản phẩm thương mại điện tử.

5.  Cấu trúc luậnvăn

Ngoài phần mở đầu và kết luận, luận văn gồm có 3 chương:



Chương 1 Quản trị khách hàng : khái niệmvà phương pháp phân tích
Chương 2 Giới thiệu về đề tài: trong chương này trình bày về đề tài và các phương pháp phân loại ý kiến,và phương pháp phân tích k-mean
Chương 3 thử nghiệm với rapit miner: giới thiệu về rapit miner và chuẩn bị dư liệu để áp dụng vào bài toán phân loại ý kiến khách hàng đối với một sản phẩm thương mại điện tử. Sau đó trình bày kết quả thử nghiệm trên ứng dụng

CHƯƠNG 1: TỔNG QUANN VỀ QUẢN TRỊ QUAN HỆ KHÁCH HÀNG

          

1.1 Khái niệm quản trị khách hàng

- Quản trị quan hệ khách hàng là công việc tiếp cận và giao tiếp với khách hàng, quản lý các thông tin của khách hàng từ đó phục vụ khách hàng tốt hơn và thiết lập mối quan hệ bền vững với họ. Hay nói cách khác, dựa trên dữ liệu và thông tin thu được từ khách hàng, cửa hàng sẽ đề ra được chiến lược chăm sóc khách hàng hợp lý và hiệu quả.

1.2 Thành phần quản trị khách hàng

Hoạt động quản trị khách hàng không chỉ diễn ra ở một bộ phận nhất định mà cần có sự phối hợp giữa nhiều vị trí trong cửa hàng. Điều này sẽ giúp các công việc được diễn ra có hệ thống và suôn sẻ hơn.
Quản lý/chủ cửa hàng: Đây sẽ là những người xây dựng quy trình quản lý khách hàng cho cửa hàng. Việc xây dựng quy trình không chỉ giúp nhân viên có định hướng làm việc tốt hơn mà còn giúp quản lý dễ dàng hơn trong việc theo dõi và đánh giá hiệu quả.
Bộ phận bán hàng: Đây là những người trực tiếp nói chuyện với khách hàng. Nhân viên bán hàng sẽ xử lý các yêu cầu của khách hàng, tư vấn cho họ những sản phẩm phù hợp nhất với nhu cầu, mong muốn. Bên cạnh đó bộ phận này còn có nhiệm vụ ghi lại thông tin về khách hàng để phục vụ cho công việc chăm sóc khách hàng về sau.
Bộ phận chăm sóc khách hàng (nếu có): Các cửa hàng còn có thể có nhân viên chăm sóc khách hàng nhằm đưa đến dịch vụ sau bán tốt nhất. Họ sẽ là những người phải lắng nghe các vấn đề của khách hàng và đưa ra các phương hướng xử lý các vướng mắc đó một cách nhanh chóng và hiệu quả. Hơn nữa, bạn còn phải đảm nhiệm các công việc như gọi điện, nhắn tin hay gửi email để thể hiện sự quan tâm tốt nhất đến khách hàng.
Kết hợp với các bộ phận khác (nếu có): Nếu các cửa hàng nhỏ không đáp ứng đủ yêu cầu về nhân lực, bộ phận bán hàng và bộ phận chăm sóc khách hàng có thể kết hợp lại với nhau. Nhân viên tại cửa hàng vừa đảm nhiệm việc bán hàng vừa có trách nhiệm chăm sóc khách hàng.

1.3 Phần mềm quản trị quan hệ khách hàng.

1.3.1.Phần mềm quản lý khách hàng bằng CRM

Phần mềm quản lý kháchhàng (CRM) có thể hiểu là các ứng dụng máy tính nắm giữ vai trò theo dõi mối quan hệ giữa doanh nghiệp với khách hàng, phát triển mối quan hệ này bằng cách tìm hiểu các thói quen, nhu cầu của họ.

Thông qua các phần mềm quản lý khách hàng, các thông tin của khách hàng sẽ luôn được cập nhật và được lưu trữ trong hệ thống quản lý cơ sở dữ liệu một cách có hệ thống, cụ thể. Nhờ một công cụ dò tìm dữ liệu đặc biệt, doanh nghiệp có thể phân tích, hình thành danh sách khách hàng tiềm năng và lâu năm để đề ra những chiến lược chăm sóc khách hàng hợp lý.

1.3.2 phần mềm quản lý khách hang Sapo

Sapo là phần mềm quản lý bán hàng chuyên nghiệp, dành riêng cho các cửa hàng, nhà hàng, quán cafe, đã có kinh nghiệm hơn 10 năm trong lĩnh vực công nghệ bán lẻ và TMĐT. Trong đó, các tính năng xoay quanh quản lý khách hàng đặc biệt được Sapo chú trọng phát triển, giúp các chủ doanh nghiệp nắm rõ toàn bộ thông tin, lịch sử giao dịch của khách hàng từ nhiều kênh bán hàng khác nhau.
https://blog.webico.vn/wp-content/uploads/2019/11/Webico-phan-mem-quan-ly-khach-hang.jpg

1.3.3 Phần mềm quản lý khách hàng Salesforce

Với Salesforce, bạn sẽ có thể tổng hợp thông tin cơ bản của từng cá nhân khách hàng toàn diện, chẳng hạn như tên, chức danh, số điện thoại và email, nhưng nó cũng sẽ hiển thị thông tin kinh doanh khác và các tài liệu thu thập được từ các tương tác qua với liên lạc đó.
Tinh Nang Salesforce

1.3.4 Phần mềm quản lý khách hàng ZOHO

Zoho CRM một hệ thống phần mềm quản lý thông tin khách hàng có giá cả phải chăng và có khả năng giải quyết các vấn đề cơ bản khi quản lý và xây dựng các mối quan hệ khách hàng.
Các ứng dụng di động của Zoho CRM hoàn toàn có thể chạy tốt trên các thiết bị iOS, Android, và Blackberry.
Phan Mem Crm

1.3.5 Phần mềm quản lý khách hàng Sage CRM

Sage là một phần mềm quản lý thông tin khách hàng cung cấp thông tin liên lạc, lịch sử liên lạc, ghi chú lưu trữ và các tập tin, cộng với tích hợp với hồ sơ mạng xã hội.
Sage Crm
Quy trình dự báo được chia thành 9 bước. Các bước này bắt đầu và kết thúc với sự trao đổi (communication), hợp tác (cooperation) và cộng tác (collaboration) giữa những người sử dụng và những người làm dự báo
Ø  Bước 1: Xác định mục tiêu
-         Các mục tiêu liên quan đến các quyết định cần đến dự báo phải được nói rõ. Nếu quyết định vẫn không thay đổi bất kể có dự báo hay không thì mọi nỗ lực thực hiện dự báo cũng vôích.
-         Nếu người sử dụng và người làm dự báo có cơ hội thảo luận các mục tiêu và kết quả dự báo sẽ được sử dụng như thế nào, thì kết quả dự báo sẽ có ý nghĩa quantrọng.
Ø  Bước 2: Xác định dự báo cái gì
-         Khi các mục tiêu tổng quát đã rõ ta phải xác định chính xác là dự báo cái gì (cần có sự traođổi)
+ Ví dụ: Chỉ nói dư báo doanh số không thì chưa đủ, mà cần phải hỏi rõ hơn là: Dự báo doanh thu bán hàng (sales revenue) hay số đơn vị doanh số (unit sales). Dự báo theo năm, quý, tháng hay tuần.
+ Nên dự báo theo đơn vị để tránh những thay đổi của giá cả.
Ø  Bước 3: Xác định khía cạnh thời gian Có 2 loại khía cạnh thời gian cần xemxét:
-         Thứ nhất: Độ dài dự báo, cần lưuý:
+ Đối với dự báo theo năm: từ 1 đến 5 năm
+ Đối với dự báo quý: từ 1 hoặc 2 năm
+ Đối với dự báo tháng: từ 12 đến 18 tháng
-         Thứhai:Ngườisửdụngngườilàmdựbáophảithốngnhấttínhcấpthiếtcủadựbáo
Ø  Bước 4: Xem xét dữ liệu
-         Dữ liệu cần để dự báo có thể từ 2 nguồn: bên trong và bênngoài
-         Cần phải lưu ý dạng dữ liệu sẵn có ( thời gian, đơn vịtính,…)
-         Dữ liệu thường được tổng hợp theo cả biến và thời gian, nhưng tốt nhất là thu thập dữ liệu chưa được tổnghợp
-         Cần trao đổi giữa người sử dụng và người làm dựbáo
Ø  Bước 5: Lựa chọn mô hình
-         Làm sao để quyết định được phương pháp thích hợp nhất cho một tình huống   nhấtđịnh?
+ Loại và lượng dữ liệu sẵn có
+ Mô hình (bản chất) dữ liệu quá khứ
+ Tính cấp thiết của dự báo
+ Độ dài dự báo
+ Kiến thức chuyên môn của người làm dự báo
Ø  Bước 6: Đánh giá mô hình
-         Đối với các phương pháp định tính thì bước này ít phù hợp hơn so với phương pháp địnhlượng
-         Đối với các phương pháp định lượng, cần phải đánh giá mức độ phù hợp của mô hình (trong phạm vi mẫu dữliệu)
-         Đánh giá mức độ chính xác của dự báo (ngoài phạm vi mẫu dữliệu)
-         Nếu mô hình không phù hợp, quay lại bước5
Ø  Bước 7: Chuẩn bị dự báo
-         Nếu có thể nên sử dụng hơn một phương pháp dự báo, và nên là những loại phương pháp khác nhau (ví dụ mô hình hồi quy và san mũ Holt, thay vì cả 2 mô hình hồi quy khác nhau)
-         Các phương pháp được chọn nên được sử dụng để chuẩn bị cho một số các dự báo (ví vụ trường hợp xấu nhất, tốt nhất và có thểnhất)
Ø  Bước 8: Trình bày kết quả dự báo
-         Kết quả dự báo phải được trình bày rõ ràng cho ban quản lý sao cho họ hiểu các con số được tính toán như thế nào và chỉ ra sự tin cậy trong kết quả dựbáo
-         Người dự báo phải có khả năng trao đổi các kết quả dự báo theo ngôn ngữ mà các nhà quản lý hiểuđược
-         Trình bày cả ở dạng viết và dạngnói
-         Bảng biểu phải ngắn gọn, rõràng
-         Chỉ cần trình bày các quan sát và dự báo gần đâythôi
-         Chuỗi dữ liệu dài có thể được trình bày dưới dạng đồ thị (cả giá trị thực và dựbáo)
Ø  Bước 9: Theo dõi kết quả dự báo
-         Lệch giữa giá trị dự báo và giá trị thực phải được thảo luận một cách tích cực, khách quan và cởi mở
-         Mục tiêu của việc thảo luậ là để hiểu tại sao có các sai số, để xác định độ lớn của sai số.
-         Trao đổi và hợp tác giữa người sử dụng và người làm dự báo có vai trò rất quan trọng trong việc xây dựng và duy trì quy trình dự báo thành công.


CHƯƠNG 2: GIỚI THIỆU VỀ ĐỀ TÀI

 

Chương 2 tập trung trình bày các vấn đề liên quan đến các phương pháp khảo sát và phân loại ý kiến của khách hang đối với một sản phẩm TMĐT như tìm hiểu về khái niệm sản phẩm TMĐT, sự cần thiết của việc lấy ý kiến khách hàng, các phương pháp khảo sát ý kiến khách hàng hiện nay, các vấn đề liên quan đến phân loại ý kiến, hướng tiếp cận bài toán phân loại ý kiến và cuối chương là trình bày một số phương pháp phân loại ý kiến hiệnnay.

2.1 Vì sao phải lấy ý kiến khách hàng.

Khảo sát ý kiến của khách hàng là một cách tuyệt vời để tìm hiểu xem khách hàng của chúng ta cảm thấy như thế nào về sản phẩm mới, dịch vụ, địa điểm, chính sách hoặc bất cứ điều gì quan trọng đối với công việc kinh doanh của chúngta.
Thông qua cuộc khảo sát chúng ta sẽ biết được những điều khách hàng đang mong đợi, và từ đó có những định hướng chuyển biến phù hợp trong hoạt động sản xuất kinh doanh.

2.2 Phân loại ý kiến dựa vào hàm tính điểm số

Phương pháp này sẽ dựa vào các từ thể hiện quan điểm để tính điểm số cho từng văn bản, sau đó dựa vào điểm số này để xác định văn bản cần phân loại thuộc lớp nào.

2.3 Phân loại ý kiến dựa vào phương pháp phân lớp văn bản

Đây là phương pháp đơn giản nhất để giải quyết các bài toán phân lớp quan điểm dựa vào chủ đề. Sau đó, có thể áp dụng bất kì kỹ thuật học máy nào để phân lớp như Bayesian, SVM, KNN,
Ý tưởng chính của phương pháp là đưa bài toán phân loại ý kiến về bài toán phân lớp văn bản để giải quyết. Khi đó mỗi ý kiến được xem như là một văn bản. Ý kiến được chia làm nhiều loại, mỗi loại ý kiến xem như là một chủ đề.

2.4 Hướng tiếp cận bài toán phân loại ý kiến.


Ý tưởng của thuật toán bắt đầu từ việc cho trước một tập huấn luyện được biểu diễn trong không gian vector trong đó mỗi tài liệu là một điểm, phương pháp này tìm ra một siêu mặt phẳng h quyết định tốt nhất có thể chia các điểm trên không gian này thành hai lớp riêng biệt tương ứng lớp + và lớp –. Chất lượng của siêu mặt phẳng này được quyết định bởi khoảng cách (gọi là biên) của điểm dữ liệu gần nhất của mỗi lớp đến mặt phẳng này. Khoảng cách biên càng lớn thì mặt phẳng quyết định càng tốt đồng thời việc phân loại càng chính xác. Mục đích thuật toán SVM tìm được khoảng cách biên lớnnhất.

K–Nearest Neighbor(kNN)

kNN là phương pháp truyền thống khá nổi tiếng về hướng tiếp cận dựa trên thống kê đã được nghiên cứu trong nhận dạng mẫu hơn bốn thập kỷ qua. kNN được đánh giá là một trong những phương pháp tốt nhất (áp dụng trên tập dữ liệu Reuters phiên bản 21450), được sử dụng từ những thời kỳ đầu của việc phân loại văn bản.

Naïve Bayes(NB)

NB phương pháp phân loại dựa vào xác suất được sử dụng rộng rãi trong lĩnh vực máy học được sử dụng lần đầu tiên trong lĩnh vực phân loại bởi Maron vào năm 1961 sau đó trở nên phổ biến dùng trong nhiều lĩnh vực như trong các công cụ tìm kiếm, các bộ lọc mail...

Neural Network(NNet)

Nnet được nghiên cứu mạnh trong hướng trí tuệ nhân tạo. Wiener là người đã sử dụng Nnet để phân loại văn bản, sử dụng 2 hướng tiếp cận: kiến trúc phẳng (không sử dụng lớp ẩn) và mạng nơron 3 lớp (bao gồm một lớp ẩn) Cả hai hệ thống trên đều sử dụng một mạng nơron riêng rẽ cho từng chủ đề, NNet học cách ánh xạ phi tuyến tính những yếu tố đầu vào như từ, hay mô hình vector của một văn bản vào một chủ đề cụ thể.

             Linear Least Square Fit (LLSF)

LLSF là một cách tiếp cận ánh xạ được phát triển bởi Yang và Chute vào năm1992. Đầu tiên, LLSF được Yang và Chute thử nghiệmtrong lĩnh vực xác định từ đồng nghĩa sau đó sử dụng trong phân loại vào năm 1994. Các thử nghiệm của Ỵang cho thấy hiệu suất phân loại của LLSF có thể ngang bằng với phương pháp kNN kinh điển.

Centroid- basedvector

Là một phương pháp phân loại đơn giản, dễ cài đặt và tốc độ
nhanh do có độ phức tạp tuyến tính O(n) .
Mỗi lớp trong dữ liệu huấn luyện sẽ được biểu diễn bởi một vector trọng tâm. Việc xác định lớp của một văn bản thử bất kì sẽ thông qua viêc tìm vector trọng tâm nào gần với vector biểu diễn văn bản thử nhất. Lớp của văn bản thử chính là lớp mà vector trọng tâm đại diện. Khoảng cách được tính theo độ đo cosine.
Nhận xét về các phương pháp phân lớp văn bản

Một số phương pháp tách từ tiếng Việt hiện nay
Phương pháp MaximumMatching
Phương pháp giải thuật học cải biến
Mô hình tách từ bằng WFST và mạng Neural
Phương pháp quy hoạchđộng
Phương pháp tách từ tiếng Việt dựa trên thống kê từ Internet và thuật toán di truyền

2.5 Các phương pháp khảo sát và lấy ý kiến khách hàng

Khảo sát ý kiến khách hàng bằng các phương pháp thủcông

Trong lĩnh vực điều tra khảo sát ý kiến khách hàng, có nhiều phương pháp giúp người thu thập thông tin có được cái nhìn toàn diện nhất về cuộc khảo sát của mình, các phương pháp này có thể quy về 2 phương pháp chính đó là phương pháp phỏng vấn và phương pháp dùng phiếu thăm dò ý kiến kháchhàng.
Dùng phiếu thăm dò ý kiến kháchhàng
Các phương phápkhác
Khảo sát ý kiến khách hàng bằng phương pháptự
động
Sự cần thiết của việc khảo sát ý kiến khách hàngtheo
hướng tự động
Các công trình nghiên cứu và ứng dụng khảo sát ýkiến của khách hàng




2.6 Các vấn đề liên quan đến phân loại ý kiến

                  Khái quát về phân loại ýkiến
Phân loại ý kiến đang là một lĩnh vực mới và  hiện đang thu hút được sự quan tâm bởi nhiều nhà khoa học, các nhà sản xuất và rất nhiều công ty doanh nghiệp. Việc phân loại ý kiến có ý nghĩa rất quan trọng trong việc nhìn nhận quyết định một vấnđề.
Phân loại ý kiến áp dụng nhiều kết quả nghiên cứucủa
lĩnh vực xử lý ngôn ngữ tự nhiên, học máy và khai phá văn bản.
Phân loại ý kiến bắt đầu bằng việc xác định các từ thể hiện quan điểm như “tốt”, “xấu”, “tuyệt vời”..., từ đó xác định xu hướng quan điểm của một từ, một cụm từ, một câu, một đoạn văn bản, hoặc một đặc trưng.

                     Các khái niệm thường dùng trong phân loại ýkiến

                   Các bài toán trong phân loại ýkiến
Phân loại ý kiến còn gọi là khai phá quan điểm hay phân lớp nhận định, nó có ba bài toán điển hình đó là:
Phân lớp ýkiến.
Khai phá và tổng hợp quan điểm dựa trên đặctrưng.
Khai phá quan hệ (sosánh).


Xu hướng của các nghiên cứu gần đây về phânloại


ý kiến


điểm


Xác định từ, cụm từ thể hiện quanđiểm
Xác định chiều hướng của từ, cụm từ thể hiệnquan

Phân lớp câu, tài liệu chỉ quanđiểm
Những thách thức của bài toán phân loại ý kiến


Những vấn đề thách thức chính trong đánh giá quan điểm còn tồn tại trong việc sử dụng các từ loại, việc xây dựng các từ ngữ chỉ quan điểm, sự nhập nhằng trong câu phủ định, mức độ của tình cảm (như excellent thì hơn good), các câu hay văn bản phức tạp, từ ngữ trong văn cảnh khácnhau,…
Các từ loại khác
Thuật ngữ chỉ quanđiểm
Tính phủ định
Cấp độ quan điểm
Sự phức tạp của câu, tài liệu
Quan điểm theo ngữcảnh
Tài liệu không đồng nhất

    Phân tích cảm xúc(sentiment analysis) được hiểu đơn giản là đánh giá 1 câu nói, tweet là tích cực (pos) hay tiêu cưc(neg). Chẳng hạn lấy một ví dụ, bạn mở một cửa hàng bán đồ ăn mà muốn biết trên mạng xã hội người ta nói gì về quán ăn của bạn. Bạn bắt đầu vào face, instagram hay tweeter để thu thập các commnent liên quan đến quán ăn của bạn. Bạn bắt đầu đoc thì có người khen người chê, vấn đề xảy ra là bây giờ số comment nó tăng lên 1000 hay 10000 bạn có đủ sức đọc các comment đó hay không.Bạn bắt đầu nghĩ ra sẽ build một model làm việc đó cho bạn.

2.8.2 Tác dụng của phân tích cảm xúc (sentiment analysis)

·         Người dùng sử dụng nó để tìm kiếm, tham khảo trước khi đưa ra quyết định về sử dụng một sản phẩm hay dịch vụ nào đó.

·         Các nhà cung cấp dịch vụ cũng có thể sử dụng những nguồn thông tin này để đánh giá về sản phẩm của mình, từ đó có thể đưa ra những cải tiến phù hợp hơn với người dùng, mang lại lợi nhuận cao hơn, tránh các rủi ro đáng tiếc xảy ra. Đặc biệt, khi 1 doanh nghiệp có 1 sản phẩm mới ra mắt thị trường thì việc lấy ý kiến phản hồi là vô cùng cần thiết.

·         Các cơ quan chức năng có thể sử dụng những thông tin này để tìm hiểu xem quan điểm và thái độ của cộng đồng để có thể kịp thời sửa đổi, ban hành các chính sách cho hợp lý hơn.




Chương 3: thử nghiệm với Rapid Miner


3.1 Giới thiệu về Rapid

Rapidminer là một mã nguồn mở, là một môi trường cho Machine learning và Data mining và được viết bằng ngôn ngữ lập trình Java. Chúng sử dụng mô hình Client/Server với máy chủ là on-premise hoặc public cloud hoặc private cloud.

Rapidminer cung cấp các lược đồ Learning Schemas, các mô hình và các thuật toán, và có thể được mở rộng bằng ngôn ngữ R và Python.

Các thuật toán trong Data mining được chia thành 2 loại:

  • Thuật toán Learning được giám sát: Là các thuật toán yêu cầu đã có đầu ra Output (hoặc gọi là Label hay Target). Một số mô hình thuộc thuật toán này có thể kể đến như: Naïve Bayes, cây quyết định (Decision Tree), mạng thần kinh (Neural Networks), SVM (Support Vector Machine), mô hình hồi quy (Logistic Regression),...
  • Thuật toán Learning không được giám sát: Là các thuật toán không bắt buộc phải biết trước đầu ra Output nhưng có thể tìm kiếm các khuôn mẫu hoặc các xu hướng mà không có Label hoặc Target, như mô hình K-Mean Clustering, Anomaly Detection, Association Mining.
Với Rapidminer, có thể giúp bạn:
  • Tải và chuyển đổi dữ liệu (Extract, Transform, Load (ETL))
  • Xử lý dữ liệu và trực quan dữ liệu
  • Xây dựng các mô hình dự báo và phân tích thống kê
  • Đánh giá và triển khai dữ liệu

3.2 Chuẩn bị dữ liệu

Sử lý một số tiền xử lý cơ bản như:
-         Chuẩn hóa chữ thường.
-         Loại bỏ ký tự đặc biệt.
-         Xử lý các trường hợp người dùng dùng láy âm tiết.
-         Chuẩn hóa các từ viết tắt .
-         Loại bỏ số và các từ chỉ có một ký tự.
Tổng hợp dữ liệu từ nhiều trang mạng xã hội(dữ liệu lấy từ kaggle).
-          ID: id người dùng.
-          Insult: Phân loại người dùng (1 là người dùng có comment tiêu cực. 0 là người dùng có comment tích cực ).
-          Date: Thời gian comment xuất hiện.
-          Comment: câu bình luận của người dùng.
Dữ liệu gồm 177 bình luận tích cực và 168 bình luận tiêu cực.

Hình 1: dữ liệu thu thập được.

3.3 Thử nghiệm dữ liệu bằng phần mêm Rapid Miner

Sử dụng Rapid Miner để chạy dữ liệu.
Hình 2: import data vào phần mềm Rapid Miner.

Hình 3: số liệu thống kê

Hình 4: Biểu đồ thống kê




Kết luận
Những kết quả đạt được của luận văn:
-   Trình bày khái quát về quản trị khách hàng.
-   Nêu lên các phương pháp phân loại văn bản đặc biệt là phương pháp phân loại sentiment analysis
-   Trình bày các phương pháp phân loại ý kiến hiện nay, áp dụng phương pháp phân loại văn bản vào bài toán Phân tích tính tích cực trong câu bình luận của khách hàng trên mạng

Bên cạnh những kết quả đạt được, dù đã rất cố gắng nhưng do sự hữu hạn về thời gian và kiến thức, báo cáo vẫn còn một số  hạn chế:
-   Hiệu quả phân loại còn phụ thuộc vào sự phức tạp của ngữ nghĩa, nếu ý kiến có ngữ nghĩa phức tạp thì khi áp dụng bài toán phân loại văn bản vào phân loại ý kiến thì hiệu quả sẽ khôngcao.
-   Cấp độ của quan điểm trong ý kiến chỉ còn hạn chế ở hai mức tích cực và tiêucực.
-   Mức phân lớp chỉ dừng lại ở mức tài liệu, chưa sâu đến mức đặctrưng.
Định hướng nghiên cứu trong tương lai:
-   Nâng cao hiệu quả phân loại trong trường hợp các ý kiến có ngữ nghĩa phứctạp.
-   Cấp độ của quan điểm cần phải cao hơn, không nên chỉ giới hạn ở hai mức là tích cực và tiêucực.
-   Hướng phân lớp đến mức đặc trưng chứ không chỉ dừng lại ở mức tàiliệu.

0 nhận xét:

Post a Comment