LỜI CẢM ƠN
Trên thực tế không có sự thành công
nào mà không gắn liền với những hỗ trợ, sự giúp đỡ dù ít hay nhiều, dù là trực
tiếp hay gián tiếp của người khác. Trong suốt thời gian từ khi bắt đầu học tập
ở giảng đường Đại Học đến nay, em đã nhận được rất nhiều sự quan tâm, giúp đỡ
của thầy cô, gia đình, bạn bè và đồng nghiệp.
Xin gửi lời cảm ơn chân thành đến thầy cô và
bạn bè, đặc biệt là TS.Nguyễn Thị Thu Hà đã luôn là nguồn động viên to lớn,
giúp chúng em vượt qua những khó khăn trong suốt quá trình học tập và thực hiện
báo cáo môn học.
Nhóm em đã cố gắng hoàn thành bài báo
cáo tuy nhiên không thể tránh khỏi những thiếu sót. Em rất mong nhận được sự
quan tâm, thông cảm và những đóng góp quý báu của thầy cô và các bạn để báo môn
học này của nhóm em ngày càng hoàn thiện hơn.
Sau cùng em xin kính chúc các thầy cô dồi dào
sức khỏe, niền tin để tiếp tục thực hiện sứ mệnh cao đẹp của mình là truyền đạt
kiến thức cho thế hệ mai sau.
Trân trọng cảm ơn!
MỞ ĐẦU
Trong thời buổi kinh tế thị trường ngày hôm nay, một
doanh nghiệp muốn tồn tại và phát triển thì cần phải khai thác và thu thập được
các ý kiến phản hồi của người dùng về sản phẩm hay dịch vụ của mình từ đó đưa
ra những định hướng và điều chỉnh về hoạt động sản xuất kinh doanh phù hợp hơn.
Cùng với sự ra đời của internet, sự xuất hiện và phát
triển không ngừng của lĩnh vực thương mại điện tử khiến cho việc xúc tiến các
hoạt động kinh doanh, buôn bán, quảng bá sản phẩm, dịch vụ diễn ra trên khắp
các kênh thông tin xã hội đặc biệt là trên mạng internet. Điều này vô hình dung
tạo nên cầu nối giữa người dùng và nhà
cung cấp, và từ cầu nối này người dùng có thể đưa ra ý kiến của họ đối với sản
phẩm hay dịch vụ mà nhà cung cấp manglại.
Như chúng ta đã biết ngày nay mọi thông tin đều được đưa
lên các trang mạng xã hội dưới dạng các posts và rất nhiều người dùng để lại
các các nhận xét của mình về các posts này dưới dạng các comments, ta nhận thấy
đây là kho thông tin khổng lồ mà từ đó nếu chúng ta có thể khai phá và trích
rút tất cả các comments của người dùng, sau đó phân tích và phân loại dữ liệu
ấy, chúng ta có thể thu được các kết quả khảo sát cần thiết phục vụ cho hoạt
động sản xuất kinh doanh. Kết quả khảo sát ấy có thể là tỉ lệ người dùng thích,
không thích hay không có ý kiến đối với sản phẩm hay dịch vụ mà họ quantâm.
Từ việc nhìn thấy kho dữ liệu khổng lồ có thể trích rút
được từ các trang mạng xã hội, kết hợp với niềm cảm hứng về một dự án khảo sát
ý kiến của người tiêu dùng đối với các sản phẩm trong điều kiện phát triển mạnh
mẽ của lĩnh vực thương mại điện tử, tôi quyết
định xây dựng đề tài “các mạng xã hội để khảo sát ý kiến của khách hàng đối với một sản phẩm thương mại điện tử”.
o Tìm
hiểu tổng quan về các kĩ thuật tách từ tiếngViệt.
o Tìm
hiểu tổng quan về các kĩ thuật các phương pháp phân loại ý kiến hiệnnay.
v
Về mặt thực nghiệm:
o Trình
bày và ứng dụng phương pháp sentiment classìication để phân loại ý kiến của
khách hàng đối với một sản phẩm thương mại điện tử. Áp dụng trên miền sản phẩm điện thoạiIphone5.
o Chỉ
xử lý đối với văn bản tiếng Việt códấu.
o Có
nhiều tiêu chí để phân loại ý kiến, trong đề tài tôi chỉ xét ba tiêu chi cơ bản
đó là tích cực, tiêu cực và không xácđịnh.
3. Phương pháp nghiên cứu
-
Tìm hiểu các kĩ thuật phân loại văn bản
tiếngViệt.
-
Tìm hiểu các kỹ thuật tách từ tiếngViệt
-
Tìm hiểu các phương pháp phân loại ý kiến
hiệnnay.
-
Phân tích thiết kế hệ thống chương trình
ứngdụng.
-
Xây dựng kho dữ liệu huấn luyện thể hiện quan
điểm của người dùng đối với một sản phẩm thương mại điện tử
4. Ý nghĩa khoa học và thựctiễn
-
Ý nghĩa
khoa học: Nghiên cứu và tìm hiểu các kĩ thuật trích rút thông tin, xử lý
ngôn ngữ tự nhiên, xử lý văn bản tiếng việt và các phương pháp phân loại ý kiến
hiện nay.Tạo tiền đề cho những nghiên cứu tiếp theo trong tươnglai.
-
Ý nghĩa
thực tiễn: Xây dựng giải pháp cơ bản về khảo sátý
kiến của
khách hàng đối với một sản phẩm thương mại điện tử.
5. Cấu trúc luậnvăn
Ngoài phần mở
đầu và kết luận, luận văn gồm có 3 chương:
Chương 1 Quản trị
khách hàng : khái niệmvà phương pháp phân tích
Chương 2 Giới
thiệu về đề tài: trong chương này trình bày về đề tài và các phương pháp
phân loại ý kiến,và phương pháp phân tích k-mean
Chương 3 thử
nghiệm với rapit miner: giới thiệu về rapit miner và chuẩn bị dư liệu để áp
dụng vào bài toán phân loại ý kiến khách hàng đối với một sản phẩm thương mại
điện tử. Sau đó trình bày kết quả thử nghiệm trên ứng dụng
CHƯƠNG 1: TỔNG QUANN VỀ QUẢN TRỊ QUAN HỆ KHÁCH HÀNG
1.1 Khái niệm quản trị khách hàng
- Quản
trị quan hệ khách hàng là công việc tiếp cận và giao tiếp với khách hàng, quản
lý các thông tin của khách hàng từ đó phục vụ khách hàng tốt hơn và thiết lập
mối quan hệ bền vững với họ. Hay nói cách khác, dựa trên dữ liệu và thông tin
thu được từ khách hàng, cửa hàng sẽ đề ra được chiến lược chăm sóc khách hàng
hợp lý và hiệu quả.
1.2 Thành phần quản trị khách hàng
Hoạt động quản trị khách hàng
không chỉ diễn ra ở một bộ phận nhất định mà cần có sự phối hợp giữa nhiều vị
trí trong cửa hàng. Điều này sẽ giúp các công việc được diễn ra có hệ thống và
suôn sẻ hơn.
Quản
lý/chủ cửa hàng: Đây sẽ là những người xây
dựng quy trình quản lý khách hàng cho cửa hàng. Việc xây dựng quy trình không
chỉ giúp nhân viên có định hướng làm việc tốt hơn mà còn giúp quản lý dễ dàng
hơn trong việc theo dõi và đánh giá hiệu quả.
Bộ
phận bán hàng: Đây là những người trực tiếp
nói chuyện với khách hàng. Nhân viên bán hàng sẽ xử lý các yêu cầu của khách
hàng, tư vấn cho họ những sản phẩm phù hợp nhất với nhu cầu, mong muốn. Bên cạnh
đó bộ phận này còn có nhiệm vụ ghi lại thông tin về khách hàng để phục vụ cho
công việc chăm sóc khách hàng về sau.
Bộ
phận chăm sóc khách hàng (nếu có):
Các cửa hàng còn có thể có nhân viên chăm sóc khách hàng nhằm đưa đến dịch vụ
sau bán tốt nhất. Họ sẽ là những người phải lắng nghe các vấn đề của khách hàng
và đưa ra các phương hướng xử lý các vướng mắc đó một cách nhanh chóng và hiệu
quả. Hơn nữa, bạn còn phải đảm nhiệm các công việc như gọi điện, nhắn tin hay
gửi email để thể hiện sự quan tâm tốt nhất đến khách hàng.
Kết
hợp với các bộ phận khác (nếu có):
Nếu các cửa hàng nhỏ không đáp ứng đủ yêu cầu về nhân lực, bộ phận bán hàng và
bộ phận chăm sóc khách hàng có thể kết hợp lại với nhau. Nhân viên tại cửa hàng
vừa đảm nhiệm việc bán hàng vừa có trách nhiệm chăm sóc khách hàng.
1.3 Phần mềm quản trị quan hệ khách hàng.
1.3.1.Phần mềm quản lý khách hàng bằng CRM
Phần mềm quản lý kháchhàng (CRM) có
thể hiểu là các ứng dụng máy tính nắm giữ vai trò theo dõi mối quan hệ giữa
doanh nghiệp với khách hàng, phát triển mối quan hệ này bằng cách tìm hiểu các
thói quen, nhu cầu của họ.
Thông qua các phần mềm quản lý
khách hàng, các thông tin của khách hàng sẽ luôn được cập nhật và được lưu trữ
trong hệ thống quản lý cơ sở dữ liệu một cách có hệ thống, cụ thể. Nhờ một công
cụ dò tìm dữ liệu đặc biệt, doanh nghiệp có thể phân tích, hình thành danh sách
khách hàng tiềm năng và lâu năm để đề ra những chiến lược chăm sóc khách hàng
hợp lý.
1.3.2 phần mềm quản lý khách hang Sapo
Sapo là phần mềm quản lý bán hàng chuyên
nghiệp, dành riêng cho các cửa hàng, nhà hàng, quán cafe, đã có kinh nghiệm hơn
10 năm trong lĩnh vực công nghệ bán lẻ và TMĐT. Trong đó, các tính năng xoay
quanh quản lý khách hàng đặc biệt được Sapo chú trọng phát triển, giúp các chủ
doanh nghiệp nắm rõ toàn bộ thông tin, lịch sử giao dịch của khách hàng từ
nhiều kênh bán hàng khác nhau.
1.3.3 Phần mềm quản lý khách hàng Salesforce
Với Salesforce, bạn sẽ có thể tổng hợp thông tin cơ bản của từng cá nhân
khách hàng toàn diện, chẳng hạn như tên, chức danh, số điện thoại và email,
nhưng nó cũng sẽ hiển thị thông tin kinh doanh khác và các tài liệu thu thập
được từ các tương tác qua với liên lạc đó.
1.3.4 Phần mềm quản lý khách hàng ZOHO
Zoho CRM một hệ thống phần mềm quản lý thông tin khách hàng có
giá cả phải chăng và có khả năng giải quyết các vấn đề cơ bản khi quản lý và
xây dựng các mối quan hệ khách hàng.
Các ứng dụng di động của Zoho CRM hoàn toàn có thể chạy tốt
trên các thiết bị iOS, Android, và Blackberry.
1.3.5 Phần mềm quản lý khách hàng Sage CRM
Sage là một phần mềm quản lý thông tin khách hàng cung cấp thông tin
liên lạc, lịch sử liên lạc, ghi chú lưu trữ và các tập tin, cộng với tích hợp
với hồ sơ mạng xã hội.
Quy
trình dự báo được chia thành 9 bước. Các bước này bắt đầu và kết thúc với sự
trao đổi (communication), hợp tác (cooperation) và cộng tác (collaboration)
giữa những người sử dụng và những người làm dự báo
Ø Bước 1: Xác định mục tiêu
-
Các
mục tiêu liên quan đến các quyết định cần đến dự báo phải được nói rõ. Nếu
quyết định vẫn không thay đổi bất kể có dự báo hay không thì mọi nỗ lực thực
hiện dự báo cũng vôích.
-
Nếu
người sử dụng và người làm dự báo có cơ hội thảo luận các mục tiêu và kết quả
dự báo sẽ được sử dụng như thế nào, thì kết quả dự báo sẽ có ý nghĩa quantrọng.
Ø Bước 2: Xác định dự báo cái gì
-
Khi
các mục tiêu tổng quát đã rõ ta phải xác định chính xác là dự báo cái gì (cần
có sự traođổi)
+ Ví
dụ: Chỉ nói dư báo doanh số không thì chưa đủ, mà cần phải hỏi rõ hơn là: Dự báo
doanh thu bán hàng (sales revenue) hay số đơn vị doanh số (unit sales). Dự báo
theo năm, quý, tháng hay tuần.
+ Nên
dự báo theo đơn vị để tránh những thay đổi của giá cả.
Ø Bước 3: Xác định khía cạnh thời gian
Có 2 loại khía cạnh thời gian cần xemxét:
-
Thứ
nhất: Độ dài dự báo, cần lưuý:
+ Đối
với dự báo theo năm: từ 1 đến 5 năm
+ Đối
với dự báo quý: từ 1 hoặc 2 năm
+ Đối
với dự báo tháng: từ 12 đến 18 tháng
-
Thứhai:Ngườisửdụngvàngườilàmdựbáophảithốngnhấttínhcấpthiếtcủadựbáo
Ø Bước 4: Xem xét dữ liệu
-
Dữ
liệu cần để dự báo có thể từ 2 nguồn: bên trong và bênngoài
-
Cần
phải lưu ý dạng dữ liệu sẵn có ( thời gian, đơn vịtính,…)
-
Dữ
liệu thường được tổng hợp theo cả biến và thời gian, nhưng tốt nhất là thu thập
dữ liệu chưa được tổnghợp
-
Cần
trao đổi giữa người sử dụng và người làm dựbáo
Ø Bước 5: Lựa chọn mô hình
-
Làm
sao để quyết định được phương pháp thích hợp nhất cho một tình huống nhấtđịnh?
+ Loại
và lượng dữ liệu sẵn có
+ Mô
hình (bản chất) dữ liệu quá khứ
+ Tính
cấp thiết của dự báo
+ Độ
dài dự báo
+ Kiến
thức chuyên môn của người làm dự báo
Ø Bước 6: Đánh giá mô hình
-
Đối
với các phương pháp định tính thì bước này ít phù hợp hơn so với phương pháp
địnhlượng
-
Đối
với các phương pháp định lượng, cần phải đánh giá mức độ phù hợp của mô hình
(trong phạm vi mẫu dữliệu)
-
Đánh
giá mức độ chính xác của dự báo (ngoài phạm vi mẫu dữliệu)
-
Nếu
mô hình không phù hợp, quay lại bước5
Ø Bước 7: Chuẩn bị dự báo
-
Nếu
có thể nên sử dụng hơn một phương pháp dự báo, và nên là những loại phương pháp
khác nhau (ví dụ mô hình hồi quy và san mũ Holt, thay vì cả 2 mô hình hồi quy
khác nhau)
-
Các
phương pháp được chọn nên được sử dụng để chuẩn bị cho một số các dự báo (ví vụ
trường hợp xấu nhất, tốt nhất và có thểnhất)
Ø Bước 8: Trình bày kết quả dự báo
-
Kết
quả dự báo phải được trình bày rõ ràng cho ban quản lý sao cho họ hiểu các con
số được tính toán như thế nào và chỉ ra sự tin cậy trong kết quả dựbáo
-
Người
dự báo phải có khả năng trao đổi các kết quả dự báo theo ngôn ngữ mà các nhà
quản lý hiểuđược
-
Trình
bày cả ở dạng viết và dạngnói
-
Bảng
biểu phải ngắn gọn, rõràng
-
Chỉ
cần trình bày các quan sát và dự báo gần đâythôi
-
Chuỗi
dữ liệu dài có thể được trình bày dưới dạng đồ thị (cả giá trị thực và dựbáo)
Ø Bước 9: Theo dõi kết quả dự báo
-
Lệch
giữa giá trị dự báo và giá trị thực phải được thảo luận một cách tích cực,
khách quan và cởi mở
-
Mục
tiêu của việc thảo luậ là để hiểu tại sao có các sai số, để xác định độ lớn của
sai số.
-
Trao
đổi và hợp tác giữa người sử dụng và người làm dự báo có vai trò rất quan trọng
trong việc xây dựng và duy trì quy trình dự báo thành công.
CHƯƠNG 2: GIỚI THIỆU VỀ ĐỀ TÀI
Chương 2 tập trung trình bày các vấn đề liên quan đến các phương pháp khảo sát và phân loại ý kiến của khách hang đối với một sản phẩm TMĐT như tìm hiểu về khái niệm sản phẩm TMĐT, sự cần thiết của việc lấy ý kiến khách hàng, các phương pháp khảo sát ý kiến khách hàng hiện nay, các vấn đề liên quan đến phân loại ý kiến, hướng tiếp cận bài toán phân loại ý kiến và cuối chương là trình bày một số phương pháp phân loại ý kiến hiệnnay.
2.1 Vì sao phải lấy ý kiến khách hàng.
Khảo sát ý kiến của khách hàng là một cách tuyệt vời
để tìm hiểu xem khách hàng của chúng ta cảm thấy như thế nào về sản phẩm mới,
dịch vụ, địa điểm, chính sách hoặc bất cứ điều gì quan trọng đối với công việc
kinh doanh của chúngta.
Thông qua cuộc khảo sát chúng ta sẽ biết được những
điều khách hàng đang mong đợi, và từ đó có những định hướng chuyển biến phù hợp
trong hoạt động sản xuất kinh doanh.
2.2 Phân loại ý kiến dựa vào hàm tính điểm số
Phương pháp này sẽ dựa vào các từ
thể hiện quan điểm để tính điểm số cho từng văn bản, sau đó dựa vào điểm số này
để xác định văn bản cần phân loại thuộc lớp nào.
2.3 Phân loại ý kiến dựa vào phương pháp phân lớp văn bản
Đây là phương pháp
đơn giản nhất để giải quyết các bài toán phân lớp quan điểm dựa vào chủ đề. Sau
đó, có thể áp dụng bất kì kỹ thuật học máy nào để phân lớp như Bayesian, SVM,
KNN,
Ý tưởng chính
của phương pháp là đưa bài toán phân loại ý kiến về bài toán phân lớp văn bản
để giải quyết. Khi đó mỗi ý kiến được xem như là một văn bản. Ý kiến được chia
làm nhiều loại, mỗi loại ý kiến xem như là một chủ đề.
2.4 Hướng tiếp cận bài toán phân loại ý kiến.
Ý tưởng của thuật toán bắt đầu từ
việc cho trước một tập huấn luyện được biểu diễn trong không gian vector trong
đó mỗi tài liệu là một điểm, phương pháp này tìm ra một siêu mặt phẳng h quyết
định tốt nhất có thể chia các điểm trên không gian này thành hai lớp riêng biệt
tương ứng lớp + và lớp –. Chất lượng của siêu mặt phẳng này được quyết định bởi
khoảng cách (gọi là biên) của điểm dữ liệu gần nhất của mỗi lớp đến mặt phẳng
này. Khoảng cách biên càng lớn thì mặt phẳng quyết định càng tốt đồng thời việc
phân loại càng chính xác. Mục đích thuật toán SVM tìm được khoảng cách biên
lớnnhất.
K–Nearest Neighbor(kNN)
kNN là phương pháp truyền thống
khá nổi tiếng về hướng tiếp cận dựa trên thống kê đã được nghiên cứu trong nhận
dạng mẫu hơn bốn thập kỷ qua. kNN được đánh giá là một trong những phương pháp
tốt nhất (áp dụng trên tập dữ liệu Reuters phiên bản 21450), được sử dụng từ
những thời kỳ đầu của việc phân loại văn bản.
Naïve Bayes(NB)
NB là phương pháp phân loại
dựa vào xác suất được sử dụng rộng rãi trong lĩnh vực máy học
được sử dụng lần đầu tiên
trong lĩnh vực phân loại bởi Maron vào năm 1961 sau đó
trở nên phổ biến dùng trong
nhiều lĩnh vực như trong các công cụ
tìm kiếm, các bộ lọc mail...
Neural Network(NNet)
Nnet được nghiên cứu mạnh trong
hướng trí tuệ nhân tạo. Wiener là người đã sử dụng Nnet để phân loại văn bản,
sử dụng 2 hướng tiếp cận: kiến trúc phẳng (không sử dụng lớp ẩn) và mạng nơron
3 lớp (bao gồm một lớp ẩn) Cả hai hệ thống trên đều sử dụng một mạng nơron
riêng rẽ cho từng chủ đề, NNet học cách ánh xạ phi tuyến tính những yếu tố đầu
vào như từ, hay mô hình vector của một văn bản vào một chủ đề cụ thể.
Linear Least Square Fit (LLSF)
LLSF là một cách tiếp cận ánh xạ
được phát triển bởi Yang và Chute vào năm1992. Đầu tiên, LLSF được Yang và
Chute thử nghiệmtrong lĩnh vực xác định từ đồng nghĩa sau đó sử dụng trong phân
loại vào năm 1994. Các thử nghiệm của Ỵang cho thấy hiệu suất phân loại của
LLSF có thể ngang bằng với phương pháp kNN kinh điển.
Centroid- basedvector
Là một phương pháp phân loại đơn
giản, dễ cài đặt và tốc độ
nhanh do có độ phức tạp tuyến
tính O(n) .
Mỗi lớp trong dữ liệu huấn luyện
sẽ được biểu diễn bởi một vector trọng tâm. Việc xác định lớp của một văn bản
thử bất kì sẽ thông qua viêc tìm vector trọng tâm nào gần với vector biểu diễn
văn bản thử nhất. Lớp của văn bản thử chính là lớp mà vector trọng tâm đại
diện. Khoảng cách được tính theo độ đo cosine.
Nhận xét về các phương pháp phân
lớp văn bản
Một số phương pháp tách từ tiếng Việt hiện nay
Phương pháp MaximumMatching
Phương pháp giải thuật học cải biến
Mô hình tách từ bằng WFST và mạng
Neural
Phương pháp quy hoạchđộng
Phương pháp tách từ tiếng Việt
dựa trên thống kê từ Internet và thuật toán di truyền
2.5 Các phương pháp khảo sát và lấy ý kiến khách hàng
Khảo sát ý kiến khách hàng bằng các phương pháp thủcông
Trong lĩnh vực điều tra khảo sát
ý kiến khách hàng, có nhiều phương pháp giúp người thu thập thông tin có được
cái nhìn toàn diện nhất về cuộc khảo sát của mình, các phương pháp này có thể
quy về 2 phương pháp chính đó là phương pháp phỏng vấn và phương pháp dùng
phiếu thăm dò ý kiến kháchhàng.
Dùng phiếu thăm dò ý kiến
kháchhàng
Các phương phápkhác
Khảo sát ý kiến khách hàng bằng phương pháptự
động
Sự cần thiết của việc khảo sát ý
kiến khách hàngtheo
hướng tự động
Các công trình nghiên cứu và ứng
dụng khảo sát ýkiến của khách hàng
2.6 Các vấn đề liên quan đến phân loại ý kiến
Khái quát về
phân loại ýkiến
Phân loại ý kiến đang là một lĩnh
vực mới và hiện đang thu hút được sự
quan tâm bởi nhiều nhà khoa học, các nhà sản xuất và rất nhiều công ty doanh nghiệp.
Việc phân loại ý kiến có ý nghĩa rất quan trọng trong việc nhìn nhận quyết định
một vấnđề.
Phân loại ý kiến áp dụng nhiều
kết quả nghiên cứucủa
lĩnh vực xử lý ngôn ngữ tự nhiên,
học máy và khai phá văn bản.
Phân loại ý kiến bắt đầu bằng
việc xác định các từ thể hiện quan điểm như “tốt”, “xấu”, “tuyệt vời”..., từ đó
xác định xu hướng quan điểm của một từ, một cụm từ, một câu, một đoạn văn bản,
hoặc một đặc trưng.
Các khái niệm thường dùng trong phân loại ýkiến
Các bài toán
trong phân loại ýkiến
Phân loại ý kiến còn gọi là khai
phá quan điểm hay phân lớp nhận định, nó có ba bài toán điển hình đó là:
Phân lớp ýkiến.
Khai phá và tổng hợp quan điểm
dựa trên đặctrưng.
Khai phá quan hệ (sosánh).
Xu hướng của các
nghiên cứu gần đây về phânloại
ý kiến
điểm
Xác định từ, cụm từ thể hiện quanđiểm
Xác định chiều hướng của từ, cụm từ thể hiệnquan
Phân lớp câu, tài liệu chỉ quanđiểm
Những thách thức của bài toán phân loại ý kiến
điểm
Xác định từ, cụm từ thể hiện quanđiểm
Xác định chiều hướng của từ, cụm từ thể hiệnquan
Phân lớp câu, tài liệu chỉ quanđiểm
Những thách thức của bài toán phân loại ý kiến
Những vấn đề thách thức chính trong đánh giá quan điểm
còn tồn tại trong việc sử dụng các từ loại, việc xây dựng các từ ngữ chỉ quan
điểm, sự nhập nhằng trong câu phủ định, mức độ của tình cảm (như excellent thì
hơn good), các câu hay văn bản phức tạp, từ ngữ trong văn cảnh khácnhau,…
Các từ loại khác
Thuật ngữ chỉ quanđiểm
Tính phủ định
Cấp độ quan điểm
Sự phức tạp của câu, tài liệu
Quan điểm theo ngữcảnh
Tài liệu không đồng nhất
Rapidminer cung cấp các lược đồ Learning Schemas, các mô hình và các thuật toán, và có thể được mở rộng bằng ngôn ngữ R và Python.
Các thuật toán trong Data mining được chia thành 2 loại:
Các từ loại khác
Thuật ngữ chỉ quanđiểm
Tính phủ định
Cấp độ quan điểm
Sự phức tạp của câu, tài liệu
Quan điểm theo ngữcảnh
Tài liệu không đồng nhất
Phân tích
cảm xúc(sentiment analysis) được hiểu đơn giản là đánh giá 1 câu nói, tweet là
tích cực (pos) hay tiêu cưc(neg). Chẳng hạn lấy một ví dụ, bạn mở một cửa hàng
bán đồ ăn mà muốn biết trên mạng xã hội người ta nói gì về quán ăn của bạn. Bạn
bắt đầu vào face, instagram hay tweeter để thu thập các commnent liên quan đến
quán ăn của bạn. Bạn bắt đầu đoc thì có người khen người chê, vấn đề xảy ra là
bây giờ số comment nó tăng lên 1000 hay 10000 bạn có đủ sức đọc các comment đó
hay không.Bạn bắt đầu nghĩ ra sẽ build một model làm việc đó cho bạn.
2.8.2 Tác dụng của phân tích cảm xúc (sentiment analysis)
·
Người dùng sử dụng nó để tìm kiếm, tham khảo
trước khi đưa ra quyết định về sử dụng một sản phẩm hay dịch vụ nào đó.
·
Các nhà cung cấp dịch vụ cũng có thể sử dụng
những nguồn thông tin này để đánh giá về sản phẩm của mình, từ đó có thể đưa ra
những cải tiến phù hợp hơn với người dùng, mang lại lợi nhuận cao hơn, tránh
các rủi ro đáng tiếc xảy ra. Đặc biệt, khi 1 doanh nghiệp có 1 sản phẩm mới ra
mắt thị trường thì việc lấy ý kiến phản hồi là vô cùng cần thiết.
·
Các cơ quan chức năng có thể sử dụng những thông
tin này để tìm hiểu xem quan điểm và thái độ của cộng đồng để có thể kịp thời
sửa đổi, ban hành các chính sách cho hợp lý hơn.
Chương 3: thử nghiệm với Rapid Miner
3.1 Giới thiệu về Rapid
Rapidminer là một mã nguồn mở, là một môi trường cho Machine learning và Data mining và được viết bằng ngôn ngữ lập trình Java. Chúng sử dụng mô hình Client/Server với máy chủ là on-premise hoặc public cloud hoặc private cloud.Rapidminer cung cấp các lược đồ Learning Schemas, các mô hình và các thuật toán, và có thể được mở rộng bằng ngôn ngữ R và Python.
Các thuật toán trong Data mining được chia thành 2 loại:
- Thuật toán Learning được giám sát: Là các thuật toán yêu cầu đã có đầu ra Output (hoặc gọi là Label hay Target). Một số mô hình thuộc thuật toán này có thể kể đến như: Naïve Bayes, cây quyết định (Decision Tree), mạng thần kinh (Neural Networks), SVM (Support Vector Machine), mô hình hồi quy (Logistic Regression),...
- Thuật toán Learning không được giám sát: Là các thuật toán không bắt buộc phải biết trước đầu ra Output nhưng có thể tìm kiếm các khuôn mẫu hoặc các xu hướng mà không có Label hoặc Target, như mô hình K-Mean Clustering, Anomaly Detection, Association Mining.
Với Rapidminer, có thể giúp bạn:
- Tải và chuyển đổi dữ liệu (Extract, Transform, Load (ETL))
- Xử lý dữ liệu và trực quan dữ liệu
- Xây dựng các mô hình dự báo và phân tích thống kê
- Đánh giá và triển khai dữ liệu
3.2 Chuẩn bị dữ liệu
Sử lý một số tiền xử lý cơ bản như:
-
Chuẩn hóa chữ thường.
-
Loại bỏ ký tự đặc biệt.
-
Xử lý các trường hợp người dùng dùng láy âm
tiết.
-
Chuẩn hóa các từ viết tắt .
-
Loại bỏ số và các từ chỉ có một ký tự.
Tổng hợp dữ liệu từ nhiều trang
mạng xã hội(dữ liệu lấy từ kaggle).
-
ID: id người dùng.
-
Insult: Phân loại người dùng (1 là người dùng có
comment tiêu cực. 0 là người dùng có comment tích cực ).
-
Date: Thời gian comment xuất hiện.
-
Comment: câu bình luận của người dùng.
Dữ liệu gồm 177 bình luận tích cực
và 168 bình luận tiêu cực.
Hình 1: dữ liệu thu thập được.
3.3 Thử nghiệm dữ liệu bằng phần mêm Rapid Miner
Sử dụng Rapid Miner để chạy dữ liệu.
Hình 2: import data vào phần mềm Rapid Miner.
Hình 3: số liệu thống kê
Hình 4: Biểu đồ thống
kê
Kết luận
Những kết quả đạt được của luận văn:
-
Trình bày khái quát về quản trị khách hàng.
-
Nêu lên các phương pháp phân loại văn bản đặc
biệt là phương pháp phân loại sentiment analysis
-
Trình bày các phương pháp phân loại ý kiến hiện
nay, áp dụng phương pháp phân loại văn bản vào bài toán Phân tích tính
tích cực trong câu bình luận của khách hàng trên mạng
Bên cạnh những
kết quả đạt được, dù đã rất cố gắng nhưng do sự hữu hạn về thời gian và kiến
thức, báo cáo vẫn còn một số hạn chế:
-
Hiệu quả phân loại còn phụ thuộc vào sự phức tạp
của ngữ nghĩa, nếu ý kiến có ngữ nghĩa phức tạp thì khi áp dụng bài toán phân
loại văn bản vào phân loại ý kiến thì hiệu quả sẽ khôngcao.
-
Cấp độ của quan điểm trong ý kiến chỉ còn hạn
chế ở hai mức tích cực và tiêucực.
-
Mức phân lớp chỉ dừng lại ở mức tài liệu, chưa
sâu đến mức đặctrưng.
Định hướng nghiên cứu trong tương lai:
-
Nâng cao hiệu quả phân loại trong trường hợp các
ý kiến có ngữ nghĩa phứctạp.
-
Cấp độ của quan điểm cần phải cao hơn, không nên
chỉ giới hạn ở hai mức là tích cực và tiêucực.
-
Hướng phân lớp đến mức đặc trưng chứ không chỉ
dừng lại ở mức tàiliệu.
0 nhận xét:
Post a Comment