Data mining là gì?

Xem chủ đề cũ hơn Xem chủ đề mới hơn Go down

Data mining là gì?

Bài gửi by nth on 11/11/09, 08:46 pm

Data Mining được định nghĩa là: quá trình trích xuất các thông tin có giá trị tiềm ẩn bên trong lượng lớn dữ liệu được lưu trữ trong các CSDL, kho dữ liệu…

Quá trình này bao gồm các bước sau:

1) Làm sạch dữ liệu (data cleaning): loại bỏ nhiễu hoặc các dữ liệu không thích hợp.
2) Tích hợp dữ liệu (data integration): tích hợp dữ liệu từ các nguồn khác nhau như: CSDL, Kho dữ liệu, file text...
3) Chọn dữ liệu (data selection): ở bước này, những dữ liệu liên quan trực tiếp đến nhiệm vụ sẽ được thu thập từ các nguồn dữ liệu ban đầu.
4) Chuyển đổi dữ liệu (data transformation): trong bước này, dữ liệu sẽ được chuyển đổi về dạng phù hợp cho việc khai phá bằng cách thực hiện các thao tác nhóm hoặc tập hợp.
5) Khai phá dữ liệu (data mining): là giai đoạn thiết yếu, trong đó các phương pháp thông minh sẽ được áp dụng để trích xuất ra các mẫu dữ liệu.
6) Đánh giá mẫu (pattern evaluation): đánh giá sự hữu ích của các mẫu biểu diễn tri thức dựa vào một số phép đo.
7) Trình diễn dữ liệu (knowlegde presentation): sử dụng các kĩ thuật trình diễn và trực quan hoá dữ liệu để biểu diễn tri thức khai phá được cho người sử dụng. Khai phá dữ liệu là một lĩnh vực liên quan tới rất nhiều ngành học khác như: hệ CSDL, thống kê, trực quan hóa...
Hơn nữa, tuỳ vào cách tiếp cận được sử dụng, khai phá dữ liệu còn có thể áp dụng một số kĩ thuật như mạng nơ ron, lí thuyết tập thô hoặc tập mờ, biểu diễn tri thức… So với các phương pháp này, khai phá dữ liệu có một số ưu thế rõ rệt: So với phương pháp học máy, khai phá dữ liệu có lợi thế hơn ở chỗ, khai phá dữ liệu có thể sử dụng với các CSDL chứa nhiều nhiễu, dữ liệu không đầy đủ hoặc biến đổi liên tục. Trong khi đó phương pháp học máy chủ yếu được áp dụng trong các CSDL đầy đủ, ít biến động và tập dữ liệu không quá lớn. Phương pháp hệ chuyên gia: phương pháp này khác với khai phá dữ liệu ở chỗ các ví dụ của chuyên gia thường ở mức chất lượng cao hơn nhiều so với các dữ liệu trong CSDL, và chúng thường chỉ bao hàm được các trường hợp quan trọng. Hơn nữa các chuyên gia sẽ xác nhận giá trị và tính hữu ích của các mẫu phát hiện được Phương pháp thống kê là một trong những nền tảng lí thuyết của Khai phá dữ liệu, nhưng khi so sánh hai phương pháp với nhau ta có thể thấy các phương pháp thống kê còn tồn tại một số điểm yếu mà Khai phá dữ liệu đã khắc phục được: Các phương pháp thống kê chuẩn không phù hợp với các kiểu dữ liệu có cấu trúc trong rất nhiều các CSDL. Các phương pháp thống kê hoạt động hoàn toàn theo dữ liệu, nó không sử dụng tri thức sẵn có về lĩnh vực. Kết quả phân tích của thống kê có thể sẽ rất nhiều và khó có thể làm rõ được. Phương pháp thống kê cần có sự hướng dẫn của người dùng để xác định phân tích dữ liệu như thế nào và ở đâu…
"trích http://vi.wikipedia.org/wiki/Data_mining"

===== Thành viên Forum Thien Than CNTT ====
Nothing!

(~~/)
(~'.'~)
(_(__)~~

nth
Admin
Admin

Tổng số bài gửi : 550
Số điểm : 1113
Số lần được cám ơn : 33
Ngày đến diễn đàn: : 01/08/2009
Tuổi : 28
Đến từ : Thiên Đường

Xem lý lịch thành viên http://thuhuong.hot4um.com

Về Đầu Trang Go down

Re: Data mining là gì?

Bài gửi by nth on 11/11/09, 08:51 pm

Data Mining hay nói tiếng Việt gọi là "khai mỏ dữ liệu" (kinh quá hé).Mà đúng như vậy,từ khai mỏ mình nghĩ là dùng chính xác,dữ liệu lúc nào cũng là một cái mỏ thông tin hấp dẫn ,và dữ liệu lúc này ở dạng thô (mỏ dữ liệu),chúng ta cần khai thác nó như thế nào để đem lại hiệu quả.
Nếu bạn đọc báo chí bạn có thấy những kết luận về một căn bệnh nào đó,một sở thích nào đó... mà được khảo sát từ một số người,đấy chính là kết quả khai thác dữ liệu.Tất nhiên khai thác dữ liệu còn làm được nhiều thứ (mà mình chưa biết),ví dụ:bạn là chủ một siêu thị,hằng ngày bạn có các kết quả thống kê mua bán,vậy từ các dữ liệu khô khan đó bạn sẽ rút ra được cái gì để tăng doanh thu,đấy chính là khai mỏ dữ liệu.Và khai mỏ dữ liệu còn được áp dụng trong rất nhiều lĩnh vực : y tế ,dầu khí,khí tượng,kinh doanh...

Data mining là một học thuyết,còn java là ngôn ngữ lập trình ,trong trường hợp data mining thì java là ngôn ngữ dùng để viết các trình ứng dụng trong data mining,và ngôn ngữ java được dùng bởi sự tiện dụng của nó.
Theo tôi được biết (không rõ lắm vì tôi mới nghiên cứu ) là data mining còn ứng dụng trong các search engine,hay cụ thể hơn là web mining.
Hiện tại tôi có thể cho một ví dụ về data mining.Một siêu thị sau khi nghiên cứu các kết quả mua bán hằng ngày và họ nhận thấy người mua bia thường mua khoai tây (ở nước ngoài,chứ ở mình thì tui ghi là mua rượu đi kèm...thịt chó đóng hộp),vì thế họ sẽ đặt 2 sản phẩm cạnh nhau để tăng doanh thu lên.
Còn một ví dụ nữa,dựa vào các bức ảnh vệ tinh ,các nhà nghiên cứu sẽ chọn những vệt đen nào thích hợp để xem nó có phải là mỏ dầu không (cái ví dụ này không dám dịch đúng không,mà sao tui thấy nghi quá!).
Data mining là khai mỏ dữ liệu,khai thác các thông tin từ các "mỏ" dữ liệu thô,thông tin là vàng phải không các bạn,vì vậy data mining đặc biệt được các nhà doanh nghiệp chú ý.

Data mining theo tui biết thì có liên quan rất nhiều đến CSDL. Các hệ quản trị CSDL "đàn anh" hiện nay như Oracle hoặc SQL Server đang cố gắng implement khía cạnh này. Ngoài ra nó còn liên quan đến Data warehouse (dịch nôm na là kho chứa dữ liệu khổng lồ)... Từ kho chứa CSDL của 1 công ty hoặc của 1 cộng đồng net, nhiệm vụ của data mining là tìm ra những thứ quý giá từ data warehousing.
Trong cuốn sách The Road Ahead, Bill Gates nhấn mạnh nhiều lần giá trị của thông tin và cách khai thác, nắm giữ thông tin trong thập niên tới đây... Ai chớp lấy được thời cơ cạnh tranh sẽ có 1 mỏ vàng để khai phá đó.
Hy vọng CS hạ tầng truyền thông tại VN được chăm lo đúng mức để chúng ta không quá thua thiệt với các nước trong khu vực.

Data mining tạm địch là "khai phá dữ liệu".
Data mining là một quá trình tìm kiếm, phát hiện các tri thức mới, tiềm ẩn, hữu dụng trong các cơ sở dữ liệu lớn.

Trong lĩnh vực khai phá dữ liệu và phát hiện tri thức thì hiểu theo một khía cạnh nào đấy Data mining chỉ là một giai đoạn của
Knowledge Discovery in Databases - KDD.
Nó liên quan đến các lĩnh vực như: cơ sở dữ liệu, học máy, trí tuệ nhân tạo,....
Ứng dụng của nó chủ yếu tập trung vào: Phân tích dữ liệu và hỗ trợ ra quyết định, y học, Web mining, tin-sinh, tài chính và thị trường chứng khoán, Bảo hiểm

-Data Mining dc hình thành như thế nào (lịch sử của nó ấy)? Do ngày nay tri thức thì ít mà dữ liệu thì nhiều, khai thác từ đám dữ liệu ra tri thức, đó là Data Mining. Chẳng hạn như bạn có 1 kho sách IT, bạn muốn tìm 1 kiến thức nào đó, bạn có cần đọc hết tất cả chúng ko??

-có phải là dùng một thuật toán nào đó để tạo ra nó ko? Data Mining là 1 lĩnh vực lớn trong Computer Science.. ko phải là 1 thuật toán

-quá trình khai thác dữ liệu như trên có cần con người tham gia vào ko? Có, con người đưa vào những gì mà máy tính không hiểu..

Nói chung món này thuộc thể loại có liên quan đến toán, mustang đọc hoài không hiểu là chuyện thường.. đọc cực nhiều mới có thể hiểu ^^
"trích http://www.ddth.com/showthread.php?t=60709"

===== Thành viên Forum Thien Than CNTT ====
Nothing!

(~~/)
(~'.'~)
(_(__)~~

nth
Admin
Admin

Tổng số bài gửi : 550
Số điểm : 1113
Số lần được cám ơn : 33
Ngày đến diễn đàn: : 01/08/2009
Tuổi : 28
Đến từ : Thiên Đường

Xem lý lịch thành viên http://thuhuong.hot4um.com

Về Đầu Trang Go down

Re: Data mining là gì?

Bài gửi by nth on 11/11/09, 09:38 pm

Tài liệu của thầy Nguyễn Hùng Sơn:
http://www.mimuw.edu.pl/~son/datamining/datamining.htm
Các thuật toán của Data Mining và ứng dụng của lý thuyết tập thô trong Data Mining.

===== Thành viên Forum Thien Than CNTT ====
Nothing!

(~~/)
(~'.'~)
(_(__)~~

nth
Admin
Admin

Tổng số bài gửi : 550
Số điểm : 1113
Số lần được cám ơn : 33
Ngày đến diễn đàn: : 01/08/2009
Tuổi : 28
Đến từ : Thiên Đường

Xem lý lịch thành viên http://thuhuong.hot4um.com

Về Đầu Trang Go down

Re: Data mining là gì?

Bài gửi by nth on 11/11/09, 09:46 pm

Trang này cũng khá hay:
http://www.statsoft.com/textbook/stdatmin.html

http://www.autonlab.org/tutorials/

===== Thành viên Forum Thien Than CNTT ====
Nothing!

(~~/)
(~'.'~)
(_(__)~~

nth
Admin
Admin

Tổng số bài gửi : 550
Số điểm : 1113
Số lần được cám ơn : 33
Ngày đến diễn đàn: : 01/08/2009
Tuổi : 28
Đến từ : Thiên Đường

Xem lý lịch thành viên http://thuhuong.hot4um.com

Về Đầu Trang Go down

Re: Data mining là gì?

Bài gửi by nth on 11/11/09, 10:08 pm

Đây là tài liệu của trường Đại Học Quốc Gia nhé

Phan cum .part1.rar

Phan cum .part2.rar

Phan cum .part3.rar

Còn đây là bài giảng

Chuong 2.rar

===== Thành viên Forum Thien Than CNTT ====
Nothing!

(~~/)
(~'.'~)
(_(__)~~

nth
Admin
Admin

Tổng số bài gửi : 550
Số điểm : 1113
Số lần được cám ơn : 33
Ngày đến diễn đàn: : 01/08/2009
Tuổi : 28
Đến từ : Thiên Đường

Xem lý lịch thành viên http://thuhuong.hot4um.com

Về Đầu Trang Go down

Re: Data mining là gì?

Bài gửi by nth on 11/11/09, 10:16 pm

Ngoài ra rất nhiều sách trên trang: http://www.ebook.edu.vn/?page=1.5&tag=Data+Mining
vào nhanh với tài khoản free:
ACC : tuongyda14
PASS : anhtuongje

===== Thành viên Forum Thien Than CNTT ====
Nothing!

(~~/)
(~'.'~)
(_(__)~~

nth
Admin
Admin

Tổng số bài gửi : 550
Số điểm : 1113
Số lần được cám ơn : 33
Ngày đến diễn đàn: : 01/08/2009
Tuổi : 28
Đến từ : Thiên Đường

Xem lý lịch thành viên http://thuhuong.hot4um.com

Về Đầu Trang Go down

Re: Data mining là gì?

Bài gửi by nth on 11/11/09, 10:23 pm

Có một số tài liệu lang thang kiếm được bàn về data mining nè...

http://gralib.hcmuns.edu.vn/gsdl/collect/hnkhbk/index/assoc/HASH0107.dir/doc.pdf

http://www.fas.org/irp/crs/RL31798.pdf

http://www.daedalus.es/fileadmin/daedalus/doc/MineriaDeDatos/fayyad96.pdf

http://www.datamininglab.com/pubs/kdd98_elder_abbott_nopics_bw.pdf

http://www.ngssoftware.com/papers/sqlinference.pdf

http://www.cs.uvm.edu/~icdm/algorithms/10Algorithms-08.pdf

http://airpo.binghamton.edu/conference/jan2004/Thomas_data_mining.pdf

http://www-users.cs.umn.edu/~kumar/dmbook/dmslides/chap4_basic_classification.ppt

http://www.research.ibm.com/dar/papers/pdf/fgcsapteweiss_with_cover.pdf

http://www.cs.waikato.ac.nz/~gs23/Pubs/WICworkshop.pdf

http://wis.cs.ucla.edu/~hxwang/stream/gama-kdd03.pdf

Và còn nhiều nữa, nhất là vô các trang chuyên về khoa học là có vài cuốn liên quan.

===== Thành viên Forum Thien Than CNTT ====
Nothing!

(~~/)
(~'.'~)
(_(__)~~

nth
Admin
Admin

Tổng số bài gửi : 550
Số điểm : 1113
Số lần được cám ơn : 33
Ngày đến diễn đàn: : 01/08/2009
Tuổi : 28
Đến từ : Thiên Đường

Xem lý lịch thành viên http://thuhuong.hot4um.com

Về Đầu Trang Go down

Re: Data mining là gì?

Bài gửi by nth on 11/11/09, 10:24 pm

http://www.guru.net.vn/PermaLink,guid,c6feb28d-5c45-4ac1-8fa7-6533e7ba450e.aspx

===== Thành viên Forum Thien Than CNTT ====
Nothing!

(~~/)
(~'.'~)
(_(__)~~

nth
Admin
Admin

Tổng số bài gửi : 550
Số điểm : 1113
Số lần được cám ơn : 33
Ngày đến diễn đàn: : 01/08/2009
Tuổi : 28
Đến từ : Thiên Đường

Xem lý lịch thành viên http://thuhuong.hot4um.com

Về Đầu Trang Go down

Re: Data mining là gì?

Bài gửi by Sponsored content Today at 10:35 pm


Sponsored content


Về Đầu Trang Go down

Xem chủ đề cũ hơn Xem chủ đề mới hơn Về Đầu Trang


 
Permissions in this forum:
Bạn không có quyền trả lời bài viết