Sự phát triển của công nghệ thông tin mang lại hiệu quả thiết thực. Nhưng những công việc như tìm kiếm, phân tích và sử dụng thông tin vẫn chưa nhận được một công cụ chất lượng cao hiệu quả. Có các công cụ phân tích và định lượng, chúng thực sự hoạt động. Nhưng một cuộc cách mạng về chất trong việc sử dụng thông tin vẫn chưa xảy ra.
Rất lâu trước khi công nghệ máy tính ra đời, một người cần xử lý một lượng lớn thông tin và đối phó với điều này bằng kinh nghiệm tốt nhất và khả năng kỹ thuật sẵn có của mình.
Sự phát triển kiến thức và kỹ năng luôn đáp ứng nhu cầu thực tế và tương ứng với nhiệm vụ hiện tại. Khai phá dữ liệu là một tên gọi chung được sử dụng để chỉ một tập hợp các phương pháp để khám phá kiến thức chưa từng biết trước đây, không tầm thường, hữu ích thực tế và có thể truy cập được trong dữ liệu, cần thiết để đưa ra quyết định trong các lĩnh vực hoạt động khác nhau của con người.
Con người, trí tuệ, lập trình
Một người luôn biết cách hành động trong mọi tình huống. Sự thiếu hiểu biết hoặc một tình huống không quen thuộc không ngăn cản anh ta đưa ra quyết định. Tính khách quan và hợp lý của bất kỳ quyết định nào của con người đều có thể bị nghi ngờ, nhưng nó sẽ được chấp nhận.
Thông minh dựa trên: "cơ chế" di truyền, kiến thức tiếp thu, chủ động. Kiến thức được áp dụng để giải quyết các vấn đề nảy sinh trước một người.
- Trí tuệ là một tập hợp kiến thức và kỹ năng độc đáo: cơ hội và nền tảng cho cuộc sống và công việc của con người.
- Trí thông minh không ngừng phát triển và hành động của con người có tác động đến người khác.
Lập trình là nỗ lực đầu tiên nhằm chính thức hóa việc biểu diễn dữ liệu và quy trình tạo thuật toán.
Trí tuệ nhân tạo (AI) lãng phí thời gian và tài nguyên, nhưng kết quả của những nỗ lực không thành công của thế kỷ trước trong lĩnh vực AI vẫn còn trong bộ nhớ, được sử dụng trong các hệ thống chuyên gia (thông minh) khác nhau và đã được chuyển đổi, đặc biệt là các thuật toán (quy tắc) và phân tích dữ liệu toán học (logic) và Khai thác dữ liệu.
Thông tin và tìm kiếm giải pháp thông thường
Thư viện bình thường là một kho kiến thức, chữ in và đồ họa vẫn chưa chịu khuất phục trước công nghệ máy tính. Sách về vật lý, hóa học, cơ học lý thuyết, thiết kế, lịch sử tự nhiên, triết học, khoa học tự nhiên, thực vật học, sách giáo khoa, sách chuyên khảo, công trình của các nhà khoa học, tài liệu hội nghị, báo cáo về công việc phát triển, v.v. luôn phù hợp và đáng tin cậy.
Thư viện là rất nhiều nguồn khác nhau khác nhauhình thức trình bày chất liệu, xuất xứ, cấu trúc, nội dung, cách trình bày, v.v.
Bề ngoài mọi thứ đều có thể nhìn thấy được (có thể đọc được, có thể tiếp cận được) để hiểu và sử dụng. Bạn có thể giải quyết bất kỳ vấn đề nào, đặt nhiệm vụ một cách chính xác, đưa ra giải pháp, viết một bài luận hoặc bài báo học kỳ, chọn tài liệu cho bằng tốt nghiệp, phân tích các nguồn về chủ đề của một luận văn hoặc một báo cáo khoa học và phân tích.
Mọi vấn đề về thông tin đều có thể được giải quyết. Với sự kiên trì và khéo léo, một kết quả chính xác và đáng tin cậy sẽ thu được. Trong bối cảnh này, Khai thác dữ liệu là một cách tiếp cận hoàn toàn khác.
Ngoài kết quả, một người nhận được "liên kết tích cực" đến mọi thứ đã được xem trong quá trình đạt được mục tiêu. Các nguồn mà ông đã sử dụng để giải quyết vấn đề có thể được tham khảo và không ai có thể tranh cãi về sự tồn tại của nguồn. Đây không phải là một đảm bảo về tính xác thực, nhưng nó là bằng chứng chắc chắn mà người chịu trách nhiệm về tính xác thực là "chưa đăng ký". Theo quan điểm này, Khai thác dữ liệu có nghĩa là nghi ngờ lớn về độ tin cậy và không có liên kết "hoạt động".
Bằng cách giải quyết một số vấn đề, một người đạt được kết quả và mở rộng tiềm năng trí tuệ của mình đến nhiều "liên kết hoạt động". Nếu một nhiệm vụ mới “kích hoạt” một liên kết đã có sẵn, người đó sẽ biết cách giải quyết nó: không cần phải tìm kiếm lại bất cứ thứ gì.
"Liên kết hoạt động" là một liên kết cố định: cách thức và việc cần làm trong một trường hợp cụ thể. Bộ não con người tự động ghi nhớ mọi thứ mà nó có vẻ thú vị, hữu ích.hoặc có khả năng cần thiết trong tương lai. Theo nhiều cách, điều này xảy ra ở cấp độ tiềm thức, nhưng ngay sau khi một nhiệm vụ phát sinh có thể được liên kết với một “liên kết hoạt động”, nó ngay lập tức xuất hiện trong tâm trí và giải pháp sẽ được đưa ra mà không cần tìm kiếm thêm thông tin. Khai thác dữ liệu luôn là sự lặp lại của thuật toán tìm kiếm và thuật toán này không thay đổi.
Tìm kiếm thường xuyên: những vấn đề "nghệ thuật"
Thư viện toán học và tìm kiếm thông tin trong đó là một nhiệm vụ tương đối yếu. Tìm cách này hay cách khác để giải tích phân, xây dựng ma trận hoặc thực hiện phép tính cộng hai số tưởng tượng là công việc khó khăn, nhưng đơn giản. Bạn cần sắp xếp một số sách, trong đó có nhiều sách được viết bằng một ngôn ngữ cụ thể, tìm văn bản phù hợp, nghiên cứu và tìm giải pháp cần thiết.
Theo thời gian, cách liệt kê sẽ trở nên quen thuộc và kinh nghiệm tích lũy được sẽ cho phép bạn điều hướng thông tin thư viện và các vấn đề toán học khác. Đây là một không gian thông tin hạn chế của các câu hỏi và câu trả lời. Một tính năng đặc trưng: tìm kiếm thông tin tích lũy kiến thức để giải quyết các vấn đề tương tự. Việc tìm kiếm thông tin của một người để lại dấu vết ("liên kết hoạt động") trong trí nhớ của họ về các giải pháp khả thi cho các vấn đề khác.
Trong tiểu thuyết, hãy tìm câu trả lời cho câu hỏi: "Mọi người sống như thế nào vào tháng Giêng năm 1248?" rất khó. Thậm chí còn khó hơn để trả lời câu hỏi về những gì có trên các kệ hàng và cách thức tổ chức buôn bán thực phẩm. Ngay cả khi một số nhà văn viết rõ ràng và trực tiếp về điều này trong tiểu thuyết của mình, nếu có thể tìm thấy tên của nhà văn này, thì nghi ngờ vềđộ tin cậy của dữ liệu nhận được sẽ vẫn còn. Độ tin cậy là một đặc tính quan trọng của bất kỳ lượng thông tin nào. Nguồn, tác giả và bằng chứng loại trừ sự sai lệch của kết quả là quan trọng.
Hoàn cảnh khách quan của một tình huống cụ thể
Con người nhìn thấy, nghe thấy, cảm thấy. Một số chuyên gia thông thạo một cảm giác duy nhất - trực giác. Tuyên bố của vấn đề yêu cầu thông tin, quá trình giải quyết vấn đề thường đi kèm với sự trau chuốt của tuyên bố của vấn đề. Đây là rắc rối ít hơn đi kèm với việc chuyển thông tin vào ruột của hệ thống máy tính.
Thư viện và đồng nghiệp làm việc là những người tham gia gián tiếp vào quá trình quyết định. Thiết kế của cuốn sách (nguồn), đồ họa trong văn bản, các tính năng chia nhỏ thông tin thành các tiêu đề, chú thích cuối trang theo cụm từ, mục lục chủ đề, danh sách các nguồn chính - tất cả mọi thứ gợi lên liên tưởng trong một con người ảnh hưởng gián tiếp đến quá trình giải vấn đề.
Thời gian và địa điểm giải quyết vấn đề là điều cần thiết. Một người được sắp xếp đến mức anh ta vô tình chú ý đến mọi thứ xung quanh anh ta trong quá trình giải quyết một vấn đề. Nó có thể gây mất tập trung hoặc có thể gây kích thích. Khai thác dữ liệu sẽ không bao giờ "hiểu".
Thông tin trong không gian ảo
Một người luôn chỉ quan tâm đến những thông tin đáng tin cậy về một sự kiện, hiện tượng, đối tượng, thuật toán để giải quyết một vấn đề. Con người luôn tưởng tượng chính xác cách anh ta có thể đạt được mục tiêu mong muốn.
Sự xuất hiện của máy tính và hệ thống thông tin lẽ ra phải làm cho cuộc sống của con người trở nên dễ dàng hơn, nhưng mọi thứ chỉ trở nên phức tạp hơn. Thông tin di chuyển đến ruột của hệ thống máy tính và biến mất khỏi tầm mắt. Để chọn dữ liệu cần thiết, bạn cần tạo một thuật toán chính xác hoặc tạo một truy vấn cho cơ sở dữ liệu.
Câu hỏi phải đúng. Chỉ khi đó, bạn mới có thể nhận được câu trả lời. Nhưng nghi ngờ về tính xác thực vẫn còn. Theo nghĩa này, Khai phá dữ liệu thực sự là "những cuộc khai quật", nó là "khai thác thông tin". Đây là cách nó hợp thời để dịch cụm từ này. Phiên bản tiếng Nga là công nghệ khai thác dữ liệu hoặc khai thác dữ liệu.
Trong công việc của các chuyên gia có thẩm quyền, các nhiệm vụ của Khai thác dữ liệu được chỉ định như sau:
- phân loại;
- phân cụm;
- liên kết;
- dãy;
- dự báo.
Từ quan điểm của thực tiễn hướng dẫn một người xử lý thông tin theo cách thủ công, tất cả những vị trí này đều gây tranh cãi. Trong mọi trường hợp, một người xử lý thông tin tự động và không nghĩ đến việc phân loại dữ liệu, biên dịch các nhóm đối tượng theo chủ đề (phân cụm), tìm kiếm các mẫu thời gian (trình tự) hoặc dự đoán kết quả.
Tất cả những vị trí này trong tâm trí con người được thể hiện bằng tri thức tích cực, bao hàm nhiều vị trí hơn và sử dụng động logic xử lý dữ liệu ban đầu. Tiềm thức của một người đóng một vai trò quan trọng, đặc biệt khi anh ta là chuyên gia trong một lĩnh vực kiến thức cụ thể.
Ví dụ: Bán buôn thiết bị máy tính
Nhiệm vụ rất đơn giản. Có một sốhàng chục nhà cung cấp thiết bị máy tính và thiết bị ngoại vi. Mỗi loại có một bảng giá ở định dạng xls (tệp Excel), có thể tải xuống từ trang web chính thức của nhà cung cấp. Bắt buộc phải tạo một tài nguyên web để đọc các tệp Excel, chuyển đổi chúng thành các bảng cơ sở dữ liệu và cho phép khách hàng chọn các sản phẩm mong muốn với giá thấp nhất.
Vấn đề phát sinh ngay lập tức. Mỗi nhà cung cấp cung cấp phiên bản riêng về cấu trúc và nội dung của tệp xls. Bạn có thể nhận tệp bằng cách tải tệp xuống từ trang web của nhà cung cấp, đặt hàng qua e-mail hoặc nhận liên kết tải xuống thông qua tài khoản cá nhân của bạn, tức là bằng cách đăng ký chính thức với nhà cung cấp.
Giải pháp của vấn đề (ngay từ đầu) là đơn giản về mặt công nghệ. Đang tải tệp (dữ liệu ban đầu), một thuật toán nhận dạng tệp được viết cho mỗi nhà cung cấp và dữ liệu được đặt trong một bảng lớn dữ liệu ban đầu. Sau khi tất cả dữ liệu đã được nhận, sau khi cơ chế hoán đổi liên tục (hàng ngày, hàng tuần hoặc khi thay đổi) dữ liệu mới đã được thiết lập:
- đổi loại;
- giá thay đổi;
- làm rõ số lượng trong kho;
- điều chỉnh các điều khoản bảo hành, thông số kỹ thuật, v.v.
Đây là nơi mà các vấn đề thực sự bắt đầu. Vấn đề là nhà cung cấp có thể viết:
- máy tính xách tay Acer;
- máy tính xách tay Asus;
- Laptop Dell.
Chúng ta đang nói về cùng một sản phẩm, nhưng từ các nhà sản xuất khác nhau. Làm cách nào để đối sánh notebook=máy tính xách tay hoặc cách xóa Acer, Asus và Dell khỏi một dòng sản phẩm?
Đối vớicon người không phải là một vấn đề, nhưng làm thế nào thuật toán sẽ "hiểu" rằng Acer, Asus, Dell, Samsung, LG, HP, Sony là nhãn hiệu hoặc nhà cung cấp? Làm cách nào để đối sánh "máy in" và máy in, "máy quét" và "MFP", "máy photocopy" và "MFP", "tai nghe" với "tai nghe", "phụ kiện" với "phụ kiện"?
Xây dựng cây danh mục dựa trên dữ liệu nguồn (tệp nguồn) đã là một vấn đề khi bạn cần đặt mọi thứ thành tự động.
Lấy mẫu dữ liệu: khai quật "mới đổ"
Nhiệm vụ tạo cơ sở dữ liệu về các nhà cung cấp thiết bị máy tính đã được giải quyết. Một cây danh mục đã được xây dựng, một bảng chung với các ưu đãi từ tất cả các nhà cung cấp đang hoạt động.
Các tác vụ Khai thác dữ liệu điển hình trong ngữ cảnh của ví dụ này:
- tìm sản phẩm với giá rẻ nhất;
- chọn mặt hàng với chi phí và giá vận chuyển thấp nhất;
- phân tích sản phẩm: đặc điểm và giá cả theo tiêu chí.
Trong công việc thực tế của một người quản lý sử dụng dữ liệu từ hàng chục nhà cung cấp, sẽ có nhiều biến thể của các nhiệm vụ này và thậm chí còn có nhiều tình huống thực tế hơn.
Ví dụ có nhà cung cấp “A” bán ASUS VivoBook S15: trả trước, giao hàng 5 ngày sau khi thực nhận tiền. Có nhà cung cấp “B” sản phẩm cùng mẫu mã: thanh toán khi nhận hàng, giao hàng sau khi ký hợp đồng ngay trong ngày, giá cao gấp rưỡi.
Data Mining bắt đầu - "khai quật". Biểu thức tượng hình: "đào" hoặc "khai thác dữ liệu" là những từ đồng nghĩa. Đó là về cách tìm lý do để đưa ra quyết định.
Nhà cung cấp "A" và "B" có lịch sử giao hàng. Lớpthanh toán trước trong trường hợp đầu tiên so với thanh toán khi nhận trong trường hợp thứ hai, có tính đến việc giao hàng không thành công trong trường hợp thứ hai cao hơn 65%. Rủi ro bị phạt từ khách hàng cao hơn / thấp hơn. Làm thế nào và những gì để xác định và những gì để đưa ra quyết định?
Mặt khác: cơ sở dữ liệu được tạo ra bởi một lập trình viên và một người quản lý. Nếu người lập trình và người quản lý đã thay đổi, làm thế nào để xác định trạng thái hiện tại của cơ sở dữ liệu và học cách sử dụng nó một cách chính xác? Bạn cũng sẽ phải khai thác dữ liệu. Khai phá dữ liệu cung cấp nhiều phương pháp toán học và logic khác nhau mà không quan tâm đến loại dữ liệu nào đang được nghiên cứu. Điều này đưa ra giải pháp chính xác trong một số trường hợp, nhưng không phải trong tất cả.
Tiến vào ảo và tìm kiếm ý nghĩa
Phương pháp Khai thác Dữ liệu trở nên có ý nghĩa ngay khi thông tin được ghi vào cơ sở dữ liệu và biến mất khỏi “trường xem”. Kinh doanh thiết bị máy tính là một nhiệm vụ thú vị, nhưng nó chỉ là một công việc kinh doanh. Anh ấy được tổ chức tốt như thế nào trong công ty phụ thuộc vào sự thành công của nó.
Sự thay đổi khí hậu trên hành tinh và thời tiết ở một thành phố cụ thể là mối quan tâm của tất cả mọi người, không chỉ các chuyên gia khí hậu chuyên nghiệp. Hàng nghìn cảm biến nhận các kết quả đọc về gió, độ ẩm, áp suất, dữ liệu từ các vệ tinh Trái đất nhân tạo và có lịch sử dữ liệu trong nhiều năm và nhiều thế kỷ.
Dữ liệu thời tiết không chỉ để quyết định có mang ô đi làm hay không. Công nghệ Khai thác dữ liệu là chuyến bay an toàn của máy bay, sự vận hành ổn định của đường cao tốc và nguồn cung cấp các sản phẩm dầu mỏ đáng tin cậy bằng đường biển.
Dữ liệu "thô" được gửi đến thông tinhệ thống. Nhiệm vụ của Khai phá dữ liệu là biến chúng thành một hệ thống bảng được hệ thống hóa, thiết lập liên kết, đánh dấu các nhóm dữ liệu đồng nhất và phát hiện các mẫu.
Các phương pháp toán học và logic kể từ những ngày của phân tích định lượng OLAP (Xử lý phân tích trực tuyến) đã cho thấy tính thực tiễn của chúng. Ở đây, công nghệ cho phép bạn tìm thấy ý nghĩa và không đánh mất nó, như trong ví dụ về việc bán thiết bị máy tính.
Hơn nữa, trong các nhiệm vụ toàn cầu:
- kinh doanh xuyên quốc gia;
- quản lý vận tải hàng không;
- nghiên cứu về những khúc mắc của trái đất hoặc những vấn đề xã hội (ở cấp nhà nước);
- nghiên cứu về ảnh hưởng của thuốc đối với cơ thể sống;
- dự đoán hậu quả của việc xây dựng xí nghiệp công nghiệp, v.v.
Công nghệ khai thác dữ liệu và biến dữ liệu “vô nghĩa” thành dữ liệu thực cho phép bạn đưa ra quyết định khách quan là lựa chọn duy nhất.
Khả năng của con người kết thúc khi có một lượng lớn thông tin thô. Các hệ thống khai thác dữ liệu mất đi tính hữu dụng khi cần phải xem, hiểu và cảm nhận thông tin.
Phân bổ chức năng hợp lý, khách quan
Con người và máy tính nên bổ sung cho nhau - đây là một tiên đề. Viết luận văn là ưu tiên của một người, và hệ thống thông tin là một trợ giúp. Ở đây, dữ liệu mà công nghệ Khai thác dữ liệu có là kinh nghiệm học, quy tắc, thuật toán.
Chuẩn bị dự báo thời tiết hàng tuần là ưu tiên của hệ thống thông tin. Con người quản lý dữ liệu, nhưng quyết định dựa trên kết quả tính toán của hệ thống. Nó kết hợp các phương pháp Khai thác dữ liệu, phân loại dữ liệu chuyên gia, kiểm soát thủ công việc áp dụng các thuật toán, tự động so sánh dữ liệu trong quá khứ, dự báo toán học và rất nhiều kiến thức và kỹ năng của những người thực tham gia vào việc ứng dụng hệ thống thông tin.
Lý thuyết xác suất và thống kê toán học không phải là lĩnh vực kiến thức "yêu thích" và dễ hiểu nhất. Nhiều chuyên gia ở rất xa họ, nhưng các phương pháp được phát triển trong những lĩnh vực này cho kết quả gần như chính xác 100%. Bằng cách áp dụng các hệ thống dựa trên ý tưởng, phương pháp và thuật toán của Khai phá dữ liệu, các giải pháp có thể thu được một cách khách quan và đáng tin cậy. Nếu không, đơn giản là không thể tìm ra giải pháp.
Pharaoh và những bí ẩn của những thế kỷ trước
Lịch sử được viết lại định kỳ:
- bang - vì lợi ích chiến lược của họ;
- các nhà khoa học có thẩm quyền - vì niềm tin chủ quan của họ.
Thật khó để phân biệt đâu là thật, đâu là giả. Việc sử dụng Khai thác dữ liệu cho phép chúng tôi giải quyết vấn đề này. Ví dụ, công nghệ xây dựng kim tự tháp đã được các nhà biên niên sử mô tả và các nhà khoa học nghiên cứu trong các thế kỷ khác nhau. Không phải tất cả các tài liệu đều có trên Internet, không phải mọi thứ đều là duy nhất ở đây và nhiều dữ liệu có thể không có:
- được mô tả đúng thời điểm;
- thời gian viết mô tả;
- ngày dựa vào mô tả;
- tác giả, ý kiến (liên kết) được tính đến;
- xác nhận tính khách quan.
Bthư viện, đền thờ và những "địa điểm bất ngờ" mà bạn có thể tìm thấy các bản thảo từ các thế kỷ khác nhau và bằng chứng vật chất của quá khứ.
Mục tiêu thú vị: tập hợp mọi thứ lại với nhau và khai quật "sự thật". Đặc điểm của vấn đề: thông tin có thể thu được từ mô tả đầu tiên của một nhà biên niên sử, trong suốt thời kỳ sống của các pharaoh, cho đến thế kỷ hiện tại, trong đó vấn đề này được nhiều nhà khoa học giải quyết bằng các phương pháp hiện đại.
Cơ sở lý luận của việc sử dụng Khai phá dữ liệu: không thể sử dụng lao động chân tay. Số lượng quá nhiều:
- nguồn thông tin;
- ngôn ngữ đại diện;
- các nhà nghiên cứu mô tả cùng một thứ theo những cách khác nhau;
- ngày, sự kiện và điều khoản;
- vấn đề tương quan thuật ngữ;
- phân tích thống kê theo nhóm dữ liệu theo thời gian có thể khác nhau, v.v.
Vào cuối thế kỷ trước, khi một ý tưởng khác về trí tuệ nhân tạo trở nên hiển nhiên không chỉ đối với người bình thường mà còn với cả một chuyên gia sành sỏi, ý tưởng này đã xuất hiện: “tái tạo nhân cách”.
Ví dụ, theo các công trình của Pushkin, Gogol, Chekhov, một hệ thống quy tắc nhất định, lôgic hành vi được hình thành và một hệ thống thông tin được tạo ra có thể trả lời một số câu hỏi nhất định như một người sẽ làm: Pushkin, Gogol hoặc Chekhov. Về mặt lý thuyết, một nhiệm vụ như vậy rất thú vị, nhưng trên thực tế, nó cực kỳ khó thực hiện.
Tuy nhiên, ý tưởng về một nhiệm vụ như vậy gợi ý một ý tưởng rất thực tế: "làm thế nào để tạo ra một tìm kiếm thông tin thông minh." Internet là nguồn tài nguyên đang phát triển rất nhiều, cơ sở dữ liệu khổng lồ và đây là cơ hội tuyệt vời để áp dụng Khai phá dữ liệu kết hợp với con ngườilogic trong định dạng phát triển chung.
Một chiếc máy và một con người được ghép nối là một nhiệm vụ xuất sắc và chắc chắn là một thành công trong lĩnh vực "khảo cổ học thông tin", những cuộc khai quật chất lượng cao về dữ liệu và kết quả sẽ khiến bạn phải nghi ngờ, nhưng chắc chắn sẽ cho phép bạn để đạt được kiến thức mới và sẽ có nhu cầu trong xã hội.