Chia tỷ lệ đa chiều: định nghĩa, mục tiêu, mục tiêu và ví dụ

Mục lục:

Chia tỷ lệ đa chiều: định nghĩa, mục tiêu, mục tiêu và ví dụ
Chia tỷ lệ đa chiều: định nghĩa, mục tiêu, mục tiêu và ví dụ
Anonim

Tỷ lệ đa biến (MDS) là một công cụ để trực quan hóa mức độ giống nhau của các trường hợp riêng lẻ trong một tập dữ liệu. Nó đề cập đến một tập hợp các phương pháp sắp xếp có liên quan được sử dụng để hiển thị thông tin, đặc biệt là để hiển thị thông tin chứa trong ma trận khoảng cách. Đây là một dạng giảm kích thước phi tuyến tính. Thuật toán MDS nhằm mục đích đặt mỗi đối tượng trong không gian N chiều theo cách sao cho khoảng cách giữa các đối tượng được bảo toàn tốt nhất có thể. Sau đó, mỗi đối tượng được gán tọa độ theo từng kích thước N.

Số thứ nguyên của biểu đồ MDS có thể vượt quá 2 và được chỉ định trước. Việc chọn N=2 sẽ tối ưu hóa vị trí đối tượng cho biểu đồ phân tán 2D. Bạn có thể xem các ví dụ về tỷ lệ đa chiều trong các hình ảnh trong bài viết. Các ví dụ có ký hiệu bằng tiếng Nga đặc biệt mang tính minh họa.

Chia tỷ lệ đa chiều
Chia tỷ lệ đa chiều

Cốt

Phương pháp chia tỷ lệ đa chiều (MMS,MDS) là một bộ công cụ cổ điển mở rộng tổng quát quy trình tối ưu hóa cho một tập hợp các hàm mất mát và ma trận đầu vào của khoảng cách đã biết với trọng số, v.v. Trong bối cảnh này, một hàm mất mát hữu ích được gọi là căng thẳng, thường được giảm thiểu bằng một quy trình gọi là đa dạng hóa ứng suất.

Thủ công

Có một số tùy chọn để chia tỷ lệ đa chiều. Các chương trình MDS tự động giảm thiểu tải để có giải pháp. Cốt lõi của thuật toán MDS phi kim là một quá trình tối ưu hóa gấp đôi. Đầu tiên, phải tìm được phép biến đổi tiệm cận đơn điệu tối ưu. Thứ hai, các điểm cấu hình phải được định vị tối ưu để khoảng cách của chúng khớp với các giá trị lân cận được chia tỷ lệ càng gần càng tốt.

Ví dụ về tỷ lệ đa chiều
Ví dụ về tỷ lệ đa chiều

Mở rộng

Một phần mở rộng của tỷ lệ đa chiều theo hệ mét trong thống kê trong đó không gian đích là một không gian phi Euclide trơn tùy ý. Trường hợp sự khác biệt là khoảng cách trên một bề mặt và không gian mục tiêu là một bề mặt khác. Các chương trình chuyên đề cho phép bạn tìm tệp đính kèm với sự biến dạng tối thiểu của bề mặt này thành bề mặt khác.

Bước

Có một số bước để thực hiện một nghiên cứu bằng cách sử dụng tỷ lệ đa biến:

  1. Công thức của vấn đề. Bạn muốn so sánh những biến nào? Bạn muốn so sánh bao nhiêu biến? Nghiên cứu sẽ được sử dụng cho mục đích gì?
  2. Lấy dữ liệu đầu vào. Người trả lời được hỏi một loạt câu hỏi. Đối với mỗi cặp sản phẩm, họ được yêu cầu đánh giá mức độ giống nhau (thường theo thang điểm Likert 7 điểm từ rất giống đến rất khác nhau). Câu hỏi đầu tiên có thể dành cho Coca-Cola / Pepsi, chẳng hạn như câu hỏi tiếp theo dành cho bia, câu hỏi tiếp theo dành cho Tiến sĩ Pepper, v.v. Số lượng câu hỏi phụ thuộc vào số lượng nhãn hiệu.
Mở rộng khoảng cách
Mở rộng khoảng cách

Phương pháp thay thế

Có hai cách tiếp cận khác. Có một kỹ thuật gọi là "Dữ liệu cảm nhận: Phương pháp tiếp cận có nguồn gốc", trong đó các sản phẩm được phân tách thành các thuộc tính và việc đánh giá được thực hiện trên thang điểm khác biệt ngữ nghĩa. Một phương pháp khác là “phương pháp tiếp cận dữ liệu sở thích”, trong đó người trả lời được hỏi về sở thích thay vì điểm tương đồng.

Nó bao gồm các bước sau:

  1. Khởi chạy chương trình thống kê MDS. Phần mềm để thực hiện thủ tục có sẵn trong nhiều gói phần mềm thống kê. Thường có sự lựa chọn giữa MDS chỉ số (xử lý dữ liệu mức khoảng thời gian hoặc tỷ lệ) và MDS không chỉ số (xử lý dữ liệu thứ tự).
  2. Xác định số lần đo. Nhà nghiên cứu phải xác định số lượng phép đo mà anh ta muốn tạo trên máy tính. Càng nhiều phép đo, thống kê càng phù hợp, nhưng càng khó giải thích kết quả.
  3. Hiển thị kết quả và xác định phép đo - chương trình thống kê (hoặc mô-đun liên quan) sẽ hiển thị kết quả. Bản đồ sẽ hiển thị từng sản phẩm (thường ở dạng 2D).khoảng trống). Sự gần gũi của các sản phẩm với nhau cho thấy sự giống nhau hoặc ưa thích của chúng, tùy thuộc vào cách tiếp cận được sử dụng. Tuy nhiên, các phép đo thực sự tương ứng với các phép đo hành vi của hệ thống như thế nào không phải lúc nào cũng rõ ràng. Có thể đưa ra đánh giá chủ quan về sự phù hợp tại đây.
  4. Kiểm tra kết quả về độ tin cậy và tính hợp lệ - tính toán R bình phương để xác định tỷ lệ của phương sai dữ liệu tỷ lệ có thể được tính bằng quy trình MDS. Square R 0,6 được coi là mức tối thiểu có thể chấp nhận được. R bình phương 0,8 được coi là tốt cho tỷ lệ theo hệ mét, trong khi 0,9 được coi là tốt cho tỷ lệ không theo hệ mét.
Kết quả chia tỷ lệ đa biến
Kết quả chia tỷ lệ đa biến

Thử nghiệm khác nhau

Các bài kiểm tra có thể có khác là kiểm tra căng thẳng kiểu Kruskal, kiểm tra dữ liệu phân tách, kiểm tra độ ổn định của dữ liệu và kiểm tra lại kiểm tra độ tin cậy. Viết chi tiết về kết quả trong bài kiểm tra. Cùng với ánh xạ, cần chỉ định ít nhất một thước đo khoảng cách (ví dụ: chỉ số Sorenson, chỉ số Jaccard) và độ tin cậy (ví dụ: giá trị ứng suất).

Bạn cũng rất mong muốn đưa ra một thuật toán (ví dụ: Kruskal, Mather) thường được xác định bởi chương trình được sử dụng (đôi khi thay thế báo cáo thuật toán), nếu bạn đã đưa ra cấu hình bắt đầu hoặc có lựa chọn ngẫu nhiên, số số lần chạy thứ nguyên, kết quả Monte Carlo, số lần lặp lại, điểm ổn định và phương sai tỷ lệ của mỗi trục (r-square).

Phương pháp phân tích dữ liệu và thông tin trực quanmở rộng đa chiều

Trực quan hóa thông tin là nghiên cứu các biểu diễn tương tác (trực quan) của dữ liệu trừu tượng để nâng cao nhận thức của con người. Dữ liệu trừu tượng bao gồm cả dữ liệu số và không phải số, chẳng hạn như thông tin địa lý và văn bản. Tuy nhiên, hình ảnh hóa thông tin khác với hình ảnh hóa khoa học: “nó mang tính thông tin (hình ảnh hóa thông tin) khi một biểu diễn không gian được chọn và chia nhỏ (hình ảnh hóa khoa học) khi một biểu diễn không gian được đưa ra.”

Lĩnh vực hình ảnh hóa thông tin xuất hiện từ nghiên cứu về tương tác giữa con người và máy tính, các ứng dụng khoa học máy tính, đồ họa, thiết kế trực quan, tâm lý học và các phương pháp kinh doanh. Nó ngày càng được sử dụng như một thành phần thiết yếu trong nghiên cứu khoa học, thư viện kỹ thuật số, khai thác dữ liệu, dữ liệu tài chính, nghiên cứu thị trường, kiểm soát sản xuất, v.v.

Phương pháp và nguyên tắc

Trực quan hóa thông tin gợi ý rằng các phương pháp trực quan hóa và tương tác tận dụng sự phong phú của nhận thức con người, cho phép người dùng đồng thời xem, khám phá và hiểu một lượng lớn thông tin. Trực quan hóa thông tin nhằm mục đích tạo ra các phương pháp truyền đạt dữ liệu trừu tượng, thông tin một cách trực quan.

Tỷ lệ màu đa chiều
Tỷ lệ màu đa chiều

Phân tích dữ liệu là một phần không thể thiếu của tất cả các nghiên cứu ứng dụng và giải quyết vấn đề trong công nghiệp. Hầu hếtCác cách tiếp cận cơ bản để phân tích dữ liệu là trực quan hóa (biểu đồ, biểu đồ phân tán, biểu đồ bề mặt, bản đồ cây, biểu đồ tọa độ song song, v.v.), thống kê (kiểm tra giả thuyết, hồi quy, PCA, v.v.), phân tích dữ liệu (đối sánh, v.v.)..d.) và các phương pháp học máy (phân cụm, phân loại, cây quyết định, v.v.).

Trong số các cách tiếp cận này, hình dung thông tin hoặc phân tích dữ liệu trực quan là cách phụ thuộc nhiều nhất vào kỹ năng nhận thức của nhân viên phân tích và cho phép khám phá những hiểu biết có thể hành động phi cấu trúc chỉ bị giới hạn bởi trí tưởng tượng và sự sáng tạo của con người. Một nhà phân tích không cần phải học bất kỳ kỹ thuật phức tạp nào để có thể diễn giải các hình ảnh hóa dữ liệu. Trực quan hóa thông tin cũng là một sơ đồ tạo giả thuyết có thể và thường được đi kèm với phân tích chính thức hoặc phân tích nhiều hơn, chẳng hạn như kiểm tra giả thuyết thống kê.

Học

Nghiên cứu hiện đại về hình ảnh hóa bắt đầu từ đồ họa máy tính, "ngay từ ban đầu đã được sử dụng để nghiên cứu các vấn đề khoa học. Tuy nhiên, trong những năm đầu, việc thiếu sức mạnh đồ họa thường hạn chế tính hữu dụng của nó. Ưu tiên về hình ảnh hóa bắt đầu để phát triển vào năm 1987, với việc phát hành phần mềm đặc biệt cho Đồ họa Máy tính và Hình ảnh trong Máy tính Khoa học Kể từ đó, đã có một số hội nghị và hội thảo được tổ chức bởi Hiệp hội Máy tính IEEE và ACM SIGGRAPH ".

Họ bao gồm các chủ đề chung về trực quan hóa dữ liệu, trực quan hóa thông tin và trực quan hóa khoa học,cũng như các lĩnh vực cụ thể hơn như kết xuất âm lượng.

Mở rộng thương hiệu đa chiều
Mở rộng thương hiệu đa chiều

Tóm tắt

Tỉ lệ đa chiều tổng quát (GMDS) là một phần mở rộng của tỉ lệ đa chiều theo hệ mét trong đó không gian đích là phi Euclide. Khi sự khác biệt là khoảng cách trên một bề mặt và không gian mục tiêu là một bề mặt khác, GMDS cho phép bạn tìm thấy sự lồng ghép của bề mặt này vào bề mặt khác với sự biến dạng tối thiểu.

GMDS là một dòng nghiên cứu mới. Hiện tại, các ứng dụng chính là nhận dạng đối tượng có thể biến dạng (ví dụ: để nhận dạng khuôn mặt 3D) và lập bản đồ kết cấu.

Mục đích của tỷ lệ đa chiều là biểu diễn dữ liệu đa chiều. Dữ liệu đa chiều, tức là dữ liệu yêu cầu nhiều hơn hai hoặc ba chiều để biểu diễn, có thể khó giải thích. Một cách tiếp cận để đơn giản hóa là giả định rằng dữ liệu quan tâm nằm trên một đa tạp phi tuyến tính được nhúng trong không gian chiều cao. Nếu bộ thu thập có kích thước đủ thấp, dữ liệu có thể được hiển thị trong không gian có chiều thấp.

Nhiều phương pháp giảm thứ nguyên phi tuyến tính có liên quan đến phương pháp tuyến tính. Nói chung, các phương pháp phi tuyến có thể được phân loại thành hai nhóm: những phương pháp cung cấp ánh xạ (từ không gian chiều cao đến nhúng chiều thấp hoặc ngược lại) và những phương pháp chỉ cung cấp trực quan. Trong bối cảnh của học máy, các phương pháp ánh xạ có thể được xem nhưmột giai đoạn sơ bộ của việc trích xuất đối tượng địa lý, sau đó các thuật toán nhận dạng mẫu được áp dụng. Thông thường, những thứ chỉ cung cấp hình ảnh dựa trên dữ liệu về độ gần - tức là các phép đo khoảng cách. Tỷ lệ đa chiều cũng khá phổ biến trong tâm lý học và các ngành khoa học nhân văn khác.

Chia tỷ lệ đa chiều theo đường chéo
Chia tỷ lệ đa chiều theo đường chéo

Nếu số lượng thuộc tính lớn, thì không gian của các chuỗi có thể có duy nhất cũng lớn theo cấp số nhân. Do đó, kích thước càng lớn thì việc khắc họa không gian càng trở nên khó khăn hơn. Điều này gây ra rất nhiều vấn đề. Các thuật toán hoạt động trên dữ liệu nhiều chiều có xu hướng có độ phức tạp về thời gian rất cao. Việc giảm dữ liệu xuống ít thứ nguyên hơn thường làm cho các thuật toán phân tích hiệu quả hơn và có thể giúp các thuật toán máy học đưa ra các dự đoán chính xác hơn. Đây là lý do tại sao chia tỷ lệ dữ liệu đa chiều rất phổ biến.

Đề xuất: