Thông tin thống kê: thu thập, xử lý, phân tích

2026 Tác giả: Angel Austin | [email protected]. Sửa đổi lần cuối: 2025-01-23 12:37:19

Trong suốt lịch sử thống kê, nhiều nỗ lực đã được thực hiện để tạo ra phân loại các cấp độ đo lường. Nhà tâm sinh lý học Stanley Smith Stevens đã định nghĩa các thang đo danh nghĩa, thứ tự, khoảng thời gian và tỷ lệ.

Các phép đo danh nghĩa không có thứ tự xếp hạng đáng kể giữa các giá trị và cho phép bất kỳ chuyển đổi 1-1 nào.

Thứ nguyên thông thường có sự khác biệt không chính xác giữa các giá trị liên tiếp, nhưng có thứ tự cụ thể của các giá trị đó và cho phép bất kỳ chuyển đổi duy trì thứ tự nào.

Các phép đo khoảng cách có khoảng cách có ý nghĩa giữa các điểm, nhưng giá trị 0 là tùy ý (như trong trường hợp đo kinh độ và nhiệt độ theo độ C hoặc độ F) và cho phép thực hiện bất kỳ phép biến đổi tuyến tính nào.

Thứ nguyên tỷ lệ có cả giá trị 0 có ý nghĩa và khoảng cách giữa các thứ nguyên khác nhau và cho phép bất kỳ chuyển đổi tỷ lệ nào.

Các biến và phân loại thông tin

Vì các biếnChỉ tương ứng với các phép đo danh nghĩa hoặc theo thứ tự không thể đo lường một cách hợp lý bằng số, và đôi khi được nhóm thành các biến phân loại. Các phép đo tỷ lệ và khoảng thời gian được nhóm thành các biến định lượng, có thể rời rạc hoặc liên tục do bản chất số của chúng. Sự khác biệt như vậy thường liên quan lỏng lẻo đến kiểu dữ liệu trong khoa học máy tính, vì các biến phân loại lưỡng phân có thể được biểu diễn bằng các giá trị boolean, biến phân loại đa tử với số nguyên tùy ý trong kiểu dữ liệu tích phân và các biến liên tục với các thành phần thực liên quan đến tính toán dấu phẩy động. Tuy nhiên, việc hiển thị các loại dữ liệu thông tin thống kê phụ thuộc vào việc phân loại nào được áp dụng.

Phân loại khác

Các phân loại khác của dữ liệu thống kê (thông tin) cũng đã được tạo. Ví dụ: Mosteller và Tukey phân biệt giữa các hạng, cấp bậc, cổ phiếu được đếm, số lượng, số tiền và số dư. Nelder tại một thời điểm đã mô tả số lượng liên tục, tỷ lệ liên tục, mối tương quan của số lượng và các cách phân loại để truyền đạt dữ liệu. Tất cả các phương pháp phân loại này được sử dụng trong việc thu thập thông tin thống kê.

Vấn đề

Câu hỏi liệu có phù hợp để áp dụng các loại phương pháp thống kê khác nhau cho dữ liệu thu được thông qua các thủ tục đo lường (thu thập) khác nhau hay không là phức tạp bởi các vấn đề liên quan đến việc chuyển đổi các biến và việc giải thích chính xác các câu hỏitìm kiếm. “Mối quan hệ giữa dữ liệu và những gì nó mô tả chỉ đơn giản phản ánh thực tế là một số loại báo cáo thống kê có thể có giá trị chân lý không bất biến dưới một số phép biến đổi nhất định. Việc chuyển đổi có đáng được xem xét hay không tùy thuộc vào câu hỏi bạn đang cố gắng trả lời.

Kiểu dữ liệu là gì

Kiểu dữ liệu là thành phần cơ bản của nội dung ngữ nghĩa của một biến và kiểm soát những loại phân phối xác suất nào có thể được sử dụng một cách hợp lý để mô tả biến, các phép toán được phép trên nó, kiểu phân tích hồi quy được sử dụng để dự đoán nó, v.v. Khái niệm kiểu dữ liệu tương tự với khái niệm mức đo lường, nhưng cụ thể hơn - ví dụ: số lượng dữ liệu yêu cầu một phân phối khác (Poisson hoặc nhị thức) so với các giá trị thực không âm, nhưng cả hai đều nằm dưới cùng mức độ đo lường (thang hệ số).

Cân

Nhiều nỗ lực khác nhau đã được thực hiện nhằm tạo ra phân loại các cấp độ đo lường để xử lý thông tin thống kê. Nhà tâm sinh lý học Stanley Smith Stevens đã định nghĩa các thang đo danh nghĩa, thứ tự, khoảng thời gian và tỷ lệ. Các phép đo danh nghĩa không có thứ tự xếp hạng đáng kể trong số các giá trị và cho phép bất kỳ chuyển đổi 1-1 nào. Các phép đo thông thường có sự khác biệt không chính xác giữa các giá trị liên tiếp, nhưng khác nhau về thứ tự đáng kể của các giá trị đó và cho phépbất kỳ phép biến đổi bảo toàn trật tự nào. Các phép đo khoảng thời gian có khoảng cách có ý nghĩa giữa các phép đo, nhưng giá trị 0 là tùy ý (như trong trường hợp đo kinh độ và nhiệt độ theo độ C hoặc độ F) và cho phép thực hiện bất kỳ phép biến đổi tuyến tính nào. Thứ nguyên tỷ lệ có cả giá trị 0 có ý nghĩa và khoảng cách giữa các thứ nguyên được xác định khác nhau và cho phép bất kỳ chuyển đổi tỷ lệ nào.

Dữ liệu không thể được mô tả bằng một số duy nhất thường được bao gồm trong các vectơ ngẫu nhiên của các biến ngẫu nhiên thực, mặc dù có xu hướng ngày càng tăng để tự xử lý chúng. Những ví dụ như vậy sẽ được thảo luận bên dưới.

Vectơ ngẫu nhiên

Các yếu tố riêng lẻ có thể tương quan hoặc không. Ví dụ về phân phối được sử dụng để mô tả vectơ ngẫu nhiên có tương quan là phân phối chuẩn đa biến và phân phối t đa biến. Nói chung, có thể có các mối tương quan tùy ý giữa bất kỳ phần tử nào, tuy nhiên, điều này thường trở nên không thể quản lý được trên một kích thước nhất định, đòi hỏi các ràng buộc bổ sung đối với các thành phần tương quan.

Ma trận ngẫu nhiên

Ma trận ngẫu nhiên có thể được sắp xếp tuyến tính và được coi như vectơ ngẫu nhiên, tuy nhiên đây có thể không phải là cách hiệu quả để biểu diễn mối tương quan giữa các phần tử khác nhau. Một số phân phối xác suất được thiết kế đặc biệt cho ma trận ngẫu nhiên, chẳng hạn như ma trận bình thườngphân phối và phân phối Wishart.

Chuỗi ngẫu nhiên

Đôi khi chúng được coi giống như vectơ ngẫu nhiên, nhưng trong các trường hợp khác, thuật ngữ này được áp dụng cụ thể cho các trường hợp mỗi biến ngẫu nhiên chỉ tương quan với các biến lân cận (như trong mô hình Markov). Đây là một trường hợp đặc biệt của mạng Bayes và được sử dụng cho các trình tự rất dài, chẳng hạn như chuỗi gen hoặc tài liệu văn bản dài. Một số mô hình được thiết kế đặc biệt cho các chuỗi như vậy, chẳng hạn như chuỗi Markov ẩn.

Quy trình ngẫu nhiên

Chúng tương tự như dãy ngẫu nhiên, nhưng chỉ khi độ dài của dãy là vô hạn hoặc vô hạn và các phần tử trong dãy được xử lý từng phần tử một. Điều này thường được sử dụng cho dữ liệu có thể được mô tả dưới dạng chuỗi thời gian. Điều này đúng khi nói đến giá cổ phiếu vào ngày hôm sau.

Kết

Việc phân tích thông tin thống kê hoàn toàn phụ thuộc vào chất lượng thu thập của nó. Đến lượt nó, điều sau lại liên quan chặt chẽ đến khả năng phân loại của nó. Tất nhiên, có rất nhiều kiểu phân loại thông tin thống kê mà người đọc có thể tự mình nhìn thấy khi đọc bài viết này. Tuy nhiên, sự hiện diện của các công cụ hiệu quả và trình độ toán học tốt, cũng như kiến thức trong lĩnh vực xã hội học, sẽ thực hiện công việc của chúng, cho phép bạn thực hiện bất kỳ cuộc khảo sát hoặc nghiên cứu nào mà không cần sửa chữa sai sót đáng kể. Nguồn thông tin thống kê dưới dạngcon người, tổ chức và các chủ thể khác của xã hội học, may mắn thay, được đại diện rất nhiều. Và không khó khăn nào có thể cản đường một nhà thám hiểm thực thụ.