Mô hình thống kê: phương pháp, mô tả, ứng dụng

Mục lục:

Mô hình thống kê: phương pháp, mô tả, ứng dụng
Mô hình thống kê: phương pháp, mô tả, ứng dụng
Anonim

Các giả định trong mô hình thống kê mô tả một tập hợp các phân phối xác suất, một số trong số đó được giả định là gần đúng đầy đủ với phân phối. Một tập hợp dữ liệu cụ thể được chọn từ định nghĩa. Các phân phối xác suất vốn có trong mô hình thống kê là thứ phân biệt các mô hình thống kê với các mô hình toán học, phi thống kê, khác.

Image
Image

Kết nối với toán học

Phương pháp khoa học này bắt nguồn chủ yếu từ toán học. Mô hình thống kê của các hệ thống thường được đưa ra bởi các phương trình toán học liên quan đến một hoặc nhiều biến ngẫu nhiên và có thể là các biến không ngẫu nhiên khác. Do đó, một mô hình thống kê là một "đại diện chính thức của một lý thuyết" (Hermann Ader, trích dẫn Kenneth Bollen).

Tất cả các bài kiểm tra giả thuyết thống kê và tất cả các ước tính thống kê đều bắt nguồn từ các mô hình thống kê. Nói chung, các mô hình thống kê là một phần của cơ sở suy luận thống kê.

Phương pháp thống kêmô hình hóa

Một cách không chính thức, một mô hình thống kê có thể được coi là một giả định thống kê (hoặc tập hợp các giả định thống kê) với một tính chất nhất định: giả định này cho phép chúng ta tính xác suất của bất kỳ sự kiện nào. Ví dụ, hãy xem xét một cặp xúc xắc sáu mặt thông thường. Chúng tôi sẽ nghiên cứu hai giả định thống kê khác nhau về xương.

Giả định thống kê đầu tiên cấu thành mô hình thống kê, bởi vì chỉ với một giả định, chúng ta có thể tính toán xác suất của bất kỳ sự kiện nào. Giả định thống kê thay thế không tạo thành mô hình thống kê, bởi vì chỉ với một giả định, chúng ta không thể tính toán xác suất của mỗi sự kiện.

Mô hình thống kê điển hình
Mô hình thống kê điển hình

Trong ví dụ trên với giả thiết đầu tiên, có thể dễ dàng tính được xác suất của một sự kiện. Tuy nhiên, trong một số ví dụ khác, việc tính toán có thể phức tạp hoặc thậm chí không thực tế (ví dụ, nó có thể yêu cầu hàng triệu năm tính toán). Đối với giả định cấu thành một mô hình thống kê, khó khăn này có thể chấp nhận được: việc thực hiện phép tính không nhất thiết phải khả thi về mặt thực tế, chỉ có thể về mặt lý thuyết.

Ví dụ về các mô hình

Giả sử chúng ta có một dân số trẻ em đi học với những đứa trẻ được phân bổ đều. Chiều cao của một đứa trẻ sẽ liên quan ngẫu nhiên với tuổi tác: ví dụ, khi chúng ta biết rằng một đứa trẻ 7 tuổi, điều này ảnh hưởng đến xác suất đứa trẻ cao 5 feet (khoảng 152 cm). Chúng ta có thể chính thức hóa mối quan hệ này trong một mô hình hồi quy tuyến tính, ví dụ: tăng trưởng=b0 + b1agei+ εi, trong đó b0 là giao điểm, b1 là tham số mà tuổi được nhân lên khi lấy dự báo tăng trưởng, εi là thuật ngữ sai số. Điều này ngụ ý rằng chiều cao được dự đoán theo độ tuổi với một số sai số.

Một mô hình hợp lệ phải khớp với tất cả các điểm dữ liệu. Vì vậy, một đường thẳng (heighti=b0 + b1agei) không thể là phương trình cho mô hình dữ liệu - trừ khi nó khớp chính xác với tất cả các điểm dữ liệu, tức là tất cả các điểm dữ liệu nằm hoàn toàn trên đường thẳng. Thuật ngữ lỗi εi phải được đưa vào phương trình để mô hình phù hợp với tất cả các điểm dữ liệu.

thống kê giới tính
thống kê giới tính

Để thực hiện một suy luận thống kê, trước tiên chúng ta cần giả sử một số phân phối xác suất cho εi. Ví dụ, chúng ta có thể giả định rằng các phân phối của εi là Gaussian, với giá trị trung bình bằng không. Trong trường hợp này, mô hình sẽ có 3 tham số: b0, b1 và phương sai của phân phối Gauss.

Mô tả chung

Mô hình thống kê là một loại mô hình toán học đặc biệt. Điều phân biệt một mô hình thống kê với các mô hình toán học khác là nó không xác định. Nó được sử dụng để lập mô hình dữ liệu thống kê. Vì vậy, trong một mô hình thống kê được xác định bằng các phương trình toán học, một số biến không có giá trị cụ thể, mà thay vào đó là phân phối xác suất; nghĩa là, một số biến là ngẫu nhiên. Trong ví dụ trên, ε là một biến ngẫu nhiên; không có biến này, mô hình đãsẽ mang tính xác định.

Mô hình thống kê thường được sử dụng trong phân tích và mô hình thống kê, ngay cả khi quá trình vật lý được mô hình hóa là xác định. Ví dụ, tung đồng xu về nguyên tắc là một quá trình xác định; nhưng nó thường được mô hình hóa là ngẫu nhiên (thông qua quy trình Bernoulli).

thống kê nóng lên
thống kê nóng lên

Mô hình tham số

Mô hình tham số là mô hình thống kê được sử dụng phổ biến nhất. Về các mô hình bán tham số và phi tham số, Sir David Cox nói: "Chúng thường bao gồm ít giả định hơn về cấu trúc và hình dạng của phân phối, nhưng thường chứa các giả định về tính độc lập mạnh mẽ." Giống như tất cả các mô hình đã đề cập khác, chúng cũng thường được sử dụng trong phương pháp thống kê của mô hình toán học.

Mô hình đa cấp

Mô hình đa cấp (còn được gọi là mô hình tuyến tính phân cấp, mô hình dữ liệu lồng nhau, mô hình hỗn hợp, hệ số ngẫu nhiên, mô hình hiệu ứng ngẫu nhiên, mô hình tham số ngẫu nhiên hoặc mô hình phân vùng) là các mô hình tham số thống kê khác nhau ở nhiều mức. Một ví dụ là mô hình thành tích của học sinh có chứa các số liệu cho từng học sinh cũng như các số liệu cho các lớp học mà học sinh được nhóm lại. Các mô hình này có thể được coi là tổng quát hóa của các mô hình tuyến tính (cụ thể là hồi quy tuyến tính), mặc dù chúng cũng có thể được mở rộng sang các mô hình phi tuyến tính. Những mô hình này đã trở thànhphổ biến hơn nhiều khi có đủ khả năng tính toán và phần mềm.

Thống kê bộ phận
Thống kê bộ phận

Mô hình đa cấp đặc biệt phù hợp với các dự án nghiên cứu trong đó dữ liệu cho những người tham gia được tổ chức ở nhiều cấp (tức là dữ liệu lồng nhau). Các đơn vị phân tích thường là các cá thể (ở cấp thấp hơn) được lồng trong ngữ cảnh / đơn vị tổng hợp (ở cấp cao hơn). Mặc dù mức dữ liệu thấp nhất trong các mô hình đa cấp thường là riêng lẻ, nhưng các phép đo lặp lại của các cá nhân cũng có thể được xem xét. Do đó, các mô hình đa cấp cung cấp một kiểu phân tích thay thế để phân tích các biện pháp lặp lại đơn biến hoặc đa biến. Có thể xem xét sự khác biệt riêng lẻ trong các đường cong tăng trưởng. Ngoài ra, mô hình đa cấp có thể được sử dụng thay thế cho ANCOVA, trong đó điểm số của biến phụ thuộc được điều chỉnh cho các hiệp biến (ví dụ: sự khác biệt riêng lẻ) trước khi kiểm tra sự khác biệt trong điều trị. Các mô hình đa cấp có thể phân tích các thí nghiệm này mà không cần giả định về độ dốc hồi quy đồng nhất theo yêu cầu của ANCOVA.

Mô hình đa cấp có thể được sử dụng cho dữ liệu có nhiều cấp độ, mặc dù các mô hình hai cấp độ là phổ biến nhất và phần còn lại của bài viết này tập trung vào những cấp độ này. Biến phụ thuộc nên được kiểm tra ở cấp độ phân tích thấp nhất.

Đồ thị áp suất khí quyển
Đồ thị áp suất khí quyển

Lựa chọn mô hình

Lựa chọn mô hìnhlà nhiệm vụ lựa chọn từ một tập hợp các mô hình ứng viên được cung cấp dữ liệu, được thực hiện trong khuôn khổ của mô hình thống kê. Trong trường hợp đơn giản nhất, một tập dữ liệu đã tồn tại được coi là. Tuy nhiên, nhiệm vụ cũng có thể liên quan đến việc thiết kế các thí nghiệm để dữ liệu thu thập được phù hợp nhất với nhiệm vụ lựa chọn mô hình. Với các mô hình ứng viên có khả năng dự đoán hoặc giải thích tương tự, mô hình đơn giản nhất có thể là lựa chọn tốt nhất (dao cạo của Occam).

Konishi & Kitagawa nói, "Hầu hết các bài toán suy luận thống kê có thể được coi là các bài toán liên quan đến mô hình thống kê." Tương tự, Cox nói, “Việc chuyển đổi chủ đề sang mô hình thống kê được thực hiện như thế nào thường là phần quan trọng nhất của phân tích.”

Lựa chọn mô hình cũng có thể đề cập đến vấn đề chọn một vài mô hình đại diện từ một tập hợp lớn các mô hình tính toán cho các mục đích quyết định hoặc tối ưu hóa trong điều kiện không chắc chắn.

Mẫu đồ họa

Mô hình đồ họa, hoặc mô hình đồ họa xác suất, (PGM) hoặc mô hình xác suất có cấu trúc, là một mô hình xác suất mà biểu đồ thể hiện cấu trúc của mối quan hệ có điều kiện giữa các biến ngẫu nhiên. Chúng thường được sử dụng trong lý thuyết xác suất, thống kê (đặc biệt là thống kê Bayes) và học máy.

Mô hình thống kê với một đồ thị
Mô hình thống kê với một đồ thị

Mô hình kinh tế lượng

Mô hình kinh tế lượng là mô hình thống kê được sử dụng trongkinh tế lượng. Mô hình kinh tế lượng xác định các mối quan hệ thống kê được cho là tồn tại giữa các đại lượng kinh tế khác nhau liên quan đến một hiện tượng kinh tế cụ thể. Một mô hình kinh tế lượng có thể được bắt nguồn từ một mô hình kinh tế xác định có tính đến sự không chắc chắn, hoặc từ một mô hình kinh tế tự nó là ngẫu nhiên. Tuy nhiên, cũng có thể sử dụng các mô hình kinh tế lượng không gắn với bất kỳ lý thuyết kinh tế cụ thể nào.

Đề xuất: