Hồi quy logistic: mô hình và phương pháp

Mục lục:

Hồi quy logistic: mô hình và phương pháp
Hồi quy logistic: mô hình và phương pháp
Anonim

Phương pháp hồi quy logistic và phân tích phân biệt được sử dụng khi cần phân biệt rõ ràng những người trả lời theo danh mục mục tiêu. Trong trường hợp này, bản thân các nhóm được đại diện bởi các mức của một tham số biến thể đơn. Chúng ta hãy xem xét kỹ hơn mô hình hồi quy logistic và tìm hiểu lý do tại sao nó lại cần thiết.

hồi quy logistic
hồi quy logistic

Thông tin chung

Một ví dụ về một vấn đề trong đó sử dụng hồi quy logistic là phân loại người trả lời thành các nhóm mua và không mua mù tạt. Sự khác biệt hóa được thực hiện phù hợp với đặc điểm nhân khẩu - xã hội. Chúng bao gồm, cụ thể là tuổi, giới tính, số lượng người thân, thu nhập, … Trong hoạt động, có các tiêu chí khác biệt và một biến số. Phần sau mã hóa các danh mục mục tiêu mà trên thực tế, những người trả lời sẽ được phân chia.

Sắc thái

Cần phải nói rằng phạm vi các trường hợp áp dụng hồi quy logistic hẹp hơn nhiều so với phân tích phân biệt. Về vấn đề này, việc sử dụng phương pháp thứ hai như một phương pháp phân biệt phổ biến được coi làđược ưu tiên hơn. Hơn nữa, các chuyên gia khuyên bạn nên bắt đầu các nghiên cứu phân loại với phân tích phân biệt. Và chỉ trong trường hợp không chắc chắn về kết quả, bạn có thể sử dụng hồi quy logistic. Nhu cầu này là do một số yếu tố. Hồi quy logistic được sử dụng khi có sự hiểu biết rõ ràng về loại biến phụ thuộc và độc lập. Theo đó, một trong 3 thủ tục có thể được chọn. Trong phân tích phân biệt, nhà nghiên cứu luôn xử lý một hoạt động tĩnh. Nó liên quan đến một biến phụ thuộc và một số biến phân loại độc lập với bất kỳ loại thang đo nào.

Lượt xem

Nhiệm vụ của một nghiên cứu thống kê sử dụng hồi quy logistic là xác định xác suất mà một người trả lời cụ thể sẽ được chỉ định vào một nhóm cụ thể. Sự khác biệt hóa được thực hiện theo các thông số nhất định. Trong thực tế, theo giá trị của một hoặc nhiều yếu tố độc lập, có thể phân loại người trả lời thành hai nhóm. Trong trường hợp này, hồi quy logistic nhị phân diễn ra. Ngoài ra, các tham số được chỉ định có thể được sử dụng khi chia thành các nhóm nhiều hơn hai. Trong tình huống như vậy, hồi quy logistic đa thức diễn ra. Các nhóm kết quả được thể hiện theo các cấp của một biến duy nhất.

hồi quy logistic
hồi quy logistic

Ví dụ

Giả sử có câu trả lời của những người được hỏi cho câu hỏi liệu họ có quan tâm đến lời đề nghị mua một lô đất ở ngoại ô Moscow hay không. Các tùy chọn là "không"và vâng. Cần phải tìm ra những yếu tố nào có ảnh hưởng chủ yếu đến quyết định của những người mua tiềm năng. Để làm điều này, những người trả lời được hỏi các câu hỏi về cơ sở hạ tầng của lãnh thổ, khoảng cách đến thủ đô, diện tích của địa điểm, sự hiện diện / vắng mặt của một tòa nhà dân cư, v.v. Sử dụng hồi quy nhị phân, có thể phát những người trả lời thành hai nhóm. Đầu tiên sẽ bao gồm những người quan tâm đến việc mua lại - những người mua tiềm năng và thứ hai, tương ứng, những người không quan tâm đến một lời đề nghị như vậy. Ngoài ra, đối với mỗi người trả lời, xác suất được chỉ định vào một hoặc một danh mục khác sẽ được tính toán.

Đặc điểm so sánh

Sự khác biệt so với hai phương án trên là số lượng nhóm và loại biến phụ thuộc và độc lập khác nhau. Ví dụ, trong hồi quy nhị phân, nghiên cứu sự phụ thuộc của một nhân tố lưỡng phân vào một hoặc nhiều điều kiện độc lập. Hơn nữa, sau này có thể có bất kỳ loại quy mô nào. Hồi quy đa thức được coi là một biến thể của phương án phân loại này. Trong đó, có hơn 2 nhóm thuộc biến phụ thuộc. Các yếu tố độc lập phải có thang thứ tự hoặc danh nghĩa.

Hồi quy logistic trong spss

Trong gói thống kê 11-12, một phiên bản phân tích mới đã được giới thiệu - thứ tự. Phương pháp này được sử dụng khi hệ số phụ thuộc cùng tên (thứ tự) trong thang đo. Trong trường hợp này, các biến độc lập được chọn thuộc một loại cụ thể. Chúng phải là thứ tự hoặc danh nghĩa. Việc phân loại thành nhiều loại được coi là nhấtphổ cập. Phương pháp này có thể được sử dụng trong tất cả các nghiên cứu sử dụng hồi quy logistic. Tuy nhiên, cách duy nhất để cải thiện chất lượng của một mô hình là sử dụng cả ba kỹ thuật.

kiểm tra chất lượng đầy đủ và hồi quy logistic
kiểm tra chất lượng đầy đủ và hồi quy logistic

Phân loại thứ tự

Cần phải nói rằng trước đó trong gói thống kê không có khả năng điển hình thực hiện phân tích chuyên biệt cho các yếu tố phụ thuộc với thang đo thứ tự. Đối với tất cả các biến có nhiều hơn 2 nhóm, biến thể nhiều danh nghĩa được sử dụng. Phân tích thứ tự được giới thiệu tương đối gần đây có một số tính năng. Họ tính đến các chi tiết cụ thể của quy mô. Trong khi đó, trong đồ dùng dạy học, hồi quy logistic thứ tự thường không được coi là một kỹ thuật riêng biệt. Điều này là do sau: phân tích thứ tự không có bất kỳ lợi thế đáng kể nào so với đa thức. Nhà nghiên cứu có thể sử dụng tốt cái sau khi có cả biến thứ tự và biến phụ thuộc danh nghĩa. Đồng thời, bản thân các quá trình phân loại hầu như không có sự khác biệt với nhau. Điều này có nghĩa là việc thực hiện phân tích thứ tự sẽ không gây ra bất kỳ khó khăn nào.

Tùy chọn phân tích

Hãy xem xét một trường hợp đơn giản - hồi quy nhị phân. Giả sử, trong quá trình nghiên cứu marketing, người ta đánh giá nhu cầu về sinh viên tốt nghiệp của một trường đại học đô thị nào đó. Trong bảng câu hỏi, người trả lời được hỏi các câu hỏi, bao gồm:

  1. Bạn đã đi làm chưa? (ql).
  2. Nhập năm tốt nghiệp (q 21).
  3. Trung bình là gìđiểm tốt nghiệp (aver).
  4. Giới (q22).

Hồi quy logistic sẽ đánh giá tác động của các yếu tố độc lập aver, q 21 và q 22 đến biến ql. Nói một cách đơn giản, mục đích của phân tích sẽ là xác định khả năng có việc làm của sinh viên tốt nghiệp dựa trên thông tin về lĩnh vực, năm tốt nghiệp và điểm trung bình.

chỉ báo hồi quy logistic sigmoid
chỉ báo hồi quy logistic sigmoid

Hồi quy logistic

Để thiết lập các tham số bằng cách sử dụng hồi quy nhị phân, hãy sử dụng menu Phân tích ► Hồi quy ► Hậu cần nhị phân. Trong cửa sổ Hồi quy Logistic, chọn hệ số phụ thuộc từ danh sách các biến có sẵn ở bên trái. Nó là ql. Biến này phải được đặt trong trường Phụ thuộc. Sau đó, cần đưa các yếu tố độc lập vào ô Covariates - q 21, q 22, aver. Sau đó, bạn cần chọn cách đưa chúng vào phân tích của mình. Nếu số lượng nhân tố độc lập nhiều hơn 2, thì phương pháp đưa vào đồng thời tất cả các biến, được đặt theo mặc định, được sử dụng, nhưng từng bước. Cách phổ biến nhất là Backward: LR. Sử dụng nút Chọn, bạn có thể đưa vào nghiên cứu không phải tất cả những người trả lời, mà chỉ một danh mục mục tiêu cụ thể.

Xác định các biến phân loại

Nút Categorical nên được sử dụng khi một trong các biến độc lập là danh nghĩa có nhiều hơn 2 danh mục. Trong trường hợp này, trong cửa sổ Xác định biến số phân loại, chỉ một tham số như vậy được đặt trên phần Biến số phân loại. Trong ví dụ này, không có biến như vậy. Sau đó, trong danh sách thả xuống Độ tương phản như sauchọn mục Độ lệch và nhấn nút Thay đổi. Kết quả là, một số biến phụ thuộc sẽ được hình thành từ mỗi nhân tố danh nghĩa. Số của chúng tương ứng với số loại của điều kiện ban đầu.

Lưu các biến mới

Sử dụng nút Lưu trong hộp thoại chính của nghiên cứu, việc tạo các tham số mới được thiết lập. Chúng sẽ chứa các chỉ số được tính toán trong quá trình hồi quy. Đặc biệt, bạn có thể tạo các biến xác định:

  1. Thuộc loại phân loại cụ thể (Nhóm thành viên).
  2. Xác suất chỉ định một người trả lời cho mỗi nhóm nghiên cứu (Xác suất).

Khi sử dụng nút Tùy chọn, nhà nghiên cứu không nhận được bất kỳ tùy chọn quan trọng nào. Theo đó, nó có thể được bỏ qua. Sau khi nhấp vào nút "OK", kết quả phân tích sẽ được hiển thị trong cửa sổ chính.

hệ số hồi quy logistic
hệ số hồi quy logistic

Kiểm tra chất lượng cho sự đầy đủ và hồi quy logistic

Xem xét bảng Hệ số mô hình Omnibus Testsof. Nó hiển thị kết quả phân tích chất lượng của mô hình gần đúng. Do tùy chọn từng bước đã được thiết lập, bạn cần phải xem kết quả của giai đoạn cuối cùng (Bước 2). Kết quả dương tính sẽ được xem xét nếu sự gia tăng của chỉ báo Chi-square được tìm thấy khi chuyển sang giai đoạn tiếp theo với mức ý nghĩa cao (Sig. < 0,05). Chất lượng của mô hình được đánh giá trong dòng Model. Nếu giá trị âm thu được, nhưng nó không được coi là đáng kể với tính trọng yếu tổng thể cao của mô hình, giá trị cuối cùngcó thể được coi là phù hợp thực tế.

Bàn

Tóm tắt Mô hình giúp bạn có thể ước tính chỉ số phương sai tổng, được mô tả bằng mô hình đã xây dựng (chỉ số R Square). Bạn nên sử dụng giá trị Nagelker. Tham số Nagelkerke R Square có thể được coi là một chỉ báo tích cực nếu nó trên 0,50. Sau đó, kết quả phân loại được đánh giá, trong đó các chỉ số thực tế của một hoặc một nhóm khác đang được nghiên cứu được so sánh với những chỉ số dự đoán dựa trên mô hình hồi quy. Đối với điều này, Bảng phân loại được sử dụng. Nó cũng cho phép chúng tôi đưa ra kết luận về tính đúng đắn của sự khác biệt đối với từng nhóm đang được xem xét.

mô hình hồi quy logistic
mô hình hồi quy logistic

Bảng sau cung cấp cơ hội để tìm hiểu ý nghĩa thống kê của các yếu tố độc lập được đưa vào phân tích, cũng như từng hệ số hồi quy logistic không chuẩn hóa. Dựa trên các chỉ số này, có thể dự đoán mức độ thuộc của từng người trả lời trong mẫu đối với một nhóm cụ thể. Sử dụng nút Lưu, bạn có thể nhập các biến mới. Chúng sẽ chứa thông tin về việc thuộc về một danh mục phân loại cụ thể (Thể loại dự đoán) và xác suất được bao gồm trong các nhóm này (Thành viên xác suất dự đoán). Sau khi nhấp vào "OK", kết quả tính toán sẽ xuất hiện trong cửa sổ chính của Hồi quy Logistic Đa thức.

Bảng đầu tiên, chứa các chỉ số quan trọng đối với nhà nghiên cứu, là Thông tin về Sự phù hợp của Mô hình. Mức ý nghĩa thống kê cao sẽ cho thấy chất lượng cao vàsự phù hợp của việc sử dụng mô hình trong việc giải quyết các vấn đề thực tiễn. Một bảng quan trọng khác là Pseudo R-Square. Nó cho phép bạn ước tính tỷ lệ của tổng phương sai trong yếu tố phụ thuộc, được xác định bởi các biến độc lập được chọn để phân tích. Theo bảng Kiểm tra tỷ lệ khả năng xảy ra, chúng ta có thể rút ra kết luận về ý nghĩa thống kê của bảng sau. Các ước lượng tham số phản ánh các hệ số không được tiêu chuẩn hóa. Chúng được sử dụng trong việc xây dựng phương trình. Ngoài ra, đối với mỗi sự kết hợp của các biến, ý nghĩa thống kê của tác động của chúng đối với nhân tố phụ thuộc đã được xác định. Trong khi đó, trong nghiên cứu tiếp thị, thường cần phân biệt những người trả lời theo danh mục không phải riêng lẻ mà là một phần của nhóm mục tiêu. Đối với điều này, bảng Tần suất Dự đoán và Quan sát được sử dụng.

Ứng dụng thực tế

Phương pháp phân tích được coi là được sử dụng rộng rãi trong công việc của các nhà giao dịch. Năm 1991, chỉ báo hồi quy logistic sigmoid được phát triển. Đây là một công cụ dễ sử dụng và hiệu quả để dự đoán các mức giá có khả năng xảy ra trước khi chúng "quá nóng". Chỉ báo được hiển thị trên biểu đồ dưới dạng kênh được tạo thành bởi hai đường song song. Chúng cách đều nhau so với xu hướng. Chiều rộng của hành lang sẽ chỉ phụ thuộc vào khung thời gian. Chỉ báo này được sử dụng khi làm việc với hầu hết mọi tài sản - từ các cặp tiền tệ đến kim loại quý.

hồi quy logistic trong spss
hồi quy logistic trong spss

Trong thực tế, 2 chiến lược chính để sử dụng nhạc cụ đã được phát triển: để đột phá vàcho một lượt. Trong trường hợp thứ hai, nhà giao dịch sẽ tập trung vào động lực của những thay đổi giá trong kênh. Khi giá trị tiếp cận đường hỗ trợ hoặc kháng cự, đặt cược vào khả năng chuyển động sẽ bắt đầu theo hướng ngược lại. Nếu giá đến gần biên trên, thì bạn có thể thoát khỏi tài sản. Nếu nó ở mức giới hạn thấp hơn, thì bạn nên nghĩ đến việc mua hàng. Chiến lược đột phá liên quan đến việc sử dụng các lệnh. Chúng được cài đặt bên ngoài các giới hạn ở một khoảng cách tương đối nhỏ. Lưu ý rằng giá trong một số trường hợp vi phạm chúng trong thời gian ngắn, bạn nên chơi an toàn và đặt lệnh dừng lỗ. Đồng thời, tất nhiên, bất kể chiến lược đã chọn là gì, nhà giao dịch cần phải nhận thức và đánh giá tình hình diễn ra trên thị trường một cách bình tĩnh nhất có thể.

Kết

Vì vậy, việc sử dụng hồi quy logistic cho phép bạn nhanh chóng và dễ dàng phân loại người trả lời thành các loại theo các tham số cho trước. Khi phân tích, bạn có thể sử dụng bất kỳ phương pháp cụ thể nào. Đặc biệt, hồi quy đa thức là phổ quát. Tuy nhiên, các chuyên gia khuyên bạn nên sử dụng kết hợp tất cả các phương pháp được mô tả ở trên. Điều này là do thực tế là trong trường hợp này chất lượng của mô hình sẽ cao hơn đáng kể. Đến lượt nó, điều này sẽ mở rộng phạm vi ứng dụng của nó.

Đề xuất: