thongke.info
Đang tải dữ liệu...
Quản lý, phân tích số liệu
Trang chủ  >  Main menu  >  Phương pháp luận  >  Quản lý, phân tích số liệu

Xử lý missing data sử dụng phương pháp MI – Multiple Imputation trong Stata

Trong bài “phương pháp xử lý giá trị missing trong stata” kì trước được trình bày trong mục “Phương pháp luận/quản lý, xử lý số liệu”, thongke.info đã giới thiệu 2 phương pháp xử lý giá trị missing: kiểm tra giá trị thực và thay thế giá trị missing và thay thế giá trị missing bằng các giá trị trung bình, trung vị.

Trong bài này, thongke.info giới thiệu với các bạn phương pháp dự đoán/ước tính giá trị missing – IMPUTATION dựa trên mô hình phân tích hồi quy đa biến, sử dụng phương pháp Multiple Imputation – MI trong Stata.

Chúng ta sẽ xem xét ví dụ: một chương trình can thiệp có mục tiêu nâng cao kiến thức phòng tránh HIV cho thanh thiếu niên đường phố. Chương trình thực hiện nghiên cứu tìm hiểu các yếu tố tác động đến kiến thức về HIV của thanh thiếu niên đường phố.

Chúng ta xem xét data file bằng lệnh mô tả:



Trong data file ở trên, biến total_kn là tổng điểm kiến thức của thanh thiếu niên về phòng tránh HIV.

Nghiên cứu viên muốn chạy mô hình hồi quy tuyến tính để tìm hiểu mối liên quan giữa tổng điểm kiến thức của thanh thiếu niên về phòng tránh HIV với các biến độc lập: tuổi, học vấn, và có tham gia vào hoạt động của các dự án truyền thông về HIV.

Mô hình tuyến tính sẽ chạy trong stata như sau:

regress total_kn c1 educ2 educ3 ex_proje

Tuy nhiên, chúng ta thấy có 7 trường hợp biến phụ thuộc total_kn không có giá trị (missing). Lệnh codebook dưới đây:

Codebook total_kn



Chúng ta quyết định sử dụng phương pháp Multiple Imputation trong Stata– (tạm dịch ước tính giá trị missing nhiều lần dựa trên các giá trị khác)

Ở ví dụ này, qua các phân tích đã thực hiện, nhóm nghiên cứu thấy rằng biến total_kn là tổng điểm kiến thức của thanh thiếu niên về phòng tránh HIV có mối tương quan có ý nghĩa thống kê với các biến: tuổi, học vấn, và có tham gia vào hoạt động của các dự án truyền thông về HIV.

Hay nói một cách khác, dựa trên tập hợp giá trị của các biến này (qua mô hình phân tích hồi quy) chúng ta có thể ước đoán được giá trị của total_kn là tổng điểm kiến thức của thanh thiếu niên về phòng tránh HIV.

Chúng ta thực hiện các bước sử dụng phương pháp MI trong Stata
(Chú ý: Luận thuyết sử dụng MI không yêu cầu missing data ở dưới dạng nào, ví dụ MCAR – missing completely at random)

Bước 1: set data về dạng mi data

mi set mlong

Bước 2: đăng kí các biến dùng để ước tính: bao gồm cả biến phụ thuộc và độc lập sử dụng lệnh mi register

mi register imputed total_kn

mi register regular c1 educ2 educ3 ex_proje

Bước 3: Sử dụng mô hình hồi quy tuyến tính để ước tính giá trị missing cho biến phụ thuộc total_kn sử dụng lệnh mi impute regress

mi impute regress total_kn c1 educ2 educ3 ex_proje, add(20)
Ở lệnh trên chúng ta dùng add(20) có nghĩa là chúng ta yêu cầu stata ước tính 20 lần giá trị của biến total_kn missing (chính vì thế gọi là multiple imputation)

Nhìn vào bảng kết quả, chúng ta thấy 7 giá trị missing của total_kn đã được ước tính – imputed

Bây giờ chúng ta có thể chạy mô hình hồi quy tuyến tính với biến total_kn đã được imputed, sử dụng lệnh mi estimate

mi estimate, dots: regress total_kn c1 educ2 educ3 ex_proje


Chú ý: Các hình ảnh output (kết quả) trong bài viết chỉ mang tính minh họa.

Nguyễn Trương Nam - Thongke.info