Trong bài “phương pháp xử lý giá trị missing
trong stata” kì trước được trình bày trong mục “Phương pháp luận/quản
lý, xử lý số liệu”, thongke.info đã giới thiệu 2 phương pháp xử lý
giá trị missing: kiểm tra giá trị
thực và thay thế giá trị missing và thay thế giá trị missing bằng
các giá trị trung bình, trung vị.
Trong bài này, thongke.info giới thiệu với
các bạn phương pháp dự đoán/ước tính giá trị missing – IMPUTATION dựa
trên mô hình phân tích hồi quy đa biến, sử dụng phương pháp Multiple
Imputation – MI trong Stata.
Chúng ta sẽ xem xét ví dụ: một chương
trình can thiệp có mục tiêu nâng cao kiến thức phòng tránh HIV cho
thanh thiếu niên đường phố. Chương trình thực hiện nghiên cứu tìm hiểu
các yếu tố tác động đến kiến thức về HIV của thanh thiếu niên đường
phố.
Chúng ta xem xét data file bằng lệnh mô tả:
Trong data file ở trên,
biến total_kn là tổng điểm kiến
thức của thanh thiếu niên về phòng tránh HIV.
Nghiên cứu viên muốn chạy
mô hình hồi quy tuyến tính để tìm hiểu mối liên quan giữa tổng điểm
kiến thức của thanh thiếu niên về phòng tránh HIV với các biến độc
lập: tuổi, học vấn, và có tham gia vào hoạt động của các dự án
truyền thông về HIV.
Mô hình tuyến tính sẽ chạy trong stata như sau:
regress total_kn
c1 educ2 educ3
ex_proje
Tuy
nhiên, chúng ta thấy có 7 trường hợp biến
phụ thuộc total_kn không có giá trị
(missing). Lệnh codebook dưới đây:
Codebook
total_kn
Chúng
ta quyết định sử dụng phương pháp Multiple Imputation trong Stata– (tạm
dịch ước tính giá trị missing nhiều lần dựa trên các giá trị khác)
Ở ví dụ này, qua các phân tích đã thực
hiện, nhóm nghiên cứu thấy rằng biến total_kn là tổng điểm kiến thức của thanh thiếu
niên về phòng tránh HIV có mối tương quan có ý nghĩa thống kê với
các biến: tuổi, học vấn, và có tham gia vào hoạt động của các dự án
truyền thông về HIV.
Hay nói một cách khác, dựa
trên tập hợp giá trị của các biến này (qua mô hình phân tích hồi
quy) chúng ta có thể ước đoán được giá trị của total_kn là tổng điểm kiến thức của thanh thiếu
niên về phòng tránh HIV.
Chúng ta thực hiện các
bước sử dụng phương pháp MI trong Stata (Chú
ý: Luận thuyết sử dụng MI không yêu cầu missing data ở dưới dạng nào,
ví dụ MCAR – missing completely at random)
Bước
1: set data về dạng mi data
mi set mlong
Bước 2: đăng kí các biến dùng để ước tính: bao
gồm cả biến phụ thuộc và độc lập sử dụng lệnh mi
register
mi
register imputed total_kn mi
register regular c1 educ2 educ3 ex_proje
Bước 3: Sử dụng mô hình hồi quy tuyến tính để ước
tính giá trị missing cho biến phụ thuộc total_kn sử dụng lệnh mi
impute regress
mi
impute regress total_kn c1
educ2 educ3 ex_proje, add(20) Ở lệnh trên chúng ta
dùng add(20) có nghĩa là chúng ta yêu cầu stata ước tính 20 lần giá
trị của biến total_kn missing (chính vì thế gọi là multiple imputation)
Nhìn vào bảng kết quả,
chúng ta thấy 7 giá trị missing của total_kn đã được ước tính –
imputed
Bây giờ chúng ta có thể chạy mô hình hồi quy
tuyến tính với biến total_kn đã được imputed, sử dụng lệnh mi estimate
mi
estimate, dots: regress total_kn c1
educ2 educ3 ex_proje
Chú ý: Các hình ảnh output (kết quả) trong bài viết chỉ mang tính minh họa. Nguyễn Trương Nam - Thongke.info
|