xDuLieu ⮞Dữ liệu đa biến ⮞Tương quan & Hồi quy ⮞Hồi quy đa biến phi tuyến
Hồi quy đa biến phi tuyến
Trong thực tế, phần lớn tương quan giữa biến phụ thuộc và biến độc lập là phi tuyến. Mặc dù vậy, mô hình tuyến tính vẫn được áp dụng rộng rãi vì đơn giản, dễ xử lý; hơn nữa nó vẫn đáp ứng nhiều yêu cầu, hữu ích khi sử dụng. Tuy nhiên, trong một số trường hợp, mô hình này không đáp ứng được yêu cầu của thực tế. Khi ấy chúng ta phải sử dụng các mối tương quan phi tuyến. Trong phần này, chúng ta đề cập đến một số phương pháp giải quyết vấn đề này.
Mở rộng mô hình tuyến tính
Nguyên tắc
Một trong những xu hướng phổ biến là mở rộng mô hình tuyến tính. Mô hình tuyến tính tổng quát [generalized linear model hay GLM] có dạng tương tự như mô hình tuyến tính, nghĩa là tương quan giữa biến phụ thuộc `Y` và các biến độc lập `X_i` vẫn được trình bày dưới dạng:
`Y=b_0+sum_[i=1]^n b_iX_i +e ` | [1] |
Tuy nhiên ở đây `X_i` có thể là :
- dạng nguyên mẫu của các hàm có kiểu số,
- dạng biến đổi của các hàm có kiểu số như `log X_1,e^[X_2], 1//X_3`,
- dạng đa thức của các hàm có kiểu số như `X_1^2, X_2^3`,
- biến nộm của các hàm có kiểu phi số,
- tương tác giữa các biến như `X_3X_4`.
Ghi chú : Mô hình tuyến tính tổng quát chỉ áp dụng khi có sự tuyến tính với các hệ số `b_i`, nghĩa là ta có thể áp dụng cho `Y=b_i e^X`, nhưng không thể áp dụng cho `Y=e^[b_i X]` vì khi ấy `b_i` không còn tuyến tính nữa so với `Y`.
Thí dụ
Để khảo sát ảnh hưởng của vận tốc tàu chở công ten nơ đến chi phí nhiên liệu sử dụng, người ta ghi nhận hai thông số trên cho một số tàu có trọng tải 8000 công ten nơ quy chuẩn [TEU: 20-foot equivalent unit]. Kết quả ghi nhận như Bảng 1 sau [tập tin chi-phi-nhien-lieu.csv]:
Bảng 1 Vận tốc và chi phí nhiên liệu của tàu chở công ten nơ17,0 | 81 | 15,8 | 68 |
17,9 | 89 | 16,1 | 70 |
18,4 | 98 | 16,5 | 75 |
18,5 | 100 | 16,8 | 76 |
18,8 | 103 | 16,9 | 79 |
18,9 | 106 | 17,0 | 82 |
18,9 | 105 | 17,0 | 81 |
19,0 | 109 | 17,2 | 84 |
19,3 | 115 | 17,2 | 83 |
19,4 | 117 | 17,4 | 85 |
19,5 | 118 | 17,5 | 86 |
19,6 | 121 | 17,8 | 87 |
19,7 | 123 | 17,8 | 88 |
19,7 | 124 | 18,0 | 92 |
20,2 | 132 | 18 | 93 |
20,4 | 135 | 18,4 | 97 |
21,0 | 147 | 18,6 | 102 |
21,4 | 155 | 20,1 | 128 |
22 | 178 | 20,5 | 135 |
23 | 200 | 21 | 146 |
Vận tốc : hải lý ; Chi phí nhiên liệu : tấn/ngày
Mô hình tuyến tính
Để xem xét mối tương quan giữa hai đại lượng trên ta dùng R. Sau khi nhập dữ liệu này vào R với tên bảng dữ liệu là nhl, ta khảo sát sơ bộ bảng này bằng đoạn lệnh:
Ta thu được kết quả như trên Hình 1.
Hình 1 Tương quan giữa vận tốc và chi phí nhiên liệu
Qua Hình 1, ta thấy mối tương quan giữa hai đại lượng này không hoàn toàn tuyến tính. Để tìm hiểu kỹ hơn, ta vẽ biểu đồ phần dư khi dùng mô hình tuyến tính với đoạn lệnh:
kqa