Hồi quy phi tuyến tính là gì

xDuLieu ⮞Dữ liệu đa biến ⮞Tương quan & Hồi quy ⮞Hồi quy đa biến phi tuyến

Hồi quy đa biến phi tuyến

Trong thực tế, phần lớn tương quan giữa biến phụ thuộc và biến độc lập là phi tuyến. Mặc dù vậy, mô hình tuyến tính vẫn được áp dụng rộng rãi vì đơn giản, dễ xử lý; hơn nữa nó vẫn đáp ứng nhiều yêu cầu, hữu ích khi sử dụng. Tuy nhiên, trong một số trường hợp, mô hình này không đáp ứng được yêu cầu của thực tế. Khi ấy chúng ta phải sử dụng các mối tương quan phi tuyến. Trong phần này, chúng ta đề cập đến một số phương pháp giải quyết vấn đề này.

Mở rộng mô hình tuyến tính

Nguyên tắc

Một trong những xu hướng phổ biến là mở rộng mô hình tuyến tính. Mô hình tuyến tính tổng quát [generalized linear model hay GLM] có dạng tương tự như mô hình tuyến tính, nghĩa là tương quan giữa biến phụ thuộc `Y` và các biến độc lập `X_i` vẫn được trình bày dưới dạng:

`Y=b_0+sum_[i=1]^n b_iX_i +e `[1]

Tuy nhiên ở đây `X_i` có thể là :

  • dạng nguyên mẫu của các hàm có kiểu số,
  • dạng biến đổi của các hàm có kiểu số như `log X_1,e^[X_2], 1//X_3`,
  • dạng đa thức của các hàm có kiểu số như `X_1^2, X_2^3`,
  • biến nộm của các hàm có kiểu phi số,
  • tương tác giữa các biến như `X_3X_4`.

Ghi chú : Mô hình tuyến tính tổng quát chỉ áp dụng khi có sự tuyến tính với các hệ số `b_i`, nghĩa là ta có thể áp dụng cho `Y=b_i e^X`, nhưng không thể áp dụng cho `Y=e^[b_i X]` vì khi ấy `b_i` không còn tuyến tính nữa so với `Y`.


Thí dụ

Để khảo sát ảnh hưởng của vận tốc tàu chở công ten nơ đến chi phí nhiên liệu sử dụng, người ta ghi nhận hai thông số trên cho một số tàu có trọng tải 8000 công ten nơ quy chuẩn [TEU: 20-foot equivalent unit]. Kết quả ghi nhận như Bảng 1 sau [tập tin chi-phi-nhien-lieu.csv]:

Bảng 1 Vận tốc và chi phí nhiên liệu của tàu chở công ten nơVận tốcChi phí nhiên liệuVận tốcChi phí nhiên liệu
17,08115,868
17,98916,170
18,49816,575
18,510016,876
18,810316,979
18,910617,082
18,910517,081
19,010917,284
19,311517,283
19,411717,485
19,511817,586
19,612117,887
19,712317,888
19,712418,092
20,21321893
20,413518,497
21,014718,6102
21,415520,1128
2217820,5135
2320021146

Vận tốc : hải lý ; Chi phí nhiên liệu : tấn/ngày


Mô hình tuyến tính

Để xem xét mối tương quan giữa hai đại lượng trên ta dùng R. Sau khi nhập dữ liệu này vào R với tên bảng dữ liệu là nhl, ta khảo sát sơ bộ bảng này bằng đoạn lệnh:

library[ggplot2] ggplot[nhl, aes[Van_Toc, CP_NL]] + geom_point[color = "red"] + labs[x = "Vận tốc [hải lý]", y = "Chi phí nhiên liệu [tấn/ngày]"]

Ta thu được kết quả như trên Hình 1.

Hình 1 Tương quan giữa vận tốc và chi phí nhiên liệu

Qua Hình 1, ta thấy mối tương quan giữa hai đại lượng này không hoàn toàn tuyến tính. Để tìm hiểu kỹ hơn, ta vẽ biểu đồ phần dư khi dùng mô hình tuyến tính với đoạn lệnh:

kqa

Chủ Đề