Phương trình hồi quy tuyến tính

Phân tích hồi quy tuyến tính là một phương pháp phân tích quan hệ giữa biến phụ thuộc Y với một hay nhiều biến độc lập X. Mô hình hóa sử dụng hàm tuyến tính (bậc 1). Các tham số của mô hình (hay hàm số) được ước lượng từ dữ liệu.

Hồi quy tuyến tính được sử dụng rộng rãi trong thực tế do tính chất đơn giản hóa của hồi quy. Nó cũng dễ ước lượng.

Y = β 0 + β 1 X + ϵ {\displaystyle Y=\beta _{0}+\beta _{1}X+\epsilon }  

Trong đó,

  • Y {\displaystyle Y}   giá trị của biến phụ thuộc
  • X i {\displaystyle X_{i}}   giá trị của biến độc lập
  • β 0 {\displaystyle \beta _{0}}   điểm cắt của đường thẳng hồi quy và trục Y
  • β 1 {\displaystyle \beta _{1}}   hệ số góc
  • ϵ {\displaystyle \epsilon }   sai số. Lưu ý, ϵ {\displaystyle \epsilon }   thực tế không tính được

Mô hình / phương trình hồi quy tuyến tính mẫu

y ^ = β ^ 0 + β ^ 1 x {\displaystyle {\hat {y}}={\hat {\beta }}_{0}+{\hat {\beta }}_{1}x}  

Trong đó,

  • y ^ {\displaystyle {\hat {y}}}   giá trị của biến phụ thuộc
  • x {\displaystyle x}   giá trị của biến độc lập
  • β 0 {\displaystyle \beta _{0}}   điểm cắt của đường thẳng hồi quy và trục Y
  • β 1 {\displaystyle \beta _{1}}   hệ số góc

Phương pháp ước lượng

Hàm ước lượng thống kê được sử dụng phổ biến nhất là phương pháp bình phương nhỏ nhất. Khi mô hình có các phần sai số thỏa mãn bốn Giả thuyết Gauss-Markov, thì phương pháp ước lượng đó được coi là không chệch.

Tiếp đó là phương pháp bình phương tối thiểu tổng quát hóa. Phương pháp được sử dụng khi sai số hoặc bị tương quan với nhau hoặc có hiệp phương sai không đồng nhất hoặc cả hai. Khi đó, phương pháp này sẽ hiệu quả để ước lượng (tính) các tham số beta.

Kiểm định t

Kiểm định t được sử dụng để kiểm tra xem các tham số beta đã được lượng ở trên có khác không hoặc lớn (nhỏ hơn) một giá trị nhất định.

Tham khảo

Lấy từ “https://vi.wikipedia.org/w/index.php?title=Hồi_quy_tuyến_tính&oldid=66240880”

Để sử dụng hồi quy tuyến tính, các phép đo cho biến phản hồi phải liên tục (ít nhất là về mặt lý thuyết) và cần có các quan sát trên ít nhất một cặp biến, một biến phản hồi Y và một biến giải thích X. Với mọi giá trị của Y phải có một giá trị tương ứng của X. Cũng giả định rằng mối quan hệ giữa Y và X là tuyến tính. Kích thước của mối tương quan, r, giữa hai biến cung cấp một dấu hiệu về sự tuyến tính.

Phân tích hồi quy thường được các nhà nghiên cứu sử dụng theo cách khám phá mối quan hệ giữa các biến, tạo ra các ý tưởng và khái niệm mới, để tìm các biến quan trọng và xác định các trường hợp bất thường (ngoại lệ) trong tập dữ liệu. Tất nhiên, nó có thể được sử dụng theo cách chính thức hơn để dự đoán các giá trị phản hồi nhất định từ các biến giải thích được lựa chọn cẩn thận nhưng cho đến nay, số lượng lớn nhất các ứng dụng của phân tích hồi quy trong giáo dục và tâm lý là những gì có thể được gọi là khám phá.

Phân tích khám phá không có nghĩa là “phân tích mù quáng” (blind analysis) và tất cả các mô hình hồi quy phải được hướng dẫn bởi các cân nhắc lý thuyết hoặc thực nghiệm và cảm nhận chung. Ví dụ: một nhà nghiên cứu giáo dục có thể muốn biết liệu các biến giải thích (chẳng hạn như giới tính, tình trạng tài chính, vùng miền, GPA liệu có giải thích sức khỏe tâm thần (trầm cảm, lo lắng và stress) của các sinh viên hay không. Hoặc liệu các mức độ về sức khỏe tâm thần có thể giải thích hiệu suất học tập của các sinh viên hay không.

Nếu Y, giá trị quan sát của biến phản hồi, là kết quả hoặc ảnh hưởng và X1, X2, là các giá trị cụ thể của các biến giải thích (hoặc nguyên nhân), thì một mô hình hồi quy chứa Y và X1, X2 phù hợp với dữ liệu không có nghĩa là X1, X2 là nguyên nhân hoặc lời giải thích duy nhất của Y. Có thể có các biến giải thích quan trọng khác không có trong mô hình. Do đó, cần nhấn mạnh trong phân tích hồi quy là việc so sánh mô hình và lựa chọn mô hình hồi quy thích hợp nhất. Quyết định về mô hình thích hợp nhất sẽ dựa trên các kết quả thống kê, các cân nhắc lý thuyết và thực nghiệm và cảm nhận chung. Có thể có một mô hình hồi quy phù hợp (về mặt thống kê) có thể là vô nghĩa. Sự phù hợp của mô hình hồi quy đó có thể đến từ tập dữ liệu thưa thớt (quá ít điểm dữ liệu) và giải thích các ước tính tham số dựa trên các giá trị của biến giải thích thuộc điểm kì dị. Vì vậy, không nên cho rằng chỉ có một mô hình thống kê ‘đúng’.

2. Giả thuyết vô hiệu và suy luận thống kê

Các nhà nghiên cứu thường quan tâm đến việc xác định liệu có mối quan hệ giữa biến phản hồi và biến giải thích hay không. Trên thực tế, đây là một bài kiểm tra giả thuyết để xác định khả năng dự đoán của mô hình hồi quy. Để xác định mức độ hữu dụng của mô hình, chúng ta kiểm tra xem độ dốc hồi quy có bằng không hay không. Giả thuyết vô hiệu là, H0: β1 = 0, và giả thuyết thay thế là biến giải thích đóng góp đáng kể vào dự đoán của biến phản ứng Y, cụ thể là H1: β1 ≠ 0. Các suy luận dựa trên phân phối mẫu của thống kê hồi quy b1 được sử dụng để ước tính tham số hồi quy tổng thể β1. Phân phối t (t-distribution) với n − 2 bậc tự do được sử dụng để đánh giá thống kê kiểm tra b1.

Giả thuyết thứ hai đôi khi được kiểm tra, liệu điểm chặn (hệ số bậc 0) có bằng 0 hay không, nhưng điều này thường ít được quan tâm hơn. Trong trường hợp này, giả thuyết vô hiệu và các giả thuyết thay thế là H0: β0 = 0H1: β0 ≠ 0.

Khi có nhiều hơn một biến độc lập, mô hình phù hợp tổng thể được đánh giá bằng thống kê F (F statistic). Giả thuyết vô hiệu được thử nghiệm liên quan đến tất cả các tham số hồi quy ngoại trừ điểm chặn. Ví dụ, nếu có ba biến giải thích trong mô hình thì giả thuyết vô hiệu sẽ là: H0: β1 = β2 = β3 = 0. Thống kê F được đánh giá là tỷ lệ giữa trung bình bình phương của mô hình so với trung bình bình phương sai số.

3. Các giả định thống kê

Khi phân tích dữ liệu bằng cách sử dụng hồi quy tuyến tính, một phần của quy trình bao gồm việc kiểm tra để đảm bảo rằng dữ liệu muốn phân tích thực sự có thể được phân tích bằng hồi quy tuyến tính. Tập dữ liệu cần “vượt qua” các giả định cần thiết cho hồi quy tuyến tính để cung cấp kết quả hợp lệ.

  • Dữ liệu phải bao gồm các thước đo trên ít nhất một cặp biến, một biến phản hồi Y và một biến giải thích X. Việc đo lường biến phản hồi ít nhất phải liên tục về mặt lý thuyết. (Ví dụ: có thể sử dụng điểm trên thang đánh giá; 0, 1, 2, 3… n) và trong hồi quy bội, một hoặc nhiều biến giải thích có thể là nhị phân (ví dụ: trong hồi quy, chúng được gọi là biến giả – dummy variables, giới tính biến nhị phân có thể được mã hóa là 0 = nam, 1 = nữ) hoặc biến thứ tự.
  • Mối quan hệ giữa các biến phản hồi và giải thích phải gần đúng tuyến tính. Xác minh bằng cách vẽ biểu đồ của biến phản hồi so với từng biến độc lập trong mô hình. Mối tương quan mạnh mẽ được biểu thị bằng xu hướng đường thẳng rõ ràng trong sự phân tán của các điểm. Để kiểm tra mối tương quan giữa các biến độc lập trong hồi quy bội, hãy vẽ đồ thị các cặp biến độc lập. Tương quan được tính toán cũng chỉ ra độ mạnh của bất kỳ mối quan hệ tuyến tính nào.
  • Sai số (error) trong mô hình hồi quy, ε, nên có phân phối xác suất chuẩn. Các phần dư (residuals) trong phân tích hồi quy đại diện cho các ước lượng mẫu của các sai số. Chúng phải có giá trị trung bình bằng 0 và phương sai không đổi (điều này được gọi là đồng nhất – homoscedasticity). Lưu ý rằng cả biến phản hồi hoặc biến giải thích đều không bắt buộc phải có phân phối chuẩn, chính các phần dư phù hợp mới là chuẩn.

– Xác minh giả định về tính chuẩn bằng cách thực hiện vẽ biểu đồ xác suất thông thường của các phần dư. Phân phối của phần dư chỉ cung cấp dấu hiệu về sự phân bố sai số cơ bản (underlying error distribution) trong dân số và có thể không đáng tin cậy với các cỡ mẫu nhỏ. Cách diễn giải đồ thị xác suất chuẩn theo cách tương tự như đã mô tả trong bài ‘Kiểm tra phân phối chuẩn’.

– Xác minh giả định về phương sai không đổi (hoặc xác minh sự đồng nhất) bằng cách vẽ biểu đồ phần dư so với các giá trị dự đoán. Sự phân tán ngẫu nhiên của các điểm về giá trị trung bình bằng 0 chỉ ra phương sai không đổi và thỏa mãn giả định này. Tức là các phương sai dọc theo đường phù hợp nhất vẫn tương tự khi bạn di chuyển dọc theo đường (xem hình biểu đồ phân tán dưới đây). Một mô hình hình phễu cho biết phương sai không hằng số. Những quan sát bên ngoài kì dị có thể dễ dàng phát hiện ra trên biểu đồ này. Trong 3 biểu đồ phân tán bên dưới, nó cung cấp ba ví dụ đơn giản: hai trong số dữ liệu không đạt giả định (đây là phương sai thay đổi) và một trong những dữ liệu đáp ứng giả định này (đây là đồng nhất).

Phương trình hồi quy tuyến tính

  • Không được có các điểm ngoại lệ đáng kể. Giá trị ngoại lệ là một điểm dữ liệu quan sát mà khiến giá trị biến phụ thuộc rất khác với giá trị được dự đoán bởi phương trình hồi quy. Để nhận điểm ngoại lệ (hoặc điểm dị biệt), xin vui lòng xem trong bài Kiểm tra điểm ngoại lệ.
  • Các sai số (phần dư) được liên kết với các cặp biến Y và X phải độc lập. (Xác minh bằng cách kiểm tra xem mỗi cặp phép đo đến từ một đối tượng độc lập khác nhau, tức là không có số đo lặp lại trên cùng một đối tượng. Nếu dữ liệu được thu thập theo thời gian có thể có một chuỗi thời gian (xu hướng) trong dữ liệu (các điểm dữ liệu gần thời gian có thể tương quan cao hơn và chắc chắn không độc lập). Xác minh bằng cách vẽ biểu đồ phần dư so với số trường hợp.
  • Mô hình phải được chỉ định đầy đủ và chính xác. Đây hoàn toàn không phải là một giả định mà là một phần của quy trình chẩn đoán để kiểm tra sự phù hợp của mô hình, chẳng hạn như hàm bậc hai (giá trị của một biến độc lập bình phương) hoặc nhiều biến hơn. Chúng ta nên xem xét liệu đã chọn mô hình phù hợp nhất hay chưa. Ví dụ, có thể bất kỳ các biến nào hơn nữa được loại bỏ không? Có cần thêm các biến khác hoặc biến bổ sung không? Mô hình phù hợp là mạnh mẽ thế nào? Mô hình phù hợp có phụ thuộc vào một vài điểm dữ liệu có thế lực không?

Tất cả các giả định đều quan trọng nhưng một số giả định còn hơn cả những giả định khác. Kinh nghiệm cho phép nhà nghiên cứu đánh giá xem các giả định có thể được nới lỏng đến mức nào trước khi các suy luận bị vô hiệu – đây cũng là một nghệ thuật giống như một môn khoa học. Ví dụ, việc thiếu tính chuẩn của các phần dư không phải là điều quan trọng, nhưng sai số chuẩn (standard errors) có thể bị thổi phồng. Tương tự, việc thiếu phương sai không đổi không có khả năng làm sai lệch nghiêm trọng các hệ số hồi quy nhưng các giá trị p liên quan sẽ cần được diễn giải một cách thận trọng. Vi phạm nghiêm trọng nhất là một sự ra đi đáng kể so với tuyến tính. Trong tình huống này, việc chuyển đổi dữ liệu hoặc một phương pháp phân tích thay thế nên được xem xét.

4. Phân tích hồi quy tuyến tính đơn

Ví dụ, chúng ta có thể sử dụng hồi quy tuyến tính để hiểu liệu kết quả kỳ thi viết cuối kì của sinh viên có thể được dự đoán dựa trên thời gian ôn tập cuối kì dành học môn Toán giải tích hay không. Có 20 sinh viên được mời tham gia một cuộc thử nghiệm, kể từ khi bài học của môn Toán giải tích kết kết đến ngày thi cuối kì, họ được đề nghị ghi lại tổng số giờ ôn bài (cộng dồn của mỗi ngày) dành cho môn Toán. Kết thúc kì thi, nhà nghiên cứu thu thập điểm số của 20 sinh viên này theo thang điểm 100, và tổng hợp theo bảng dưới đây.

Phương trình hồi quy tuyến tính

Khi nhà nghiên cứu muốn i) tìm mối quan hệ hồi quy giữa biến phản hồi (Y) và biến giải thích (X), hoặc ii) tìm ảnh hưởng của các giá trị khác nhau của xi; trên biến phản hồi y, có ba bước tính toán liên quan. Đó là:

  1. Tính tổng bình phương cho X (được ký hiệu là SSXX) và Y (được ký hiệu là SSYY) và tổng bình phương tích chéo cho XY (được ký hiệu là SSXY).
  2. Ước lượng các tham số β0, β1 và σ.
  3. Viết đường hồi quy bình phương nhỏ nhất thay thế các ước lượng tham số cho β0 và β1.

Cuối cùng, kiểm tra ý nghĩa và khoảng tin cậy đối với độ dốc của đường cũng như khoảng tin cậy đối với giá trị trung bình của biến phản hồi, đối với giá trị xi cho trước, và khoảng dự đoán có thể được tính sau khi mô hình hồi quy đã được xác định.

Bước 1: Tính các tổng bình phương và tổng bình phương tích chéo

Tổng bình phương sửa đổi (corrected sums of squares) giống như tổng bình phương độ lệch về giá trị trung bình (nhớ lại ý tưởng về hồi quy bình phương nhỏ nhất để tính tổng bình phương độ lệch về đường hồi quy, đi qua trung bình của Y). Tổng số bình phương sửa đổi cho Y được tính bởi công thức:

Phương trình hồi quy tuyến tính

– Tổng bình phương sửa đổi cho X được tính theo công thức tương tự:

Phương trình hồi quy tuyến tính

– Tổng bình phương sửa đổi cho tích chéo XY được tính theo công thức:

Phương trình hồi quy tuyến tính

Bước 2: Ước lượng tham số

– Ước lượng tham số độ dốc đường hồi quy ‘b1’:

Phương trình hồi quy tuyến tính

– Ước tính tham số chặn hồi quy (regression intercept parameter) ‘b0’:

         

Phương trình hồi quy tuyến tính

– Sự biến động của biến phản hồi, Y, về đường hồi quy phù hợp được gọi là tổng bình phương các phần dư là rất quan trọng trong việc giải thích sự phù hợp của mô hình. Căn bậc hai của giá trị này chia cho bậc tự do thích hợp là độ lệch chuẩn của các phần dư và cung cấp chỉ báo về mức độ phù hợp của đường hồi quy với dữ liệu mẫu. Thống kê này, ước tính σ, độ lệch chuẩn dân số của sai số về đường hồi quy, được gọi là căn bậc hai trung bình bình phương sai số (root mean square error).

Phương trình hồi quy tuyến tính

Trong đó, SSe = SSYY – b1SSXY = 2881.8 – 3.8247*458.2= 1129.319

Bậc tự do cho thành phần sai số được ước lượng khi n, số lượng của điểm dữ liệu, trừ đi số lượng của tham số ước tính trong mô hình, đó là n− (số tham số b). Trong mô hình hồi quy tuyến tính đơn với một biến giải thích, có hai tham số b, b0 (hệ số chặn) và b1 (hệ số góc). Với 20 điểm dữ liệu, bậc tự do thích hợp, trong ví dụ này là: 20-2 = 18.

Bước 3: Viết đường hồi quy

Mô hình hồi quy: Y = 50.5342 + 3.8247 * X

Nhận xét: Tham số độ dốc là dương, điều này có nghĩa là sự gia tăng số giờ ôn tập có liên quan đến sự gia tăng điểm số đạt được trong bài thi cuối kì môn Toán giải tích của các sinh viên. Vì độ dốc đại diện cho sự thay đổi về điểm số Toán giải tích trên mỗi đơn vị thay đổi trong thời gian ôn tập, nên chúng ta có thể nói rằng cứ tăng 1 giờ ôn tập cuối kì, chúng ta có thể ước tính mức tăng điểm số đạt được môn toán giải tích là 3.8247. Như vậy, nếu các sinh viên mà có số giờ ôn thi khoảng 8 giờ thì điểm thi môn toán giải tích được dự đoán là: 50.5342 + 3.8247*8 = 81.1319 điểm.

Bước 4: Đánh giá ý nghĩa của mô hình phù hợp

Ý nghĩa của mô hình phù hợp được đánh giá thông qua thống kê F (F statistic). Thống kê F được đánh giá là tỷ lệ giữa trung bình bình phương của mô hình (MSmodel) so với trung bình bình phương của sai số (MSe), tức là F = (MSmodel) / (MSe)

Các nguồn biến thiên (tổng bình phương, SS) và bậc tự do trong mô hình hồi quy đơn với một biến giải thích và 20 trường hợp:

y=                 β0                  +                   β1x1              +                      ε

SSYY                                  SSmodel                                                   SSe

Total                       Model sums of squares                 Error sums of squares

Df-1                        (số lượng tham số -1)                   n – (số lượng tham số b)

9                             2-1=1                                          20-2=18

Tổng bình phương mô hình (SSmodel) = SSYY-SSe = 2881.8-1129.319 = 1752.481

Trung bình tổng bình phương mô hình: MSmodel = 1752.481/1 = 1752.481

Trung bình tổng bình phương sai số: MSe = 1129.319/18 = 62.7399

Nếu mô hình đóng góp đáng kể vào dự đoán của biến phản hồi thì SSmodel phải lớn hơn SSe. Giả thuyết vô hiệu được kiểm tra là, H0: MSmodel = MSerror = 1. Giả thuyết vô hiệu này là một kiểm tra về sức mạnh của mối quan hệ tuyến tính giữa (các) biến giải thích và biến phản hồi. Một thống kê F gần với 1 sẽ chỉ ra rằng giả thuyết vô hiệu của không có mối quan hệ tuyến tính là đúng.

F = MSmodel / MSe = 1752.481 / 62.7399 = 27.9325 , với 1 và 18 df.

Nhận xét: Để đánh giá ý nghĩa thống kê của thống kê F thu được, chúng tôi sử dụng bảng các giá trị tới hạn của phân phối F (vui lòng xem bảng phân phối F). Nếu chúng ta chọn mức ý nghĩa 5%, các giá trị mà chúng ta nhập vào bảng là 1 (tử số) và 18 (mẫu số), giá trị tới hạn của F được nhập trong bảng là 4.41. Vì giá trị thu được của F lớn hơn giá trị tới hạn, 27.93> 4.41, chúng ta có thể bác bỏ giả thuyết vô hiệu và kết luận rằng các biến độc lập là đóng góp đáng kể vào dự đoán của biến phản ứng.

Thống kê RMSE là một ước lượng về sự thay đổi của biến phản ứng về đường hồi quy dân số. Đôi khi nó được gọi là độ lệch chuẩn phần dư (residual standard deviation) của Y về đường hồi quy. Phân phối mẫu của RMSE (tương đương với phân phối mẫu của độ lệch chuẩn phần dư) là chuẩn và do đó chúng ta hy vọng rằng hầu hết các giá trị quan sát của y sẽ nằm trong +/− 1.96 × RMSE = +/− (1.96 × 7.9209) = +/−15.525 của giá trị dự đoán bình phương nhỏ nhất của Y. Điều này cung cấp một dấu hiệu khác về mức độ phù hợp của mô hình.

Bước 5: Kiểm tra ý nghĩa của độ dốc hồi quy

Sau khi mô hình hồi quy phù hợp đã được lắp vào dữ liệu và xác định được phương trình dự đoán bình phương nhỏ nhất, có thể thực hiện kiểm định ý nghĩa cho độ dốc hồi quy. Khi chỉ có một biến giải thích trong mô hình, sẽ chỉ có một tham số độ dốc để ước lượng và do đó chỉ có một phép thử ý nghĩa cho độ dốc. Tuy nhiên, trong một hồi quy bội, sẽ có một ước lượng tham số và một kiểm định ý nghĩa cho mỗi biến giải thích trong mô hình hồi quy.

Kiểm định ý nghĩa của độ dốc cung cấp thông tin rằng liệu mô hình hồi quy tuyến tính có giải thích được sự thay đổi trong biến phản hồi hay không. Giả thuyết vô hiệu được kiểm tra là, H0: β1 = 0. Giả thuyết thay thế là các biến X và Y có quan hệ tuyến tính với nhau, H1: β1 ≠ 0. Điều này có nghĩa là biến X đóng góp đáng kể vào dự đoán của biến Y.

Sai số chuẩn của b1, kí hiệu là SEb1 là:

Phương trình hồi quy tuyến tính

Kiểm tra ý nghĩa của độ dốc hồi quy bằng tỉ lệ của ước lượng tham số (b1) với sai số chuẩn của nó. Tức là t = b1 / SEb1 = 3.8247 / 0.7237 = 5.2851, với n-2 bậc tự do, df = 18. Tra bảng giá trị tới hạn của phân phối t (vui lòng xem bảng phân phối t) thu được giá trị t tới hạn là 2.101 nhỏ hơn giá trị t quan sát 5.285. Chúng ta kết luận rằng mô hình hồi quy tuyến tính có giải thích được sự thay đổi trong biến phản hồi.

Với mô hình hồi quy hai tham số, hệ số chặn và một biến giải thích, giả thuyết vô hiệu, H0: β1 = 0 và giá trị thống kê kiểm định, t = 5.2851 tương đương với giả thuyết vô hiệu của mô hình phù hợp được đưa ra bởi thống kê F, bởi vì F = t2.

Việc sử dụng thống kê t cho phép các giả thuyết thay thế một phía được kiểm tra, cụ thể là H1: β1> 0 hoặc H1: β1 <0, trong đó t có n − 2 df. Vùng bác bỏ đối với phép thử hai chiều là giá trị tuyệt đối của t > t1 − α / 2, trong đó t1 − α / 2 là giá trị t sao cho α / 2 = p (t > t1 − α / 2). Đối với phép thử một phía, t > t1 − α trong đó t1 − α là giá trị t sao cho α = p (t >  t1 − α).

Bước 6: Tính khoảng tin cậy của độ dốc hồi quy

Khoảng tin cậy cho độ dốc hồi quy, tương tự như các kiểm tra có ý nghĩa, dựa trên phân phối mẫu của t (ước lượng độ dốc b1 được phân phối xấp xỉ chuẩn). Khoảng tin cậy 95% cho giá trị dân số của độ dốc hồi quy được đánh giá bằng cách sử dụng công thức sau.

b−[t1−α/2 SE(b1)] to b+[t1−α/2 SE(b1)]  ,    với df = n-2 = 20-2 = 18.

Đối với CI 95% xung quanh độ dốc liên quan đến ước tính của giáo viên về khả năng toán học với khả năng đạt được môn toán của học sinh, với các giá trị alpha = 0.05, df = n − 2 (= 18), b1 = 3.8247 và t1 − α / 2 = t0.025 = 2.101, khi chúng ta thay chúng vào phương trình 8.2, chúng ta thu được: 3.8247 − (2.101 × 0.7237) đến 3.8247 + (2.101 × 0.7237) = 2.3043 đến 5.3451

Các ước tính khoảng tin cậy 95% là 2.3043 đến 5.3451.

Nhận xét: Khoảng tin cậy không bao gồm giá trị 0 và tất cả các giá trị đều dương, do đó, hợp lý khi kết luận rằng chúng ta tin tưởng 95% về việc tìm ra mối quan hệ thuận trong dân số giữa số giờ ôn tập và thành tích thi cuối kì toán giải thích của các sinh viên. Chúng ta hy vọng điểm trung bình của bài thi toán giải thích sẽ tăng lên với mỗi đơn vị giờ ôn tập, mức tăng này có thể dao động từ 2.3043 đến 5.3451 với mức trung bình tăng đơn vị là 3.8247.

Bước 7: Các giới hạn khoảng tin cậy cho trung bình phản hồi được dự đoán

Giới hạn khoảng tin cậy 95% trung bình phản hồi được dự đoán với một giá trị cố định cho biến giải thích, được tính bởi công thức: Ŷ−[t1−α/2 SEŶ] đến Ŷ+[t1−α/2 SE Ŷ]

Trong đó Ŷ, giá trị trung bình được dự đoán thu được từ phương trình hồi quy khi xi = 8 là: 81.1319 điểm.

Phương trình hồi quy tuyến tính

Khoảng tin cậy 95% là: 81.1319 – (2.101×2.3339) đến 81.1319 + (2.101×2.3339) = 76.6971 đến 85.5667

Khi tính toán này được thực hiện cho tất cả các giá trị quan sát của xi trong mẫu, các khoảng tin cậy này có thể được vẽ biểu đồ. Chúng ta cần đạt được đường hồi quy nằm trong khoảng tin cậy.

Nhận xét: Chúng ta có thể dự đoán rằng trung bình dân số cho biến phản hồi, sẽ nằm trong phạm vi từ 76.6971 đến 85.5667 với giá trị là 8 cho biến giải thích. Lưu ý rằng trung bình dân số là một tham số cố định và đó là các ước lượng mẫu sẽ khác nhau giữa các mẫu. Mọi suy luận dựa trên kết quả sẽ chỉ có giá trị đối với dân số nhắm đến mà từ đó mẫu được chọn.

Bước 8: Tính khoảng tin cậy cho một điểm số phản hồi cá nhân (dự đoán cá nhân)

Khoảng tin cậy cho một điểm số phản hồi cá nhân được tính dựa trên công thức sau: Ŷ−[t1−α/2 Spred] đến Ŷ+[t1−α/2 S pred]

Trong đó Ŷ, giá trị trung bình được dự đoán thu được từ phương trình hồi quy khi xi = 8 là: 81.1319 điểm. Spred là độ lệch chuẩn ước tính của các giá trị riêng lẻ của y khi x là giá trị được chỉ định xi.

Phương trình hồi quy tuyến tính

Khoảng tin cậy 95% là: 81.1319 – (2.101×8.2575) đến 81.1319 + (2.101×8.2575) = 63.7829 đến 98.4809

Nhận xét: Chúng ta tin chắc 95% rằng một sinh viên tập trung ôn tập khoảng 8 giờ sẽ có điểm đạt thi môn toán giải thích trong khoảng từ 63 đến 98.5 điểm. Lưu ý rằng độ rộng khoảng để dự đoán điểm cá nhân lớn hơn độ rộng khi dự đoán một điểm trung bình. Các khoảng dự đoán này có thể được vẽ biểu đồ cho từng trường hợp trong tập dữ liệu và nếu chúng được so sánh với một biểu đồ tương tự cho phản hồi trung bình, sẽ thấy rằng khoảng tin cậy cho các dự đoán riêng lẻ rộng hơn nhiều. Khoảng tin cậy không bao gồm số 0 cho biết rằng số giờ ôn tập là một yếu tố dự đoán đáng kể về kết quả thi cuối kì toán giải tích của các sinh viên.

5. Phân tích hồi quy tuyến tính đơn trong SPSS

Các bước dưới đây hướng dẫn chúng ta cách phân tích hồi quy tuyến tính đơn trong Thống kê SPSS.

– Bước 1: Click Analyze > Regression > Linear…

Phương trình hồi quy tuyến tính

– Bước 2: Trong hộp thoại Linear Regression, chúng ta chuyển biến giải thích ‘giờ ôn tập‘ vào hộp Independent(s):, chuyến biến phản hồi ‘Diemthi‘ vào hộp Dependent(s):,

Phương trình hồi quy tuyến tính

– Bước 3: Bây giờ chúng ta cần kiểm tra các giả định gồm: không có ngoại lệ đáng kể (điểm dị biệt), tính độc lập của các quan sát, tính đồng nhất, và và phân phối chuẩn của sai số / phần dư. Chúng ta có thể thực hiện việc này bằng cách sử dụng các tính năng thống kê (Statistics) và biểu đồ (Plots), sau đó chọn các tùy chọn thích hợp trong hai hộp thoại này.

+ Trong nút Statistics, chúng ta nhấp chọn hộp Model fit cho độ phù hợp của mô hình. Tại vùng Regression Coefficients, chúng ta nhấp mục ước lượng Estimates, khoảng tin cậy Confidence intervals (thường đặt ở 95%). Tại vùng Residuals, chúng ta nhấp chọn hộp Durbin-Watson về sự tương quan.

+ Để sử dụng kiểm định Durbin-Watson, thì phương trình hồi quy phải bao gồm hệ số chặn, do vậy, cần kiểm tra mục Inculde constant in equation ở nút Options.

Phương trình hồi quy tuyến tính

+ Trong nút Plots, chúng ta tiến hành vẽ đồ thị phần dư của ước lượng theo giá trị biến phải hồi để kiểm tra hiện tượng phương sai thay đổi và phân phối chuẩn của phần dư. Chúng ta chuyển mục *ZRESID vào hộp Y:, mục *ZPRED vào hộp X:. Sau đó nhấp chọn hộp Histogram, Normal Probability plot.

Phương trình hồi quy tuyến tính

+ Sau mỗi bước thiết lập ở các nút, chúng ta click Continue để hoàn thành.

– Bước 4: Nhấp OK để chạy kết quả phân tích hồi quy.

Thống kê SPSS sẽ tạo ra khá nhiều bảng kết quả cho một hồi quy tuyến tính. Bảng quan tâm đầu tiên là bảng Model Summary.

Phương trình hồi quy tuyến tính

Bảng này cung cấp các giá trị R và R2 (và R2 hiệu chỉnh), sai số của ước lượng và giá trị d của kiểm định Durbin-Watson. Giá trị R đại diện cho mối tương quan đơn và trong ví dụ là R = 0.780, cho biết mức độ tương quan cao. Giá trị R2 (cột “R Square”) cho biết có bao nhiêu phần trăm trong tổng biến động trong biến phản hồi, Diemthi, có thể được giải thích bằng biến giải thích, Ontap. Trong trường hợp này, 60.8% có thể được giải thích, một con số rất lớn. Ngoài ra, giá trị thống kê d của kiểm định Durbin-Watson bằng 1.568 nằm trong khoảng 1.5 đến 2.5 thì cho thấy không có sự tương quan chuỗi (tự tương quan) bậc 1 giữa các phần dư. Trong trường hợp d nhỏ hơn 1.5 cho biết sự tương quan dương chuỗi bậc 1, và d lớn hơn 2.5 cho biết có sự tương quan âm chuỗi bậc 1.

Bảng tiếp theo là bảng ANOVA, báo cáo mức độ phù hợp của phương trình hồi quy với dữ liệu (tức là dự đoán biến phản hồi).

Phương trình hồi quy tuyến tính

Bảng này chỉ ra rằng mô hình hồi quy dự đoán tốt biến phản hồi. Làm sao chúng ta biết được điều này? Nhìn vào hàng “Regression” và chuyển đến cột “Sig.“. Điều này cho thấy ý nghĩa thống kê của mô hình hồi quy đã được chạy. Ở đây, p <0.05, và chỉ ra rằng, về tổng thể, mô hình hồi quy dự đoán có ý nghĩa thống kê về biến phản hồi (tức là nó phù hợp với dữ liệu). Ở mức ý nghĩa 5%, giá trị thu được của F (df 1, 18) lớn hơn giá trị tới hạn, 27.93> 4.41 (Vui lòng xem bảng phân phối F), chúng ta có thể bác bỏ giả thuyết vô hiệu và kết luận rằng các biến độc lập là đóng góp đáng kể vào dự đoán của biến phản ứng.

Bảng Coefficients cung cấp cho chúng ta thông tin cần thiết để dự đoán ‘Điểm thi’ từ ‘Giờ ôn tập’, cũng như xác định xem ‘giờ ôn tập’ có đóng góp đáng kể về mặt thống kê vào mô hình hay không (bằng cách xem cột “Sig.“). Hơn nữa, chúng ta có thể sử dụng các giá trị trong cột “B” trong cột “Unstandardized Coefficients“.

Phương trình hồi quy tuyến tính

Trong bảng Coefficients, các hệ số của phương trình hồi quy tuyến tính đơn bao gồm 1 hằng số cắt là 50.53, và tham số β của ước lượng là 3.825. Kết quả cho thấy cả hai hệ số này đều có ý nghĩa thống kê (p<0.05). Để kiển tra ý nghĩa thống kê của β, chúng ta có thể kiểm tra ý nghĩa của thống kê t bằng việc so sánh với giá trị t tới hạn (vui lòng xem bảo phân phối t). Với mức ý nghĩa 5%, kiểm định hai phía và df = 18 (20–2), giá trị t được thể hiện trong bảng ANOVA, và giá trị t tới hạn được tìm thấy trong bảng phân phối t (t-distribution).

Vì giá trị t (t-value) được tính toán nằm ngoài giá trị tới hạn này, 5.285 > 2.101, chúng ta có thể bác bỏ giả thuyết vô hiệu và kết luận rằng chúng ta kết luận rằng mô hình hồi quy tuyến tính có giải thích được sự thay đổi trong biến phản hồi (điểm toán giải tích) dựa vào biến giải thích (giờ ôn tập).

Phương trình hồi quy là: Diemthi = 50.53 + 3.825 (ontap).

Trước tiên, chúng ta cần lưu ý rằng tham số độ dốc là dương, điều này có nghĩa là sự gia tăng Giờ ôn tập có liên quan đến sự gia tăng điểm số đạt được môn toán giải tích của các sinh viên. Vì độ dốc đại diện cho sự thay đổi về điểm số môn toán trên mỗi đơn vị thay đổi trong giờ ôn tập, chúng ta có thể nói rằng cứ mỗi sự gia tăng 1 giờ ôn tập của sinh viên, chúng ta có thể ước tính mức tăng điểm thi đạt được môn toán giải tích là 3.825. Trong báo cáo giờ ôn tập của các sinh viên, không có giá trị nào bằng 0 (người ta cho rằng không sinh viên nào không ôn thi), do đó giá trị X bằng 0 không có ý nghĩa và việc giải thích giới hạn Y có ít giá trị thực tế. Có thể dự đoán điểm môn toán giải tích của một sinh viên mà có giờ ôn thi khoảng 8 giờ như sau: Điểm môn toán giải tích được dự đoán = 50.53 + 3.825 (8) = 81.13 điểm. Hệ số β chuẩn hóa (Standardized Coefficients β) cho thấy khi giờ ôn tập tăng lên thì chắc chắc điểm thi cuối kì sẽ tăng.

Khoảng tin cậy của độ dốc hồi quy không bao gồm giá trị 0 và tất cả các giá trị đều dương, do đó, hợp lý khi kết luận rằng chúng ta tin tưởng 95% về việc tìm ra mối quan hệ thuận trong dân số giữa số giờ ôn tập và thành tích thi cuối kì toán giải thích của các sinh viên. Chúng ta hy vọng điểm trung bình của bài thi toán giải thích sẽ tăng lên với mỗi đơn vị giờ ôn tập, mức tăng này có thể dao động từ 2.304 đến 5.345 với mức trung bình tăng đơn vị là 3.825.

Bảng Residuals Statistics cung cấp thống kê các giá trị về phần dư với các mô tả về min, max, trung bình, độ lệch chuẩn. Trong ví dụ cho thấy giá trị trung bình của phần dư bằng 0 là đáp ứng giả định của phân tích hồi quy.

Phương trình hồi quy tuyến tính

Đồ thị phần dư chuẩn hóa hồi quy (Regression Standardized Residual) của biến phản hồi Y cho biết phân phối của phần dư. Có thể thấy một vài thanh hơi cao và đâm xuyên qua đường cong chuẩn. Nhưng nói chung, mặc dù có một số sai lệch so với đường chuẩn nhưng chúng là nhỏ. Hầu hết các nhà phân tích sẽ kết luận rằng phần còn lại được phân phối gần như chuẩn. Nếu bạn không bị thuyết phục về điều này, bạn có thể thêm phần dư dưới dạng một biến mới vào dữ liệu thông qua hộp thoại hồi quy. Tiếp theo, bạn có thể chạy thử nghiệm Shapiro-Wilk hoặc thử nghiệm Kolmogorov-Smirnov trên chúng. Tuy nhiên, việc này thường không khuyến khích các thử nghiệm này. Bởi vì, ở đồ thị Normal P-P của phần dư chuẩn hóa hồi quy (Normal P-P Plot of Regression Standardized Residual) của biến phản hồi Y cho thấy các giá trị quan sát phân phối xấp xỉ đường thẳng ứng với phân phối chuẩn. Kết quả này cho thấy phần dư có phân phối xấp xỉ phân phối chuẩn.

Phương trình hồi quy tuyến tính

Ở đồ thị Scatter Plot của phần dư theo giá trị phản hồi (tức là mối quan hệ giữa Regression Standardized Residual với Regression Standardized Predicted value) thường được sử dụng để kiểm tra a) tính đồng nhất và b) các giả định về độ tuyến tính. Nếu cả hai giả định đều đúng, biểu đồ phân tán này sẽ không hiển thị bất kỳ đường mô hình mẫu nào.

Phương trình hồi quy tuyến tính

– Kiểm tra chung cho giả định về sự tuyến tính là kiểm tra xem các chấm trong biểu đồ phân tán này có hiển thị bất kỳ loại đường cong nào không. Đó không phải là trường hợp ở đây vì vậy sự tuyến tính dường như cũng được chấp nhận ở đây.

– Tuy nhiên, phương sai của phần dư là không đồng nhất bởi vì các điểm phân tán hình thành một mô hình hình phễu. Nghĩa là mô hình hồi quy này đang vi phạm giả định về phương sai đồng nhất của hồi quy tuyến tính đơn. Sự vi phạm này không làm ảnh hưởng đến độ phù hợp R2 và hệ số ước lượng β của mô hình. Tuy nhiên, phương sai thay đổi sẽ ảnh hưởng đến sai số chuẩn của ước lượng, từ đó làm thay đổi giá trị thống kê F, t và mức nghĩa p của mô hình.

Lưu ý rằng, nếu sự đồng nhất (Homoscedasticity) xảy ra, thì ước tính từ khoảng cách các chấm trong biểu đồ phân tán của chúng ta nằm cách nhau theo chiều dọc. Do đó, chiều cao của biểu đồ phân tán của chúng ta không được tăng hoặc giảm khi chúng ta di chuyển từ trái sang phải.

Biểu đồ đường hồi quy thể hiện tất cả các điểm quan sát đều nằm trong giới hạn khoảng tin cậy cho trung bình phản hồi được dự đoán.

Phương trình hồi quy tuyến tính

So sánh giữa các kết quả tính tay và kết quả SPSS cho thấy, các chương trình SPSS cung cấp quá ít các kết quả cho hồi quy. Do vậy, trong nhiều trường hợp cần phân tích sâu hơn, việc tính toán bằng máy tính bỏ túi là cần thiết.

Tài liệu tham khảo

  1. Coolican, H. (2018). Research methods and statistics in psychology. Routledge.
  2. Hanneman, R. A., Kposowa, A. J., & Riddle, M. D. (2012). Basic statistics for social research (Vol. 38). John Wiley & Sons.
  3. Jackson, S. L. (2015). Research methods and statistics: A critical thinking approach. Cengage Learning.
  4. McQueen, R. A., & Knussen, C. (2006). Introduction to research methods and statistics in psychology. Pearson education.
  5. Peers, I. (2006). Statistical analysis for education and psychology researchers: Tools for researchers in education and psychology. Routledge.
  6. Wagner III, W. E. (2019). Using IBM® SPSS® statistics for research methods and social science statistics. Sage Publications.