Bài toán 1 mẫu là gì thong kê năm 2024

  • 1. NIỆM VÀ KÍ HIỆU 1. Khái niệm đám đông – mẫu Đám đông (tổng thể): là tập hợp tất cả các phần tử mà ta muốn nghiên cứu. Mẫu: là tập hợp các phần tử lấy ra từ đám đông để nghiên cứu. Kích thước mẫu: là số phần tử của mẫu, kí hiệu là n. Dãy thống kê dạng điểm cho dưới dạng tần số: X 1x 2x … ix … kx m m1 m2 … mi … mk Chú ý: k i i 1 m n   2. Tham số đám đông – Tham số mẫu Định nghĩa 1: Giả sử cần nghiên cứu dấu hiệu X của một đám đông có:      2 E X ;D X ; X       Các tham số đám đông: Tham số Tên gọi Ý nghĩa  Kỳ vọng Giá trị trung bình của X trong đám đông 2  Phương sai Bình phương độ phân tán trong đám đông  Độ lệch tiêu chuẩn Độ phân tán trong đám đông Các tham số mẫu: Tham số Tên gọi Cách tính X Trung bình mẫu (Giá trị trung bình của X trong mẫu) k i i i 1 1 X m x n    2 S Phương sai mẫu   2 2 2 S X X  với k 2 2 i i i 1 1 X m x n    2 S Phương sai mẫu điều chỉnh 2 2n S S n 1   S Độ lệch tiêu chuẩn mẫu 2 S S S Độ lệch tiêu chuẩn mẫu điều chỉnh 2 S S Định nghĩa 2: Giả sử đám đông chỉ có 2 loại đối tượng là các phần tử mang đặc tính A và các phần tử không mang đặc tính A. Ta có: + Tham số p là tỉ lệ phần tử mang đặc tính A trong đám đông. + Tham số f là tỉ lệ phần tử mang đặc tính A trong mẫu. m f n  với m là số phần tử mang đặc tính A trong mẫu.
  • 2. LƯỢNG Phân biệt bài toán ước lượng điểm và bài toán ước lượng khoảng: + Không có độ tin cậy: bài toán ước lượng điểm. + Có độ tin cậy: bài toán ước lượng khoảng. I. Bài toán ước lượng điểm + Ước lượng giá trị trung bình (ước lượng kỳ vọng ): Tính X rồi kết luận. + Ước lượng tỉ lệ (ước lượng xác suất p): Tính f rồi kết luận. + Ước lượng bình phương độ phân tán (ước lượng p/sai 2  ): Tính 2 S rồi kết luận. II. Bài toán ước lượng khoảng Các bước làm: + Xác định bài toán: ước lượng kỳ vọng hay ước lượng xác suất? Nếu là ước lượng kỳ vọng thì rơi vào trường hợp nào? + Viết biểu thức xác định khoảng tin cậy và công thức tính  + Biết độ tin cậy , ta đi tính 1    rồi suy ra u 2       hay n 1t 2        + Tính các tham số mẫu (nếu cần tham số nào thì tính tham số đó): 2 2 X;S ;S;S ;S;f rồi tính  + Tìm khoảng tin cậy rồi kết luận. 1. Ước lượng giá trị trung bình (ước lượng kỳ vọng ): Khoảng tin cậy đối xứng của  là  X ;X    với  tính như sau: Trường hợp Công thức tính  đã biết, X có phân phối chuẩn hoặc mẫu lớn u . 2 n           chưa biết, X có phân phối chuẩn n 1 S t . 2 n 1          hoặc n 1 S t . 2 n           chưa biết, X không có phân phối chuẩn nhưng mẫu lớn S u . 2 n 1         hoặc S u . 2 n         2. Ước lượng tỉ lệ (ước lượng xác suất p): Khoảng tin cậy đối xứng của p là  f ;f   với  f 1 f u . 2 n        
  • 3. ĐỊNH Phân biệt với bàitoán ước lượng: + Bài toán ước lượng: có từ ước lượng, có từ độ tin cậy + Bài toán kiểm định: có từ kiểm định, có từ mức ý nghĩa Các bước làm: + Xác định bài toán: giả thuyết H, đối thuyết K, mức ý nghĩa  . + Nêu các điều kiện (nếu có) để đưa ra thống kê. + Xác định miền bác bỏ H (miền W) + Tính giá trị quan sát của thống kê. Kiểm tra xem giá trị quan sát của thống kê có thuộc miền W hay không:  Nếu thuộc thì ta bác bỏ H, chấp nhận K.  Nếu không thuộc thì chưa bác bỏ được H nên tạm thời chấp nhận H, bác bỏ K Hai vấn đề chính trong mỗi bài toán kiểm định: + Xác định thống kê được sử dụng + Xác định miền W I. Kiểm định giả thuyết về giá trị trung bình (Kiểm định kỳ vọng) BT1: 0 0 H: K:        BT2: 0 0 H: K:        BT3: 0 0 H: K:        Trường hợp Sử dụng thống kê Miền W  đã biết, X có phân phối chuẩn hoặc mẫu lớn  0X n G      BT1: W G:G u     BT2:W G:G u    BT3: W G : G u 2             chưa biết, X có phân phối chuẩn     0 0 X n 1 T S X n T S          n 1BT1:W T:T t      n 1BT2:W T:T t     n 1BT3: W T: T t 2              chưa biết, X không có phân phối chuẩn nhưng mẫu lớn     0 0 X n 1 G S X n G S          BT1: W G:G u     BT2:W G:G u    BT3: W G : G u 2           
  • 4. giả thuyết về tỉ lệ (Kiểm định xác suất) Gọi p là tỉ lệ phần tử mang đặc tính A trong tổng thể. BT1: 0 0 H:p p K:p p    BT2: 0 0 H:p p K:p p    BT3: 0 0 H:p p K:p p    Trường hợp Sử dụng thống kê Miền W Mẫu lớn     0 0 0 f p n G p 1 p      BT1: W G:G u     BT2:W G:G u    BT3: W G : G u 2            III. So sánh hai tỉ lệ (So sánh hai xác suất) Giả sử ta cần so sánh tỉ lệ phần tử mang đặc tính A của 2 đám đông. Gọi 1 2p ;p lần lượt là tỉ lệ phần tử mang đặc tính A của 2 đám đông đó. Ta có các bài toán so sánh: BT1: 1 2 1 2 H:p p K :p p    BT2: 1 2 1 2 H:p p K :p p    BT3: 1 2 1 2 H:p p K :p p    Trường hợp Sử dụng thống kê Miền W Hai mẫu lớn   1 2 1 2 f f G 1 1 f 1 f n n            BT1: W G:G u     BT2:W G:G u    BT3: W G : G u 2            Ở đó: 1n là kích thước mẫu thứ nhất, 2n là kích thước mẫu thứ hai. 1 1 1 m f n  là tỉ lệ phần tử mang đặc tính A của mẫu thứ nhất. 2 2 2 m f n  là tỉ lệ phần tử mang đặc tính A của mẫu thứ hai. 1 2 1 2 m m f n n    là tỉ lệ phần tử mang đặc tính A chung của cả hai mẫu. IV. So sánh hai giá trị trung bình (So sánh kỳ vọng) Giả sử cần so sánh 2 giá trị trung bình của một dấu hiệu nghiên cứu nào đó ở hai đám đông khác nhau. Gọi X là dấu hiệu cần nghiên cứu ở đám đông thứ nhất, Y là dấu hiệu cần nghiên cứu ở đám đông thứ hai.
  • 5.   1 2E X ;E Y    và    2 2 1 2D X ;D Y    Ta có các bài toán so sánh: BT1: 1 2 1 2 H: K :        BT2: 1 2 1 2 H: K :        BT3: 1 2 1 2 H: K :        Trường hợp Sử dụng thống kê Miền W 2 2 1 2;  đã biết, X và Y có phân phối chuẩn hoặc hai mẫu lớn 2 2 1 2 1 2 X Y G n n        BT1: W G:G u     BT2:W G:G u    BT3: W G : G u 2            2 2 1 2   chưa biết, X và Y có phân phối chuẩn        1 2 1 2 2 2 1 2 1 X 2 Y X Y n n n n 2 T n n n S n S         1 2n n 2BT1: W T:T t       1 2n n 2BT2: W T:T t      1 2n n 2BT3: W T : T t 2              2 2 1 2;  chưa biết, X và Y không có phân phối chuẩn nhưng hai mẫu lớn 2 2 X Y 1 2 2 2 X Y 1 2 X Y G S S n 1 n 1 X Y G S S n n           BT1: W G:G u     BT2:W G:G u    BT3: W G : G u 2            Trường hợp 2 2 1 2;  chưa biết, X và Y không có phân phối chuẩn nhưng hai mẫu bé thì ta giải quyết bài toán so sánh kỳ vọng (bài toán 3) bằng tiêu chuẩn hạng của Mann – Whitney hoặc tiêu chuẩn hạng của Wilcoxon: + Nếu số liệu cho theo từng cặp thì sử dụng tiêu chuẩn của Wilcoxon. + Nếu số liệu không cho theo từng cặp thì sử dụng tiêu chuẩn của Mann – Whitney. Lưu ý: Hai tiêu chuẩn này chỉ giải quyết được bài toán 3. Các bước làm đối với tiêu chuẩn của Wilcoxon: + Tính i id ; d và đếm số giá trị id 0 . Gọi số giá trị id 0 là n + Sắp xếp các id 0 theo thứ tự từ bé đến lớn. + Tính  irank d với id 0 rồi tính   i i d 0 T rank d   
  • 6. T  thì         n n 1 n n 1 2n 1 E T ;D T 4 24           + Đặt     T E T G D T   thì miền bác bỏ H là W G : G u 2            + Tính qsG rồi kết luận. Các bước làm đối với tiêu chuẩn của Mann – Whitney: + Gộp chung 2 dãy số liệu mẫu và sắp xếp theo thứ tự từ bé đến lớn. + Tính hạng của các phần tử trong mẫu 1, tức là tính  i 1rank x ,i 1;n + Tính   1n 1 i i 1 R rank x    + Tính  1 1 1 1 2 1 n n 1 U n n R 2     + Đặt 1U U thì      1 2 1 21 2 n n n n 1n n E U ;D U 2 12     + Đặt     U E U G D U   thì miền bác bỏ H là W G : G u 2            + Tính qsG rồi kết luận. V. Kiểm định sự phù hợp của số liệu mẫu Bài toán: Gọi 1 2 kp ,p ,...,p lần lượt là tỉ lệ phần tử mang đặc tính 1 2 kA ;A ;...;A trong một đám đông ( 1 2 kp p ... p 1    ). Từ đám đông, ta lấy ra mẫu có kích thước n. Ta có bài toán kiểm định: Giả thuyết H: Số liệu mẫu phù hợp với k tỉ lệ đã cho. Đối thuyết K: Số liệu mẫu không phù hợp với k tỉ lệ đã cho. Giải quyết: Ta sử dụng thống kê:   2k 2 i i i 1 i m np np     Ở đó: 1 2 km ;m ;...;m lần lượt là số phần tử mang đặc tính 1 2 kA ;A ;...;A trong mẫu. Miền bác H:   2 2 2 k 1W :       Chú ý: Điều kiện là im 5;i 1;k  . VI. Kiểm định tính độc lập của hai dấu hiệu Bài toán: Giả sử ta có hai dấu hiệu X và Y. Ta có bài toán kiểm định: Giả thuyết H: X và Y độc lập nhau; Đối thuyết K: X và Y phụ thuộc nhau.
  • 7. lập bảng số liệu: X Y 1B 2B … sB Tổng hàng 1A 11m 12m … 1sm hg1 2A 21m 22m … 2sm hg2 … … … … … … rA r1m r2m … rsm hgr Tổng cột cot1 cot2 … cots n Ta sử dụng thống kê: 2r s j2 i 1 j 1 i j m n 1 hg cot             i Miền bác H:      2 2 2 r 1 s 1 W :         VII. So sánh nhiều tỉ lệ (So sánh nhiều xác suất) Bài toán: Gọi p1;p2; …; ps lần lượt là tỉ lệ phần tử mang đặc tính A của s đám đông. Ta có bài toán kiểm định: Giả thuyết 1 2 sH:p p ... p   Đối thuyết K: Các tỉ lệ 1 2 sp ;p ;...;p không đồng thời bằng nhau. Giải quyết: Thành lập bảng số liệu: X Y 1B 2B … sB Tổng 1A 11m 12m … 1sm hg1 2A 21m 22m … 2sm hg2 Tổng cot1 cot2 … cots n Ở đó, 1jm là số phần tử mang đặc tính A ở mẫu lấy ra từ đám đông thứ j còn 2jm là số phần tử không mang đặc tính A ở mẫu lấy ra từ đám đông thứ j, j 1;s Ta sử dụng thống kê: 22 s j2 i 1 j 1 i j m n 1 hg cot             i Miền bác H:   2 2 2 s 1W :      
  • 8. HỒI QUY I. Tương quan 1. Hệ số tương quan  Ta có đánh giá mức độ phụ thuộc tuyến tính giữa X và Y dựa vào  như sau: Rất yếu Yếu Trung bình Chặt Rất chặt 0 0,5 0,7 1  Khi 0  thì ta nói X và Y không tương quan với nhau.  Nếu 0  thì X, Y đồng biến và nếu 0  thì X, Y nghịch biến. 2. Hệ số tương quan mẫu Hệ số tương quan mẫu của 2 biến ngẫu nhiên X, Y là:   X Y XY X.Y r X,Y S .S   Với bảng số liệu: X Y 1y 2y … sy Tổng hàng 1x 11m 12m … 1sm hg1 2x 21m 22m … 2sm hg2 … … … … … … rx r1m r2m … rsm hgr Tổng cột cot1 cot2 … cots n Ta có: r s ij i j i 1 j 1 1 XY m x y n           Ta có dãy thống kê của X: X 1x 2x … rx m hg1 hg2 … hgr Ta tính được XX;S Ta có dãy thống kê của Y:
  • 9. … sy m cot1 cot2 … cots Ta tính được YY;S Với bảng số liệu:  X,Y  1 1x ;y  2 2x ;y …  k kx ;y m 1m 2m … km Hoặc: X 1x 2x … kx Y 1y 2y … ky m 1m 2m … km Ta có: k i i i i 1 1 XY m x y n    với k i i 1 n m    Ta cũng lập dãy thống kê của X và Y rồi tính XX;S ; YY;S . II. Hồi quy Đường hồi quy bình phương trung bình tuyến tính thực nghiệm  Y X S Y Y r. . X X S    Sai số bình phương trung bình thực nghiệm:  2 2 2 Y/X YS S 1 r  Điều kiện áp dụng tốt: r 0,7