class: inverse, middle # Biến số .footnote[ Phùng Khánh Lâm Khóa hè Giói thiệu nghiên cứu y học, Bà Rịa, 27-29/07/2018 ] --- name: variable ## Biến số --- template: variable Các biến số trong bảng dữ liệu sau đây? <table class="table table-striped" style="margin-left: auto; margin-right: auto;"> <thead> <tr> <th style="text-align:center;"> STT </th> <th style="text-align:center;"> Giới tính </th> <th style="text-align:center;"> Tiểu cầu T0 </th> <th style="text-align:center;"> Tiểu cầu T1 </th> </tr> </thead> <tbody> <tr> <td style="text-align:center;"> 1 </td> <td style="text-align:center;"> Nam </td> <td style="text-align:center;"> 500 </td> <td style="text-align:center;"> 400 </td> </tr> <tr> <td style="text-align:center;"> 2 </td> <td style="text-align:center;"> Nữ </td> <td style="text-align:center;"> 300 </td> <td style="text-align:center;"> 200 </td> </tr> <tr> <td style="text-align:center;"> 3 </td> <td style="text-align:center;"> Nữ </td> <td style="text-align:center;"> 450 </td> <td style="text-align:center;"> 350 </td> </tr> <tr> <td style="text-align:center;"> 4 </td> <td style="text-align:center;"> Nam </td> <td style="text-align:center;"> 425 </td> <td style="text-align:center;"> 400 </td> </tr> </tbody> </table> --- template: variable Một **bảng dữ liệu** (dataset) chứa các **giá trị** (value) Mỗi **giá trị** thuộc về một **biến số** (variable) và một **đơn vị quan sát** (observation unit) Một **biến số** bao gồm tất cả các **giá trị** có cùng **thuộc tính** (attribute) --- template: variable <table class="table table-striped" style="margin-left: auto; margin-right: auto;"> <thead> <tr> <th style="text-align:center;"> STT </th> <th style="text-align:center;"> Giới tính </th> <th style="text-align:center;"> Tiểu cầu T0 </th> <th style="text-align:center;"> Tiểu cầu T1 </th> </tr> </thead> <tbody> <tr> <td style="text-align:center;"> 1 </td> <td style="text-align:center;"> Nam </td> <td style="text-align:center;"> 500 </td> <td style="text-align:center;"> 400 </td> </tr> <tr> <td style="text-align:center;"> 2 </td> <td style="text-align:center;"> Nữ </td> <td style="text-align:center;"> 300 </td> <td style="text-align:center;"> 200 </td> </tr> <tr> <td style="text-align:center;"> 3 </td> <td style="text-align:center;"> Nữ </td> <td style="text-align:center;"> 450 </td> <td style="text-align:center;"> 350 </td> </tr> <tr> <td style="text-align:center;"> 4 </td> <td style="text-align:center;"> Nam </td> <td style="text-align:center;"> 425 </td> <td style="text-align:center;"> 400 </td> </tr> </tbody> </table> --- template: variable Bảng dữ liệu "gọn gàng" (tidy data) * Mỗi **biến số** tạo thành một **cột** * Mỗi **đơn vị quan sát** tạo thành một **hàng** * Mỗi **loại đối tượng quan sát** tạo thành một **bảng** * Nếu có nhiều bảng, mỗi bảng cần có một cột để có thể kết nối với nhau .footnote[ Wickham H. (2014) Tidy data. JSS; 59(10) ] --- template: variable <table class="table table-striped" style="margin-left: auto; margin-right: auto;"> <thead> <tr> <th style="text-align:center;"> STT </th> <th style="text-align:center;"> Giới tính </th> <th style="text-align:center;"> Thời điểm </th> <th style="text-align:center;"> Tiểu cầu </th> </tr> </thead> <tbody> <tr> <td style="text-align:center;"> 1 </td> <td style="text-align:center;"> Nam </td> <td style="text-align:center;"> T0 </td> <td style="text-align:center;"> 500 </td> </tr> <tr> <td style="text-align:center;"> 2 </td> <td style="text-align:center;"> Nữ </td> <td style="text-align:center;"> T0 </td> <td style="text-align:center;"> 300 </td> </tr> <tr> <td style="text-align:center;"> 3 </td> <td style="text-align:center;"> Nữ </td> <td style="text-align:center;"> T0 </td> <td style="text-align:center;"> 450 </td> </tr> <tr> <td style="text-align:center;"> 4 </td> <td style="text-align:center;"> Nam </td> <td style="text-align:center;"> T0 </td> <td style="text-align:center;"> 425 </td> </tr> <tr> <td style="text-align:center;"> 1 </td> <td style="text-align:center;"> Nam </td> <td style="text-align:center;"> T1 </td> <td style="text-align:center;"> 400 </td> </tr> <tr> <td style="text-align:center;"> 2 </td> <td style="text-align:center;"> Nữ </td> <td style="text-align:center;"> T1 </td> <td style="text-align:center;"> 200 </td> </tr> <tr> <td style="text-align:center;"> 3 </td> <td style="text-align:center;"> Nữ </td> <td style="text-align:center;"> T1 </td> <td style="text-align:center;"> 350 </td> </tr> <tr> <td style="text-align:center;"> 4 </td> <td style="text-align:center;"> Nam </td> <td style="text-align:center;"> T1 </td> <td style="text-align:center;"> 400 </td> </tr> </tbody> </table> --- template: variable Vì sao cần bảng dữ liệu "gọn gàng"? * Cách đơn giản và chuẩn mực để cấu trúc dữ liệu * Giúp trích xuất nhanh chóng biến số cần thiết * Đặc biệt phù hợp với R .footnote[ Wickham H. (2014) Tidy data. JSS; 59(10) ] --- ## Phân loại biến số (theo tính chất) -- Có những loại biến số nào? -- **Nhị giá** - có 2 giá trị: tử vong **Phân nhóm** - có hơn 2 giá trị: quốc gia, loại dịch truyền **Thứ tự** - các giá trị có thứ tự: nhóm tuổi, độ nặng của bệnh **Liên tục** - có đơn vị: tuổi, nhiệt độ --- ## Phân loại biến số (theo vai trò) -- Biến số độc lập và biến số phụ thuộc -- **Biến số độc lập**: biến số gây ra tác động trên biến số phụ thuộc * Yếu tố nguy cơ * Can thiệp/điều trị -- **Biến số phụ thuộc**: biến số chịu ảnh hưởng từ biến số độc lập * Kết cuộc lâm sàng --- ## Mã hóa biến số -- Các anh chị thường mã hóa biến số như thế nào? -- #### Biến số phân nhóm Thường được mã hóa thành con số Tuy nhiên, điều đó không biến chúng thành biến số liên tục Format data, data dictionary -- #### Dữ liệu bị mất Thường được mã hóa riêng (trong R: NA - not available) Cần mô tả số lượng dữ liệu bị thiếu cho từng biến số Thường bị loại ra khỏi phân tích (do người thực hiện, hoặc do phần mềm phân tích) (có thể gây ra sai lệch khi bị loại ra khỏi phân tích) Nếu >10% cần quan tâm đến lý do bị mất và nhờ hỗ trợ của chuyên gia thống kê --- ## Lựa chọn biến số cho phân tích -- Các anh chị lựa chọn biến số cho phân tích như thế nào? -- #### Biến số chính * Biến số độc lập/biến số phụ thuộc * Dựa vào câu hỏi nghiên cứu/giả thuyết nghiên cứu -- #### Các yếu tố gây nhiễu * Dựa vào y văn/kiến thức chuyên ngành -- Số lượng biến số thường bị giới hạn bởi cỡ mẫu và đặc điểm của biến số phụ thuộc