Cách thực hiện một chủ đề thẩm định kĩ lưỡng: Bước 4 – thẩm định nghiên cứu gốc

 How to Perform a Critically Appraised Topic

Aine Marie Kelly
Paul Cronin

AJR 2011; 197:1048–1055

 ———————————————–

Bước 4 là phần chính của bài thẩm định chủ đề. Bước 4 khá dài do có 2 phần hướng dẫn cách thẩm định tài liệu cấp một (primary literature) và tài liệu cấp hai (secondary literature). Tôi sẽ chia bước 4 làm 2 phần để giới thiệu cách thẩm định từng loại tài liệu.

Bước 4: Thẩm định – Thẩm định nghiên cứu gốc

Để thẩm định một nghiên cứu gốc (tài liệu cấp một, primary literature), người ta cần xem xét hai phần, phần Phương pháp và phần Kết quả của bài nghiên cứu. Đối với những nghiên cứu có tiềm năng hợp lý (valid), người ta nên đặt 3 câu hỏi: Những kết quả đó có hợp lý không? Những kết quả đó là gì? Chúng có giúp ta trong chăm sóc/chẩn đoán bệnh nhân không? (Are the results valid? What are the results? Will these results help me in caring for my patient?) [4]. Để có những kết quả đáng tin cậy và hợp lý (valid), nghiên cứu phải được thực hiện bằng phương pháp nghiêm ngặt theo tiêu chuẩn cao nhất.

Nghiên cứu có so sánh ‘mù” độc lập với tiêu chuẩn tham chiếu không?

Độ chính xác của bất kỳ xét nghiệm chẩn đoán nào cũng được đánh giá tốt nhất bằng cách so sánh với “chân lý” khoa học tuyệt đối. Độc giả phải thỏa mãn với tiêu chuẩn tham chiếu, còn gọi là tiêu chuẩn vàng được áp dụng trong nghiên cứu. Tiêu chuẩn tham chiếu cổ điển thường là mô học, sinh thiết, hoặc phẫu thuật (chẩn đoán mô). Tiêu chuẩn này không phải luôn luôn khả thi; trong những tình huống đó, có những tiêu chuẩn tham chiếu thay thế. Thí dụ những tiêu chuẩn tham chiếu sử dụng trong Chẩn đoán hình ảnh gồm có chụp động mạch phổi để phát hiện tắc mạch phổi hoặc chụp cản quang tĩnh mạch để phát hiện huyết khối gây tắc tĩnh mạch [5,6]. Những người đọc kết quả tham chiếu hoặc kết quả nghiên cứu nên độc lập với nhau và được làm “mù” với kết quả của những xét nghiệm khác. Biết chẩn đoán có thể gây sai lệch (bias) – thí dụ, người ta có thể phát hiện chấm nhỏ trên phim X quang ngực nếu trước đó đã nhìn thấy  nó trên CT.

Đôi khi không có xét nghiệm tham chiếu.  Khi tình huống này xảy ra trong các nghiên cứu X quang, người ta có thể dùng cách theo dõi dài hạn để xác định có bệnh hay không [7]. Tương tự, sự đồng thuận hoặc ý kiến chuyên gia đôi khi được dùng thay xét nghiệm tham chiếu nếu áp dụng tiêu chuẩn tham chiếu là không thực tế hoặc không thích hợp [8]. Một tiêu chuẩn vàng kết hợp quét thông khí-tưới máu và siêu âm Doppler tĩnh mạch chi đã được sử dụng trong PIOPED II [9] để đánh giá những bệnh nhân có xác suất thấp bị tắc mạch phổi và dấu hiệu CT âm tính bởi vì chụp mạch máu là không thực tế (không có y đức).

Mẫu bệnh nhân nghiên cứu có bao gồm một phổ thích hợp những người mà xét nghiệm chẩn đoán sẽ được áp dụng trong thực hành lâm sàng không?

Tính hữu ích của một xét nghiệm chẩn đoán phụ thuộc vào việc nó có thể xác định có bệnh so với những tình trạng có thể gây nhầm với bệnh. Nhiều nghiên cứu công bố kết quả trên những quần thể bệnh nhân có loại, độ nặng và mức kéo dài bệnh bị giới hạn, bệnh tật đi kèm bị hạn chế. Việc này có thể dẫn tới ước tính quá mức độ nhạy và độ đặc hiệu của thử nghiệm chẩn đoán bệnh bởi vì phổ hẹp của những dấu hiệu (sai lệch phổ- spectrum bias). Một thử nghiệm chẩn đoán bằng CT có thể là dễ dàng phân biệt tổn thương thận dạng nang có thành phần đặc (loại 4 của Bosniak) với nang thận đơn giản (loại 1 của Bosniak); tuy nhiên, trong thực tế các nang sẽ có nhiều hình thái hơn và nhiều bệnh đi kèm có thể giả bệnh [10]. Do đó, người đọc cần một thử nghiệm phân biệt những tổn thương Bosniak loại 2 với loại 3 để xác định liệu bệnh nhân chỉ cần theo dõi (loại 2 của Bosniak) hoặc phải can thiệp (loại 2 của Bosniak) [11]. Lý tưởng nhất là quần thể nghiên cứu sẽ phù hợp với quần thể sẽ trải qua xét nghiệm/chẩn đoán trong thực hành lâm sàng [12].

Có phải mọi đối tượng tham gia nghiên cứu đều được làm xét nghiệm tham chiếu bất kể kết quả nghiên cứu của họ là gì?

Đôi khi không phải tất cả đối tượng đang nghiên cứu được làm xét nghiệm tham chiếu. Về lý thuyết, việc bỏ sót này có thể ảnh hưởng đến kết quả nghiên cứu chẩn đoán, người ta gọi là “workup bias” hay “verification bias” (sai lệch do kiểm tra). Trong nghiên cứu PIOPED II [9], tình huống gây sai lệch này nảy sinh do không thể áp dụng chụp cản quang động mạch phổi cho những bệnh nhân có xác suất thấp tắc mạch phổi và có kết quả thông khí – tưới máu cũng như siêu âm chi dưới âm tính. Chúng ta có thể hiểu được thiết kế nghiên cứu này bởi vì chụp mạch máu bằng ống thông động mạch là tương đối xâm lấn và có các nguy cơ liên quan. Trong nghiên cứu PIOPED, những trường hợp có kết quả xét nghiệm dương tính có nhiều khả năng phải chụp mạch. Do đó, những kết quả ntrong nghiên cứu này có thể không áp dụng được với quần thể bệnh nhân có tỉ lệ lưu hành bệnh thấp hơn hoặc xác suất mắc bệnh thấp hơn. Trong PIOPED II, các nhà nghiên cứu đã theo dõi bệnh nhân không được chụp động mạch phổi bằng ống thông mạch máu và họ thấy rằng có rất ít trường hợp phát triển tắc mạch phổi. Do đó, những bệnh nhân đó có thể được phân tích như là họ có dấu hiệu chụp mạch máu phổi âm tính [9].

Những Phương pháp trong nghiên cứu có được mô tả  đầy đủ chi tiết để làm lại ở viện của bạn hoặc thực hành không?

Nếu các tác giả của nghiên cứu kết luận hoặc khuyến cáo rằng thử nghiệm chẩn đoán của họ được sử dụng thì nghiên cứu đó nên được miêu tả đầy đủ chi tiết. Đối với các nghiên cứu trong X quang, những miêu tả đó gồm có đặc điểm bệnh nhân, chuẩn bị bệnh nhân, thông tin kỹ thuật máy, protocol thực hiện và những thông số được sử dụng, những giá trị ngưỡng hoặc điểm ngắt, thông tin trạm chẩn đoán (work-station), kinh nghiệm của người thực hiện X quang can thiệp và của người đọc nghiên cứu hình ảnh chẩn đoán [13] (Bảng 1).

Nếu bệnh nhân hoặc các đối tượng trong quần thể nghiên cứu không được tuyển mộ liên tiếp thì những kết quả nghiên cứu có thể bị ảnh hưởng bởi sai lệch chọn lọc (selection or cruitment bias) – do đó những người khoẻ mạnh (hoặc ốm yếu) lại được chọn; sau đó thì sai lệch này sẽ ảnh hưởng đến kết quả xét nghiệm/chẩn đoán. Lập một mẫu bệnh nhân tuyển liên tiếp được chụp hình chẩn đoán vì các lý do lâm sàng thì sẽ giống với cuộc sống thực hơn.

Ngoài ra, các tiêu chuẩn lựa chọn và tiêu chuẩn loại trừ nên được nói rõ và thực hiện đúng. Càng sử dụng đúng các tiêu chuẩn lựa chọn và loại trừ thì quần thể bệnh nhân càng cụ thể, và nếu quần thể đó phù hợp với quần thể của bạn thì nghiên cứu đó có thể áp dụng tốt hơn. Tuy nhiên, nếu áp dụng tiêu chuẩn lựa chọn và loại trừ quá cứng nhắc thì các kết quả của quần thể bệnh nhân này có thể không khái quát. Một vài điểm bổ sung cần được giải quyết trong phần phương pháp luận của các nghiên cứu X quang (Bảng 1).

Sau khi đánh giá thấy phần Phương pháp là hợp lý thì các Kết quả nghiên cứu cần được diễn giải [14]. Việc diễn giải này liên quan đến đánh giá lực thống kê của nghiên cứu .

Bảng 1: Các yếu tố cần xem xét khi thẩm định các nghiên cứu chẩn đoán hình ảnh [13]

Câu hỏi Bình luận
1- Phương pháp chẩn đoán hình ảnh có được miêu tả đầy đủ chi tiết để làm lại ở khoa của bạn không? 1- Chuẩn bị bệnh nhân, thông tin máy, protocol chụp và các thông số sử dụng, các giá trị ngưỡng, và thông tin trạm chẩn đoán.
2- Các thử nghiệm hình ảnh và thử nghiệm tiêu chuẩn vàng có được thực hiện theo cùng một tiêu chuẩn không? 2-Điều thiết yếu là tất cả bệnh nhân ở cả hai loại thử nghiệm cần tiến hành theo cùng một tiêu chuẩn trừ khi có lý do thực sự chính đáng.
3- Có những thế hệ công nghệ mới phát triển hơn thế hệ (máy) đang nghiên cứu không? 3- CT thông thường so với CT xoắn ốc so với CT đa dãy có được cân nhắc đầy đủ trong thiết kế nghiên cứu và bàn luận không?
4- Có đánh giá phơi nhiễm bức xạ không? 4- Phơi nhiễm bức xạ là một cân nhắc quan trọng đối với trẻ em, thiếu niên, và những người trẻ dưới 40 tuổi được chọn vào nghiên cứu
5- Các ảnh nghiên cứu có được xem trên màn hình có độ phân giải (không gian) cao không? 5- Đối với chụp X quang, chụp X quang vú, và chụp X quang mạch máu, có thể dùng màn hình có tới 4000 pixel.
6- Các phim ảnh có được các nhà X quang có đủ kinh nghiệm xem lại không? 6- Nói chung, phim ảnh nên được các nhà X quang có đủ kinh nghiệm đọc lại.

Có biết tỉ lệ hiện hành của bệnh và giai đoạn bệnh không?

Tỉ lệ bệnh hiện hành (prevalence) là điểm xuất phát của quá trình chẩn đoán. Tỉ lệ bệnh hiện hành sẽ ảnh hưởng đến giá trị dự báo dương tính (positive predictive value, PPV) và giá trị dự báo âm tính (negative predictive value, NPV) của xét nghiệm hoặc phương pháp chẩn đoán hình ảnh. Tỉ lệ bệnh hiện hành cũng có thể làm thay đổi độ nhạy, độ đặc hiệu, và độ chính xác (accuracy) của xét nghiệm/phương pháp chẩn đoán với mức độ ít hơn.

Giai đoạn bệnh liên quan đến việc áp dụng những kết quả nghiên cứu cho quần thể khác. Độ chính xác của thử nghiệm sẽ luôn thay đổi tuỳ theo độ nặng của bệnh (bệnh càng nặng, chẩn đoán càng có độ chính xác cao), vì vậy cần tính đến yếu tố này.

Các ước lượng điểm là gì và các số liệu nào cần thiết để lập bảng 2 x 2?

Thử nghiệm (xét nghiệm/chẩn đoán hình ảnh) đang nghiên cứu có thể cần so sánh với tiêu chuẩn (vàng) tham chiếu để xác định bệnh, và độ chính xác (hiệu năng) của nó có thể được mô tả trong một bảng 2 x 2. Trong phần lớn các nghiên cứu (về độ chính xác chẩn đoán), các nhà nghiên cứu báo cáo các đặc điểm của thử nghiệm liên quan đến độ nhạy và độ đặc hiệu (CIs) [14]. Độ nhạy là tỉ lệ người bị bệnh hoặc tình trạng rối loạn đích (cần nghiên cứu) có kết quả thử nghiệm (xét nghiệm/chẩn đoán) dương tính chia cho số dương tính thật và số âm tính giả, hay là số dương tính thật. Độ đặc hiệu là tỉ lệ người không bị bệnh có kết quả âm tính chia cho số âm tính thật và số dương tính giả, hay là số âm tính thật. Tính hữu ích của một thử nghiệm độ nhạy cao (≥ 95%) là nó loại trừ khả năng mắc bệnh nếu kết quả thử nghiệm âm tính, được viết tắt là “SnNout) (high sensitivity, negative result, rule out) [15]. Tính hữu ích của một thử nghiệm có độ đặc hiệu cao (≥ 95%) là nó qui cho cá nhân có bệnh nếu kết quả thử nghiệm dương tính, viết rắt “SpPin” (high specificity, positive result, rule in) [15]. Độ nhạy và độ đặc hiệu không thể tiên đoán xác suất mắc bệnh với một cá nhân, nhưng chúng có thể kết hợp thành tỉ số khả dĩ (tạm dịch likelihood ratio, LR) và được sử dụng với tỉ lệ bệnh hiện hành để ước tính xác suất mắc bệnh của một cá nhân.

Nói chung, thực tế thường không phải là một trường hợp có bệnh hoặc không bệnh, mà là một phổ (spectrum) biểu hiện từ bất thường đến bình thường (các kết quả thử nghiệm dương tính tới âm tính). Quyết định điểm cắt (cut-off) để chẩn đoán bệnh sẽ làm thay đổi độ nhạy và độ đặc hiệu. Đối với việc xác định nhồi máu phải trên phim chụp CT động mạch phổi, chúng ta sẽ có những trường hợp dương tính rõ và âm tính rõ, nhưng cũng có các trường hợp kết quả không rõ ràng. Trong PIOPED II [9], để phân tích nghiên cứu thì các bệnh nhân có dấu hiệu CT không rõ đã được bỏ qua vì các nhà nghiên cứu đã đặt giả thiết rằng trong thực tế những người có kết quả chụp CT không rõ sẽ được làm thêm các xét nghiệm. Nếu các trường hợp không rõ ràng trong nghiên cứu đó mà được gọi là âm tính thì độ nhạy giảm từ 83% xuống 78% và độ đặc hiệu vẫn là 96%. Nếu các trường hợp không rõ ràng trong nghiên cứu đó mà được gọi là dương tính thì độ nhạy tăng lên 84% và độ đặc hiệu giảm xuống còn 90%.

CIs có được cung cấp không?

Các kết quả nghiên cứu của hai quần thể khác nhau hoặc của một quần thể ở hai thời điểm khác nhau sẽ không chắc là như nhau. Sự biến đổi ngẫu nhiên của ước lượng điểm sẽ xảy ra do ngẫu nhiên ngay cả khi người ta nỗ lực loại trừ các bias (sai lệch) [16]. Nếu tất cả các số trung bình-means (hoặc các tỉ lệ, tỉ suất, độ nhạy, và độ đặc hiệu) được sắp xếp, chúng sẽ tạo thành một phân phối mẫu của số trung bình. SD (độ lệch chuẩn) của phân phối mẫu này là sai số chuẩn (standard error, SE). Do đó SE của một thống kê nghiên cứu cụ thể là SD của các thống kê nghiên cứu thu được từ tất cả các mẫu được rút ra từ quần thể và nó giúp đưa ra một ước số của thống kê quần thể đó. Nếu các mẫu vừa đủ được lấy ra, phân phối mẫu đó sẽ giả định một phân phối chuẩn, và khoảng chiếm chỗ bằng 1.96 nhân với SE ở hai bên của số trung bình sẽ là 95% CI (confidence interval, khoảng tin cậy 95%). Khoảng tin cậy thường được báo cáo là 95% CI, nhưng người ta có thể báo cáo 90% CI (1 x SE) hoặc 99% CI (2 x SE). 95% CI có nghĩa là chắc chắn 95% giá trị thực nằm giữa hai số đưa ra (số liệu đã tính). Độ rộng của CI cho biết mức độ chính xác. Các nghiên cứu lớn sẽ có ước lượng chính xác hơn và một SE (cũng) nhỏ hơn với CI hẹp, trong khi đó các nghiên cứu nhỏ sẽ có ước lượng kém chính xác và một SE lớn hơn với CI rộng hơn. Nếu nghiên cứu có CI rộng, cần phải thu thập số liệu thêm trước khi rút ra kết luận về các kết quả. Thật không may, nhiều nghiên cứu trong X quang không báo cáo CIs cùng với các ước lượng điểm [17]. Nếu các CIs không được báo cáo, chúng ta nên thận trọng với các kết luận đầy ý nghĩa rút ra từ các kết quả đó.

Các giá trị dự báo của thử nghiệm đang nghiên cứu là cái gì?

Bởi vì mục đích của một thử nghiệm chẩn đoán là sử dụng kết quả của nó để chẩn đoán, nên người ta cần biết xác suất mà kết quả nghiên cứu đó sẽ cho chẩn đoán chính xác. Giá trị dự báo dương tính (positive predictive value, PPV) và giá trị dự báo âm tính (negative predictive value, NPV) miêu tả xác suất của bệnh nếu kết quả của thử nghiệm chẩn đoán là dương tính hoặc âm tính. Giá trị dự báo dương tính (PPV) của một thử nghiệm được định nghĩa là tỉ lệ các cá nhân bị bệnh thực sự có kết quả thử nghiệm dương tính [15]. Trong PIOPED II, 162 bệnh nhân có thử nghiệm dương tính với nhồi máu phổi bằng chụp CT động mạch phổi: 137 bị nhồi máu phổi và 35 người thì không có nhồi máu phổi. Do đó, PPV chung của CT động mạch phổi là 85%, hay xác suất bị nhồi máu phổi đối với một bệnh nhân có kết quả CT động mạch phổi dương tính là 85% [9]. Trong PIOPED, 23 bệnh nhân có xác suất lâm sàng cao bị nhồi máu phổi (theo điểm Wells): 22 có nhồi máu phổi và 1 thì không có. Do đó PPV của CT động mạch phổi ở những bệnh nhân có xác suất lâm sàng cao bị nhồi máu phổi là 95% [9]. PPV đôi khi được miêu tả là xác suất hậu nghiệm (posttest probability) của bệnh căn cứ vào một kết quả thử nghiệm dương tính. PPV = 96% của CT động mạch phổi ở những bệnh nhân có xác suất lâm sàng cao bị nhồi máu phổi khiến bác sỹ lâm sàng an tâm sử dụng chống đông vì kết quả có lợi lớn hơn nguy cơ nhiều lần.

Giá trị dự báo âm tính (NPV) của một thử nghiệm được định nghĩa là tỉ lệ của các cá nhân không bị bệnh có kết quả âm tính [15]. Trong PIOPED II, 593 bệnh nhân chụp CT động mạch phổi có kết quả âm tính  đối với nhồi máu phổi: 305 có nhồi máu phỏi và 288 không có. Do đó, NPV chung của chụp CT động mạch phổi là 49%; hay diễn giải cách khác, nếu một bệnh nhân có kết quả CT động mạch phổi âm tính, anh hay chị ta vẫn có 51% cơ hội bị nhồi máu phổi [9]. Nhìn chung, CT động mạch phổi là không phải một thử nghiệm hữu ích bởi vì xác suất bị bệnh gần với 0.5 (gần bằng xác suất lật một đồng xu). Tuy nhiên, ở các bệnh nhân có xác suất lâm sàng bị nhồi máu phổi thấp (theo điểm số Wells), 151 bệnh nhân chụp CT động mạch phổi có kết quả âm tính với nhồi máu phổi: 6 có nhồi máu phổi và 146 không có (tác giả nhầm, chỉ có 5 bệnh nhân bị nhồi máu phổi). Do đó, NPV chung của CT động mạch phổi là 97%, hay đối với một bệnh nhân có kết quả CT động mạch phổi âm tính, xác suất bị nhồi máu phổi là 3% [9]. Do đó, theo kết quả này bác sỹ lâm sàng có thể an tâm cho một bệnh nhân xuất viện mà không cần điều trị.

Tỉ số khả dĩ (Likelihood Ratio, LR) có được báo cáo không hoặc có số liệu cần thiết để tính chúng không?

Tính hữu ích của bất kỳ thử nghiệm chẩn đoán nào phần lớn là do độ chích xác mà nó xác định bệnh [14]. Số đo độ chính xác đối với các thử nghiệm chẩn đoán là LR (tỉ số khả dĩ). LR dương tính là xác suất kết quả thử nghiệm dương tính của các cá nhân có bệnh chia cho xác suất kết quả thử nghiệm dương tính ở các cá nhân không có bệnh. LR âm tính là xác suất kết quả âm tính ở các cá nhân không có bệnh chia cho xác suất kết quả âm tính ở các cá nhân có bệnh [14]. Thí dụ, trong PIOPED II, đối với những bệnh nhân có kết quả CT động mạch phổi dương tính thì xác suất nhồi máu phổi là 150/175 (0.857), và những bệnh nhân có CT động mạch phổi âm tính thì xác suất nhồi máu phổi là 31/ 598 (0.051). Do đó, với một kết quả CT động mạch phổi dương tính thì LR dương tính là 0.857/0.051 hay bằng 6.51 [9].

LR là một công cụ toán sử dụng xác suất bệnh tiên nghiệm (pretest probability) để tính xác suất bệnh hậu nghiệm (posttest probability) của một bệnh nhân. Xác suất tiên nghiệm tương đương với tỉ lệ bệnh hiện hành trong quần thể đang nghiên cứu và cũng bằng với tỉ lệ bệnh hiện hành của quần thể chung trong quần thể sàng lọc. LR có thể được trình bày theo cách khác như sau: LR dương tính (LR+) = độ nhạy / 1 – độ đặc hiệu hoặc LR âm tính (LR-) = (1 – độ nhạy) / độ đặc hiệu [18]. Trong PIOPED II, CT động mạch phổi có độ nhạy = 83% và độ đặc hiệu = 96%. Các số đó cho phép tính LR+ = 0.83 / 1 – 0.96 = 20.75 và LR- = (1 – 0.83) / 0.96 = 0.177 [9]. LR chỉ ra kết quả của một thử nghiệm đã cho sẽ tăng lên bao nhiêu hoặc thấp hơn xác suất hậu nghiệm của các bệnh nhân có bệnh đang nghiên cứu [14].

Một thử nghiệm có LR = 1 (xác suất hậu nghiệm bằng xác xuất tiên nghiệm) là vô dụng bởi vì nó làm không chuyển hướng quyết định (liệu có điều trị hoặc không). LR dương tính biến đổi từ lớn hơn 1 tới vô cùng, còn LR âm tính biến đổi từ nhỏ hơn 1 tới 0. Một LR lớn hơn 1 tạo nên xác suất hậu nghiệm lớn hơn xác suất tiên nghiệm. Một LR nhỏ hơn một tao ra xác suất hậu nghiệm thấp hơn xác suất tiên nghiệm. Trong thực hành, các thử nghiệm có LR lớn hơn 10 hoặc nhỏ hơn 0.1 tạo nên các thay đổi hữu ích và thuyết phục từ xác suất tiên nghiệm sang xác suất hậu nghiệm. Các thử nghiệm có LR 5 – 10 và 0.1 – 0.2 cho thông tin hữu ích vừa phải, còn các thử nghiệm chẩn đoán có LR 2 – 5 và 0.2 – 0.5 tạo nên ác thay đổi nhỏ về xác suất [14]. Do đó người ta có thể kết luận (như trong PIOPED đã làm, với LR dương tính 16 – 20, và LR âm tính = 0.17) rằng chụp CT động mạch phổi là thử nghiệm hữu ích đối với những bệnh nhân nghi ngờ nhồi máu phổi [9].

Một phương pháp đồ hoạ dùng để miêu tả các xác suất tiên nghiệm và hậu nghiệm là biểu đồ Fagan [19]. Sử dụng biểu đồ này cho phép kẻ một đường thẳng từ một điểm ở cột bên tay trái (xác suất tiên nghiệm) qua điểm ở cột giữa (LR dương hoặc âm) kéo thẳng tới cột bên phải là điểm cần tính (xác suất hậu nghiệm của bệnh) [19].

LR giúp các bác sỹ lâm sàng ra quyết định dựa vào xác suất một bệnh nhân bị bệnh. Nếu xác suất tiên nghiệm thấp, thì bác sỹ lâm sàng có thể quyết định không thử nghiệm (thí dụ, không vội cho làm xét nghiệm để tìm bệnh hiếm). Giá trị này được gọi là “ngưỡng thử nghiệm”-“testing threshold”. Thí dụ ngưỡng thử nghiệm này có thể là dưới 5%, mặc dù trong thực tế các nhà lâm sàng không nghĩ theo tỉ lệ phần trăm. Nếu xác suất tiên nghiệm là 50%, thì nhà lâm sàng không biết liệu có bệnh hay không. Nếu xác suất hậu nghiệm suy từ xác suất tiên nghiệm và LR mà cao, thí dụ hơn 75%, thì người ta có thể tự tin hơn tiến hành liệu pháp điều trị. Tuy nhiên, nếu phương pháp điều trị có nhiều tác dụng phụ nghiêm trọng thì người ta cần một xác suất hậu nghiệm cao hơn (thí dụ, > 90%) để đảm bảo điều trị. Xác suất nói trên là xác suất bằng lòng để bắt đầu điều trị, được gọi là “ngưỡng điều trị”-“treatment threshold”. Phạm vi xác suất nằm giữa ngưỡng thử nghiệm và ngưỡng điều trị được gọi là “vùng xám”-“gray area”. Trong vùng xám này các nhà lâm sàng sử dụng LR để tìm các xác suất hậu nghiệm với hy vọng rằng chúng sẽ nằm dưới ngưỡng thử nghiệm hoặc trên ngưỡng điều trị.

Nếu các kết quả nghiên cứu đã biết và hợp lý, bước tiếp theo là xác định liệu chúng có giúp bạn trong chăm sóc bệnh nhân không [14].

Khả năng lặp lại (repoduccibility) của kết quả xét nghiệm và sự diễn giải nó có thoả mãn với bệnh nhân của bạn không?

Giá trị của bất cứ xét nghiệm chẩn đoán nào cũng phụ thuộc khả năng tạo ra ra kết quả tương tự khi áp dụng với các bệnh nhân ổn định [14]. Khả năng lặp lại kém có thể do những vấn của chính bản thân xét nghiệm đó. Nguyên nhân khác đối với sự biến đổi sinh ra khi xét nghiệm đó cần diễn giải (thí dụ, nghiên cứu thông khí-tưới máu). Nếu một xét nghiệm đòi hỏi diễn giải và sự bất đồng là phổ biến, nhưng xét nghiệm đó vẫn phân biệt được những người có bệnh và những người không có bệnh thì thử nghiệm đó là tốt. Trong thực hành, nhiều xét nghiệm chẩn đoán đòi hỏi diễn giải có kinh nghiệm (thí dụ, X quang vú).

Các kết quả có thể áp dụng cho bệnh nhân của bạn không?

Một điều quan trọng cần đảm bảo là kết quả của thử nghiệm chẩn đoán sẽ áp dụng được cho quần thể bệnh nhân của bạn. Các đặc điểm của thử nghiệm chẩn đoán (độ nhạy và độ đặc hiệu) có thể thay đổi theo mức độ nặng của bệnh hoặc có thể bị thay đổi do những điều kiện cạnh tranh [14]. Bệnh nặng hơn, độ nhạy sẽ tăng, cũng như LR dương tính tăng. Nếu có nhiều bệnh nhân hơn có những tình trạng giả kết quả xét nghiệm ở quần thể không bị bệnh thì độ nhạy và LR sẽ giảm. Tỉ lệ bệnh hiện hành làm thay đổi PPV và NPV của thử nghiệm [16]. Với tỉ lệ bệnh hiện hành lớn hơn, PPV sẽ tăng; với tỉ lệ bệnh hiện hành giảm đi, NPV sẽ tăng lên.

Kết quả sẽ làm thay đổi quản lý bệnh nhân?

Đối với mỗi bệnh tật có một xác suất dưới nó người ta sẽ gạt bỏ chẩn đoán và không can thiệp hoặc điều trị (nghưỡng loại trừ-exclusion threshold) [13]. Tương tự, có xác suất bệnh trên nó người ta sẽ bắt đầu điều trị (ngưỡng hành động- action threshold) [13]. Mức của các ngưỡng loại trừ và hành động biến đổi theo mức độ nghiêm trọng của bệnh. Các ngưỡng đó là vấn đề của phán quyết và có biến đổi giữa các nhà lâm sàng. Sẽ có những phạm vi xác suất giữa những ngưỡng đó mà nhà lâm sàng sẽ không chắc chắn về chẩn đoán. Trong thực tế, các nhà lâm sàng không sử dụng các xác suất toán nhưng áp dụng một khả năng phán đoán xác suất chung (thấp, trung gian, hoặc cao). Một xét nghiệm chẩn đoán tốt sẽ chuyển từ mức trung gian (bất định) tới mức xác suất cao hơn hoặc thấp hơn.

Kết quả của thử nghiệm sẽ cải thiện các kết cục của bệnh nhân?

Một thử nghiệm chẩn đoán cần làm thay đổi kết cục của bệnh nhân [14]. Điều này đặc biệt thích hợp nếu bệnh không được chẩn đoán sẽ có các hậu quả nghiêm trọng, thử nghiệm chính xác có các nguy cơ có thể chấp nhận và điều trị hiệu quả.

Có nhiều hướng dẫn rất tốt được xuất bản để giúp độc giả thẩm định kỹ lưỡng các loại nghiên cứu khác nhau, trong đó có các hướng dẫn có các tiêu chuẩn để báo cáo độ chính xác của chẩn đoán (Standards for Reporting of Diagnostic Accuracy, STARD) [20].

Tham khảo

  1. Dawes M. Critically appraised topics and evidence-based medicine journals. Singapore Med J 2005; 46:442–448; quiz, 449
2. Sauve S, Lee HN, Meade MD, et al. The critically appraised topic: a practical approach to learning critical appraisal.  Ann Roy Soc Phys Surg Can 1995; 28:396–398
3. Kelly AM, Cronin PP. How to perform a critically appraised topic: part 1: ask, search, and apply. AJR 2011; 197:1039–1047
4. Jaeschke R, Guyatt G, Sackett DL. Users’ guides to the medical literature. III. How to use an article about a diagnostic test. A. Are the results of the study valid? The Evidence-Based Medicine Working Group. JAMA 1994; 271:389–391
5. [No authors listed]. Value of the ventilation/perfusion scan in acute pulmonary embolism: results of the Prospective Investigation of Pulmonary
Embolism Diagnosis (PIOPED)—The PIOPED Investigators. JAMA 1990; 263:2753–2759
6. Aitken AG, Godden DJ. Real-time ultrasound diagnosis of deep vein thrombosis: a comparison with venography. Clin Radiol 1987; 38:309–313
7. Guilabert JP, Manzur DN, Tarrasa MJ, Llorens ML, Braun P, Arques MP. Can multislice CT alone rule out reliably pulmonary embolism? A prospective study. Eur J Radiol 2007; 62:220–226
8. Kelly AM, Patel S, Carlos RC, Cronin P, Kazerooni EA. Multidetector row CT pulmonary angiography and indirect venography for the diagnosis of venous thromboembolic disease in intensive care unit patients. Acad Radiol 2006; 13:486–495
9. Stein PD, Fowler SE, Goodman LR, et al.; PIOPED II Investigators. Multidetector computed tomography for acute pulmonary embolism.  N Engl J Med 2006; 354:2317–2327
10. Bosniak MA. The current radiological approach to renal cysts. Radiology 1986; 158:1–10
11. Song C, Min GE, Song K, et al. Differential diagnosis of complex cystic renal mass using multi-phase computerized tomography.  J Urol 2009; 181:2446–2450
12. Sardanelli F, Hunink MG, Gilbert FJ, Di Leo G, Krestin GP. Evidence-based radiology: why and how? Eur Radiol 2010; 20:1–15
13. Dodd JD, MacEneaney PM, Malone DE. Evidence-based radiology: how to quickly assess the validity and strength of publications in the diagnostic radiology literature. Eur Radiol 2004; 14: 915–922
14. Jaeschke R, Guyatt GH, Sackett DL. Users’ guides to the medical literature. III. How to use an article about a diagnostic test. B. What are the results and will they help me in caring for my patients? The Evidence-Based Medicine Working Group. JAMA 1994; 271:703–707
15. Akobeng AK. Understanding diagnostic tests 1: sensitivity, specificity and predictive values. Acta Paediatr 2007; 96:338–341
16. Akobeng AK. Confidence intervals and p-values in clinical decision making. Acta Paediatr 2008; 97:1004–1007
17. Cozens N. Statistical analysis in radiology publications. Clin Radiol 1996; 51:894
18. Langlotz CP. Fundamental measures of diagnostic examination performance: usefulness for clinical decision making and research.  Radiology
2003; 228:3–9
19. Fagan TJ. Letter: nomogram for Bayes theorem. (letter) N Engl J Med 1975; 293:257
20. Bossuyt PM, Reitsma JB, Bruns DE, et al.; Standards for Reporting of Diagnostic Accuracy. Towards complete and accurate reporting of studies
of diagnostic accuracy: the STARD initiative. BMJ 2003; 326:41–44
21. Oxman AD, Cook DJ, Guyatt GH. Users’ guides to the medical literature. VI. How to use an overview. Evidence-Based Medicine Working Group. JAMA 1994; 272:1367–1371
22. U.S. National Library of Medicine, National Institutes of Health. PubMed. http://www.ncbi.nlm.nihgov/pubmed/. Accessed June 29, 2009
23. Wolters Kluwer OvidSP. MEDLINE. gateway.ovid.com/. Accessed June 29, 2009
24. ISI Web of Knowledge. <apps.isiknowledge.com/ UA_GeneralSearch_input.do?product=UA&search_ mode=GeneralSearch&SID=4BKm4mOcfDnofbKjHBI&preferencesSaved=. Accessed June 30, 2009
25. MD Consult. http://www.mdconsult.com/php/  120885574-2/ homepage. Accessed June 30, 2009
26. Verhagen AP, de Vet HC, de Bie RA, et al. The Delphi list: a criteria list for quality assessment of randomized clinical trials for conducting systematic reviews developed by Delphi consensus.  J Clin Epidemiol 1998; 51:1235–1241
27. Honest H, Khan KS. Reporting of measures of accuracy in systematic reviews of diagnostic literature. BMC Health Serv Res 2002; 2:4
28. Moher D, Cook DJ, Eastwood S, Olkin I, Rennie D, Stroup DF. Improving the quality of reports of meta-analyses of randomised controlled trials:
the QUOROM Statement. Quality of Reporting of Meta-Analyses. Lancet 1999; 354:1896–1900
29. Liberati A, Altman DG, Tetzlaff J, et al. The PRISMA statement for reporting systematic reviews and meta-analyses of studies that evaluate
health care interventions: explanation and elaboration. PLoS Med 2009; 6:e1000100
30. Higgins JP, Thompson SG. Quantifying heterogeneity in a meta-analysis.  Stat Med 2002; 21: 1539–1558
31. Dwamena BA. Evidence-based radiology: step 3—diagnostic systematic review and meta-analysis (critical appraisal).  Semin Roentgenol 2009;
44:170–179
32. Moses LE, Shapiro D, Littenberg B. Combining independent studies of a diagnostic test into a summary ROC curve: data-analytic approaches
and some additional considerations.  Stat Med 1993; 12:1293–1316
33. Van Houwelingen HC, Zwinderman KH, Stijnen T. A bivariate approach to meta-analysis.  Stat Med 1993; 12:2273–2284
34. Agency for Healthcare Research and Quality (AHRQ). U.S. Preventive Services Taskforce (USPFTF) recommendations based on strength of evidence. http://www.ahrq.gov/clinic/3rduspstf/ratings.htm. Accessed July 10, 2009
35. Centre for Evidence Based Medicine: CEBM Website. Levels of evidence. http://www.cebm.net/index.aspx?o=1025. Published March 2009. Accessed March 2, 2010
36. American College of Radiology Website. http://www.acr.org. Accessed December 17, 2010
37. The Royal College of Radiologists Website. http://www.rcr.ac.uk/. Accessed December 17, 2010
38. American College of Radiology Website. ACR Appropriateness Criteria, 2008 version. http://www.acr.org/SecondaryMainMenuCategories/quality_safety/
app_criteria.aspx. Accessed December 17, 2010
39. Agency for Healthcare Research and Quality. Clinical practice guidelines online. http://www.ahrq.gov/clinic/cpgonline.htm. Accessed December 17, 2010
40. National Guideline Clearinghouse (NGC) Website. http://www.guideline.gov/. Accessed December 17, 2010
41. American College of Radiology Website. ACR Appropriateness Criteria: evidence table development. http://www.acr.org/SecondaryMainMenuCategories/quality_safety/app_criteria/Evidencetabledevelopment.aspx. Accessed December 24, 2009
42. Schunemann HJ, Oxman AD, Brozek J, et al. Grading quality of evidence and strength of recommendations for diagnostic tests and strategies.
BMJ 2008; 336:1106–1110
43. The Royal College of Radiologists Website. Publications and guidance: making the best use of clinical radiology services, 6th ed. Published
2007. Accessed December 17, 2008
44. Amis ES Jr. American College of Radiology standards, accreditation programs, and appropriateness criteria. AJR 2000; 174:307–310
45. Remedios D, McCoubrie P; The Royal College of Radiologists Guidelines Working Party. Making the best use of clinical radiology services: a new approach to referral guidelines. The Royal College of Radiologists Guidelines Working Party. Clin Radiol 2007; 62:919–920
46. The Journal of Bone and Joint Surgery Website. Instructions for authors: levels of evidence for primary research question. www2.ejbjs.org/misc/
instrux.dtl#levels. Accessed December 24, 2009
47. MacEneaney PM, Malone DE. The meaning of diagnostic test results: a spreadsheet for swift data analysis. Clin Radiol 2000; 55:227–235
48. The meaning of diagnostic test results: a spread-sheet for swift data analysis—Excel module to generate graphs of conditional probability. radiography.com/pub/Rad-data99.xls. Accessed July 13, 2009
49. Atkins D, Best D, Briss PA, et al. Grading quality of evidence and strength of recommendations. BMJ 2004; 328:1490

Để lại bình luận

2 phản hồi

  1. Luunhung

     /  20.07.2012

    Em lại vào được trang của Anh rùi nè :) Mới có ít lâu k vào mà đã có thêm nhiều bài mới rùi (“.”)

    Trả lời
    • Gần đây mạng bị chặn lung tung cả nên gặp người quen hay có ai vào trang là mình vui rồi.

      Trả lời

Gửi phản hồi

Mời bạn điền thông tin vào ô dưới đây hoặc kích vào một biểu tượng để đăng nhập:

WordPress.com Logo

Bạn đang bình luận bằng tài khoản WordPress.com Log Out / Thay đổi )

Twitter picture

Bạn đang bình luận bằng tài khoản Twitter Log Out / Thay đổi )

Facebook photo

Bạn đang bình luận bằng tài khoản Facebook Log Out / Thay đổi )

Google+ photo

Bạn đang bình luận bằng tài khoản Google+ Log Out / Thay đổi )

Connecting to %s

%d bloggers like this: