Randomisierte kontrollierte Studien sind der Goldstandard zur Bewertung der Behandlungswirksamkeit, die Wirksamkeit in der Praxis kann jedoch variieren. Ein Grund dafür ist, dass klinische Studien häufig strengere Einschlusskriterien haben, als dies für die behandelte Zielpopulation der Fall ist. Politische Entscheidungsträger, Kostenträger und Kliniker fragen sich möglicherweise, wie gut sich die Ergebnisse der engeren klinischen Studienpopulation auf die reale „Zielpopulation“ übertragen lassen.
Mit dieser Frage befasst sich ein Artikel von Lugo-Palacios et al. (2024) will darauf antworten. Ziel ihrer Studie ist es herauszufinden, welche Zweitlinienbehandlung bei Typ-2-Diabetes in der Praxis am wirksamsten ist. Zu diesem Zweck schätzen die Autoren den durchschnittlichen Behandlungseffekt (ATEs) und den bedingten durchschnittlichen Behandlungseffekt (CATE) für die Verwendung von Dipeptidylpeptidase-4-Inhibitoren (DPP4i) und Sulfonylharnstoffen (SU) als „Zusatztherapien“ zu Metformin für die Behandlung der Patienten mit Typ-2-Diabetes in England. Der primäre Endpunkt von Interesse war die Blutzuckerkontrolle. Eine Herausforderung besteht darin, dass veröffentlichte RCT-Berichte keine Konsensempfehlung enthalten. Einige stellen mit SUs eine bessere Verbesserung fest, andere mit DPP4i. Wie oben erwähnt besteht ein Problem darin, dass RCTs, die diese Behandlungen bewerten, häufig Patienten mit einer sehr schlechten Blutzuckerkontrolle ausschließen und daher unklar ist, inwieweit verschiedene Arten von Patienten in der Praxis von jeder Behandlung profitieren würden.
Der Studienansatz identifizierte Teilpopulationen innerhalb der Zielpopulation in zwei Gruppen: diejenigen, die die Zulassungskriterien eines veröffentlichten RCT erfüllten („RCT-geeignet“), und diejenigen, die dies nicht erfüllten („RCT-nicht geeignet“). Die Autoren vergleichen die ATE für „RCT-geeignet“ mit der RCT mit denselben Zulassungskriterien (der „RCT-Benchmark“), um zu untersuchen, wie gut reale Daten RCT-Daten imitieren. Als nächstes verglichen die Autoren die CATEs für die gesamte Zielpopulation (d. h. die Gruppen „RCT-berechtigt“ und „RCT-nicht-berechtigt“). Die CATEs wurden getrennt nach Alter, ethnischer Zugehörigkeit, HbA1c-Ausgangswert und Body-Mass-Index (BMI) geschätzt. Zu den in der Analyse verwendeten Kovariaten gehörten demografische und klinische Faktoren (z. B. HbA1c-Ausgangswert, systolischer Blutdruck (SBP), diastolischer Blutdruck (DBP), geschätzte glomeruläre Filtrationsrate (eGFR) und BMI).
Der ökonometrische Ansatz bestand darin, lokale instrumentelle Variablen (LIV) zu verwenden. Das verwendete Instrument war
…die Tendenz der Clinical Commissioning Groups (CCG), DPP4i als Zweitlinientherapie zu verschreiben (TTP). Während des Studienzeitraums arbeiteten Allgemeinärzte (GPs) innerhalb einer CCG, die Entscheidungen über die Gesundheitsfinanzierung für ihre jeweilige geografische Region beeinflusste. Beispielsweise neigten einige CCGs dazu, ihren angeschlossenen Hausärzten die Verschreibung von DPP4i oder SU zu empfehlen
Mit diesem Instrument führten die Autoren die LIV-Schätzung wie folgt durch:
…die Modelle der ersten Stufe schätzten die Wahrscheinlichkeit, dass jeder Person DDP4i verschrieben wurde, basierend auf ihren Basiskovariaten und der TTP ihres CCG. Die Ergebnismodelle der zweiten Stufe umfassten dann die vorhergesagten Wahrscheinlichkeiten aus den Modellen der ersten Stufe (Propensity Score), Kovariaten und deren Wechselwirkungen. Probit-Regressionsmodelle wurden verwendet, um den anfänglichen Neigungswert zu schätzen (erste Stufe), während verallgemeinerte lineare Modelle auf die Ergebnisdaten angewendet wurden, wobei die am besten geeignete Familie (Gaußsche Funktion) und Verknüpfungsfunktion (Identität) entsprechend dem quadratischen Mittelwertfehler ausgewählt wurde Hosmer-Lemeshow- und Pregibon-Tests werden ebenfalls verwendet, um die Passung und Angemessenheit des Modells zu überprüfen.
Mit diesem Ansatz fanden die Autoren Folgendes:
Der IV war die Tendenz der Clinical Commissioning Groups (CCG), DPP4i als Zweitlinienbehandlung zu verschreiben (TTP). Während des Studienzeitraums arbeiteten Allgemeinärzte (GPs) innerhalb einer CCG, die Entscheidungen über die Gesundheitsfinanzierung für ihre jeweilige geografische Region beeinflusste. Beispielsweise tendierten einige CCGs dazu, ihren angeschlossenen Hausärzten die Verschreibung von DPP4i oder SU als Zweitlinienbehandlung zu empfehlen.
Die Autoren verwenden diesen Ansatz und stellen fest, dass:
Die geschätzten ATEs für die „RCT-geeignete“ Population ähneln denen einer veröffentlichten RCT. Die geschätzten CATEs gehen für die in die RCT eingeschlossenen und ausgeschlossenen Subpopulationen in die gleiche Richtung, unterscheiden sich jedoch in der Größe. Die Variation in den geschätzten individuellen Behandlungseffekten ist in der breiteren Stichprobe von Personen, die die RCT-Einschlusskriterien nicht erfüllen, größer als bei denen, die dies tun.
Die Grafiken zeigen die Ergebnisse insgesamt für RCT-berechtigte und nicht-zulässige RCTs sowie für die spezifischen Untergruppen, die von Interesse sind.
Lernpunkt
Welche 4 Bedingungen muss ein gültiges Instrument erfüllen? Die Autoren beschreiben diese wie folgt.
Erstens muss das Instrument die verordnete Behandlung vorhersagen … Zweitens muss das Instrument unabhängig von nicht gemessenen Kovariaten sein, die die interessierenden Ergebnisse vorhersagen, die teilweise durch ihre Beziehung zu gemessenen Kovariaten bewertet werden können … Drittens muss das Instrument einen Einfluss auf die Ergebnisse haben nur durch die erhaltene Behandlung … Viertens gehen wir davon aus, dass die durchschnittliche Behandlungsauswahl monoton mit der Höhe der IV steigen oder fallen muss.