top

Patientenrelevante Endpunkte aus Sicht der GKV

Die Leistungen der gesetzlichen Krankenversicherung umfassen die Verhütung, Früherkennung und Behandlung von Krankheiten sowie die Nachsorge. Dabei unterliegen alle zu Lasten der GKV erbrachten Leistungen dem Wirtschaftlichkeitsgebot nach §12 SGB V. Die populationsorientierte Verteilung der Morbidität (ungefähr 20% der Versicherten binden etwa 80% der Leistungen) bedeutet im Umkehrschluss, dass ungefähr 80% der Versicherten faktisch keine oder nur sehr wenige Leistungen in Anspruch nehmen. Darauf muss ein Finanzierungsmodell ebenso Rücksicht nehmen (falsche Preissignale) wie die politisch zu verantwortende Gestaltung eines wirksamkeitsbasierten Leistungsrahmens. Dies unterstreicht die Notwendigkeit zu prüfen, welche Leistungen kollektiv finanziert werden sollen. Dabei müssen medizinische Verfahren, Produkte und Arzneimittel hinsichtlich ihres Effektes (idealerweise des patientenrelevanten Nutzens) bewertet werden, um sie in den Leistungskatalog der GKV aufzunehmen oder gegebenenfalls auszuschließen.

Mehr lesen
Erstveröffentlichungsdatum: 24.01.2013

Downloads

Plain-Text als TXT

Abstrakt: Patientenrelevante Endpunkte aus Sicht der GKV

Aufgrund der populationsorientierten Verteilung der Morbidität (ungefähr 20% der Versicherten binden etwa 80% der Leistungen) in der Versichertengemeinschaft, im Zusammenspiel mit der einkommensabhängigen Umlagefinanzierung kommt der Wirksamkeit der, von der GKV angebotenen Leistungen, eine hohe Bedeutung zu. Die Wirksamkeit der Leistungen wird in entsprechenden Studien durch Messung definierter Endpunkte bestimmt. Die Sichtweise der GKV auf diese Endpunkte wird von der jeweiligen Beurteilungsperspektive und dem dazugehörigen Zeitpunkt im Produktzyklus bestimmt. So sind bei der Entscheidung über die Aufnahme einer Leistung in den allgemeinen Leistungskatalog der GKV, zunächst nur die Endpunkte aus den entsprechenden Zulassungsstudien verfügbar und ihre Verwendung folgerichtig. Diese bilden jedoch nur die maximale Wirksamkeit einer Leistung in einem hochselektierten Patientenkollektiv ab. Um die spätere Wirksamkeit in der realen Versorgungssituation zu beurteilen, bedarf es weiterer Versorgungsforschung. Hier sind Endpunkte, die sich aus den administrativen Daten der Leistungserbringer oder Kostenträger bestimmen lassen ein kostengünstiger Weg um den Nutzen einer Leistung im Alltag zu messen. Bei beiden Perspektiven gilt es den Nutzen vornehmlich aus der Sicht des Patienten zu beurteilen, wobei dieser stärker als bisher in den Prozess der Definition der Endpunkte einbezogen werden sollte.

Abstract: Patientrelevant endpoints through the eyes of a German sickness fund

Due to the distribution of morbidity within the insured population (20% of insurees contribute for 80% of the expenses), in conjunction with a wage-based pay-as-you-go financing, proven effectiveness of the services covered by the statuary health insurance is paramount. Proven effictiveness is established through appropriate (clinical) trials, by measurement of defined endpoints. The view of the statutory health insurance companies onto these endpoints depends on the position of a service within its product cycle. Early in the product cycle when a service aims for approval of coverage by the statutory health insurances, the only endpoints available stem fom registration trials and consequently it is correct to use them in this context. The restriction of endpoints utilized in registration trials is that these trials (and thus their endpoints) are designed to prove the maximum effectiveness in a highly selected patient population. To estimate the effect of a service for all relevant insurees (i.e. an unselceted general patient population) further non interventional trials in a „real world“ setting are needed. To estimate the effectiveness of services under these conditions, the use of endpoints derived from administrative claims data has proven to be both valuabel and cost effective. In either of these two approaches, the benefit has to be evaluated from the patients perspective, thus patients should be involved in the process of the definition of relevant endpoints to a higher degree than in recent years.

Literatur

Glaeske, Gerd; Rebscher, Herbert; Willich, Stefan N , Versorgungsforschung: Auf gesetzlicher Grundlage systematisch ausbauen Dtsch Arztebl 2010; 107(26): A-1295 / B-1142 / C-1122. Hutchins Laura F. et al, .Underrepresentation of Patients 65 Years of Age or Older in Cancer-Treatment Trials, N Engl J Med 1999; 341:2061-2067 IQWiG (7.6.2013). Wie sich die Präferenzen von Patienten ermitteln lassen. IQWiG erprobt Analytic Hierarchy Process (AHP) / Methode ist geeignet und könnte Bestandteil von Kosten-Nutzen-Bewertungen werden. Verfügbar unter https://www.iqwig.de/de/presse/pressemitteilungen/pressemitteilungen/wie_sich_die_praferenzen_von_patienten_ermitteln_lassen.3661.html Shirani, Afsaneh et al, Association Between Use of Interferon Beta and Progression of Disability in Patients With Relapsing-Remitting Multiple Sclerosis“. JAMA. 2012;308(3):247-256 Stock, Stephanie; Redaélli, Marcus, Grenzen gesundheitsökonomischer Evaluation, in: MVF 2012, S. 32

Zusätzliches

Zitationshinweis: Rebscher, H., Patientenrelevante Endpunkte aus Sicht der GKV, in: Monitor Versorgungsforschung" (04/13), S. 41-44.

Plain-Text

Patientenrelevante Endpunkte aus Sicht der GKV

Die Leistungen der gesetzlichen Krankenversicherung umfassen die Verhütung, Früherkennung und Behandlung von Krankheiten sowie die Nachsorge. Dabei unterliegen alle zu Lasten der GKV erbrachten Leistungen dem Wirtschaftlichkeitsgebot nach §12 SGB V. Die populationsorientierte Verteilung der Morbidität (ungefähr 20% der Versicherten binden etwa 80% der Leistungen) bedeutet im Umkehrschluss, dass ungefähr 80% der Versicherten faktisch keine oder nur sehr wenige Leistungen in Anspruch nehmen. Darauf muss ein Finanzierungsmodell ebenso Rücksicht nehmen (falsche Preissignale) wie die politisch zu verantwortende Gestaltung eines wirksamkeitsbasierten Leistungsrahmens. Dies unterstreicht die Notwendigkeit zu prüfen, welche Leistungen kollektiv finanziert werden sollen. Dabei müssen medizinische Verfahren, Produkte und Arzneimittel hinsichtlich ihres Effektes (idealerweise des patientenrelevanten Nutzens) bewertet werden, um sie in den Leistungskatalog der GKV aufzunehmen oder gegebenenfalls auszuschließen.

 

>> Zur Beurteilung der Wirksamkeit von medizinischen Verfahren oder Produkten werden diese unter Studienbedingungen erprobt und der resultierende Effekt gemessen. Zur Messung dieser Effekte bedient man sich definierter Endpunkte. Im Bereich der Kosten-Nutzen-Bewertung von Arzneimitteln hat der Gesetzgeber erstmals konkret vorgegeben, welche Aspekte Endpunkte zur Messung der Effekte abdecken müssen (§35b SGB V). Es handelt sich dabei um
• Verbesserung des Gesundheitszustands
• Verkürzung der Krankheitsdauer
• Verlängerung der Lebensdauer
• Verringerung der Nebenwirkungen
• Verbesserung der Lebensqualität

Im Design von Studien ist dabei zu fordern, dass sorgfältig zwischen dem primären Endpunkt, für den die notwendige Teilnehmeranzahl berechnet wurde und weiteren sekundären Endpunkten, die vor Beginn der Untersuchung definiert und festgelegt wurden, unterschieden wird. Gegen die Betrachtung weiterer Endpunkte, die sich erst im Verlauf der Studie ergeben haben, ist nur dann nichts einzuwenden, wenn deutlich gemacht wird, dass es sich hierbei um rein explorative Analysen handelt, die der Bestätigung in weiteren Studien bedürfen. Des Weiteren sollten immer solche Endpunkte gewählt werden, die einen für den Patienten relevanten Nutzen messen. So ist es beispielsweise legitim, in der Bewertung von Koronarstents die Durchflussraten einige Wochen oder Monate nach Implantation zu bestimmen. Hierbei handelt es sich jedoch lediglich um einen Surrogatparameter. Die patientenrelevanten Endpunkte wären hier Überlebenszeit oder das Ausbleiben einer weiteren Verschlechterung des Gesundheitszustandes. Dies ließe sich zum Beispiel durch eine verringerte Reinfarktrate oder eine verringerte Notwendigkeit von stationärer Behandlung (weniger Krankenhaustage) abbilden bzw. messen.
Wie irreführend die oben erwähnten Surrogatparameter sein können verdeutlicht eine Studie, in der der Einsatz von ß-Interferonen bei multipler Sklerose untersucht wurde. Hier wurde die Anzahl der Krankheitsschübe und die Anzahl der radiologisch nachweisbaren Läsionen gemessen und die Verringerung beider Messwerte als Surrogat für die verbesserte Lebensqualität bzw. die Veränderung des Gesundheitszustandes verwendet. Es zeigte sich jedoch später bei einer retrospektiven Analyse, dass die anhand der Surrogatparameter vermutete Verbesserung der Lebensqualität sich mit den Disability Scores, die die tatsächlichen Fähigkeiten der Patienten im alltäglichen Leben maßen, nicht nachweisen ließ (Shirani 2012). Aber auch wenn die Endpunkte prospektiv definiert, patientenrelevant und valide gemessen worden sind, ist die jeweilige Beurteilungsperspektive für die Auswahl der Endpunkte und des Messverfahrens von entscheidender Bedeutung.
Frühe Nutzenbewertung - Erbringung einer
Leistung zu Lasten der GKV
Dabei gibt es im Versorgungszusammenhang der GKV verschiedene Perspektiven. Eine davon ist die Sicht der GKV als Kollektiv. Hier steht die Frage nach der Aufnahme von Leistungen in den allgemeingültigen Leistungskatalog der gesamten GKV im Vordergrund. Die zu untersuchenden Leistungen stehen hier zumeist in einer sehr frühen Phase ihres Produktzyklus.
Zur Bewertung stehen in dieser Phase vornehmlich Daten und Erkenntnisse aus den entsprechenden Zulassungsstudien zur Verfügung. Diese sind in der Mehrzahl der Fälle als Randomized Controlled Trial (RCT) angelegt. Solche Studien werden vom Hersteller initiiert, um die Zulassungskriterien, Wirksamkeit und Sicherheit seines Produktes nachzuweisen. Dabei wählt der Hersteller verpflichtend ein Studiendesign, das die maximale interne Evidenz abbildet. Das Maximum an interner Validität wird dabei in der Regel durch eine nur schwach ausgebildete externe Validität erkauft.
Die Einschlusskriterien dieser Studien müssen so gewählt werden, dass Versuchs- und Kontrollgruppe hochgradig homogen und vergleichbar sind. Idealtypisch handelt es sich somit um Probanden, die bis auf eine isolierte, zu untersuchende Erkrankung relativ „gesund“ sind, also wenig bis gar keine Kormobidität aufweisen. Die gewählten Behandlungsprotokolle werden im Rahmen dieser aufwändigen, personalintensiven und teuren Studien minutiös eingehalten und jede kleinste Abweichung protokolliert.
Der Auswahl oder Definition der Erfolgsparameter bzw. Endpunkte sind bei diesen Untersuchungen nur durch den resultierenden Aufwand Grenzen gesetzt. Jedoch ist jede Studie konzeptionell nur auf einen primären Endpunkt ausgerichtet, für den die notwendige Teilnehmerzahl rekrutiert werden muss. Daneben sind weitere, sogenannte sekundäre Endpunkte möglich. Alles was messbar ist kann in den entsprechenden Studienprotokollen vorgegeben und konsekutiv abgefragt bzw. bestimmt werden. Das gilt insbesondere für unmittelbar vom Patienten wahrgenommene Parameter wie Schmerzintensität, Lebensqualität und Ability Scores. Da die Daten primär zur Nutzenmessung erhoben werden, ist auch der Erhebungszeitpunkt frei wählbar. Insbesondere ist die Erhebung hier nicht an Abrechnungszeiträume oder Rechnungsstellung gebunden. Alle diese Eigenschaften machen den RCT zu diesem frühen Zeitpunkt der Produktvermarktung zu einer sinnvollen, wertvollen und unverzichtbaren Entscheidungshilfe. Die Validität der zu den einzelnen Parametern gefundenen Aussagen ist, angesichts der hochselektierten und homogenen Gruppe der Studienteilnehmer, extrem hoch. Im Ergebnis ist die interne Validität solcher Untersuchungen optimiert, die Übertragbarkeit der Ergebnisse auf andere Kollektive, also die externe Validität, aber niedrig. Bei der Auswahl der Endpunkte wird der Leistungsanbieter solche Endpunkte bevorzugen, mit denen eine maximale Wirksamkeit dargestellt werden kann. Darüber, inwieweit dies die tatsächlichen Patienteninteressen abbildet, kann in jedem einzelnen Fall sicher gestritten werden. Aber auch hinsichtlich der Gewichtung von Endpunkten gibt es Unterschiede zwischen Patienten und medizinischen Experten. So hat das IQWiG in einem Pilotprojekt zur Depression festgestellt: „Für Patientinnen und Patienten, die an einer Depression leiden, ist es wichtiger, dass sie überhaupt spürbar auf eine Therapie ansprechen, als dass sie durch sie vollständig genesen. Bei Ärztinnen und Ärzten, die Menschen mit dieser Erkrankung behandeln, ist es genau umgekehrt: Remission hat bei ihnen Vorrang vor Ansprechen.“ (IQWiG 2013). Um den patientenrelevanten Nutzen zu erhöhen, ist in Zukunft eine verstärkte Einbeziehung der Patientenperspektive in die Studienplanung unverzichtbar.
Abgrenzung des RCT zur Versorgung im Alltag
Zum Zeitpunkt der Entscheidung über die Aufnahme einer Leistung in den Leistungskatalog der GKV sind vornehmlich Daten aus RCT verfügbar, diese bilden somit häufig die Grundlage der Entscheidung. Nachdem eine Leistung zu Lasten der GKV für GKV-Versicherte erbracht werden darf, wandelt sich in der Alltagsversorgung die Beurteilungsperspektive. Behandelt werden häufig nicht mehr streng umschriebene einheitliche Patientenkollektive, sondern „normale“ GKV-Versicherte mit einem bunten Strauß aus Komorboditäten im „normalen“ Behandlungsprozess, der im Einzelfall erheblich von den Studienbedingungen der RCT abweichen wird. So zeigt sich, dass in der Versorgung von onkologischen Patienten das in der „richtigen“ Welt behandelte Kollektiv deutlich älter ist als die Probanden in den meisten Zulassungsstudien (Hutchins: 1999). Eine Analyse der mit Biologika behandelten Patienten, die unter Rheumatoider Arthritis leiden, zeigt, dass nur ungefähr ein Drittel der versorgten Patienten die Einschlusskriterien der jeweiligen RCTs erfüllt hätten. Das von der GKV versorgte Kollektiv weicht also in der Zusammensetzung im Regelfall erheblich von dem Kollektiv ab, an dem die Wirksamkeit und Sicherheit nachgewiesen wurde. Konsekutiv liegt auch die in diesem Patientenkreis gefundene Wirksamkeit unter der, die in klinischen Studien bestimmt wurde. Diese unter Real-World-Bedingungen gefundenen Effekte sind aber die, die für die langfristige Bewertung durch die Kostenträger von Bedeutung sind.
Messung von Effekten im Versorgungsalltag -
Non Interventional Studies
Die Beurteilung von Effekten unter Alltagsbedingungen entspricht der Perspektive, die eine Krankenversicherung im Auge haben muss, wenn sie selektiv Verträge für ihr Versichertenkollektiv abschließt. Denn unter diesen Bedingungen muss sich die zu kontrahierende Leistung bewähren und ihre Effizienz beweisen. Um diese Effekte zu messen bedarf es Non Interventional Studies, also eine Messung der Versorgungsform in der Routineversorgung.
Das Design ist hier auf die Messung der Effekte im Alltag abgestimmt. Die Einschlusskriterien für die Versorgung sind sehr weit gefasst und die Behandlung erfolgt unter Alltagsbedingungen, mit allen üblichen Abweichungen vom vorgesehenen Standardbehandlungsprotokoll, sowie den durch die zahlreichen Komorbiditäten bedingten Parallelbehandlungen. Die resultierende Inhomogenität der Behandlungsgruppe macht die Definition einer Kontrollgruppe zu einer Herausforderung.
Erschwerend kommt bei Selektivverträgen einzelner Kassen mit Herstellern oder Anbietern hinzu, dass sich eine Randomisierung auf Behandlungsgruppe oder Kontrollgruppe zur Messung von Effekten durch das SGB V verbietet. Es ist nach dem Gleichbehandlungsgrundsatz schlicht nicht statthaft, einem Patienten eine wirksame Behandlung vorzuenthalten. Darüber hinaus sind Krankenkassen aus Kostengründen häufig gezwungen, ihre Analysen auf Sekundärdaten zu gründen. Es handelt sich dabei um Daten, die zur Abrechnung von den Leistungserbringern an die Krankenkasse gesendet werden. Dies sind hauptsächlich Diagnose- und Prozedurendaten, aber auch Verordnungsdaten (codierte Beschreibung der Leistung), Erbringungszeitpunkte sowie die jeweils in Ansatz gebrachten Rechnungssätze. Wenn auf eine kostensteigernde Zusatzerhebung von Primärdaten verzichtet werden soll, ist somit der verfügbare Datenkranz stark eingeschränkt und auch die Erhebungszeitpunkte sind durch die Leistungsinanspruchnahme bzw. Rechnungsstellung definiert. Es lassen sich aber auch auf dieser stark eingeschränkten Datengrundlage patientenrelevante Endpunkte definieren (Glaeske 2010). Dies sind beispielsweise die Anzahl von Wiederaufnahmen ins Krankenhaus nach einem Eingriff, die Anzahl von Arzneimittelverordnungen, Verordnete Hilfsmittel, die Anzahl von Patienten, die eine Rehabilitationsmaßnahme in Anspruch genommen haben, oder auch der Anteil der Versicherten, die nach einem Eingriff kontinent geblieben sind.
Bei der Auswahl der bewertungsrelevanten Endpunkte werden hier durch die Krankenkassen, nicht zuletzt aufgrund des erheblichen ökonomischen Wettbewerbsdrucks, häufig Kostendaten in den Vordergrund gerückt. Auch hier muss sicher die Frage gestellt werden, ob dies die Interessen des Patienten immer in geeigneter Weise abbildet.
Praktische Anwendung der NIS im Kassenalltag
Bei der Messung von Effekten unter Real-World-Bedingungen wird somit weniger der isolierte Effekt einer Leistung bzw. Verordnung als vielmehr der Effekt dieser spezifischen Leistung im Gesamtkontext aller Behandlungen des Patienten bewertet. Konkret bedeutet dies, dass auch ein brillant durchgeführter operativer Eingriff durch beispielsweise ein partielles Vorenthalten oder Versagen von Leistungen nachgelagerter Versorgungsstufen sein patientenbezogenes Outcome nicht belegen kann.
Gemessen wird ein solcher Effekt bevorzugt im Vergleich zu einer geeigneten Kontrollgruppe. Da sich aus den oben genannten Gründen eine Randomisierung von Versicherten auf eine Behandlungsgruppe und eine Kontrollgruppe verbietet, verwendet die DAK-Gesundheit ein Analysetool auf der Grundlage des Propensity Score Matching Modells. Dabei wird aus einer geeigneten Zielpopulation retrospektiv jedem Versicherten, der eine vertraglich vereinbarte Leistung erhielt, ein mathematisch/statistischer Zwilling zugeordnet, der mit der gleichen Wahrscheinlichkeit Empfänger dieser Leistung war, sie aber eben gerade nicht gewählt hat. Auf diese Weise erhält man zur Auswertung eine dem Vertragskollektiv in Bezug auf die zur Bildung des Propensity Scores verwendeten Parameter gleichartige Kontrollgruppe aus den administrativen Daten der Krankenkasse. Diesen Ansatz verfolgt die DAK-Gesundheit bei allen Vertragsmodellen, aber auch, um die Wirkung ihrer strukturierten Behandlungsprogramme zu messen. Dieser Weg findet in der Versorgungsforschung, aber auch in der empirischen Sozialforschung breite Anwendung und Akzeptanz und wurde schon als „derzeitiger Goldstandard“ für die Analyse von Versorgungsprozessen im Alltag einer populationsorientierten Versorgung definiert.
Eine beispielhafte Darstellung einer solchen risikoadjustierten Erfolgsmessung mittels Propensity-Score-Matching zeigt Abbildung 6: Risikoadjustierte Erfolgsmessung (illustratives Beispiel). Ausgehend von einer retrospektiven Betrachtung vor dem Programmstart, um die Homogenität und damit die Güte des Matchings nachzuweisen (idealerweise Verlauf entlang der O-Linie, enges Konfidenzintervall), wird die Konsequenz nach Intervention (hier das aktive Versorgungsmanagement) über die Quartale analysiert.
Zum Programmstart zeigen sich signifikante Mehrausgaben für die Vertragsgruppe, was sich durch eine intensivierte zielgerichtete Behandlung in eben dieser Gruppe beim Programmstart erklären ließe. Diesen signifikanten Mehrausgaben stehen im zweiten und dritten Folgequartal (in diesem fiktiven Verlauf) Einsparungen gegenüber, die zum einen die Mehrausgaben nicht kompensieren und zum anderen höchstwahrscheinlich zufällig sind (Konfidenzintervall über und unter O-Linie).
Bei der Interpretation der Ergebnisse ist stets zu hinterfragen, ob Unterschiede zwischen den Vertrags- und Kontrollgruppen versorgungsbedingt sind oder ob Unterschiede durch nicht berücksichtigte Störgrößen (Confounder) verursacht sind, die zwischen den Gruppen nicht gleich verteilt wurden. Hierzu bedarf es gegebenenfalls weitergehender Morbiditätsanalysen oder Einzelleistungsanalysen (DRG, ICD, OPS, EBM etc.), um „schief-verteilte“ Einflussgrößen zu identifizieren.
Innerhalb der DAK-Gesundheit ist es mit diesem Ansatz gelungen, in kurzer Zeit auch komplexe Vertragskonstrukte in der Versorgungswirklichkeit zu bewerten und hier, ohne eine Randomiserung in der Leistungsgewährung, die kausalen Effekte neuer bzw. alternativer Versorgungsformen nach den für Versicherte und Krankenkasse relevanten Auswirkungen zu bewerten. Zurzeit stellt somit das retrospektive Propensity-Score-Matching für die DAK-Gesundheit den „Goldstandard“ in der Bewertung neuer Versorgungsangebote dar, den es fortwährend zu verbessern gilt, bis gegebenenfalls neue Analyseansätze eine andere Ausrichtung erforderlich machen.
Zusammenfassung
Bei der Definition patientenrelevanter Endpunkte ist der Zeitpunkt der Bestimmung in Bezug auf den Produktzyklus zu berücksichtigen. Zu einem frühen Zeitpunkt werden hier die Endpunkte überwiegen, die es dem Hersteller oder Anbieter ermöglichen, die maximale Wirksamkeit seiner Leistung darzustellen. Später, wenn es darum geht, den Effekt der Leistung unter Alltagsbedingungen zu bestimmen, wird die Auswahl häufig durch die freie Verfügbarkeit der administrativen Kassendaten und eine Fokussierung auf die Wirtschaftlichkeit durch die Krankenkassen eingeschränkt.
In beiden Fällen bleibt zu konstatieren, dass das Hauptaugenmerk in der Mehrzahl der Fälle eben nicht auf dem Patienten liegt, sondern andere definieren, was patientenrelevant sei. Hier sollte in Zukunft der Patient besser als bisher eingebunden werden. Eine Herausforderung aus Sicht der Krankenversicherung wird es dabei sein, das Spannungsfeld zwischen Patientenpräferenz (im Sinne der „kranken Leistungsempfänger“) und Versichertenpräferenz (im Sinne von „gesundem Financier“ der Leistungen) allgemeinverträglich aufzulösen. <<