Comparative efficacy of placebos in short-term antidepressant trials for major depression: En sekundær metaanalyse af placebokontrollerede forsøg

I denne sekundære eksplorative metaanalyse af Cipriani-datasættet testede vi, om placeboerne af nyere antidepressiva var mere effektive end placeboerne af de ældre lægemidler amitriptylin og trazodon. Disse to lægemidler har sammen med clomipramin vist sig at være mindre godt tolereret end den nyere generation af antidepressiva . På baggrund af den afblinding af investigatorer, der er dokumenteret i forskellige undersøgelser , antog vi derfor, at resultatbedømmere i forsøg med disse ældre lægemidler oftere blev afblindet på grund af lægemidlernes markante og observerbare bivirkninger. Som følge heraf antog vi, at de ublindede resultatbedømmere bevidst eller ubevidst ville undervurdere responsen på placebobehandlinger for disse ældre lægemidler. I overensstemmelse med vores ræsonnement fandt vi, at amitriptylin- og trazodon-placeboerne blev vurderet mindre effektive end placeboerne til de nyere, bedre tolererede antidepressiva, såsom SSRI’er (citalopram, escitalopram, fluoxetin, sertralin), SNRI’er (duloxetin, desvenlafaxin, venlafaxin) og især det atypiske noradrenerge og specifikke serotonerge antidepressivum (NaSSA) mirtazapin. Da forsøgsmetodologi, stikprøvekarakteristika og andelen af positive forsøg har ændret sig betydeligt over tid, kontrollerede vi også for vigtige kovariater som f.eks. undersøgelsescenter, doseringsskema, undersøgelseslængde, stikprøvestørrelse, undersøgelsesår, publikationsstatus og sponsorering. Selv om amitriptylin-placebos underlegenhed ikke var signifikant (95 % CrI’er inklusive nul, selv om den stadig indikerede lavere respons) undtagen i forhold til mirtazapin-placebo, var forskellene for trazodon-placebo sammenlignet med nygenerations-placebo fortsat signifikante (95 % CrI’er eksklusive nul).

Vores resultater er forenelige med hypotesen om, at resultatbedømmere på grund af afblinding kan have overvurderet den gennemsnitlige lægemiddel-placeboforskel for de ældre antidepressive lægemidler amitriptylin og trazodon på grund af afblinding. Andre undersøgelser støtter også det synspunkt, at afblinding kan medføre overdrevne responsvurderinger for antidepressiva i forhold til placebo. Khan og kolleger fandt f.eks., at den gennemsnitlige respons på depressionsbehandlinger var højere, når resultatbedømmere var afblindede. I metaanalysen af Moncrieff og kolleger blev det konstateret, at responset på TCA’er var ringe sammenlignet med aktive placeboer (d = 0,17). Ligeledes fandt en metaanalyse af Greenberg og kolleger, at det klinikervurderede respons på TCA’er var lille (d = 0,25) i “blinder”-trearmede forsøg, der indeholdt en aktiv kontrol ud over placebo-kontrol. Desuden var responset på TCA’erne i disse trearmede forsøg tæt på nul (d = 0,06), når det blev vurderet med patienternes selvrapportering, hvilket tyder på, at udfaldsbedømmere ser lægemiddel-placeboforskelle, som de således vurderede patienter personligt ikke opfatter.

De foreliggende resultater er vigtige for fortolkningen af det sammenlignende respons på forskellige antidepressiva som leveret af Cipriani og kolleger . I deres tillæg rapporterede Cipriani og kolleger, at justering for sandsynligheden for at modtage placebo øgede responset på amitriptylin fra OR = 2,13 til en slående OR = 3,16 (48 % stigning). På samme måde resulterede dette for trazodon i en stigning fra OR = 1,51 til OR = 1,97 (30 % stigning). Disse resultater illustrerer klart, at det gennemsnitlige behandlingssvar for både amitriptylin og trazodon stiger betydeligt, når de sammenlignes med placebo i et to-armet forsøg, formentlig fordi det ved at inkludere en placebo-arm er meget lettere for resultatbedømmere at opdage, hvilke deltagere der har modtaget forsøgslægemidlet, end i et aktivt kontrolleret forsøg.

I overensstemmelse med vores hypotese om, at afblinding af outcome-assessorer i forsøg med ældre lægemidler forvrænger den gennemsnitlige lægemiddel-placeboforskel, har en metaanalyse af placebo-responset vist, at det gennemsnitlige placebo-respons i 2005 var mere end dobbelt så stort som placebo-responset i 1980, når det blev vurderet af outcome-assessorer. Der blev imidlertid ikke fundet nogen ændring over tid for patienternes selvvurderinger , hvilket igen underbygger vores ovenfor beskrevne resultater om, at resultatbedømmere vurderer lægemiddel-placeboforskelle anderledes end det, som patienterne personligt opfatter . Det er også vigtigt at understrege, at mens placebo-responset er steget betydeligt i løbet af 1980’erne , har det gennemsnitlige placebo-respons siden ca. 1991 været stort set konstant omkring 35-40%, når ændringer i forsøgsdesignet tages i betragtning .

Vi ser ingen grund til at antage, at der ikke er nogen afblinding i forsøg med SSRI-, SNRI- eller NaSSA-antidepressiva, selv om skævheden formodentlig er mindre udtalt, da de nyere lægemidler tolereres bedre end TCA’er . For eksempel har mirtazapin, som har en unik dobbelt virkemåde som et noradrenergisk og specifikt serotonergt antidepressivt middel , beroligende virkninger på grund af dets affinitet til histaminreceptorer ved lave plasmakoncentrationer . Denne antihistaminvirkning opvejes imidlertid ved højere doser af en øget noradrenerg transmission, hvilket reducerer den beroligende virkning . Mirtazapin anses endvidere for at have en lavere risiko for antikolinergiske eller serotonin-relaterede bivirkninger, der ofte er forbundet med andre antidepressiva (såsom seksuel dysfunktion, kvalme osv.), endda lavere end SSRI’er, og kan faktisk forbedre visse bivirkninger, når det tages sammen med andre antidepressiva .

Det er ikke desto mindre, at den nye generation af antidepressiva også forårsager bivirkninger , hvilket er grunden til, at frafaldet på grund af bivirkninger er højere for den nye generation af antidepressiva end for placebo (men naturligvis stadig lavere end frafaldet for ældre antidepressiva) . Erfarne klinikere kan således stadig være i stand til at gætte korrekt, om en deltager får placebo eller aktiv behandling. I overensstemmelse hermed viste Chen et al. i genanalysen af Hypericum Depression Trial, at klinikere var bedre til at gætte korrekt på placebo end sertralin eller hypericum. Desuden var bivirkningerne mere udtalte blandt deltagere, for hvilke klinikerne gættede på aktiv behandling (hvilket indikerer afblinding på grund af bivirkninger), og forbedringerne på aktiv behandling i forhold til placebo var større, når klinikerne gættede på aktiv behandling. Vi foreslår derfor, at afblindingsbias også er et problem i forsøg med nyere antidepressiva, selv om det sandsynligvis er mindre udtalt end i forsøg med de dårligere tolererede ældre antidepressiva.

Sluttelig er det vigtigt at bemærke, at vores analyse ikke fuldt ud kan udelukke alternative forklaringer. I stedet for afblinding kunne en anden årsag f.eks. være transformationen af forsøgsprotokoller over tid. For blot at nævne et eksempel er inklusions- og eksklusionskriterierne for forsøg med antidepressiva blevet mere restriktive med tiden, hvilket betyder, at forsøgsdeltagerne i stigende grad er ikke-repræsentative . Selv om kontrol for undersøgelsesår helt sikkert reducerer denne forvirrende effekt delvist, kan den ikke fjernes helt og holdent. For at bekræfte vores hypotese er der behov for en forudregistreret prospektiv undersøgelse. I betragtning af, at bivirkninger, der kan observeres af en udfaldsbedømmer, selv når de ikke rapporteres af patienten (f.eks, mundtørhed, tremor, døsighed, somnolens) formodentlig er dem, der forårsager afblinding, ville det være værd at undersøge, om disse specifikke bivirkninger (i forhold til mindre påviselige bivirkninger såsom seksuel dysfunktion og manglende appetit) fører til korrekt identifikation af den modtagne behandling, og om de er negativt korreleret med depressionsvurderinger i placeboarmen.

Den vigtigste implikation af vores undersøgelse er, at afblinding bør vurderes og rapporteres systematisk i antidepressive forsøg. Dette ville gøre det muligt at foretage statistisk kontrol med afblindingseffekter, og det ville også være muligt at gennemføre en konfirmatorisk undersøgelse som beskrevet ovenfor. Hvis vores hypotese holder stik, vil det betyde, at inaktive placeboer er en dårlig kontrol, og at brugen af aktive placeboer derfor bør genovervejes. En anden implikation ville være, at effektivitetsrangeringer baseret på NMA skal fortolkes med forsigtighed.

Begrænsninger

En begrænsning af den foreliggende analyse er, at den ikke var baseret på en skriftlig protokol, men blot fulgte Naudet og kollegers resultater .

En anden begrænsning, der ligger i det foreliggende datasæt, er, at placeboerne kun kan fortolkes på baggrund af deres sammenligninger med de tilsvarende antidepressiva, som de er bundet til i netværket. Her fokuserede vi på placeboerne med enkelt-sammenligning, da placeboerne med dobbelt-sammenligning er svære at fortolke og derfor kun præsenteres i tillægget. Man skal derfor huske på, at 24 % af de forsøg, der også omfattede dobbeltsammenligninger, ikke blev medtaget i denne fortolkning.

En anden begrænsning vedrører den evidens, der er opsummeret i denne særlige placebo-NMA, idet alle sammenligninger mellem placeboer kun er baseret på indirekte evidens og ikke på en blanding af direkte og indirekte sammenligninger som for de fleste antidepressiva; i blandede behandlingssammenligninger er en stor del af evidensen dog også ofte baseret på indirekte evidens . Konsistenshypotesen, som går ud fra, at virkningerne mellem direkte og indirekte sammenligninger er de samme, kan derfor ikke verificeres. Selv om det i denne placebo-sammenhæng er umuligt at verificere denne hypotese, kan man ikke være sikker på sammenligningernes validitet, da indirekte sammenligninger måske ikke er robuste og tilbøjelige til at svinge virkningerne .

En metodologisk begrænsning er problemet med multiplicitet i den foreliggende NMA. Standard NMA-modeller tager normalt ikke højde for multiple sammenligninger ved estimering af relative behandlingseffekter, hvilket kan føre til overdrevne og overmodige udsagn vedrørende relative behandlingseffekter. I den foreliggende analyse blev der derfor anvendt den bayesianske tilnærmelse for at reducere dette problem, der er beskrevet af Efthimiou og White , hvor behandlingseffekter modelleres udskiftelige, og derfor skrumpes estimaterne væk fra store værdier.

En mere generel begrænsning er, at afhængigheden af lighedshypotesen, der antager, at alle forsøg ligner hinanden nok til at blive puljet sammen. Cipriani et al. anså denne hypotese for at være gyldig, men alligevel kan nogle umålte karakteristika have påvirket vores resultater, såsom forskelle mellem stationære og ambulante patienter eller andre surrogater for depressionssværhedsgrad ved studiestart.