Метаанализ или мета анализ как пишется

Всего найдено: 4

Как правильно: мета-анализ или метаанализ?

Ответ справочной службы русского языка

Верно слитное написание.

Добрый день!
Подскажите, в медицинском тексте слово «метаанализ» пишется с двумя «а» ?

Ответ справочной службы русского языка

Верное написание: метаанализ.

Как правильно: мета-анализ или метаанализ?
Спасибо.

Ответ справочной службы русского языка

Приставка _мета…_ пишется слитно. Правильно: _метаанализ_.

Какое значение имеет приставка мета-? В слове мета(?)анализ «мета» — приставка? Мета(?)анализ слитно или через дефис? Спасибо.

Ответ справочной службы русского языка

_Мета_ — приставка, пишется слитно: _метаанализ_.

Русский[править]

Морфологические и синтаксические свойства[править]

падеж ед. ч. мн. ч.
Им. метаана́лиз метаана́лизы
Р. метаана́лиза метаана́лизов
Д. метаана́лизу метаана́лизам
В. метаана́лиз метаана́лизы
Тв. метаана́лизом метаана́лизами
Пр. метаана́лизе метаана́лизах

метаанализ

Существительное, неодушевлённое, мужской род, 2-е склонение (тип склонения 1a по классификации А. А. Зализняка).

Корень: .

Произношение[править]

Семантические свойства[править]

Значение[править]

  1. понятие научной методологии, означает объединение результатов нескольких исследований методами статистики для проверки одной или нескольких взаимосвязанных научных гипотез ◆ Наконец, мы должны понимать идею метаанализа. Метаанализ заключается в объединении данных из различных исследований и их анализе как единого набора данных. Колин Кэмпбелл, ‎Томас Кэмпбелл, «Китайское исследование», 2013 г.

Синонимы[править]

  1. мета-анализ

Антонимы[править]

Гиперонимы[править]

Гипонимы[править]

Родственные слова[править]

Ближайшее родство

Этимология[править]

Происходит от ??

Фразеологизмы и устойчивые сочетания[править]

Перевод[править]

Список переводов

Библиография[править]

Мета-анализ (англ. meta-analysis) — в статистике это объединение результатов нескольких исследований для анализа набора связанных между собой научных гипотез.

В разных случаях для повторного статистического анализа отдельных исследований используют либо первичные данные оригинальных исследований либо обобщают опубликованные (вторичные) результаты исследований, посвященных одной проблеме.[1] Мета-анализ является частым, но не обязательным компонентом систематического обзора (en:systematic review).

Термин «мета-анализ» был предложен американским статистиком Джином Глассом.[2]

История

Первый мета-анализ был осуществлен Карлом Пирсоном в 1904 году, который пытался разрешить проблему низкой статистической мощности в исследованиях с небольшим размером выборки. Пирсон анализировал результаты нескольких исследований для того, чтобы получить более точные данные.[3][4] Первый мета-анализ был проведен в 1940 году в издании Шестьдесят лет экстрасенсорного восприятия (англ. Extra-sensory perception after sixty years), в котором были объединены результаты идентичных экспериментов, выполненных независимыми исследователями. Авторы книги — психологи Университета Дьюка — Джозеф Пратт и Джозеф Райн с соавторами.[5] Мета-анализ был выполнен на основе 145 статей об экстрасенсорном восприятии, опубликованных в период с 1882 по 1939 год и содержал оценку влияния неопубликованных данных. Хотя мета-анализ в настоящее время широко используется в эпидемиологии и доказательной медицине, подобных исследований в области медицины не проводили до 1955 году. В 1970-е годы более сложные аналитические методы были введены в исследования в области образования Д. В. Глассом, Ф. Л. Шмидтом, Дж. Е. Хантером.

Джин Гласс был первым современным статистиком, формализовавшим использование мета-анализа, и считается современным основателем этого метода. Первое использование термина согласно Oxford English Dictionary было совершено Глассом в 1976 году.[2][6] Статистические теории, посвященные мета-анализу были значительно развиты в работах Nambury S. Raju, Larry V. Hedges, Harris Cooper, Ingram Olkin, John E. Hunter, Jacob Cohen, Thomas C. Chalmers, Robert Rosenthal, Frank L. Schmidt.

Преимущества

Преимущества мета-анализа (над обзорами литературы и др.):

  • указывает, что выборка более разнообразна, чем предполагалось исходя из разнообразия образцов
  • обобщение нескольких исследований
  • контроль разнообразия между исследованиями
  • может объяснять разнообразие между данными
  • увеличение статистической мощности
  • работает в условиях избытка информации — каждый год публикуется большое количество статей
  • обобщает несколько исследований и поэтому меньше зависит от отдельных находок, чем индивидуальные исследования
  • может обнаруживать систематические ошибки

Этапы

  1. Формулирование задачи
  2. Изучение литературных данных
  3. Отбор исследований (критерии включения)
    • Включение основано на качественных критериях, например, наличие рандомизации и слепого контроля в клинических исследованиях
    • Отбор отдельных исследований, (по объектам), например, лечение рака молочной железы
    • Включение или невключение неопубликованных данных
  4. Решение о том, какие зависимые не включаются в мета-анализ
    • Различия (дискретные данные)
    • Средние (непрерывные данные)
  5. Выбор модели (см далее)

Примечания

  1. http://www.statsoft.ru/statportal/tabID__50/MId__449/ModeID__0/PageID__353/DesktopDefault.aspx Подходы к выполнению мета-анализа
  2. 1 2 Glass, G. V (1976). «Primary, secondary, and meta-analysis of research». Educational Researcher, 5, 3-8.
  3. O’Rourke, Keith (2007-12-01). «An historical perspective on meta-analysis: dealing quantitatively with varying study results». J R Soc Med 100 (12): 579–582. DOI:10.1258/jrsm.100.12.579. PMID 18065712. Проверено 2009-09-10.
  4. Egger, M; G D Smith (1997-11-22). «Meta-Analysis. Potentials and promise». BMJ (Clinical Research Ed.) 315 (7119): 1371–1374. ISSN 0959-8138. PMID 9432250. Проверено 2009-09-10.
  5. Bösch, H. (2004). Reanalyzing a meta-analysis on extra-sensory perception dating from 1940, the first comprehensive meta-analysis in the history of science. In S. Schmidt (Ed.), Proceedings of the 47th Annual Convention of the Parapsychological Association, University of Vienna, (pp. 1—13)
  6. meta-analysis. Oxford English Dictionary. Oxford University Press. Draft Entry June 2008. Accessed 28 March 2009. «1976 G. V. Glass in Educ. Res. Nov. 3/2 My major interest currently is in what we have come to call..the meta-analysis of research. The term is a bit grand, but it is precise and apt… Meta-analysis refers to the analysis of analyses.»

Литература

  • Cornell, J. E. & Mulrow, C. D. (1999). Meta-analysis. In: H. J. Adèr & G. J. Mellenbergh (Eds). Research Methodology in the social, behavioral and life sciences (pp. 285—323). London: Sage.
  • Norman, S.-L. T. (1999). Tutorial in Biostatistics. Meta-Analysis: Formulating, Evaluating, Combining, and Reporting. Statistics in Medicine, 18, 321—359.
  • Sutton, A.J., Jones, D.R., Abrams, K.R., Sheldon, T.A., & Song, F. (2000). Methods for Meta-analysis in Medical Research. London: John Wiley. ISBN 0-471-49066-0
  • Wilson, D. B., & Lipsey, M. W. (2001). Practical meta-analysis. Thousand Oaks: Sage publications. ISBN 0761921680
  • Owen, A. B. (2009). «Karl Pearson’s meta-analysis revisited». Annals of Statistics, 37 (6B), 3867—3892. Supplementary report.
  • Ellis, Paul D. (2010). The Essential Guide to Effect Sizes: An Introduction to Statistical Power, Meta-Analysis and the Interpretation of Research Results. United Kingdom: Cambridge University Press. ISBN 0521142466
  • Bonett, D.G. (2009). Meta-analytic interval estimation for standardized and unstandardized mean differences, Psychological Methods, 14, 225—238.

Ссылки

  • Пособие Cochrane для систематического анализа
 Просмотр этого шаблона Статистические показатели
Описательная
статистика
Непрерывные
данные
Коэффициент сдвига Среднее (Арифметическое, Геометрическое, Гармоническое) · Медиана · Мода · Размах
Вариация Ранг · Среднеквадратическое отклонение · Коэффициент вариации · Квантиль (Дециль, Процентиль/Перцентиль/Центиль)
Моменты Математическое ожидание · Дисперсия · Асимметрия · Эксцесс
Дискретные
данные
Частота · Таблица контингентности
Статистический
вывод и
проверка
гипотез
Статистический
вывод
Доверительный интервал (Частотная вероятность) · Достоверный интервал (Байесовский вывод) · Статистическая значимость · Мета-анализ
Планирование
эксперимента
Генеральная совокупность · Планирование выборки · Районированная выборка · Репликация · Группировка · Чувствительность и специфичность
Объём выборки Статистическая мощность · Мера эффекта · Стандартная ошибка
Общая оценка Байесовская оценка решения · Метод максимального правдоподобия · Метод моментов нахождения оценок · Оценка минимального расстояния · Оценка максимального интервала
Статистические
критерии
Z-тест · t-критерий Стьюдента · Критерий Фишера · Критерий Пирсона (Хи-квадрат) · Критерий согласия Колмогорова · Тест Вальда · U-критерий Манна — Уитни · Критерий Уилкоксона · Критерий Краскела — Уоллиса · Критерий Кохрена · Критерий Лиллиефорса
Анализ выживания Функция выживания · Оценка Каплана — Мейера · Логранк-тест · Интенсивность отказов · Пропорциональная модель опасностей
Корреляция Коэффициент корреляции Пирсона · Ранг корреляций (Коэффициент Спирмана для ранга корреляций, Коэффициент тау Кендалла для ранга корреляций) · Переменная смешивания
Линейные модели Основная линейная модель · Обобщённая линейная модель · Анализ вариаций · Ковариационный анализ
Регрессия Линейная · Нелинейная · Непараметрическая регрессия · Полупараметрическая регрессия · Логистическая регрессия

Столбчатая диаграмма · Совмещённая диаграмма · Диаграмма управления · Лесная диаграмма · Гистограмма · Q-Q диаграмма · Диаграмма выполнения · Диаграмма разброса · Стебель-листья · Ящик с усами

For the process in historical linguistics known as metanalysis, see Rebracketing.

A meta-analysis is a statistical analysis that combines the results of multiple scientific studies. Meta-analyses can be performed when there are multiple scientific studies addressing the same question, with each individual study reporting measurements that are expected to have some degree of error. The aim then is to use approaches from statistics to derive a pooled estimate closest to the unknown common truth based on how this error is perceived. Meta-analytic results are considered the most trustworthy source of evidence by the evidence-based medicine literature.[1][2][3]

Not only can meta-analyses provide an estimate of the unknown effect size, it also has the capacity to contrast results from different studies and identify patterns among study results, sources of disagreement among those results, or other interesting relationships that may come to light with multiple studies.[4]

However, there are some methodological problems with meta-analysis. If individual studies are systematically biased due to questionable research practices (e.g., data dredging, data peeking, dropping studies) or the publication bias at the journal level, the meta-analytic estimate of the overall treatment effect may not reflect the actual efficacy of a treatment.[5][6] Meta-analysis has also been criticized for averaging differences among heterogeneous studies because these differences could potentially inform clinical decisions.[7] For example, if there are two groups of patients experiencing different treatment effects studies in two randomised control trials (RCTs) reporting conflicting results, the meta-analytic average is representative of neither group, similarly to averaging the weight of apples and oranges, which is neither accurate for apples nor oranges.[8] In performing a meta-analysis, an investigator must make choices which can affect the results, including deciding how to search for studies, selecting studies based on a set of objective criteria, dealing with incomplete data, analyzing the data, and accounting for or choosing not to account for publication bias.[9] This makes meta-analysis malleable in the sense that these methodological choices made in completing a meta-analysis are not determined but may affect the results.[10] For example, Wanous and colleagues examined four pairs of meta-analyses on the four topics of (a) job performance and satisfaction relationship, (b) realistic job previews, (c) correlates of role conflict and ambiguity, and (d) the job satisfaction and absenteeism relationship, and illustrated how various judgement calls made by the researchers produced different results.[11]

Meta-analyses are often, but not always, important components of a systematic review procedure. For instance, a meta-analysis may be conducted on several clinical trials of a medical treatment, in an effort to obtain a better understanding of how well the treatment works. Here it is convenient to follow the terminology used by the Cochrane Collaboration,[12] and use «meta-analysis» to refer to statistical methods of combining evidence, leaving other aspects of ‘research synthesis’ or ‘evidence synthesis’, such as combining information from qualitative studies, for the more general context of systematic reviews. A meta-analysis is a secondary source.[13][14] In addition, meta-analysis may also be applied to a single study in cases where there are many cohorts which have not gone through identical selection criteria or to which the same investigational methodologies have not been applied to all in the same manner or under the same exacting conditions. Under these circumstances each cohort is treated as an individual study and meta-analysis is used to draw study-wide conclusions.[15]

History[edit]

The historical roots of meta-analysis can be traced back to 17th century studies of astronomy,[16] while a paper published in 1904 by the statistician Karl Pearson in the British Medical Journal[17] which collated data from several studies of typhoid inoculation is seen as the first time a meta-analytic approach was used to aggregate the outcomes of multiple clinical studies.[18][19] The first meta-analysis of all conceptually identical experiments concerning a particular research issue, and conducted by independent researchers, has been identified as the 1940 book-length publication Extrasensory Perception After Sixty Years, authored by Duke University psychologists J. G. Pratt, J. B. Rhine, and associates.[20] This encompassed a review of 145 reports on ESP experiments published from 1882 to 1939, and included an estimate of the influence of unpublished papers on the overall effect (the file-drawer problem). The term «meta-analysis» was coined in 1976 by the statistician Gene V. Glass,[21][22][23] who stated «my major interest currently is in what we have come to call …the meta-analysis of research. The term is a bit grand, but it is precise and apt … Meta-analysis refers to the analysis of analyses». Although this led to him being widely recognized as the modern founder of the method, the methodology behind what he termed «meta-analysis» predates his work by several decades.[24][25] But unlike earlier methods which aimed at aggregating study results to achieve higher levels of statistical significance, Glass’s work aimed at describing aggregated measures of relationships and effects. The statistical theory surrounding meta-analysis was greatly advanced by the work of Nambury S. Raju, Larry V. Hedges, Harris Cooper, Ingram Olkin, John E. Hunter, Jacob Cohen, Thomas C. Chalmers, Robert Rosenthal, Frank L. Schmidt, John E. Hunter, and Douglas G. Claurett.[23][26][clarification needed] In 1992, meta-analysis was first applied to ecological questions[27] by Jessica Gurevitch who used meta-analysis to study competition in field experiments.[28][29] The field of meta-analysis has expanded greatly since the 1970s and touches multiple disciplines including psychology, medicine, and ecology.[22] Further the more recent creation of evidence synthesis communities has increased the cross pollination of ideas, methods, and the creation of software tools across disciplines.[30][31][32]

Steps in a meta-analysis[edit]

A meta-analysis is usually preceded by a systematic review, as this allows identification and critical appraisal of all the relevant evidence (thereby limiting the risk of bias in summary estimates). The general steps are then as follows:[1]

  1. Formulation of the research question, e.g. using the PICO model (Population, Intervention, Comparison, Outcome).
  2. Search of literature
  3. Selection of studies (‘incorporation criteria’)
    • Based on quality criteria, e.g. the requirement of randomization and blinding in a clinical trial
    • Selection of specific studies on a well-specified subject, e.g. the treatment of breast cancer.
    • Decide whether unpublished studies are included to avoid publication bias (file drawer problem)
  4. Decide which dependent variables or summary measures are allowed. For instance, when considering a meta-analysis of published (aggregate) data:
  5. Selection of a meta-analysis model, e.g. fixed effect or random effects meta-analysis.
  6. Examine sources of between-study heterogeneity, e.g. using subgroup analysis or meta-regression.

Formal guidance for the conduct and reporting of meta-analyses is provided by the Cochrane Handbook.

For reporting guidelines, see the Preferred Reporting Items for Systematic Reviews and Meta-Analyses (PRISMA) statement.[33]

Methods and assumptions[edit]

Approaches[edit]

In general, two types of evidence can be distinguished when performing a meta-analysis: individual participant data (IPD), and aggregate data (AD). The aggregate data can be direct or indirect.

AD is more commonly available (e.g. from the literature) and typically represents summary estimates such as odds ratios or relative risks. This can be directly synthesized across conceptually similar studies using several approaches (see below). On the other hand, indirect aggregate data measures the effect of two treatments that were each compared against a similar control group in a meta-analysis. For example, if treatment A and treatment B were directly compared vs placebo in separate meta-analyses, we can use these two pooled results to get an estimate of the effects of A vs B in an indirect comparison as effect A vs Placebo minus effect B vs Placebo.

IPD evidence represents raw data as collected by the study centers. This distinction has raised the need for different meta-analytic methods when evidence synthesis is desired, and has led to the development of one-stage and two-stage methods.[34] In one-stage methods the IPD from all studies are modeled simultaneously whilst accounting for the clustering of participants within studies. Two-stage methods first compute summary statistics for AD from each study and then calculate overall statistics as a weighted average of the study statistics. By reducing IPD to AD, two-stage methods can also be applied when IPD is available; this makes them an appealing choice when performing a meta-analysis. Although it is conventionally believed that one-stage and two-stage methods yield similar results, recent studies have shown that they may occasionally lead to different conclusions.[35][36]

Statistical models for aggregate data[edit]

Direct evidence: Models incorporating study effects only[edit]

Fixed effect model[edit]

The fixed effect model provides a weighted average of a series of study estimates. The inverse of the estimates’ variance is commonly used as study weight, so that larger studies tend to contribute more than smaller studies to the weighted average. Consequently, when studies within a meta-analysis are dominated by a very large study, the findings from smaller studies are practically ignored.[37] Most importantly, the fixed effects model assumes that all included studies investigate the same population, use the same variable and outcome definitions, etc. This assumption is typically unrealistic as research is often prone to several sources of heterogeneity; e.g. treatment effects may differ according to locale, dosage levels, study conditions, …

Random effects model[edit]

A common model used to synthesize heterogeneous research is the random effects model of meta-analysis. This is simply the weighted average of the effect sizes of a group of studies. The weight that is applied in this process of weighted averaging with a random effects meta-analysis is achieved in two steps:[38]

  1. Step 1: Inverse variance weighting
  2. Step 2: Un-weighting of this inverse variance weighting by applying a random effects variance component (REVC) that is simply derived from the extent of variability of the effect sizes of the underlying studies.

This means that the greater this variability in effect sizes (otherwise known as heterogeneity), the greater the un-weighting and this can reach a point when the random effects meta-analysis result becomes simply the un-weighted average effect size across the studies. At the other extreme, when all effect sizes are similar (or variability does not exceed sampling error), no REVC is applied and the random effects meta-analysis defaults to simply a fixed effect meta-analysis (only inverse variance weighting).

The extent of this reversal is solely dependent on two factors:[39]

  1. Heterogeneity of precision
  2. Heterogeneity of effect size

Since neither of these factors automatically indicates a faulty larger study or more reliable smaller studies, the re-distribution of weights under this model will not bear a relationship to what these studies actually might offer. Indeed, it has been demonstrated that redistribution of weights is simply in one direction from larger to smaller studies as heterogeneity increases until eventually all studies have equal weight and no more redistribution is possible.[39]
Another issue with the random effects model is that the most commonly used confidence intervals generally do not retain their coverage probability above the specified nominal level and thus substantially underestimate the statistical error and are potentially
overconfident in their conclusions.[40][41] Several fixes have been suggested[42][43] but the debate continues on.[41][44] A further concern is that the average treatment effect can sometimes be even less conservative compared to the fixed effect model[45] and therefore misleading in practice. One interpretational fix that has been suggested is to create a prediction interval around the random effects estimate to portray the range of possible effects in practice.[46] However, an assumption behind the calculation of such a prediction interval is that trials are considered more or less homogeneous entities and that included patient populations and comparator treatments should be considered exchangeable[47] and this is usually unattainable in practice.

There are many methods used to estimate between studies variance with restricted maximum likelihood estimator being the least prone to bias and one of the most commonly used.[48] Several advanced iterative techniques for computing the between studies variance exist including both maximum likelihood and restricted maximum likelihood method and random effects models using these methods can be run with multiples software platforms including in Excel,[49] Stata,[50] SPSS,[51] and R.[52]

Most meta-analyses include between 2 and 4 studies and such a sample is more often than not inadequate to accurately estimate heterogeneity. Thus it appears that in small meta-analyses, an incorrect zero between study variance estimate is obtained, leading to a false homogeneity assumption. Overall, it appears that heterogeneity is being consistently underestimated in meta-analyses and sensitivity analyses in which high heterogeneity levels are assumed could be informative.[53] These random effects models and software packages mentioned above relate to study-aggregate meta-analyses and researchers wishing to conduct individual patient data (IPD) meta-analyses need to consider mixed-effects modelling approaches.[54]

IVhet model[edit]

Doi & Barendregt working in collaboration with Khan, Thalib and Williams (from the University of Queensland, University of Southern Queensland and Kuwait University), have created an inverse variance quasi likelihood based alternative (IVhet) to the random effects (RE) model for which details are available online.[49] This was incorporated into MetaXL version 2.0,[55] a free Microsoft excel add-in for meta-analysis produced by Epigear International Pty Ltd, and made available on 5 April 2014. The authors state that a clear advantage of this model is that it resolves the two main problems of the random effects model. The first advantage of the IVhet model is that coverage remains at the nominal (usually 95%) level for the confidence interval unlike the random effects model which drops in coverage with increasing heterogeneity.[40][41] The second advantage is that the IVhet model maintains the inverse variance weights of individual studies, unlike the RE model which gives small studies more weight (and therefore larger studies less) with increasing heterogeneity. When heterogeneity becomes large, the individual study weights under the RE model become equal and thus the RE model returns an arithmetic mean rather than a weighted average. This side-effect of the RE model does not occur with the IVhet model which thus differs from the RE model estimate in two perspectives:[49] Pooled estimates will favor larger trials (as opposed to penalizing larger trials in the RE model) and will have a confidence interval that remains within the nominal coverage under uncertainty (heterogeneity). Doi & Barendregt suggest that while the RE model provides an alternative method of pooling the study data, their simulation results[56] demonstrate that using a more specified probability model with untenable assumptions, as with the RE model, does not necessarily provide better results. The latter study also reports that the IVhet model resolves the problems related to underestimation of the statistical error, poor coverage of the confidence interval and increased MSE seen with the random effects model and the authors conclude that researchers should henceforth abandon use of the random effects model in meta-analysis. While their data is compelling, the ramifications (in terms of the magnitude of spuriously positive results within the Cochrane database) are huge and thus accepting this conclusion requires careful independent confirmation. The availability of a free software (MetaXL)[55] that runs the IVhet model (and all other models for comparison) facilitates this for the research community.

Direct evidence: Models incorporating additional information[edit]

Quality effects model[edit]

Doi and Thalib originally introduced the quality effects model.[57] They[58] introduced a new approach to adjustment for inter-study variability by incorporating the contribution of variance due to a relevant component (quality) in addition to the contribution of variance due to random error that is used in any fixed effects meta-analysis model to generate weights for each study. The strength of the quality effects meta-analysis is that it allows available methodological evidence to be used over subjective random effects, and thereby helps to close the damaging gap which has opened up between methodology and statistics in clinical research. To do this a synthetic bias variance is computed based on quality information to adjust inverse variance weights and the quality adjusted weight of the ith study is introduced.[57] These adjusted weights are then used in meta-analysis. In other words, if study i is of good quality and other studies are of poor quality, a proportion of their quality adjusted weights is mathematically redistributed to study i giving it more weight towards the overall effect size. As studies become increasingly similar in terms of quality, re-distribution becomes progressively less and ceases when all studies are of equal quality (in the case of equal quality, the quality effects model defaults to the IVhet model – see previous section). A recent evaluation of the quality effects model (with some updates) demonstrates that despite the subjectivity of quality assessment, the performance (MSE and true variance under simulation) is superior to that achievable with the random effects model.[59][60] This model thus replaces the untenable interpretations that abound in the literature and a software is available to explore this method further.[55]

Indirect evidence: Network meta-analysis methods[edit]

A network meta-analysis looks at indirect comparisons. In the image, A has been analyzed in relation to C and C has been analyzed in relation to b. However the relation between A and B is only known indirectly, and a network meta-analysis looks at such indirect evidence of differences between methods and interventions using statistical method.

Indirect comparison meta-analysis methods (also called network meta-analyses, in particular when multiple treatments are assessed simultaneously) generally use two main methodologies. First, is the Bucher method[61] which is a single or repeated comparison of a closed loop of three-treatments such that one of them is common to the two studies and forms the node where the loop begins and ends. Therefore, multiple two-by-two comparisons (3-treatment loops) are needed to compare multiple treatments. This methodology requires that trials with more than two arms have two arms only selected as independent pair-wise comparisons are required. The alternative methodology uses complex statistical modelling to include the multiple arm trials and comparisons simultaneously between all competing treatments. These have been executed using Bayesian methods, mixed linear models and meta-regression approaches.[citation needed]

Bayesian framework[edit]

Specifying a Bayesian network meta-analysis model involves writing a directed acyclic graph (DAG) model for general-purpose Markov chain Monte Carlo (MCMC) software such as WinBUGS.[62] In addition, prior distributions have to be specified for a number of the parameters, and the data have to be supplied in a specific format.[62] Together, the DAG, priors, and data form a Bayesian hierarchical model. To complicate matters further, because of the nature of MCMC estimation, overdispersed starting values have to be chosen for a number of independent chains so that convergence can be assessed.[63] Recently, multiple R software packages were developed to simplify the model fitting (e.g., metaBMA[64] and RoBMA[65]) and even implemented in statistical software with graphical user interface (GUI): JASP. Although the complexity of the Bayesian approach limits usage of this methodology, recent tutorial papers are trying to increase accessibility of the methods.[66][67] Methodology for automation of this method has been suggested[62] but requires that arm-level outcome data are available, and this is usually unavailable. Great claims are sometimes made for the inherent ability of the Bayesian framework to handle network meta-analysis and its greater flexibility. However, this choice of implementation of framework for inference, Bayesian or frequentist, may be less important than other choices regarding the modeling of effects[68] (see discussion on models above).

Frequentist multivariate framework[edit]

On the other hand, the frequentist multivariate methods involve approximations and assumptions that are not stated explicitly or verified when the methods are applied (see discussion on meta-analysis models above). For example, the mvmeta package for Stata enables network meta-analysis in a frequentist framework.[69] However, if there is no common comparator in the network, then this has to be handled by augmenting the dataset with fictional arms with high variance, which is not very objective and requires a decision as to what constitutes a sufficiently high variance.[62] The other issue is use of the random effects model in both this frequentist framework and the Bayesian framework. Senn advises analysts to be cautious about interpreting the ‘random effects’ analysis since only one random effect is allowed for but one could envisage many.[68] Senn goes on to say that it is rather naıve, even in the case where only two treatments are being compared to assume that random-effects analysis accounts for all uncertainty about the way effects can vary from trial to trial. Newer models of meta-analysis such as those discussed above would certainly help alleviate this situation and have been implemented in the next framework.

Generalized pairwise modelling framework[edit]

An approach that has been tried since the late 1990s is the implementation of the multiple three-treatment closed-loop analysis. This has not been popular because the process rapidly becomes overwhelming as network complexity increases. Development in this area was then abandoned in favor of the Bayesian and multivariate frequentist methods which emerged as alternatives. Very recently, automation of the three-treatment closed loop method has been developed for complex networks by some researchers[49] as a way to make this methodology available to the mainstream research community. This proposal does restrict each trial to two interventions, but also introduces a workaround for multiple arm trials: a different fixed control node can be selected in different runs. It also utilizes robust meta-analysis methods so that many of the problems highlighted above are avoided. Further research around this framework is required to determine if this is indeed superior to the Bayesian or multivariate frequentist frameworks. Researchers willing to try this out have access to this framework through a free software.[55]

Tailored meta-analysis[edit]

Another form of additional information comes from the intended setting. If the target setting for applying the meta-analysis results is known then it may be possible to use data from the setting to tailor the results thus producing a ‘tailored meta-analysis’.,[70][71] This has been used in test accuracy meta-analyses, where empirical knowledge of the test positive rate and the prevalence have been used to derive a region in Receiver Operating Characteristic (ROC) space known as an ‘applicable region’. Studies are then selected for the target setting based on comparison with this region and aggregated to produce a summary estimate which is tailored to the target setting.

Aggregating IPD and AD[edit]

Meta-analysis can also be applied to combine IPD and AD. This is convenient when the researchers who conduct the analysis have their own raw data while collecting aggregate or summary data from the literature. The generalized integration model (GIM)[72] is a generalization of the meta-analysis. It allows that the model fitted on the individual participant data (IPD) is different from the ones used to compute the aggregate data (AD). GIM can be viewed as a model calibration method for integrating information with more flexibility.

Validation of meta-analysis results[edit]

The meta-analysis estimate represents a weighted average across studies and when there is heterogeneity this may result in the summary estimate not being representative of individual studies. Qualitative appraisal of the primary studies using established tools can uncover potential biases,[73][74] but does not quantify the aggregate effect of these biases on the summary estimate. Although the meta-analysis result could be compared with an independent prospective primary study, such external validation is often impractical. This has led to the development of methods that exploit a form of leave-one-out cross validation, sometimes referred to as internal-external cross validation (IOCV).[75] Here each of the k included studies in turn is omitted and compared with the summary estimate derived from aggregating the remaining k- 1 studies. A general validation statistic, Vn based on IOCV has been developed to measure the statistical validity of meta-analysis results.[76] For test accuracy and prediction, particularly when there are multivariate effects, other approaches which seek to estimate the prediction error have also been proposed.[77]

Challenges[edit]

A meta-analysis of several small studies does not always predict the results of a single large study.[78] Some have argued that a weakness of the method is that sources of bias are not controlled by the method: a good meta-analysis cannot correct for poor design or bias in the original studies.[79] This would mean that only methodologically sound studies should be included in a meta-analysis, a practice called ‘best evidence synthesis’.[79] Other meta-analysts would include weaker studies, and add a study-level predictor variable that reflects the methodological quality of the studies to examine the effect of study quality on the effect size.[80] However, others have argued that a better approach is to preserve information about the variance in the study sample, casting as wide a net as possible, and that methodological selection criteria introduce unwanted subjectivity, defeating the purpose of the approach.[81]

Publication bias: the file drawer problem[edit]

A funnel plot expected without the file drawer problem. The largest studies converge at the tip while smaller studies show more or less symmetrical scatter at the base

A funnel plot expected with the file drawer problem. The largest studies still cluster around the tip, but the bias against publishing negative studies has caused the smaller studies as a whole to have an unjustifiably favorable result to the hypothesis

Another potential pitfall is the reliance on the available body of published studies, which may create exaggerated outcomes due to publication bias, as studies which show negative results or insignificant results are less likely to be published.[82] For example, pharmaceutical companies have been known to hide negative studies and researchers may have overlooked unpublished studies such as dissertation studies or conference abstracts that did not reach publication. This is not easily solved, as one cannot know how many studies have gone unreported.[83]

This file drawer problem (characterized by negative or non-significant results being tucked away in a cabinet), can result in a biased distribution of effect sizes thus creating a serious base rate fallacy, in which the significance of the published studies is overestimated, as other studies were either not submitted for publication or were rejected. This should be seriously considered when interpreting the outcomes of a meta-analysis.[83][6]

The distribution of effect sizes can be visualized with a funnel plot which (in its most common version) is a scatter plot of standard error versus the effect size. It makes use of the fact that the smaller studies (thus larger standard errors) have more scatter of the magnitude of effect (being less precise) while the larger studies have less scatter and form the tip of the funnel. If many negative studies were not published, the remaining positive studies give rise to a funnel plot in which the base is skewed to one side (asymmetry of the funnel plot). In contrast, when there is no publication bias, the effect of the smaller studies has no reason to be skewed to one side and so a symmetric funnel plot results. This also means that if no publication bias is present, there would be no relationship between standard error and effect size.[84] A negative or positive relation between standard error and effect size would imply that smaller studies that found effects in one direction only were more likely to be published and/or to be submitted for publication.

Apart from the visual funnel plot, statistical methods for detecting publication bias have also been proposed.[85] These are controversial because they typically have low power for detection of bias, but also may make false positives under some circumstances.[86] For instance small study effects (biased smaller studies), wherein methodological differences between smaller and larger studies exist, may cause asymmetry in effect sizes that resembles publication bias. However, small study effects may be just as problematic for the interpretation of meta-analyses, and the imperative is on meta-analytic authors to investigate potential sources of bias.[87]

A Tandem Method for analyzing publication bias has been suggested for cutting down false positive error problems.[88] This Tandem method consists of three stages. Firstly, one calculates Orwin’s fail-safe N, to check how many studies should be added in order to reduce the test statistic to a trivial size. If this number of studies is larger than the number of studies used in the meta-analysis, it is a sign that there is no publication bias, as in that case, one needs a lot of studies to reduce the effect size. Secondly, one can do an Egger’s regression test, which tests whether the funnel plot is symmetrical. As mentioned before: a symmetrical funnel plot is a sign that there is no publication bias, as the effect size and sample size are not dependent. Thirdly, one can do the trim-and-fill method, which imputes data if the funnel plot is asymmetrical.

The problem of publication bias is not trivial as it is suggested that 25% of meta-analyses in the psychological sciences may have suffered from publication bias.[88] However, low power of existing tests and problems with the visual appearance of the funnel plot remain an issue, and estimates of publication bias may remain lower than what truly exists.

Most discussions of publication bias focus on journal practices favoring publication of statistically significant findings. However, questionable research practices, such as reworking statistical models until significance is achieved, may also favor statistically significant findings in support of researchers’ hypotheses.[89][90]

[edit]

Studies often do not report the effects when they do not reach statistical significance[citation needed]. For example, they may simply say that the groups did not show statistically significant differences, without reporting any other information (e.g. a statistic or p-value). Exclusion of these studies would lead to a situation similar to publication bias, but their inclusion (assuming null effects) would also bias the meta-analysis. MetaNSUE, a method created by Joaquim Radua, has shown to allow researchers to include unbiasedly these studies.[91] Its steps are as follows:

  • Maximum likelihood estimation of the meta-analytic effect and the heterogeneity between studies.
  • Multiple imputation of the NSUEs adding noise to the estimate of the effect.
  • Separate meta-analyses for each imputed dataset.
  • Pooling of the results of these meta-analyses.

[edit]

Other weaknesses are that it has not been determined if the statistically most accurate method for combining results is the fixed, IVhet, random or quality effect models, though the criticism against the random effects model is mounting because of the perception that the new random effects (used in meta-analysis) are essentially formal devices to facilitate smoothing or shrinkage and prediction may be impossible or ill-advised.[92] The main problem with the random effects approach is that it uses the classic statistical thought of generating a «compromise estimator» that makes the weights close to the naturally weighted estimator if heterogeneity across studies is large but close to the inverse variance weighted estimator if the between study heterogeneity is small. However, what has been ignored is the distinction between the model we choose to analyze a given dataset, and the mechanism by which the data came into being.[93] A random effect can be present in either of these roles, but the two roles are quite distinct. There’s no reason to think the analysis model and data-generation mechanism (model) are similar in form, but many sub-fields of statistics have developed the habit of assuming, for theory and simulations, that the data-generation mechanism (model) is identical to the analysis model we choose (or would like others to choose). As a hypothesized mechanisms for producing the data, the random effect model for meta-analysis is silly and it is more appropriate to think of this model as a superficial description and something we choose as an analytical tool – but this choice for meta-analysis may not work because the study effects are a fixed feature of the respective meta-analysis and the probability distribution is only a descriptive tool.[93]

Problems arising from agenda-driven bias[edit]

The most severe fault in meta-analysis often occurs when the person or persons doing the meta-analysis have an economic, social, or political agenda such as the passage or defeat of legislation. People with these types of agendas may be more likely to abuse meta-analysis due to personal bias. For example, researchers favorable to the author’s agenda are likely to have their studies cherry-picked while those not favorable will be ignored or labeled as «not credible». In addition, the favored authors may themselves be biased or paid to produce results that support their overall political, social, or economic goals in ways such as selecting small favorable data sets and not incorporating larger unfavorable data sets. The influence of such biases on the results of a meta-analysis is possible because the methodology of meta-analysis is highly malleable.[10]

A 2011 study done to disclose possible conflicts of interests in underlying research studies used for medical meta-analyses reviewed 29 meta-analyses and found that conflicts of interests in the studies underlying the meta-analyses were rarely disclosed. The 29 meta-analyses included 11 from general medicine journals, 15 from specialty medicine journals, and three from the Cochrane Database of Systematic Reviews. The 29 meta-analyses reviewed a total of 509 randomized controlled trials (RCTs). Of these, 318 RCTs reported funding sources, with 219 (69%) receiving funding from industry (i.e. one or more authors
having financial ties to the pharmaceutical industry). Of the 509 RCTs, 132 reported author conflict of interest disclosures, with 91 studies (69%) disclosing one or more authors having financial ties to industry. The information was, however, seldom reflected in the meta-analyses. Only two (7%) reported RCT funding sources and none reported RCT author-industry ties. The authors concluded «without acknowledgment of COI due to industry funding or author industry financial ties from RCTs included in meta-analyses, readers’ understanding and appraisal of the evidence from the meta-analysis may be compromised.»[94]

For example, in 1998, a US federal judge found that the United States Environmental Protection Agency had abused the meta-analysis process to produce a study claiming cancer risks to non-smokers from environmental tobacco smoke (ETS) with the intent to influence policy makers to pass smoke-free–workplace laws. The judge found that:

EPA’s study selection is disturbing. First, there is evidence in the record supporting the accusation that EPA «cherry picked» its data. Without criteria for pooling studies into a meta-analysis, the court cannot determine whether the exclusion of studies likely to disprove EPA’s a priori hypothesis was coincidence or intentional. Second, EPA’s excluding nearly half of the available studies directly conflicts with EPA’s purported purpose for analyzing the epidemiological studies and conflicts with EPA’s Risk Assessment Guidelines. See ETS Risk Assessment at 4-29 («These data should also be examined in the interest of weighing all the available evidence, as recommended by EPA’s carcinogen risk assessment guidelines (U.S. EPA, 1986a) (emphasis added)). Third, EPA’s selective use of data conflicts with the Radon Research Act. The Act states EPA’s program shall «gather data and information on all aspects of indoor air quality» (Radon Research Act § 403(a)(1)) (emphasis added).[95]

As a result of the abuse, the court vacated Chapters 1–6 of and the Appendices to EPA’s «Respiratory Health Effects of Passive Smoking: Lung Cancer and other Disorders».[95]

Comparability and validity of included studies[edit]

Meta-analysis may often not be a substitute for an adequately powered primary study.[96]

Heterogeneity of methods used may lead to faulty conclusions.[97] For instance, differences in the forms of an intervention or the cohorts that are thought to be minor or are unknown to the scientists could lead to substantially different results, including results that distort the meta-analysis’ results or are not adequately considered in its data. Vice versa, results from meta-analyses may also make certain hypothesis or interventions seem nonviable and preempt further research or approvals, despite certain modifications – such as intermittent administration, personalized criteria and combination measures – leading to substantially different results, including in cases where such have been successfully identified and applied in small-scale studies that were considered in the meta-analysis.[citation needed] Standardization, reproduction of experiments, open data and open protocols may often not mitigate such problems, for instance as relevant factors and criteria could be unknown or not be recorded.[citation needed]

There is a debate about the appropriate balance between testing with as few animals or humans as possible and the need to obtain robust, reliable findings. It has been argued that unreliable research is inefficient and wasteful and that studies are not just wasteful when they stop too late but also when they stop too early. In large clinical trials, planned, sequential analyses are sometimes used if there is considerable expense or potential harm associated with testing participants.[98] In applied behavioural science, «megastudies» have been proposed to investigate the efficacy of many different interventions designed in an interdisciplinary manner by separate teams.[99] One such study used a fitness chain to recruit a large number participants. It has been suggested that behavioural interventions are often hard to compare [in meta-analyses and reviews], as «different scientists test different intervention ideas in different samples using different outcomes over different time intervals», causing a lack of comparability of such individual investigations which limits «their potential to inform policy».[99]

Weak inclusion standards lead to misleading conclusions[edit]

Meta-analyses in education are often not restrictive enough in regards to the methodological quality of the studies they include. For example, studies that include small samples or researcher-made measures lead to inflated effect size estimates.[100] However, this problem also troubles meta-analysis of clinical trials. The use of different quality assessment tools (QATs) lead to including different studies and obtaining conflicting estimates of average treatment effects.[101][102]

Applications in modern science[edit]

Modern statistical meta-analysis does more than just combine the effect sizes of a set of studies using a weighted average. It can test if the outcomes of studies show more variation than the variation that is expected because of the sampling of different numbers of research participants. Additionally, study characteristics such as measurement instrument used, population sampled, or aspects of the studies’ design can be coded and used to reduce variance of the estimator (see statistical models above). Thus some methodological weaknesses in studies can be corrected statistically. Other uses of meta-analytic methods include the development and validation of clinical prediction models, where meta-analysis may be used to combine individual participant data from different research centers and to assess the model’s generalisability,[103][104] or even to aggregate existing prediction models.[105]

Meta-analysis can be done with single-subject design as well as group research designs.[106] This is important because much research has been done with single-subject research designs.[107] Considerable dispute exists for the most appropriate meta-analytic technique for single subject research.[108]

Meta-analysis leads to a shift of emphasis from single studies to multiple studies. It emphasizes the practical importance of the effect size instead of the statistical significance of individual studies. This shift in thinking has been termed «meta-analytic thinking». The results of a meta-analysis are often shown in a forest plot.

Results from studies are combined using different approaches. One approach frequently used in meta-analysis in health care research is termed ‘inverse variance method’. The average effect size across all studies is computed as a weighted mean, whereby the weights are equal to the inverse variance of each study’s effect estimator. Larger studies and studies with less random variation are given greater weight than smaller studies. Other common approaches include the Mantel–Haenszel method[109] and the Peto method.[110]

Seed-based d mapping (formerly signed differential mapping, SDM) is a statistical technique for meta-analyzing studies on differences in brain activity or structure which used neuroimaging techniques such as fMRI, VBM or PET.

Different high throughput techniques such as microarrays have been used to understand Gene expression. MicroRNA expression profiles have been used to identify differentially expressed microRNAs in particular cell or tissue type or disease conditions or to check the effect of a treatment. A meta-analysis of such expression profiles was performed to derive novel conclusions and to validate the known findings.[111]

Meta-analysis of whole genome sequencing studies provides an attractive solution to the problem of collecting large sample sizes for discovering rare variants associated with complex phenotypes. Some methods have been developed to enable functionally informed rare variant association meta-analysis in biobank-scale cohorts using efficient approaches for summary statistic storage.[112]

See also[edit]

  • Estimation statistics
  • Metascience
  • Newcastle–Ottawa scale
  • Reporting bias
  • Review journal
  • Secondary research
  • Study heterogeneity
  • Systematic review
  • Galbraith plot
  • Data aggregation

References[edit]

  1. ^ a b Herrera Ortiz AF., Cadavid Camacho E, Cubillos Rojas J, Cadavid Camacho T, Zoe Guevara S, Tatiana Rincón Cuenca N, Vásquez Perdomo A, Del Castillo Herazo V, & Giraldo Malo R. A Practical Guide to Perform a Systematic Literature Review and Meta-analysis. Principles and Practice of Clinical Research. 2022;7(4):47–57. https://doi.org/10.21801/ppcrj.2021.74.6
  2. ^ «Levels of Evidence». Centre for Evidence-Based Medicine (CEBM). University of Oxford. March 2009. Retrieved 21 December 2021.
  3. ^ Developing NICE guidelines: the manual (PDF). London: National Institute for Health and Care Excellence. 2014. Retrieved 21 December 2020.
  4. ^ Greenland S, O’ Rourke K (2008). «Meta-Analysis». In Rothman KJ, Greenland S, Lash T (eds.). Modern epidemiology (3rd, thoroughly revised and updated ed.). Philadelphia: Lippincott Williams and Wilkins. p. 652. ISBN 978-0-7817-5564-1.
  5. ^ Tabery J (9 May 2014). Beyond Versus: The Struggle to Understand the Interaction of Nature and Nurture. MIT Press. ISBN 978-0-262-02737-3.
  6. ^ a b Hunter JE, Schmidt FL (1990). Methods of Meta-Analysis: Correcting Error and Bias in Research Findings. Newbury Park, California; London; New Delhi: SAGE Publications.
  7. ^ Maziarz M (February 2022). «Is meta-analysis of RCTs assessing the efficacy of interventions a reliable source of evidence for therapeutic decisions?». Studies in History and Philosophy of Science. 91: 159–167. doi:10.1016/j.shpsa.2021.11.007. PMID 34922183. S2CID 245241150.
  8. ^ Feinstein AR (January 1995). «Meta-analysis: statistical alchemy for the 21st century». Journal of Clinical Epidemiology. The Potsdam International Consultation on Meta-Analysis. 48 (1): 71–79. doi:10.1016/0895-4356(94)00110-C. PMID 7853050.
  9. ^ Walker E, Hernandez AV, Kattan MW (June 2008). «Meta-analysis: Its strengths and limitations». Cleveland Clinic Journal of Medicine. 75 (6): 431–439. doi:10.3949/ccjm.75.6.431. PMID 18595551. S2CID 22543097.
  10. ^ a b Stegenga J (December 2011). «Is meta-analysis the platinum standard of evidence?». Studies in History and Philosophy of Biological and Biomedical Sciences. 42 (4): 497–507. doi:10.1016/j.shpsc.2011.07.003. PMID 22035723.
  11. ^ Wanous JP, Sullivan SE, Malinak J (1989). «The role of judgment calls in meta-analysis». Journal of Applied Psychology. 74 (2): 259–264. doi:10.1037/0021-9010.74.2.259. ISSN 0021-9010.
  12. ^ «Glossary: meta-analysis». The Cochrane Collaboration. Archived from the original on 20 December 2014.
  13. ^ Gravetter FJ, Forzano LB (1 January 2018). Research Methods for the Behavioral Sciences. Cengage Learning. p. 36. ISBN 978-1-337-61331-6. Some examples of secondary sources are (1) books and textbooks in which the author describes and summarizes past research, (2) review articles or meta-analyses…
  14. ^ Adams KA, Lawrence EK (2 February 2018). Research Methods, Statistics, and Applications. SAGE Publications. ISBN 978-1-5063-5046-2. The most common types of secondary sources found in academic journals are literature reviews and meta-analyses.
  15. ^ Rühlemann MC, Hermes BM, Bang C, Doms S, Moitinho-Silva L, Thingholm LB, et al. (February 2021). «Genome-wide association study in 8,956 German individuals identifies influence of ABO histo-blood groups on gut microbiome». Nature Genetics. 53 (2): 147–155. doi:10.1038/s41588-020-00747-1. PMID 33462482. S2CID 231641761.
  16. ^ Plackett RL (1958). «Studies in the History of Probability and Statistics: Vii. The Principle of the Arithmetic Mean». Biometrika. 45 (1–2): 133. doi:10.1093/biomet/45.1-2.130.
  17. ^ «Report on Certain Enteric Fever Inoculation Statistics». British Medical Journal. 2 (2288): 1243–1246. November 1904. doi:10.1136/bmj.2.2288.1243. PMC 2355479. PMID 20761760.
  18. ^ Nordmann AJ, Kasenda B, Briel M (9 March 2012). «Meta-analyses: what they can and cannot do». Swiss Medical Weekly. 142: w13518. doi:10.4414/smw.2012.13518. PMID 22407741.
  19. ^ O’Rourke K (December 2007). «An historical perspective on meta-analysis: dealing quantitatively with varying study results». Journal of the Royal Society of Medicine. 100 (12): 579–582. doi:10.1177/0141076807100012020. PMC 2121629. PMID 18065712.
  20. ^ Pratt JG, Rhine JB, Smith BM, Stuart CE, Greenwood JA. Extra-Sensory Perception after Sixty Years: A Critical Appraisal of the Research in Extra-Sensory Perception. New York: Henry Holt, 1940
  21. ^ Glass GV (1976). «Primary, secondary, and meta-analysis of research». Educational Researcher. 5 (10): 3–8. doi:10.3102/0013189X005010003. S2CID 3185455.
  22. ^ a b Shadish WR, Lecy JD (September 2015). «The meta-analytic big bang». Research Synthesis Methods. 6 (3): 246–264. doi:10.1002/jrsm.1132. PMID 26212600. S2CID 5416879.
  23. ^ a b Glass GV (September 2015). «Meta-analysis at middle age: a personal history». Research Synthesis Methods. 6 (3): 221–231. doi:10.1002/jrsm.1133. PMID 26355796. S2CID 30083129.
  24. ^ Cochran WG (1937). «Problems Arising in the Analysis of a Series of Similar Experiments». Journal of the Royal Statistical Society. 4 (1): 102–118. doi:10.2307/2984123. JSTOR 2984123.
  25. ^ Cochran WG, Carroll SP (1953). «A Sampling Investigation of the Efficiency of Weighting Inversely as the Estimated Variance». Biometrics. 9 (4): 447–459. doi:10.2307/3001436. JSTOR 3001436.
  26. ^ Hedges LV (September 2015). «The early history of meta-analysis». Research Synthesis Methods. 6 (3): 284–286. doi:10.1002/jrsm.1149. PMID 26097046. S2CID 206155786.
  27. ^ Gurevitch J, Koricheva J, Nakagawa S, Stewart G (March 2018). «Meta-analysis and the science of research synthesis». Nature. 555 (7695): 175–182. Bibcode:2018Natur.555..175G. doi:10.1038/nature25753. PMID 29517004. S2CID 3761687.
  28. ^ Gurevitch J, Morrow LL, Wallace A, Walsh JS (1992). «A Meta-Analysis of Competition in Field Experiments». The American Naturalist. 140 (4): 539–572. doi:10.1086/285428. ISSN 0003-0147. JSTOR 2462913. S2CID 205982939.
  29. ^ Gurevitch K (7 March 2018). «Forty years of meta-analysis: We need evidence-based answers more than ever». Research Data at Springer Nature. Retrieved 24 July 2021.
  30. ^ Vandvik PO, Brandt L (July 2020). «Future of Evidence Ecosystem Series: Evidence ecosystems and learning health systems: why bother?». Journal of Clinical Epidemiology. 123: 166–170. doi:10.1016/j.jclinepi.2020.02.008. PMID 32145365. S2CID 212629387.
  31. ^ Cartabellotta A, Tilson JK (June 2019). «The ecosystem of evidence cannot thrive without efficiency of knowledge generation, synthesis, and translation». Journal of Clinical Epidemiology. 110: 90–95. doi:10.1016/j.jclinepi.2019.01.008. PMID 30708174. S2CID 73415319.
  32. ^ Haddaway NR, Bannach-Brown A, Grainger MJ, Hamilton WK, Hennessy EA, Keenan C, et al. (June 2022). «The evidence synthesis and meta-analysis in R conference (ESMARConf): levelling the playing field of conference accessibility and equitability». Systematic Reviews. 11 (1): 113. doi:10.1186/s13643-022-01985-6. PMC 9164457. PMID 35659294.
  33. ^ «The PRISMA statement». Prisma-statement.org. 2 February 2012. Archived from the original on 27 July 2011. Retrieved 2 February 2012.
  34. ^ Debray TP, Moons KG, van Valkenhoef G, Efthimiou O, Hummel N, Groenwold RH, Reitsma JB (December 2015). «Get real in individual participant data (IPD) meta-analysis: a review of the methodology». Research Synthesis Methods. 6 (4): 293–309. doi:10.1002/jrsm.1160. PMC 5042043. PMID 26287812.
  35. ^ Debray TP, Moons KG, Abo-Zaid GM, Koffijberg H, Riley RD (2013). «Individual participant data meta-analysis for a binary outcome: one-stage or two-stage?». PLOS ONE. 8 (4): e60650. Bibcode:2013PLoSO…860650D. doi:10.1371/journal.pone.0060650. PMC 3621872. PMID 23585842.
  36. ^ Burke DL, Ensor J, Riley RD (February 2017). «Meta-analysis using individual participant data: one-stage and two-stage approaches, and why they may differ». Statistics in Medicine. 36 (5): 855–875. doi:10.1002/sim.7141. PMC 5297998. PMID 27747915.
  37. ^ Helfenstein U (March 2002). «Data and models determine treatment proposals—an illustration from meta-analysis». Postgraduate Medical Journal. 78 (917): 131–134. doi:10.1136/pmj.78.917.131. PMC 1742301. PMID 11884693.
  38. ^ Senn S (March 2007). «Trying to be precise about vagueness». Statistics in Medicine. 26 (7): 1417–1430. doi:10.1002/sim.2639. PMID 16906552. S2CID 17764847.
  39. ^ a b Al Khalaf MM, Thalib L, Doi SA (February 2011). «Combining heterogenous studies using the random-effects model is a mistake and leads to inconclusive meta-analyses». Journal of Clinical Epidemiology. 64 (2): 119–123. doi:10.1016/j.jclinepi.2010.01.009. PMID 20409685.
  40. ^ a b Brockwell SE, Gordon IR (March 2001). «A comparison of statistical methods for meta-analysis». Statistics in Medicine. 20 (6): 825–840. doi:10.1002/sim.650. PMID 11252006. S2CID 16932514.
  41. ^ a b c Noma H (December 2011). «Confidence intervals for a random-effects meta-analysis based on Bartlett-type corrections». Statistics in Medicine. 30 (28): 3304–3312. doi:10.1002/sim.4350. hdl:2433/152046. PMID 21964669. S2CID 6556986.
  42. ^ Brockwell SE, Gordon IR (November 2007). «A simple method for inference on an overall effect in meta-analysis». Statistics in Medicine. 26 (25): 4531–4543. doi:10.1002/sim.2883. PMID 17397112. S2CID 887098.
  43. ^ Sidik K, Jonkman JN (November 2002). «A simple confidence interval for meta-analysis». Statistics in Medicine. 21 (21): 3153–3159. doi:10.1002/sim.1262. PMID 12375296. S2CID 21384942.
  44. ^ Jackson D, Bowden J (January 2009). «A re-evaluation of the ‘quantile approximation method’ for random effects meta-analysis». Statistics in Medicine. 28 (2): 338–348. doi:10.1002/sim.3487. PMC 2991773. PMID 19016302.
  45. ^ Poole C, Greenland S (September 1999). «Random-effects meta-analyses are not always conservative». American Journal of Epidemiology. 150 (5): 469–475. doi:10.1093/oxfordjournals.aje.a010035. PMID 10472946.
  46. ^ Riley RD, Higgins JP, Deeks JJ (February 2011). «Interpretation of random effects meta-analyses». BMJ. 342: d549. doi:10.1136/bmj.d549. PMID 21310794. S2CID 32994689.
  47. ^ Kriston L (March 2013). «Dealing with clinical heterogeneity in meta-analysis. Assumptions, methods, interpretation». International Journal of Methods in Psychiatric Research. 22 (1): 1–15. doi:10.1002/mpr.1377. PMC 6878481. PMID 23494781.
  48. ^ Langan, Dean; Higgins, Julian P.T.; Jackson, Dan; Bowden, Jack; Veroniki, Areti Angeliki; Kontopantelis, Evangelos; Viechtbauer, Wolfgang; Simmonds, Mark (2019). «A comparison of heterogeneity variance estimators in simulated random‐effects meta‐analyses». Research Synthesis Methods. 10 (1): 83–98. doi:10.1002/jrsm.1316. ISSN 1759-2879. PMID 30067315. S2CID 51890354.
  49. ^ a b c d «MetaXL User Guide» (PDF). Retrieved 18 September 2018.
  50. ^ Kontopantelis E, Reeves D (1 August 2010). «Metaan: Random-effects meta-analysis». Stata Journal. 10 (3): 395–407. doi:10.1177/1536867X1001000307 – via ResearchGate.
  51. ^ Field, Andy P.; Gillett, Raphael (2010). «How to do a meta-analysis». British Journal of Mathematical and Statistical Psychology. 63 (3): 665–694. doi:10.1348/000711010X502733. PMID 20497626.
  52. ^ Viechtbauer, Wolfgang (2010). «Conducting Meta-Analyses in R with the metafor Package». Journal of Statistical Software. 36 (3). doi:10.18637/jss.v036.i03. ISSN 1548-7660. S2CID 15798713.
  53. ^ Kontopantelis E, Springate DA, Reeves D (2013). Friede T (ed.). «A re-analysis of the Cochrane Library data: the dangers of unobserved heterogeneity in meta-analyses». PLOS ONE. 8 (7): e69930. Bibcode:2013PLoSO…869930K. doi:10.1371/journal.pone.0069930. PMC 3724681. PMID 23922860.
  54. ^ Kontopantelis E, Reeves D (27 September 2013). «A short guide and a forest plot command (ipdforest) for one-stage meta-analysis». Stata Journal. 13 (3): 574–587. doi:10.1177/1536867X1301300308 – via ResearchGate.
  55. ^ a b c d «MetaXL software page». Epigear.com. 3 June 2017. Retrieved 18 September 2018.
  56. ^ Doi SA, Barendregt JJ, Khan S, Thalib L, Williams GM (November 2015). «Advances in the meta-analysis of heterogeneous clinical trials I: The inverse variance heterogeneity model». Contemporary Clinical Trials. 45 (Pt A): 130–138. doi:10.1016/j.cct.2015.05.009. hdl:1885/17083. PMID 26003435. S2CID 10792959.
  57. ^ a b Doi SA, Thalib L (January 2008). «A quality-effects model for meta-analysis». Epidemiology. 19 (1): 94–100. doi:10.1097/EDE.0b013e31815c24e7. PMID 18090860. S2CID 29723291.
  58. ^ Doi SA, Barendregt JJ, Mozurkewich EL (March 2011). «Meta-analysis of heterogeneous clinical trials: an empirical example». Contemporary Clinical Trials. 32 (2): 288–298. doi:10.1016/j.cct.2010.12.006. PMID 21147265.
  59. ^ Doi SA, Barendregt JJ, Khan S, Thalib L, Williams GM (July 2015). «Simulation Comparison of the Quality Effects and Random Effects Methods of Meta-analysis». Epidemiology. 26 (4): e42–e44. doi:10.1097/EDE.0000000000000289. PMID 25872162.
  60. ^ Doi SA, Barendregt JJ, Khan S, Thalib L, Williams GM (November 2015). «Advances in the meta-analysis of heterogeneous clinical trials II: The quality effects model». Contemporary Clinical Trials. 45 (Pt A): 123–129. doi:10.1016/j.cct.2015.05.010. PMID 26003432.
  61. ^ Bucher HC, Guyatt GH, Griffith LE, Walter SD (June 1997). «The results of direct and indirect treatment comparisons in meta-analysis of randomized controlled trials». Journal of Clinical Epidemiology. 50 (6): 683–691. doi:10.1016/s0895-4356(97)00049-8. PMID 9250266.
  62. ^ a b c d van Valkenhoef G, Lu G, de Brock B, Hillege H, Ades AE, Welton NJ (December 2012). «Automating network meta-analysis». Research Synthesis Methods. 3 (4): 285–299. doi:10.1002/jrsm.1054. PMID 26053422. S2CID 33613631.
  63. ^ Brooks SP, Gelman A (1998). «General methods for monitoring convergence of iterative simulations» (PDF). Journal of Computational and Graphical Statistics. 7 (4): 434–455. doi:10.1080/10618600.1998.10474787.
  64. ^ Heck DW, Gronau QF, Wagenmakers EJ, Patil I (17 March 2021). «metaBMA: Bayesian model averaging for random and fixed effects meta-analysis». CRAN. Retrieved 9 May 2022.{{cite web}}: CS1 maint: url-status (link)
  65. ^ Bartoš F, Maier M, Wagenmakers EJ, Goosen J, Denwood M, Plummer M (20 April 2022). «RoBMA: An R Package for Robust Bayesian Meta-Analyses». Retrieved 9 May 2022.
  66. ^ Gronau QF, Heck DW, Berkhout SW, Haaf JM, Wagenmakers EJ (July 2021). «A Primer on Bayesian Model-Averaged Meta-Analysis». Advances in Methods and Practices in Psychological Science. 4 (3). doi:10.1177/25152459211031256. ISSN 2515-2459. S2CID 237699937.
  67. ^ Bartoš F, Maier M, Quintana D, Wagenmakers EJ (16 October 2020). «Adjusting for Publication Bias in JASP & R — Selection Models, PET-PEESE, and Robust Bayesian Meta-Analysis». Advances in Methods and Practices in Psychological Science. doi:10.31234/osf.io/75bqn. S2CID 236826939.
  68. ^ a b Senn S, Gavini F, Magrez D, Scheen A (April 2013). «Issues in performing a network meta-analysis». Statistical Methods in Medical Research. 22 (2): 169–189. doi:10.1177/0962280211432220. PMID 22218368. S2CID 10860031.
  69. ^ White IR (2011). «Multivariate random-effects meta-regression: updates to mvmeta». The Stata Journal. 11 (2): 255–270. doi:10.1177/1536867X1101100206.
  70. ^ Willis BH, Hyde CJ (May 2014). «Estimating a test’s accuracy using tailored meta-analysis-How setting-specific data may aid study selection». Journal of Clinical Epidemiology. 67 (5): 538–546. doi:10.1016/j.jclinepi.2013.10.016. PMID 24447592.
  71. ^ Willis BH, Hyde CJ (August 2015). «What is the test’s accuracy in my practice population? Tailored meta-analysis provides a plausible estimate». Journal of Clinical Epidemiology. 68 (8): 847–854. doi:10.1016/j.jclinepi.2014.10.002. PMID 25479685.
  72. ^ Zhang H, Deng L, Schiffman M, Qin J, Yu K (2020). «Generalized integration model for improved statistical inference by leveraging external summary data». Biometrika. 107 (3): 689–703. doi:10.1093/biomet/asaa014.
  73. ^ Higgins JP, Altman DG, Gøtzsche PC, Jüni P, Moher D, Oxman AD, et al. (October 2011). «The Cochrane Collaboration’s tool for assessing risk of bias in randomised trials». BMJ. 343: d5928. doi:10.1136/bmj.d5928. PMC 3196245. PMID 22008217.
  74. ^ Whiting PF, Rutjes AW, Westwood ME, Mallett S, Deeks JJ, Reitsma JB, et al. (October 2011). «QUADAS-2: a revised tool for the quality assessment of diagnostic accuracy studies». Annals of Internal Medicine. 155 (8): 529–536. doi:10.7326/0003-4819-155-8-201110180-00009. PMID 22007046.
  75. ^ Royston P, Parmar MK, Sylvester R (March 2004). «Construction and validation of a prognostic model across several studies, with an application in superficial bladder cancer». Statistics in Medicine. 23 (6): 907–926. doi:10.1002/sim.1691. PMID 15027080. S2CID 23397142.
  76. ^ Willis BH, Riley RD (September 2017). «Measuring the statistical validity of summary meta-analysis and meta-regression results for use in clinical practice». Statistics in Medicine. 36 (21): 3283–3301. doi:10.1002/sim.7372. PMC 5575530. PMID 28620945.
  77. ^ Riley RD, Ahmed I, Debray TP, Willis BH, Noordzij JP, Higgins JP, Deeks JJ (June 2015). «Summarising and validating test accuracy results across multiple studies for use in clinical practice». Statistics in Medicine. 34 (13): 2081–2103. doi:10.1002/sim.6471. PMC 4973708. PMID 25800943.
  78. ^ LeLorier J, Grégoire G, Benhaddad A, Lapierre J, Derderian F (August 1997). «Discrepancies between meta-analyses and subsequent large randomized, controlled trials». The New England Journal of Medicine. 337 (8): 536–542. doi:10.1056/NEJM199708213370806. PMID 9262498.
  79. ^ a b Slavin RE (1986). «Best-Evidence Synthesis: An Alternative to Meta-Analytic and Traditional Reviews». Educational Researcher. 15 (9): 5–9. doi:10.3102/0013189X015009005. S2CID 146457142.
  80. ^ Hunter JE, Schmidt FL, Jackson GB, et al. (American Psychological Association. Division of Industrial-Organizational Psychology) (1982). Meta-analysis: cumulating research findings across studies. Beverly Hills, California: Sage. ISBN 978-0-8039-1864-1.
  81. ^ Glass GV, McGaw B, Smith ML (1981). Meta-analysis in social research. Beverly Hills, California: Sage Publications. ISBN 978-0-8039-1633-3.
  82. ^ Polanin JR, Tanner-Smith EE, Hennessy EA (2016). «Estimating the Difference Between Published and Unpublished Effect Sizes: A Meta-Review». Review of Educational Research. 86 (1): 207–236. doi:10.3102/0034654315582067. ISSN 0034-6543. S2CID 145513046.
  83. ^ a b Rosenthal R (1979). «The «File Drawer Problem» and the Tolerance for Null Results». Psychological Bulletin. 86 (3): 638–641. doi:10.1037/0033-2909.86.3.638. S2CID 36070395.
  84. ^ Light RJ, Pillemer DB (1984). Summing up : the science of reviewing research. Cambridge, Massachusetts: Harvard University Press. ISBN 978-0-674-85431-4.
  85. ^ Vevea JL, Woods CM (December 2005). «Publication bias in research synthesis: sensitivity analysis using a priori weight functions». Psychological Methods. 10 (4): 428–443. doi:10.1037/1082-989X.10.4.428. PMID 16392998.
  86. ^ Ioannidis JP, Trikalinos TA (April 2007). «The appropriateness of asymmetry tests for publication bias in meta-analyses: a large survey». CMAJ. 176 (8): 1091–1096. doi:10.1503/cmaj.060410. PMC 1839799. PMID 17420491.
  87. ^ Hedges LV, Vevea JL (1996). «Estimating Effect Size Under Publication Bias: Small Sample Properties and Robustness of a Random Effects Selection Model». Journal of Educational and Behavioral Statistics. 21 (4): 299–332. doi:10.3102/10769986021004299. ISSN 1076-9986. S2CID 123680599.
  88. ^ a b Ferguson CJ, Brannick MT (March 2012). «Publication bias in psychological science: prevalence, methods for identifying and controlling, and implications for the use of meta-analyses». Psychological Methods. 17 (1): 120–128. doi:10.1037/a0024445. PMID 21787082.
  89. ^ Simmons JP, Nelson LD, Simonsohn U (November 2011). «False-positive psychology: undisclosed flexibility in data collection and analysis allows presenting anything as significant». Psychological Science. 22 (11): 1359–1366. doi:10.1177/0956797611417632. PMID 22006061.
  90. ^ LeBel E, Peters K (2011). «Fearing the future of empirical psychology: Bem’s (2011) evidence of psi as a case study of deficiencies in modal research practice» (PDF). Review of General Psychology. 15 (4): 371–379. doi:10.1037/a0025172. S2CID 51686730. Archived from the original (PDF) on 24 November 2012.
  91. ^ Radua J, Schmidt A, Borgwardt S, Heinz A, Schlagenhauf F, McGuire P, Fusar-Poli P (December 2015). «Ventral Striatal Activation During Reward Processing in Psychosis: A Neurofunctional Meta-Analysis». JAMA Psychiatry. 72 (12): 1243–1251. doi:10.1001/jamapsychiatry.2015.2196. PMID 26558708.
  92. ^ Hodges JS, Clayton MK (February 2011). «Random effects old and new»: 1–23. CiteSeerX 10.1.1.225.2685.
  93. ^ a b Hodges JS (2014). «Random effects old and new.». Richly parameterized linear models : additive, time series, and spatial models using random effects. Boca Raton: CRC Press. pp. 285–302. ISBN 978-1-4398-6683-2.
  94. ^ Roseman M, Milette K, Bero LA, Coyne JC, Lexchin J, Turner EH, Thombs BD (2011), «Reporting of Conflicts of Interest in Meta-analyses of Trials of Pharmacological Treatments», Journal of the American Medical Association, 305 (10): 1008–1017, doi:10.1001/jama.2011.257, hdl:11370/d4a95ee2-429f-45a4-a917-d794ee954797, PMID 21386079, S2CID 11270323
  95. ^ a b «The Osteen Decision». The United States District Court for the Middle District of North Carolina. 17 July 1998. Retrieved 18 March 2017.
  96. ^ Munafò MR, Flint J (September 2004). «Meta-analysis of genetic association studies». Trends in Genetics. 20 (9): 439–444. doi:10.1016/j.tig.2004.06.014. PMID 15313553.
  97. ^ Stone DL, Rosopa PJ (1 March 2017). «The Advantages and Limitations of Using Meta-analysis in Human Resource Management Research». Human Resource Management Review. 27 (1): 1–7. doi:10.1016/j.hrmr.2016.09.001. ISSN 1053-4822.
  98. ^ Button KS, Ioannidis JP, Mokrysz C, Nosek BA, Flint J, Robinson ES, Munafò MR (May 2013). «Power failure: why small sample size undermines the reliability of neuroscience». Nature Reviews. Neuroscience. 14 (5): 365–376. doi:10.1038/nrn3475. PMID 23571845. S2CID 455476.
  99. ^ a b Milkman KL, Gromet D, Ho H, Kay JS, Lee TW, Pandiloski P, et al. (December 2021). «Megastudies improve the impact of applied behavioural science». Nature. 600 (7889): 478–483. Bibcode:2021Natur.600..478M. doi:10.1038/s41586-021-04128-4. PMC 8822539. PMID 34880497. S2CID 245047340.
  100. ^ Cheung AC, Slavin RE (1 June 2016). «How Methodological Features Affect Effect Sizes in Education». Educational Researcher. 45 (5): 283–292. doi:10.3102/0013189X16656615. ISSN 0013-189X. S2CID 148531062.
  101. ^ Jüni P, Witschi A, Bloch R, Egger M (September 1999). «The hazards of scoring the quality of clinical trials for meta-analysis». JAMA. 282 (11): 1054–1060. doi:10.1001/jama.282.11.1054. PMID 10493204.
  102. ^ Armijo-Olivo S, Fuentes J, Ospina M, Saltaji H, Hartling L (September 2013). «Inconsistency in the items included in tools used in general health research and physical therapy to evaluate the methodological quality of randomized controlled trials: a descriptive analysis». BMC Medical Research Methodology. 13 (1): 116. doi:10.1186/1471-2288-13-116. PMC 3848693. PMID 24044807.
  103. ^ Debray TP, Riley RD, Rovers MM, Reitsma JB, Moons KG (October 2015). «Individual participant data (IPD) meta-analyses of diagnostic and prognostic modeling studies: guidance on their use». PLOS Medicine. 12 (10): e1001886. doi:10.1371/journal.pmed.1001886. PMC 4603958. PMID 26461078.
  104. ^ Debray TP, Moons KG, Ahmed I, Koffijberg H, Riley RD (August 2013). «A framework for developing, implementing, and evaluating clinical prediction models in an individual participant data meta-analysis». Statistics in Medicine. 32 (18): 3158–3180. doi:10.1002/sim.5732. PMID 23307585. S2CID 25308961.
  105. ^ Debray TP, Koffijberg H, Vergouwe Y, Moons KG, Steyerberg EW (October 2012). «Aggregating published prediction models with individual participant data: a comparison of different approaches». Statistics in Medicine. 31 (23): 2697–2712. doi:10.1002/sim.5412. PMID 22733546. S2CID 39439611.
  106. ^ Shadish, William R. (2014). «Analysis and meta-analysis of single-case designs: An introduction». Journal of School Psychology. 52 (2): 109–122. doi:10.1016/j.jsp.2013.11.009. PMID 24606971.
  107. ^ Zelinsky, Nicole A. M.; Shadish, William (19 May 2018). «A demonstration of how to do a meta-analysis that combines single-case designs with between-groups experiments: The effects of choice making on challenging behaviors performed by people with disabilities». Developmental Neurorehabilitation. 21 (4): 266–278. doi:10.3109/17518423.2015.1100690. ISSN 1751-8423. PMID 26809945. S2CID 20442353.
  108. ^ Van den Noortgate W, Onghena P (2007). «Aggregating Single-Case Results». The Behavior Analyst Today. 8 (2): 196–209. doi:10.1037/h0100613.
  109. ^ Mantel N, Haenszel W (April 1959). «Statistical aspects of the analysis of data from retrospective studies of disease». Journal of the National Cancer Institute. 22 (4): 719–748. doi:10.1093/jnci/22.4.719. PMID 13655060. S2CID 17698270.
  110. ^ Deeks JJ, Higgins JP, Altman DG, et al. (Cochrane Statistical Methods Group) (2021). «Chapter 10: Analysing data and undertaking meta-analyses: 10.4.2 Peto odds ratio method». In Higgins J, Thomas J, Chandler J, Cumpston M, Li T, Page M, Welch V (eds.). Cochrane Handbook for Systematic Reviews of Interventions (Version 6.2 ed.). The Cochrane Collaboration.
  111. ^ Bargaje R, Hariharan M, Scaria V, Pillai B (January 2010). «Consensus miRNA expression profiles derived from interplatform normalization of microarray data». RNA. 16 (1): 16–25. doi:10.1261/rna.1688110. PMC 2802026. PMID 19948767.
  112. ^ Li, Xihao; Quick, Corbin; Zhou, Hufeng; Gaynor, Sheila M.; Liu, Yaowu; Chen, Han; Selvaraj, Margaret Sunitha; Sun, Ryan; Dey, Rounak; Arnett, Donna K.; Bielak, Lawrence F.; Bis, Joshua C.; Blangero, John; Boerwinkle, Eric; Bowden, Donald W.; Brody, Jennifer A.; Cade, Brian E.; Correa, Adolfo; Cupples, L. Adrienne; Curran, Joanne E.; de Vries, Paul S.; Duggirala, Ravindranath; Freedman, Barry I.; Göring, Harald H. H.; Guo, Xiuqing; Haessler, Jeffrey; Kalyani, Rita R.; Kooperberg, Charles; Kral, Brian G.; Lange, Leslie A.; Manichaikul, Ani; Martin, Lisa W.; McGarvey, Stephen T.; Mitchell, Braxton D.; Montasser, May E.; Morrison, Alanna C.; Naseri, Take; O’Connell, Jeffrey R.; Palmer, Nicholette D.; Peyser, Patricia A.; Psaty, Bruce M.; Raffield, Laura M.; Redline, Susan; Reiner, Alexander P.; Reupena, Muagututi’a Sefuiva; Rice, Kenneth M.; Rich, Stephen S.; Sitlani, Colleen M.; Smith, Jennifer A.; Taylor, Kent D.; Vasan, Ramachandran S.; Willer, Cristen J.; Wilson, James G.; Yanek, Lisa R.; Zhao, Wei; NHLBI Trans-Omics for Precision Medicine (TOPMed) Consortium; TOPMed Lipids Working Group; Rotter, Jerome I.; Natarajan, Pradeep; Peloso, Gina M.; Li, Zilin; Lin, Xihong (January 2023). «Powerful, scalable and resource-efficient meta-analysis of rare variant associations in large whole genome sequencing studies». Nature Genetics. 55 (1): 154–164. doi:10.1038/s41588-022-01225-6. PMID 36564505. S2CID 255084231.

Further reading[edit]

  • Cornell JE, Mulrow CD (1999). «Meta-analysis». In Mellenbergh GJ (ed.). Research methodology in the life, behavioural, and social sciences. London: SAGE. pp. 285–323. ISBN 978-0-7619-5883-3.
  • Ellis PD (2010). The Essential Guide to Effect Sizes: An Introduction to Statistical Power, Meta-Analysis and the Interpretation of Research Results. Cambridge: Cambridge University Press. ISBN 978-0-521-14246-5.
  • Sutton AJ, Jones DR, Abrams KR, Sheldon TA, Song F (2000). Methods for meta-analysis in medical research. London: John Wiley. ISBN 978-0-471-49066-1.
  • Wilson DB, Lipsey MW (2001). Practical meta-analysis. Thousand Oaks: Sage publications. ISBN 978-0-7619-2168-4.
  • Cooper H, Hedges LV, eds. (1994). The Handbook of Research Synthesis. New York: Russell Sage Foundation. ISBN 978-0-87154-226-7.
  • Bonett DG (December 2010). «Varying coefficient meta-analytic methods for alpha reliability». Psychological Methods. 15 (4): 368–385. doi:10.1037/a0020142. PMID 20853952. S2CID 207710319.
  • Bonett DG, Price RM (November 2014). «Meta-analysis methods for risk differences». The British Journal of Mathematical and Statistical Psychology. 67 (3): 371–387. doi:10.1111/bmsp.12024. PMID 23962020.
  • Bonett DG (September 2008). «Meta-analytic interval estimation for bivariate correlations». Psychological Methods. 13 (3): 173–181. doi:10.1037/a0012868. PMID 18778150. S2CID 5690835.
  • Bonett DG (September 2009). «Meta-analytic interval estimation for standardized and unstandardized mean differences». Psychological Methods. 14 (3): 225–238. doi:10.1037/a0016619. PMID 19719359.
  • Bonett DG, Price RM (September 2015). «Varying coefficient meta-analysis methods for odds ratios and risk ratios». Psychological Methods. 20 (3): 394–406. doi:10.1037/met0000032. PMID 25751513.
  • Bonett DG (November 2020). «Point-biserial correlation: Interval estimation, hypothesis testing, meta-analysis, and sample size determination». The British Journal of Mathematical and Statistical Psychology. 73 Suppl 1 (Suppl 1): 113–144. doi:10.1111/bmsp.12189. PMID 31565811. S2CID 203607297.
  • Normand SL (February 1999). «Meta-analysis: formulating, evaluating, combining, and reporting». Statistics in Medicine. 18 (3): 321–359. doi:10.1002/(SICI)1097-0258(19990215)18:3<321::AID-SIM28>3.0.CO;2-P. PMID 10070677.
  • Owen AB (December 2009). «Karl Pearson’s meta-analysis revisited» (PDF). The Annals of Statistics. 37 (6B): 3867–2892. arXiv:0911.3531. doi:10.1214/09-AOS697. S2CID 7632667. Archived from the original (PDF) on 26 July 2011.
  • Slough, Tara; Tyson, Scott A. (2022). «External Validity and Meta‐Analysis». American Journal of Political Science. doi:10.1111/ajps.12742. ISSN 0092-5853.
  • Thompson SG, Pocock SJ (November 1991). «Can meta-analyses be trusted?» (PDF). Lancet. 338 (8775): 1127–1130. doi:10.1016/0140-6736(91)91975-Z. PMID 1682553. S2CID 29743240. Archived from the original (PDF) on 22 November 2011. Retrieved 17 June 2011.. Explores two contrasting views: does meta-analysis provide «objective, quantitative methods for combining evidence from separate but similar studies» or merely «statistical tricks which make unjustified assumptions in producing oversimplified generalisations out of a complex of disparate studies»?
  • O’Rourke K (2007). «Just the history from the combining of information: investigating and synthesizing what is possibly common in clinical observations or studies via likelihood» (PDF). Oxford: University of Oxford, Department of Statistics. Archived from the original (PDF) on 2 November 2011. Gives technical background material and details on the «An historical perspective on meta-analysis» paper cited in the references.

External links[edit]

  • Cochrane Handbook for Systematic Reviews of Interventions
  • Meta-Analysis at 25 (Gene V Glass)
  • Preferred Reporting Items for Systematic Reviews and Meta-Analyses (PRISMA) Statement Archived 27 July 2011 at the Wayback Machine – «an evidence-based minimum set of items for reporting in systematic reviews and meta-analyses.»
  • «metansue» R package and graphical interface
  • Best Evidence Encyclopedia

For the process in historical linguistics known as metanalysis, see Rebracketing.

A meta-analysis is a statistical analysis that combines the results of multiple scientific studies. Meta-analyses can be performed when there are multiple scientific studies addressing the same question, with each individual study reporting measurements that are expected to have some degree of error. The aim then is to use approaches from statistics to derive a pooled estimate closest to the unknown common truth based on how this error is perceived. Meta-analytic results are considered the most trustworthy source of evidence by the evidence-based medicine literature.[1][2][3]

Not only can meta-analyses provide an estimate of the unknown effect size, it also has the capacity to contrast results from different studies and identify patterns among study results, sources of disagreement among those results, or other interesting relationships that may come to light with multiple studies.[4]

However, there are some methodological problems with meta-analysis. If individual studies are systematically biased due to questionable research practices (e.g., data dredging, data peeking, dropping studies) or the publication bias at the journal level, the meta-analytic estimate of the overall treatment effect may not reflect the actual efficacy of a treatment.[5][6] Meta-analysis has also been criticized for averaging differences among heterogeneous studies because these differences could potentially inform clinical decisions.[7] For example, if there are two groups of patients experiencing different treatment effects studies in two randomised control trials (RCTs) reporting conflicting results, the meta-analytic average is representative of neither group, similarly to averaging the weight of apples and oranges, which is neither accurate for apples nor oranges.[8] In performing a meta-analysis, an investigator must make choices which can affect the results, including deciding how to search for studies, selecting studies based on a set of objective criteria, dealing with incomplete data, analyzing the data, and accounting for or choosing not to account for publication bias.[9] This makes meta-analysis malleable in the sense that these methodological choices made in completing a meta-analysis are not determined but may affect the results.[10] For example, Wanous and colleagues examined four pairs of meta-analyses on the four topics of (a) job performance and satisfaction relationship, (b) realistic job previews, (c) correlates of role conflict and ambiguity, and (d) the job satisfaction and absenteeism relationship, and illustrated how various judgement calls made by the researchers produced different results.[11]

Meta-analyses are often, but not always, important components of a systematic review procedure. For instance, a meta-analysis may be conducted on several clinical trials of a medical treatment, in an effort to obtain a better understanding of how well the treatment works. Here it is convenient to follow the terminology used by the Cochrane Collaboration,[12] and use «meta-analysis» to refer to statistical methods of combining evidence, leaving other aspects of ‘research synthesis’ or ‘evidence synthesis’, such as combining information from qualitative studies, for the more general context of systematic reviews. A meta-analysis is a secondary source.[13][14] In addition, meta-analysis may also be applied to a single study in cases where there are many cohorts which have not gone through identical selection criteria or to which the same investigational methodologies have not been applied to all in the same manner or under the same exacting conditions. Under these circumstances each cohort is treated as an individual study and meta-analysis is used to draw study-wide conclusions.[15]

History[edit]

The historical roots of meta-analysis can be traced back to 17th century studies of astronomy,[16] while a paper published in 1904 by the statistician Karl Pearson in the British Medical Journal[17] which collated data from several studies of typhoid inoculation is seen as the first time a meta-analytic approach was used to aggregate the outcomes of multiple clinical studies.[18][19] The first meta-analysis of all conceptually identical experiments concerning a particular research issue, and conducted by independent researchers, has been identified as the 1940 book-length publication Extrasensory Perception After Sixty Years, authored by Duke University psychologists J. G. Pratt, J. B. Rhine, and associates.[20] This encompassed a review of 145 reports on ESP experiments published from 1882 to 1939, and included an estimate of the influence of unpublished papers on the overall effect (the file-drawer problem). The term «meta-analysis» was coined in 1976 by the statistician Gene V. Glass,[21][22][23] who stated «my major interest currently is in what we have come to call …the meta-analysis of research. The term is a bit grand, but it is precise and apt … Meta-analysis refers to the analysis of analyses». Although this led to him being widely recognized as the modern founder of the method, the methodology behind what he termed «meta-analysis» predates his work by several decades.[24][25] But unlike earlier methods which aimed at aggregating study results to achieve higher levels of statistical significance, Glass’s work aimed at describing aggregated measures of relationships and effects. The statistical theory surrounding meta-analysis was greatly advanced by the work of Nambury S. Raju, Larry V. Hedges, Harris Cooper, Ingram Olkin, John E. Hunter, Jacob Cohen, Thomas C. Chalmers, Robert Rosenthal, Frank L. Schmidt, John E. Hunter, and Douglas G. Claurett.[23][26][clarification needed] In 1992, meta-analysis was first applied to ecological questions[27] by Jessica Gurevitch who used meta-analysis to study competition in field experiments.[28][29] The field of meta-analysis has expanded greatly since the 1970s and touches multiple disciplines including psychology, medicine, and ecology.[22] Further the more recent creation of evidence synthesis communities has increased the cross pollination of ideas, methods, and the creation of software tools across disciplines.[30][31][32]

Steps in a meta-analysis[edit]

A meta-analysis is usually preceded by a systematic review, as this allows identification and critical appraisal of all the relevant evidence (thereby limiting the risk of bias in summary estimates). The general steps are then as follows:[1]

  1. Formulation of the research question, e.g. using the PICO model (Population, Intervention, Comparison, Outcome).
  2. Search of literature
  3. Selection of studies (‘incorporation criteria’)
    • Based on quality criteria, e.g. the requirement of randomization and blinding in a clinical trial
    • Selection of specific studies on a well-specified subject, e.g. the treatment of breast cancer.
    • Decide whether unpublished studies are included to avoid publication bias (file drawer problem)
  4. Decide which dependent variables or summary measures are allowed. For instance, when considering a meta-analysis of published (aggregate) data:
  5. Selection of a meta-analysis model, e.g. fixed effect or random effects meta-analysis.
  6. Examine sources of between-study heterogeneity, e.g. using subgroup analysis or meta-regression.

Formal guidance for the conduct and reporting of meta-analyses is provided by the Cochrane Handbook.

For reporting guidelines, see the Preferred Reporting Items for Systematic Reviews and Meta-Analyses (PRISMA) statement.[33]

Methods and assumptions[edit]

Approaches[edit]

In general, two types of evidence can be distinguished when performing a meta-analysis: individual participant data (IPD), and aggregate data (AD). The aggregate data can be direct or indirect.

AD is more commonly available (e.g. from the literature) and typically represents summary estimates such as odds ratios or relative risks. This can be directly synthesized across conceptually similar studies using several approaches (see below). On the other hand, indirect aggregate data measures the effect of two treatments that were each compared against a similar control group in a meta-analysis. For example, if treatment A and treatment B were directly compared vs placebo in separate meta-analyses, we can use these two pooled results to get an estimate of the effects of A vs B in an indirect comparison as effect A vs Placebo minus effect B vs Placebo.

IPD evidence represents raw data as collected by the study centers. This distinction has raised the need for different meta-analytic methods when evidence synthesis is desired, and has led to the development of one-stage and two-stage methods.[34] In one-stage methods the IPD from all studies are modeled simultaneously whilst accounting for the clustering of participants within studies. Two-stage methods first compute summary statistics for AD from each study and then calculate overall statistics as a weighted average of the study statistics. By reducing IPD to AD, two-stage methods can also be applied when IPD is available; this makes them an appealing choice when performing a meta-analysis. Although it is conventionally believed that one-stage and two-stage methods yield similar results, recent studies have shown that they may occasionally lead to different conclusions.[35][36]

Statistical models for aggregate data[edit]

Direct evidence: Models incorporating study effects only[edit]

Fixed effect model[edit]

The fixed effect model provides a weighted average of a series of study estimates. The inverse of the estimates’ variance is commonly used as study weight, so that larger studies tend to contribute more than smaller studies to the weighted average. Consequently, when studies within a meta-analysis are dominated by a very large study, the findings from smaller studies are practically ignored.[37] Most importantly, the fixed effects model assumes that all included studies investigate the same population, use the same variable and outcome definitions, etc. This assumption is typically unrealistic as research is often prone to several sources of heterogeneity; e.g. treatment effects may differ according to locale, dosage levels, study conditions, …

Random effects model[edit]

A common model used to synthesize heterogeneous research is the random effects model of meta-analysis. This is simply the weighted average of the effect sizes of a group of studies. The weight that is applied in this process of weighted averaging with a random effects meta-analysis is achieved in two steps:[38]

  1. Step 1: Inverse variance weighting
  2. Step 2: Un-weighting of this inverse variance weighting by applying a random effects variance component (REVC) that is simply derived from the extent of variability of the effect sizes of the underlying studies.

This means that the greater this variability in effect sizes (otherwise known as heterogeneity), the greater the un-weighting and this can reach a point when the random effects meta-analysis result becomes simply the un-weighted average effect size across the studies. At the other extreme, when all effect sizes are similar (or variability does not exceed sampling error), no REVC is applied and the random effects meta-analysis defaults to simply a fixed effect meta-analysis (only inverse variance weighting).

The extent of this reversal is solely dependent on two factors:[39]

  1. Heterogeneity of precision
  2. Heterogeneity of effect size

Since neither of these factors automatically indicates a faulty larger study or more reliable smaller studies, the re-distribution of weights under this model will not bear a relationship to what these studies actually might offer. Indeed, it has been demonstrated that redistribution of weights is simply in one direction from larger to smaller studies as heterogeneity increases until eventually all studies have equal weight and no more redistribution is possible.[39]
Another issue with the random effects model is that the most commonly used confidence intervals generally do not retain their coverage probability above the specified nominal level and thus substantially underestimate the statistical error and are potentially
overconfident in their conclusions.[40][41] Several fixes have been suggested[42][43] but the debate continues on.[41][44] A further concern is that the average treatment effect can sometimes be even less conservative compared to the fixed effect model[45] and therefore misleading in practice. One interpretational fix that has been suggested is to create a prediction interval around the random effects estimate to portray the range of possible effects in practice.[46] However, an assumption behind the calculation of such a prediction interval is that trials are considered more or less homogeneous entities and that included patient populations and comparator treatments should be considered exchangeable[47] and this is usually unattainable in practice.

There are many methods used to estimate between studies variance with restricted maximum likelihood estimator being the least prone to bias and one of the most commonly used.[48] Several advanced iterative techniques for computing the between studies variance exist including both maximum likelihood and restricted maximum likelihood method and random effects models using these methods can be run with multiples software platforms including in Excel,[49] Stata,[50] SPSS,[51] and R.[52]

Most meta-analyses include between 2 and 4 studies and such a sample is more often than not inadequate to accurately estimate heterogeneity. Thus it appears that in small meta-analyses, an incorrect zero between study variance estimate is obtained, leading to a false homogeneity assumption. Overall, it appears that heterogeneity is being consistently underestimated in meta-analyses and sensitivity analyses in which high heterogeneity levels are assumed could be informative.[53] These random effects models and software packages mentioned above relate to study-aggregate meta-analyses and researchers wishing to conduct individual patient data (IPD) meta-analyses need to consider mixed-effects modelling approaches.[54]

IVhet model[edit]

Doi & Barendregt working in collaboration with Khan, Thalib and Williams (from the University of Queensland, University of Southern Queensland and Kuwait University), have created an inverse variance quasi likelihood based alternative (IVhet) to the random effects (RE) model for which details are available online.[49] This was incorporated into MetaXL version 2.0,[55] a free Microsoft excel add-in for meta-analysis produced by Epigear International Pty Ltd, and made available on 5 April 2014. The authors state that a clear advantage of this model is that it resolves the two main problems of the random effects model. The first advantage of the IVhet model is that coverage remains at the nominal (usually 95%) level for the confidence interval unlike the random effects model which drops in coverage with increasing heterogeneity.[40][41] The second advantage is that the IVhet model maintains the inverse variance weights of individual studies, unlike the RE model which gives small studies more weight (and therefore larger studies less) with increasing heterogeneity. When heterogeneity becomes large, the individual study weights under the RE model become equal and thus the RE model returns an arithmetic mean rather than a weighted average. This side-effect of the RE model does not occur with the IVhet model which thus differs from the RE model estimate in two perspectives:[49] Pooled estimates will favor larger trials (as opposed to penalizing larger trials in the RE model) and will have a confidence interval that remains within the nominal coverage under uncertainty (heterogeneity). Doi & Barendregt suggest that while the RE model provides an alternative method of pooling the study data, their simulation results[56] demonstrate that using a more specified probability model with untenable assumptions, as with the RE model, does not necessarily provide better results. The latter study also reports that the IVhet model resolves the problems related to underestimation of the statistical error, poor coverage of the confidence interval and increased MSE seen with the random effects model and the authors conclude that researchers should henceforth abandon use of the random effects model in meta-analysis. While their data is compelling, the ramifications (in terms of the magnitude of spuriously positive results within the Cochrane database) are huge and thus accepting this conclusion requires careful independent confirmation. The availability of a free software (MetaXL)[55] that runs the IVhet model (and all other models for comparison) facilitates this for the research community.

Direct evidence: Models incorporating additional information[edit]

Quality effects model[edit]

Doi and Thalib originally introduced the quality effects model.[57] They[58] introduced a new approach to adjustment for inter-study variability by incorporating the contribution of variance due to a relevant component (quality) in addition to the contribution of variance due to random error that is used in any fixed effects meta-analysis model to generate weights for each study. The strength of the quality effects meta-analysis is that it allows available methodological evidence to be used over subjective random effects, and thereby helps to close the damaging gap which has opened up between methodology and statistics in clinical research. To do this a synthetic bias variance is computed based on quality information to adjust inverse variance weights and the quality adjusted weight of the ith study is introduced.[57] These adjusted weights are then used in meta-analysis. In other words, if study i is of good quality and other studies are of poor quality, a proportion of their quality adjusted weights is mathematically redistributed to study i giving it more weight towards the overall effect size. As studies become increasingly similar in terms of quality, re-distribution becomes progressively less and ceases when all studies are of equal quality (in the case of equal quality, the quality effects model defaults to the IVhet model – see previous section). A recent evaluation of the quality effects model (with some updates) demonstrates that despite the subjectivity of quality assessment, the performance (MSE and true variance under simulation) is superior to that achievable with the random effects model.[59][60] This model thus replaces the untenable interpretations that abound in the literature and a software is available to explore this method further.[55]

Indirect evidence: Network meta-analysis methods[edit]

A network meta-analysis looks at indirect comparisons. In the image, A has been analyzed in relation to C and C has been analyzed in relation to b. However the relation between A and B is only known indirectly, and a network meta-analysis looks at such indirect evidence of differences between methods and interventions using statistical method.

Indirect comparison meta-analysis methods (also called network meta-analyses, in particular when multiple treatments are assessed simultaneously) generally use two main methodologies. First, is the Bucher method[61] which is a single or repeated comparison of a closed loop of three-treatments such that one of them is common to the two studies and forms the node where the loop begins and ends. Therefore, multiple two-by-two comparisons (3-treatment loops) are needed to compare multiple treatments. This methodology requires that trials with more than two arms have two arms only selected as independent pair-wise comparisons are required. The alternative methodology uses complex statistical modelling to include the multiple arm trials and comparisons simultaneously between all competing treatments. These have been executed using Bayesian methods, mixed linear models and meta-regression approaches.[citation needed]

Bayesian framework[edit]

Specifying a Bayesian network meta-analysis model involves writing a directed acyclic graph (DAG) model for general-purpose Markov chain Monte Carlo (MCMC) software such as WinBUGS.[62] In addition, prior distributions have to be specified for a number of the parameters, and the data have to be supplied in a specific format.[62] Together, the DAG, priors, and data form a Bayesian hierarchical model. To complicate matters further, because of the nature of MCMC estimation, overdispersed starting values have to be chosen for a number of independent chains so that convergence can be assessed.[63] Recently, multiple R software packages were developed to simplify the model fitting (e.g., metaBMA[64] and RoBMA[65]) and even implemented in statistical software with graphical user interface (GUI): JASP. Although the complexity of the Bayesian approach limits usage of this methodology, recent tutorial papers are trying to increase accessibility of the methods.[66][67] Methodology for automation of this method has been suggested[62] but requires that arm-level outcome data are available, and this is usually unavailable. Great claims are sometimes made for the inherent ability of the Bayesian framework to handle network meta-analysis and its greater flexibility. However, this choice of implementation of framework for inference, Bayesian or frequentist, may be less important than other choices regarding the modeling of effects[68] (see discussion on models above).

Frequentist multivariate framework[edit]

On the other hand, the frequentist multivariate methods involve approximations and assumptions that are not stated explicitly or verified when the methods are applied (see discussion on meta-analysis models above). For example, the mvmeta package for Stata enables network meta-analysis in a frequentist framework.[69] However, if there is no common comparator in the network, then this has to be handled by augmenting the dataset with fictional arms with high variance, which is not very objective and requires a decision as to what constitutes a sufficiently high variance.[62] The other issue is use of the random effects model in both this frequentist framework and the Bayesian framework. Senn advises analysts to be cautious about interpreting the ‘random effects’ analysis since only one random effect is allowed for but one could envisage many.[68] Senn goes on to say that it is rather naıve, even in the case where only two treatments are being compared to assume that random-effects analysis accounts for all uncertainty about the way effects can vary from trial to trial. Newer models of meta-analysis such as those discussed above would certainly help alleviate this situation and have been implemented in the next framework.

Generalized pairwise modelling framework[edit]

An approach that has been tried since the late 1990s is the implementation of the multiple three-treatment closed-loop analysis. This has not been popular because the process rapidly becomes overwhelming as network complexity increases. Development in this area was then abandoned in favor of the Bayesian and multivariate frequentist methods which emerged as alternatives. Very recently, automation of the three-treatment closed loop method has been developed for complex networks by some researchers[49] as a way to make this methodology available to the mainstream research community. This proposal does restrict each trial to two interventions, but also introduces a workaround for multiple arm trials: a different fixed control node can be selected in different runs. It also utilizes robust meta-analysis methods so that many of the problems highlighted above are avoided. Further research around this framework is required to determine if this is indeed superior to the Bayesian or multivariate frequentist frameworks. Researchers willing to try this out have access to this framework through a free software.[55]

Tailored meta-analysis[edit]

Another form of additional information comes from the intended setting. If the target setting for applying the meta-analysis results is known then it may be possible to use data from the setting to tailor the results thus producing a ‘tailored meta-analysis’.,[70][71] This has been used in test accuracy meta-analyses, where empirical knowledge of the test positive rate and the prevalence have been used to derive a region in Receiver Operating Characteristic (ROC) space known as an ‘applicable region’. Studies are then selected for the target setting based on comparison with this region and aggregated to produce a summary estimate which is tailored to the target setting.

Aggregating IPD and AD[edit]

Meta-analysis can also be applied to combine IPD and AD. This is convenient when the researchers who conduct the analysis have their own raw data while collecting aggregate or summary data from the literature. The generalized integration model (GIM)[72] is a generalization of the meta-analysis. It allows that the model fitted on the individual participant data (IPD) is different from the ones used to compute the aggregate data (AD). GIM can be viewed as a model calibration method for integrating information with more flexibility.

Validation of meta-analysis results[edit]

The meta-analysis estimate represents a weighted average across studies and when there is heterogeneity this may result in the summary estimate not being representative of individual studies. Qualitative appraisal of the primary studies using established tools can uncover potential biases,[73][74] but does not quantify the aggregate effect of these biases on the summary estimate. Although the meta-analysis result could be compared with an independent prospective primary study, such external validation is often impractical. This has led to the development of methods that exploit a form of leave-one-out cross validation, sometimes referred to as internal-external cross validation (IOCV).[75] Here each of the k included studies in turn is omitted and compared with the summary estimate derived from aggregating the remaining k- 1 studies. A general validation statistic, Vn based on IOCV has been developed to measure the statistical validity of meta-analysis results.[76] For test accuracy and prediction, particularly when there are multivariate effects, other approaches which seek to estimate the prediction error have also been proposed.[77]

Challenges[edit]

A meta-analysis of several small studies does not always predict the results of a single large study.[78] Some have argued that a weakness of the method is that sources of bias are not controlled by the method: a good meta-analysis cannot correct for poor design or bias in the original studies.[79] This would mean that only methodologically sound studies should be included in a meta-analysis, a practice called ‘best evidence synthesis’.[79] Other meta-analysts would include weaker studies, and add a study-level predictor variable that reflects the methodological quality of the studies to examine the effect of study quality on the effect size.[80] However, others have argued that a better approach is to preserve information about the variance in the study sample, casting as wide a net as possible, and that methodological selection criteria introduce unwanted subjectivity, defeating the purpose of the approach.[81]

Publication bias: the file drawer problem[edit]

A funnel plot expected without the file drawer problem. The largest studies converge at the tip while smaller studies show more or less symmetrical scatter at the base

A funnel plot expected with the file drawer problem. The largest studies still cluster around the tip, but the bias against publishing negative studies has caused the smaller studies as a whole to have an unjustifiably favorable result to the hypothesis

Another potential pitfall is the reliance on the available body of published studies, which may create exaggerated outcomes due to publication bias, as studies which show negative results or insignificant results are less likely to be published.[82] For example, pharmaceutical companies have been known to hide negative studies and researchers may have overlooked unpublished studies such as dissertation studies or conference abstracts that did not reach publication. This is not easily solved, as one cannot know how many studies have gone unreported.[83]

This file drawer problem (characterized by negative or non-significant results being tucked away in a cabinet), can result in a biased distribution of effect sizes thus creating a serious base rate fallacy, in which the significance of the published studies is overestimated, as other studies were either not submitted for publication or were rejected. This should be seriously considered when interpreting the outcomes of a meta-analysis.[83][6]

The distribution of effect sizes can be visualized with a funnel plot which (in its most common version) is a scatter plot of standard error versus the effect size. It makes use of the fact that the smaller studies (thus larger standard errors) have more scatter of the magnitude of effect (being less precise) while the larger studies have less scatter and form the tip of the funnel. If many negative studies were not published, the remaining positive studies give rise to a funnel plot in which the base is skewed to one side (asymmetry of the funnel plot). In contrast, when there is no publication bias, the effect of the smaller studies has no reason to be skewed to one side and so a symmetric funnel plot results. This also means that if no publication bias is present, there would be no relationship between standard error and effect size.[84] A negative or positive relation between standard error and effect size would imply that smaller studies that found effects in one direction only were more likely to be published and/or to be submitted for publication.

Apart from the visual funnel plot, statistical methods for detecting publication bias have also been proposed.[85] These are controversial because they typically have low power for detection of bias, but also may make false positives under some circumstances.[86] For instance small study effects (biased smaller studies), wherein methodological differences between smaller and larger studies exist, may cause asymmetry in effect sizes that resembles publication bias. However, small study effects may be just as problematic for the interpretation of meta-analyses, and the imperative is on meta-analytic authors to investigate potential sources of bias.[87]

A Tandem Method for analyzing publication bias has been suggested for cutting down false positive error problems.[88] This Tandem method consists of three stages. Firstly, one calculates Orwin’s fail-safe N, to check how many studies should be added in order to reduce the test statistic to a trivial size. If this number of studies is larger than the number of studies used in the meta-analysis, it is a sign that there is no publication bias, as in that case, one needs a lot of studies to reduce the effect size. Secondly, one can do an Egger’s regression test, which tests whether the funnel plot is symmetrical. As mentioned before: a symmetrical funnel plot is a sign that there is no publication bias, as the effect size and sample size are not dependent. Thirdly, one can do the trim-and-fill method, which imputes data if the funnel plot is asymmetrical.

The problem of publication bias is not trivial as it is suggested that 25% of meta-analyses in the psychological sciences may have suffered from publication bias.[88] However, low power of existing tests and problems with the visual appearance of the funnel plot remain an issue, and estimates of publication bias may remain lower than what truly exists.

Most discussions of publication bias focus on journal practices favoring publication of statistically significant findings. However, questionable research practices, such as reworking statistical models until significance is achieved, may also favor statistically significant findings in support of researchers’ hypotheses.[89][90]

[edit]

Studies often do not report the effects when they do not reach statistical significance[citation needed]. For example, they may simply say that the groups did not show statistically significant differences, without reporting any other information (e.g. a statistic or p-value). Exclusion of these studies would lead to a situation similar to publication bias, but their inclusion (assuming null effects) would also bias the meta-analysis. MetaNSUE, a method created by Joaquim Radua, has shown to allow researchers to include unbiasedly these studies.[91] Its steps are as follows:

  • Maximum likelihood estimation of the meta-analytic effect and the heterogeneity between studies.
  • Multiple imputation of the NSUEs adding noise to the estimate of the effect.
  • Separate meta-analyses for each imputed dataset.
  • Pooling of the results of these meta-analyses.

[edit]

Other weaknesses are that it has not been determined if the statistically most accurate method for combining results is the fixed, IVhet, random or quality effect models, though the criticism against the random effects model is mounting because of the perception that the new random effects (used in meta-analysis) are essentially formal devices to facilitate smoothing or shrinkage and prediction may be impossible or ill-advised.[92] The main problem with the random effects approach is that it uses the classic statistical thought of generating a «compromise estimator» that makes the weights close to the naturally weighted estimator if heterogeneity across studies is large but close to the inverse variance weighted estimator if the between study heterogeneity is small. However, what has been ignored is the distinction between the model we choose to analyze a given dataset, and the mechanism by which the data came into being.[93] A random effect can be present in either of these roles, but the two roles are quite distinct. There’s no reason to think the analysis model and data-generation mechanism (model) are similar in form, but many sub-fields of statistics have developed the habit of assuming, for theory and simulations, that the data-generation mechanism (model) is identical to the analysis model we choose (or would like others to choose). As a hypothesized mechanisms for producing the data, the random effect model for meta-analysis is silly and it is more appropriate to think of this model as a superficial description and something we choose as an analytical tool – but this choice for meta-analysis may not work because the study effects are a fixed feature of the respective meta-analysis and the probability distribution is only a descriptive tool.[93]

Problems arising from agenda-driven bias[edit]

The most severe fault in meta-analysis often occurs when the person or persons doing the meta-analysis have an economic, social, or political agenda such as the passage or defeat of legislation. People with these types of agendas may be more likely to abuse meta-analysis due to personal bias. For example, researchers favorable to the author’s agenda are likely to have their studies cherry-picked while those not favorable will be ignored or labeled as «not credible». In addition, the favored authors may themselves be biased or paid to produce results that support their overall political, social, or economic goals in ways such as selecting small favorable data sets and not incorporating larger unfavorable data sets. The influence of such biases on the results of a meta-analysis is possible because the methodology of meta-analysis is highly malleable.[10]

A 2011 study done to disclose possible conflicts of interests in underlying research studies used for medical meta-analyses reviewed 29 meta-analyses and found that conflicts of interests in the studies underlying the meta-analyses were rarely disclosed. The 29 meta-analyses included 11 from general medicine journals, 15 from specialty medicine journals, and three from the Cochrane Database of Systematic Reviews. The 29 meta-analyses reviewed a total of 509 randomized controlled trials (RCTs). Of these, 318 RCTs reported funding sources, with 219 (69%) receiving funding from industry (i.e. one or more authors
having financial ties to the pharmaceutical industry). Of the 509 RCTs, 132 reported author conflict of interest disclosures, with 91 studies (69%) disclosing one or more authors having financial ties to industry. The information was, however, seldom reflected in the meta-analyses. Only two (7%) reported RCT funding sources and none reported RCT author-industry ties. The authors concluded «without acknowledgment of COI due to industry funding or author industry financial ties from RCTs included in meta-analyses, readers’ understanding and appraisal of the evidence from the meta-analysis may be compromised.»[94]

For example, in 1998, a US federal judge found that the United States Environmental Protection Agency had abused the meta-analysis process to produce a study claiming cancer risks to non-smokers from environmental tobacco smoke (ETS) with the intent to influence policy makers to pass smoke-free–workplace laws. The judge found that:

EPA’s study selection is disturbing. First, there is evidence in the record supporting the accusation that EPA «cherry picked» its data. Without criteria for pooling studies into a meta-analysis, the court cannot determine whether the exclusion of studies likely to disprove EPA’s a priori hypothesis was coincidence or intentional. Second, EPA’s excluding nearly half of the available studies directly conflicts with EPA’s purported purpose for analyzing the epidemiological studies and conflicts with EPA’s Risk Assessment Guidelines. See ETS Risk Assessment at 4-29 («These data should also be examined in the interest of weighing all the available evidence, as recommended by EPA’s carcinogen risk assessment guidelines (U.S. EPA, 1986a) (emphasis added)). Third, EPA’s selective use of data conflicts with the Radon Research Act. The Act states EPA’s program shall «gather data and information on all aspects of indoor air quality» (Radon Research Act § 403(a)(1)) (emphasis added).[95]

As a result of the abuse, the court vacated Chapters 1–6 of and the Appendices to EPA’s «Respiratory Health Effects of Passive Smoking: Lung Cancer and other Disorders».[95]

Comparability and validity of included studies[edit]

Meta-analysis may often not be a substitute for an adequately powered primary study.[96]

Heterogeneity of methods used may lead to faulty conclusions.[97] For instance, differences in the forms of an intervention or the cohorts that are thought to be minor or are unknown to the scientists could lead to substantially different results, including results that distort the meta-analysis’ results or are not adequately considered in its data. Vice versa, results from meta-analyses may also make certain hypothesis or interventions seem nonviable and preempt further research or approvals, despite certain modifications – such as intermittent administration, personalized criteria and combination measures – leading to substantially different results, including in cases where such have been successfully identified and applied in small-scale studies that were considered in the meta-analysis.[citation needed] Standardization, reproduction of experiments, open data and open protocols may often not mitigate such problems, for instance as relevant factors and criteria could be unknown or not be recorded.[citation needed]

There is a debate about the appropriate balance between testing with as few animals or humans as possible and the need to obtain robust, reliable findings. It has been argued that unreliable research is inefficient and wasteful and that studies are not just wasteful when they stop too late but also when they stop too early. In large clinical trials, planned, sequential analyses are sometimes used if there is considerable expense or potential harm associated with testing participants.[98] In applied behavioural science, «megastudies» have been proposed to investigate the efficacy of many different interventions designed in an interdisciplinary manner by separate teams.[99] One such study used a fitness chain to recruit a large number participants. It has been suggested that behavioural interventions are often hard to compare [in meta-analyses and reviews], as «different scientists test different intervention ideas in different samples using different outcomes over different time intervals», causing a lack of comparability of such individual investigations which limits «their potential to inform policy».[99]

Weak inclusion standards lead to misleading conclusions[edit]

Meta-analyses in education are often not restrictive enough in regards to the methodological quality of the studies they include. For example, studies that include small samples or researcher-made measures lead to inflated effect size estimates.[100] However, this problem also troubles meta-analysis of clinical trials. The use of different quality assessment tools (QATs) lead to including different studies and obtaining conflicting estimates of average treatment effects.[101][102]

Applications in modern science[edit]

Modern statistical meta-analysis does more than just combine the effect sizes of a set of studies using a weighted average. It can test if the outcomes of studies show more variation than the variation that is expected because of the sampling of different numbers of research participants. Additionally, study characteristics such as measurement instrument used, population sampled, or aspects of the studies’ design can be coded and used to reduce variance of the estimator (see statistical models above). Thus some methodological weaknesses in studies can be corrected statistically. Other uses of meta-analytic methods include the development and validation of clinical prediction models, where meta-analysis may be used to combine individual participant data from different research centers and to assess the model’s generalisability,[103][104] or even to aggregate existing prediction models.[105]

Meta-analysis can be done with single-subject design as well as group research designs.[106] This is important because much research has been done with single-subject research designs.[107] Considerable dispute exists for the most appropriate meta-analytic technique for single subject research.[108]

Meta-analysis leads to a shift of emphasis from single studies to multiple studies. It emphasizes the practical importance of the effect size instead of the statistical significance of individual studies. This shift in thinking has been termed «meta-analytic thinking». The results of a meta-analysis are often shown in a forest plot.

Results from studies are combined using different approaches. One approach frequently used in meta-analysis in health care research is termed ‘inverse variance method’. The average effect size across all studies is computed as a weighted mean, whereby the weights are equal to the inverse variance of each study’s effect estimator. Larger studies and studies with less random variation are given greater weight than smaller studies. Other common approaches include the Mantel–Haenszel method[109] and the Peto method.[110]

Seed-based d mapping (formerly signed differential mapping, SDM) is a statistical technique for meta-analyzing studies on differences in brain activity or structure which used neuroimaging techniques such as fMRI, VBM or PET.

Different high throughput techniques such as microarrays have been used to understand Gene expression. MicroRNA expression profiles have been used to identify differentially expressed microRNAs in particular cell or tissue type or disease conditions or to check the effect of a treatment. A meta-analysis of such expression profiles was performed to derive novel conclusions and to validate the known findings.[111]

Meta-analysis of whole genome sequencing studies provides an attractive solution to the problem of collecting large sample sizes for discovering rare variants associated with complex phenotypes. Some methods have been developed to enable functionally informed rare variant association meta-analysis in biobank-scale cohorts using efficient approaches for summary statistic storage.[112]

See also[edit]

  • Estimation statistics
  • Metascience
  • Newcastle–Ottawa scale
  • Reporting bias
  • Review journal
  • Secondary research
  • Study heterogeneity
  • Systematic review
  • Galbraith plot
  • Data aggregation

References[edit]

  1. ^ a b Herrera Ortiz AF., Cadavid Camacho E, Cubillos Rojas J, Cadavid Camacho T, Zoe Guevara S, Tatiana Rincón Cuenca N, Vásquez Perdomo A, Del Castillo Herazo V, & Giraldo Malo R. A Practical Guide to Perform a Systematic Literature Review and Meta-analysis. Principles and Practice of Clinical Research. 2022;7(4):47–57. https://doi.org/10.21801/ppcrj.2021.74.6
  2. ^ «Levels of Evidence». Centre for Evidence-Based Medicine (CEBM). University of Oxford. March 2009. Retrieved 21 December 2021.
  3. ^ Developing NICE guidelines: the manual (PDF). London: National Institute for Health and Care Excellence. 2014. Retrieved 21 December 2020.
  4. ^ Greenland S, O’ Rourke K (2008). «Meta-Analysis». In Rothman KJ, Greenland S, Lash T (eds.). Modern epidemiology (3rd, thoroughly revised and updated ed.). Philadelphia: Lippincott Williams and Wilkins. p. 652. ISBN 978-0-7817-5564-1.
  5. ^ Tabery J (9 May 2014). Beyond Versus: The Struggle to Understand the Interaction of Nature and Nurture. MIT Press. ISBN 978-0-262-02737-3.
  6. ^ a b Hunter JE, Schmidt FL (1990). Methods of Meta-Analysis: Correcting Error and Bias in Research Findings. Newbury Park, California; London; New Delhi: SAGE Publications.
  7. ^ Maziarz M (February 2022). «Is meta-analysis of RCTs assessing the efficacy of interventions a reliable source of evidence for therapeutic decisions?». Studies in History and Philosophy of Science. 91: 159–167. doi:10.1016/j.shpsa.2021.11.007. PMID 34922183. S2CID 245241150.
  8. ^ Feinstein AR (January 1995). «Meta-analysis: statistical alchemy for the 21st century». Journal of Clinical Epidemiology. The Potsdam International Consultation on Meta-Analysis. 48 (1): 71–79. doi:10.1016/0895-4356(94)00110-C. PMID 7853050.
  9. ^ Walker E, Hernandez AV, Kattan MW (June 2008). «Meta-analysis: Its strengths and limitations». Cleveland Clinic Journal of Medicine. 75 (6): 431–439. doi:10.3949/ccjm.75.6.431. PMID 18595551. S2CID 22543097.
  10. ^ a b Stegenga J (December 2011). «Is meta-analysis the platinum standard of evidence?». Studies in History and Philosophy of Biological and Biomedical Sciences. 42 (4): 497–507. doi:10.1016/j.shpsc.2011.07.003. PMID 22035723.
  11. ^ Wanous JP, Sullivan SE, Malinak J (1989). «The role of judgment calls in meta-analysis». Journal of Applied Psychology. 74 (2): 259–264. doi:10.1037/0021-9010.74.2.259. ISSN 0021-9010.
  12. ^ «Glossary: meta-analysis». The Cochrane Collaboration. Archived from the original on 20 December 2014.
  13. ^ Gravetter FJ, Forzano LB (1 January 2018). Research Methods for the Behavioral Sciences. Cengage Learning. p. 36. ISBN 978-1-337-61331-6. Some examples of secondary sources are (1) books and textbooks in which the author describes and summarizes past research, (2) review articles or meta-analyses…
  14. ^ Adams KA, Lawrence EK (2 February 2018). Research Methods, Statistics, and Applications. SAGE Publications. ISBN 978-1-5063-5046-2. The most common types of secondary sources found in academic journals are literature reviews and meta-analyses.
  15. ^ Rühlemann MC, Hermes BM, Bang C, Doms S, Moitinho-Silva L, Thingholm LB, et al. (February 2021). «Genome-wide association study in 8,956 German individuals identifies influence of ABO histo-blood groups on gut microbiome». Nature Genetics. 53 (2): 147–155. doi:10.1038/s41588-020-00747-1. PMID 33462482. S2CID 231641761.
  16. ^ Plackett RL (1958). «Studies in the History of Probability and Statistics: Vii. The Principle of the Arithmetic Mean». Biometrika. 45 (1–2): 133. doi:10.1093/biomet/45.1-2.130.
  17. ^ «Report on Certain Enteric Fever Inoculation Statistics». British Medical Journal. 2 (2288): 1243–1246. November 1904. doi:10.1136/bmj.2.2288.1243. PMC 2355479. PMID 20761760.
  18. ^ Nordmann AJ, Kasenda B, Briel M (9 March 2012). «Meta-analyses: what they can and cannot do». Swiss Medical Weekly. 142: w13518. doi:10.4414/smw.2012.13518. PMID 22407741.
  19. ^ O’Rourke K (December 2007). «An historical perspective on meta-analysis: dealing quantitatively with varying study results». Journal of the Royal Society of Medicine. 100 (12): 579–582. doi:10.1177/0141076807100012020. PMC 2121629. PMID 18065712.
  20. ^ Pratt JG, Rhine JB, Smith BM, Stuart CE, Greenwood JA. Extra-Sensory Perception after Sixty Years: A Critical Appraisal of the Research in Extra-Sensory Perception. New York: Henry Holt, 1940
  21. ^ Glass GV (1976). «Primary, secondary, and meta-analysis of research». Educational Researcher. 5 (10): 3–8. doi:10.3102/0013189X005010003. S2CID 3185455.
  22. ^ a b Shadish WR, Lecy JD (September 2015). «The meta-analytic big bang». Research Synthesis Methods. 6 (3): 246–264. doi:10.1002/jrsm.1132. PMID 26212600. S2CID 5416879.
  23. ^ a b Glass GV (September 2015). «Meta-analysis at middle age: a personal history». Research Synthesis Methods. 6 (3): 221–231. doi:10.1002/jrsm.1133. PMID 26355796. S2CID 30083129.
  24. ^ Cochran WG (1937). «Problems Arising in the Analysis of a Series of Similar Experiments». Journal of the Royal Statistical Society. 4 (1): 102–118. doi:10.2307/2984123. JSTOR 2984123.
  25. ^ Cochran WG, Carroll SP (1953). «A Sampling Investigation of the Efficiency of Weighting Inversely as the Estimated Variance». Biometrics. 9 (4): 447–459. doi:10.2307/3001436. JSTOR 3001436.
  26. ^ Hedges LV (September 2015). «The early history of meta-analysis». Research Synthesis Methods. 6 (3): 284–286. doi:10.1002/jrsm.1149. PMID 26097046. S2CID 206155786.
  27. ^ Gurevitch J, Koricheva J, Nakagawa S, Stewart G (March 2018). «Meta-analysis and the science of research synthesis». Nature. 555 (7695): 175–182. Bibcode:2018Natur.555..175G. doi:10.1038/nature25753. PMID 29517004. S2CID 3761687.
  28. ^ Gurevitch J, Morrow LL, Wallace A, Walsh JS (1992). «A Meta-Analysis of Competition in Field Experiments». The American Naturalist. 140 (4): 539–572. doi:10.1086/285428. ISSN 0003-0147. JSTOR 2462913. S2CID 205982939.
  29. ^ Gurevitch K (7 March 2018). «Forty years of meta-analysis: We need evidence-based answers more than ever». Research Data at Springer Nature. Retrieved 24 July 2021.
  30. ^ Vandvik PO, Brandt L (July 2020). «Future of Evidence Ecosystem Series: Evidence ecosystems and learning health systems: why bother?». Journal of Clinical Epidemiology. 123: 166–170. doi:10.1016/j.jclinepi.2020.02.008. PMID 32145365. S2CID 212629387.
  31. ^ Cartabellotta A, Tilson JK (June 2019). «The ecosystem of evidence cannot thrive without efficiency of knowledge generation, synthesis, and translation». Journal of Clinical Epidemiology. 110: 90–95. doi:10.1016/j.jclinepi.2019.01.008. PMID 30708174. S2CID 73415319.
  32. ^ Haddaway NR, Bannach-Brown A, Grainger MJ, Hamilton WK, Hennessy EA, Keenan C, et al. (June 2022). «The evidence synthesis and meta-analysis in R conference (ESMARConf): levelling the playing field of conference accessibility and equitability». Systematic Reviews. 11 (1): 113. doi:10.1186/s13643-022-01985-6. PMC 9164457. PMID 35659294.
  33. ^ «The PRISMA statement». Prisma-statement.org. 2 February 2012. Archived from the original on 27 July 2011. Retrieved 2 February 2012.
  34. ^ Debray TP, Moons KG, van Valkenhoef G, Efthimiou O, Hummel N, Groenwold RH, Reitsma JB (December 2015). «Get real in individual participant data (IPD) meta-analysis: a review of the methodology». Research Synthesis Methods. 6 (4): 293–309. doi:10.1002/jrsm.1160. PMC 5042043. PMID 26287812.
  35. ^ Debray TP, Moons KG, Abo-Zaid GM, Koffijberg H, Riley RD (2013). «Individual participant data meta-analysis for a binary outcome: one-stage or two-stage?». PLOS ONE. 8 (4): e60650. Bibcode:2013PLoSO…860650D. doi:10.1371/journal.pone.0060650. PMC 3621872. PMID 23585842.
  36. ^ Burke DL, Ensor J, Riley RD (February 2017). «Meta-analysis using individual participant data: one-stage and two-stage approaches, and why they may differ». Statistics in Medicine. 36 (5): 855–875. doi:10.1002/sim.7141. PMC 5297998. PMID 27747915.
  37. ^ Helfenstein U (March 2002). «Data and models determine treatment proposals—an illustration from meta-analysis». Postgraduate Medical Journal. 78 (917): 131–134. doi:10.1136/pmj.78.917.131. PMC 1742301. PMID 11884693.
  38. ^ Senn S (March 2007). «Trying to be precise about vagueness». Statistics in Medicine. 26 (7): 1417–1430. doi:10.1002/sim.2639. PMID 16906552. S2CID 17764847.
  39. ^ a b Al Khalaf MM, Thalib L, Doi SA (February 2011). «Combining heterogenous studies using the random-effects model is a mistake and leads to inconclusive meta-analyses». Journal of Clinical Epidemiology. 64 (2): 119–123. doi:10.1016/j.jclinepi.2010.01.009. PMID 20409685.
  40. ^ a b Brockwell SE, Gordon IR (March 2001). «A comparison of statistical methods for meta-analysis». Statistics in Medicine. 20 (6): 825–840. doi:10.1002/sim.650. PMID 11252006. S2CID 16932514.
  41. ^ a b c Noma H (December 2011). «Confidence intervals for a random-effects meta-analysis based on Bartlett-type corrections». Statistics in Medicine. 30 (28): 3304–3312. doi:10.1002/sim.4350. hdl:2433/152046. PMID 21964669. S2CID 6556986.
  42. ^ Brockwell SE, Gordon IR (November 2007). «A simple method for inference on an overall effect in meta-analysis». Statistics in Medicine. 26 (25): 4531–4543. doi:10.1002/sim.2883. PMID 17397112. S2CID 887098.
  43. ^ Sidik K, Jonkman JN (November 2002). «A simple confidence interval for meta-analysis». Statistics in Medicine. 21 (21): 3153–3159. doi:10.1002/sim.1262. PMID 12375296. S2CID 21384942.
  44. ^ Jackson D, Bowden J (January 2009). «A re-evaluation of the ‘quantile approximation method’ for random effects meta-analysis». Statistics in Medicine. 28 (2): 338–348. doi:10.1002/sim.3487. PMC 2991773. PMID 19016302.
  45. ^ Poole C, Greenland S (September 1999). «Random-effects meta-analyses are not always conservative». American Journal of Epidemiology. 150 (5): 469–475. doi:10.1093/oxfordjournals.aje.a010035. PMID 10472946.
  46. ^ Riley RD, Higgins JP, Deeks JJ (February 2011). «Interpretation of random effects meta-analyses». BMJ. 342: d549. doi:10.1136/bmj.d549. PMID 21310794. S2CID 32994689.
  47. ^ Kriston L (March 2013). «Dealing with clinical heterogeneity in meta-analysis. Assumptions, methods, interpretation». International Journal of Methods in Psychiatric Research. 22 (1): 1–15. doi:10.1002/mpr.1377. PMC 6878481. PMID 23494781.
  48. ^ Langan, Dean; Higgins, Julian P.T.; Jackson, Dan; Bowden, Jack; Veroniki, Areti Angeliki; Kontopantelis, Evangelos; Viechtbauer, Wolfgang; Simmonds, Mark (2019). «A comparison of heterogeneity variance estimators in simulated random‐effects meta‐analyses». Research Synthesis Methods. 10 (1): 83–98. doi:10.1002/jrsm.1316. ISSN 1759-2879. PMID 30067315. S2CID 51890354.
  49. ^ a b c d «MetaXL User Guide» (PDF). Retrieved 18 September 2018.
  50. ^ Kontopantelis E, Reeves D (1 August 2010). «Metaan: Random-effects meta-analysis». Stata Journal. 10 (3): 395–407. doi:10.1177/1536867X1001000307 – via ResearchGate.
  51. ^ Field, Andy P.; Gillett, Raphael (2010). «How to do a meta-analysis». British Journal of Mathematical and Statistical Psychology. 63 (3): 665–694. doi:10.1348/000711010X502733. PMID 20497626.
  52. ^ Viechtbauer, Wolfgang (2010). «Conducting Meta-Analyses in R with the metafor Package». Journal of Statistical Software. 36 (3). doi:10.18637/jss.v036.i03. ISSN 1548-7660. S2CID 15798713.
  53. ^ Kontopantelis E, Springate DA, Reeves D (2013). Friede T (ed.). «A re-analysis of the Cochrane Library data: the dangers of unobserved heterogeneity in meta-analyses». PLOS ONE. 8 (7): e69930. Bibcode:2013PLoSO…869930K. doi:10.1371/journal.pone.0069930. PMC 3724681. PMID 23922860.
  54. ^ Kontopantelis E, Reeves D (27 September 2013). «A short guide and a forest plot command (ipdforest) for one-stage meta-analysis». Stata Journal. 13 (3): 574–587. doi:10.1177/1536867X1301300308 – via ResearchGate.
  55. ^ a b c d «MetaXL software page». Epigear.com. 3 June 2017. Retrieved 18 September 2018.
  56. ^ Doi SA, Barendregt JJ, Khan S, Thalib L, Williams GM (November 2015). «Advances in the meta-analysis of heterogeneous clinical trials I: The inverse variance heterogeneity model». Contemporary Clinical Trials. 45 (Pt A): 130–138. doi:10.1016/j.cct.2015.05.009. hdl:1885/17083. PMID 26003435. S2CID 10792959.
  57. ^ a b Doi SA, Thalib L (January 2008). «A quality-effects model for meta-analysis». Epidemiology. 19 (1): 94–100. doi:10.1097/EDE.0b013e31815c24e7. PMID 18090860. S2CID 29723291.
  58. ^ Doi SA, Barendregt JJ, Mozurkewich EL (March 2011). «Meta-analysis of heterogeneous clinical trials: an empirical example». Contemporary Clinical Trials. 32 (2): 288–298. doi:10.1016/j.cct.2010.12.006. PMID 21147265.
  59. ^ Doi SA, Barendregt JJ, Khan S, Thalib L, Williams GM (July 2015). «Simulation Comparison of the Quality Effects and Random Effects Methods of Meta-analysis». Epidemiology. 26 (4): e42–e44. doi:10.1097/EDE.0000000000000289. PMID 25872162.
  60. ^ Doi SA, Barendregt JJ, Khan S, Thalib L, Williams GM (November 2015). «Advances in the meta-analysis of heterogeneous clinical trials II: The quality effects model». Contemporary Clinical Trials. 45 (Pt A): 123–129. doi:10.1016/j.cct.2015.05.010. PMID 26003432.
  61. ^ Bucher HC, Guyatt GH, Griffith LE, Walter SD (June 1997). «The results of direct and indirect treatment comparisons in meta-analysis of randomized controlled trials». Journal of Clinical Epidemiology. 50 (6): 683–691. doi:10.1016/s0895-4356(97)00049-8. PMID 9250266.
  62. ^ a b c d van Valkenhoef G, Lu G, de Brock B, Hillege H, Ades AE, Welton NJ (December 2012). «Automating network meta-analysis». Research Synthesis Methods. 3 (4): 285–299. doi:10.1002/jrsm.1054. PMID 26053422. S2CID 33613631.
  63. ^ Brooks SP, Gelman A (1998). «General methods for monitoring convergence of iterative simulations» (PDF). Journal of Computational and Graphical Statistics. 7 (4): 434–455. doi:10.1080/10618600.1998.10474787.
  64. ^ Heck DW, Gronau QF, Wagenmakers EJ, Patil I (17 March 2021). «metaBMA: Bayesian model averaging for random and fixed effects meta-analysis». CRAN. Retrieved 9 May 2022.{{cite web}}: CS1 maint: url-status (link)
  65. ^ Bartoš F, Maier M, Wagenmakers EJ, Goosen J, Denwood M, Plummer M (20 April 2022). «RoBMA: An R Package for Robust Bayesian Meta-Analyses». Retrieved 9 May 2022.
  66. ^ Gronau QF, Heck DW, Berkhout SW, Haaf JM, Wagenmakers EJ (July 2021). «A Primer on Bayesian Model-Averaged Meta-Analysis». Advances in Methods and Practices in Psychological Science. 4 (3). doi:10.1177/25152459211031256. ISSN 2515-2459. S2CID 237699937.
  67. ^ Bartoš F, Maier M, Quintana D, Wagenmakers EJ (16 October 2020). «Adjusting for Publication Bias in JASP & R — Selection Models, PET-PEESE, and Robust Bayesian Meta-Analysis». Advances in Methods and Practices in Psychological Science. doi:10.31234/osf.io/75bqn. S2CID 236826939.
  68. ^ a b Senn S, Gavini F, Magrez D, Scheen A (April 2013). «Issues in performing a network meta-analysis». Statistical Methods in Medical Research. 22 (2): 169–189. doi:10.1177/0962280211432220. PMID 22218368. S2CID 10860031.
  69. ^ White IR (2011). «Multivariate random-effects meta-regression: updates to mvmeta». The Stata Journal. 11 (2): 255–270. doi:10.1177/1536867X1101100206.
  70. ^ Willis BH, Hyde CJ (May 2014). «Estimating a test’s accuracy using tailored meta-analysis-How setting-specific data may aid study selection». Journal of Clinical Epidemiology. 67 (5): 538–546. doi:10.1016/j.jclinepi.2013.10.016. PMID 24447592.
  71. ^ Willis BH, Hyde CJ (August 2015). «What is the test’s accuracy in my practice population? Tailored meta-analysis provides a plausible estimate». Journal of Clinical Epidemiology. 68 (8): 847–854. doi:10.1016/j.jclinepi.2014.10.002. PMID 25479685.
  72. ^ Zhang H, Deng L, Schiffman M, Qin J, Yu K (2020). «Generalized integration model for improved statistical inference by leveraging external summary data». Biometrika. 107 (3): 689–703. doi:10.1093/biomet/asaa014.
  73. ^ Higgins JP, Altman DG, Gøtzsche PC, Jüni P, Moher D, Oxman AD, et al. (October 2011). «The Cochrane Collaboration’s tool for assessing risk of bias in randomised trials». BMJ. 343: d5928. doi:10.1136/bmj.d5928. PMC 3196245. PMID 22008217.
  74. ^ Whiting PF, Rutjes AW, Westwood ME, Mallett S, Deeks JJ, Reitsma JB, et al. (October 2011). «QUADAS-2: a revised tool for the quality assessment of diagnostic accuracy studies». Annals of Internal Medicine. 155 (8): 529–536. doi:10.7326/0003-4819-155-8-201110180-00009. PMID 22007046.
  75. ^ Royston P, Parmar MK, Sylvester R (March 2004). «Construction and validation of a prognostic model across several studies, with an application in superficial bladder cancer». Statistics in Medicine. 23 (6): 907–926. doi:10.1002/sim.1691. PMID 15027080. S2CID 23397142.
  76. ^ Willis BH, Riley RD (September 2017). «Measuring the statistical validity of summary meta-analysis and meta-regression results for use in clinical practice». Statistics in Medicine. 36 (21): 3283–3301. doi:10.1002/sim.7372. PMC 5575530. PMID 28620945.
  77. ^ Riley RD, Ahmed I, Debray TP, Willis BH, Noordzij JP, Higgins JP, Deeks JJ (June 2015). «Summarising and validating test accuracy results across multiple studies for use in clinical practice». Statistics in Medicine. 34 (13): 2081–2103. doi:10.1002/sim.6471. PMC 4973708. PMID 25800943.
  78. ^ LeLorier J, Grégoire G, Benhaddad A, Lapierre J, Derderian F (August 1997). «Discrepancies between meta-analyses and subsequent large randomized, controlled trials». The New England Journal of Medicine. 337 (8): 536–542. doi:10.1056/NEJM199708213370806. PMID 9262498.
  79. ^ a b Slavin RE (1986). «Best-Evidence Synthesis: An Alternative to Meta-Analytic and Traditional Reviews». Educational Researcher. 15 (9): 5–9. doi:10.3102/0013189X015009005. S2CID 146457142.
  80. ^ Hunter JE, Schmidt FL, Jackson GB, et al. (American Psychological Association. Division of Industrial-Organizational Psychology) (1982). Meta-analysis: cumulating research findings across studies. Beverly Hills, California: Sage. ISBN 978-0-8039-1864-1.
  81. ^ Glass GV, McGaw B, Smith ML (1981). Meta-analysis in social research. Beverly Hills, California: Sage Publications. ISBN 978-0-8039-1633-3.
  82. ^ Polanin JR, Tanner-Smith EE, Hennessy EA (2016). «Estimating the Difference Between Published and Unpublished Effect Sizes: A Meta-Review». Review of Educational Research. 86 (1): 207–236. doi:10.3102/0034654315582067. ISSN 0034-6543. S2CID 145513046.
  83. ^ a b Rosenthal R (1979). «The «File Drawer Problem» and the Tolerance for Null Results». Psychological Bulletin. 86 (3): 638–641. doi:10.1037/0033-2909.86.3.638. S2CID 36070395.
  84. ^ Light RJ, Pillemer DB (1984). Summing up : the science of reviewing research. Cambridge, Massachusetts: Harvard University Press. ISBN 978-0-674-85431-4.
  85. ^ Vevea JL, Woods CM (December 2005). «Publication bias in research synthesis: sensitivity analysis using a priori weight functions». Psychological Methods. 10 (4): 428–443. doi:10.1037/1082-989X.10.4.428. PMID 16392998.
  86. ^ Ioannidis JP, Trikalinos TA (April 2007). «The appropriateness of asymmetry tests for publication bias in meta-analyses: a large survey». CMAJ. 176 (8): 1091–1096. doi:10.1503/cmaj.060410. PMC 1839799. PMID 17420491.
  87. ^ Hedges LV, Vevea JL (1996). «Estimating Effect Size Under Publication Bias: Small Sample Properties and Robustness of a Random Effects Selection Model». Journal of Educational and Behavioral Statistics. 21 (4): 299–332. doi:10.3102/10769986021004299. ISSN 1076-9986. S2CID 123680599.
  88. ^ a b Ferguson CJ, Brannick MT (March 2012). «Publication bias in psychological science: prevalence, methods for identifying and controlling, and implications for the use of meta-analyses». Psychological Methods. 17 (1): 120–128. doi:10.1037/a0024445. PMID 21787082.
  89. ^ Simmons JP, Nelson LD, Simonsohn U (November 2011). «False-positive psychology: undisclosed flexibility in data collection and analysis allows presenting anything as significant». Psychological Science. 22 (11): 1359–1366. doi:10.1177/0956797611417632. PMID 22006061.
  90. ^ LeBel E, Peters K (2011). «Fearing the future of empirical psychology: Bem’s (2011) evidence of psi as a case study of deficiencies in modal research practice» (PDF). Review of General Psychology. 15 (4): 371–379. doi:10.1037/a0025172. S2CID 51686730. Archived from the original (PDF) on 24 November 2012.
  91. ^ Radua J, Schmidt A, Borgwardt S, Heinz A, Schlagenhauf F, McGuire P, Fusar-Poli P (December 2015). «Ventral Striatal Activation During Reward Processing in Psychosis: A Neurofunctional Meta-Analysis». JAMA Psychiatry. 72 (12): 1243–1251. doi:10.1001/jamapsychiatry.2015.2196. PMID 26558708.
  92. ^ Hodges JS, Clayton MK (February 2011). «Random effects old and new»: 1–23. CiteSeerX 10.1.1.225.2685.
  93. ^ a b Hodges JS (2014). «Random effects old and new.». Richly parameterized linear models : additive, time series, and spatial models using random effects. Boca Raton: CRC Press. pp. 285–302. ISBN 978-1-4398-6683-2.
  94. ^ Roseman M, Milette K, Bero LA, Coyne JC, Lexchin J, Turner EH, Thombs BD (2011), «Reporting of Conflicts of Interest in Meta-analyses of Trials of Pharmacological Treatments», Journal of the American Medical Association, 305 (10): 1008–1017, doi:10.1001/jama.2011.257, hdl:11370/d4a95ee2-429f-45a4-a917-d794ee954797, PMID 21386079, S2CID 11270323
  95. ^ a b «The Osteen Decision». The United States District Court for the Middle District of North Carolina. 17 July 1998. Retrieved 18 March 2017.
  96. ^ Munafò MR, Flint J (September 2004). «Meta-analysis of genetic association studies». Trends in Genetics. 20 (9): 439–444. doi:10.1016/j.tig.2004.06.014. PMID 15313553.
  97. ^ Stone DL, Rosopa PJ (1 March 2017). «The Advantages and Limitations of Using Meta-analysis in Human Resource Management Research». Human Resource Management Review. 27 (1): 1–7. doi:10.1016/j.hrmr.2016.09.001. ISSN 1053-4822.
  98. ^ Button KS, Ioannidis JP, Mokrysz C, Nosek BA, Flint J, Robinson ES, Munafò MR (May 2013). «Power failure: why small sample size undermines the reliability of neuroscience». Nature Reviews. Neuroscience. 14 (5): 365–376. doi:10.1038/nrn3475. PMID 23571845. S2CID 455476.
  99. ^ a b Milkman KL, Gromet D, Ho H, Kay JS, Lee TW, Pandiloski P, et al. (December 2021). «Megastudies improve the impact of applied behavioural science». Nature. 600 (7889): 478–483. Bibcode:2021Natur.600..478M. doi:10.1038/s41586-021-04128-4. PMC 8822539. PMID 34880497. S2CID 245047340.
  100. ^ Cheung AC, Slavin RE (1 June 2016). «How Methodological Features Affect Effect Sizes in Education». Educational Researcher. 45 (5): 283–292. doi:10.3102/0013189X16656615. ISSN 0013-189X. S2CID 148531062.
  101. ^ Jüni P, Witschi A, Bloch R, Egger M (September 1999). «The hazards of scoring the quality of clinical trials for meta-analysis». JAMA. 282 (11): 1054–1060. doi:10.1001/jama.282.11.1054. PMID 10493204.
  102. ^ Armijo-Olivo S, Fuentes J, Ospina M, Saltaji H, Hartling L (September 2013). «Inconsistency in the items included in tools used in general health research and physical therapy to evaluate the methodological quality of randomized controlled trials: a descriptive analysis». BMC Medical Research Methodology. 13 (1): 116. doi:10.1186/1471-2288-13-116. PMC 3848693. PMID 24044807.
  103. ^ Debray TP, Riley RD, Rovers MM, Reitsma JB, Moons KG (October 2015). «Individual participant data (IPD) meta-analyses of diagnostic and prognostic modeling studies: guidance on their use». PLOS Medicine. 12 (10): e1001886. doi:10.1371/journal.pmed.1001886. PMC 4603958. PMID 26461078.
  104. ^ Debray TP, Moons KG, Ahmed I, Koffijberg H, Riley RD (August 2013). «A framework for developing, implementing, and evaluating clinical prediction models in an individual participant data meta-analysis». Statistics in Medicine. 32 (18): 3158–3180. doi:10.1002/sim.5732. PMID 23307585. S2CID 25308961.
  105. ^ Debray TP, Koffijberg H, Vergouwe Y, Moons KG, Steyerberg EW (October 2012). «Aggregating published prediction models with individual participant data: a comparison of different approaches». Statistics in Medicine. 31 (23): 2697–2712. doi:10.1002/sim.5412. PMID 22733546. S2CID 39439611.
  106. ^ Shadish, William R. (2014). «Analysis and meta-analysis of single-case designs: An introduction». Journal of School Psychology. 52 (2): 109–122. doi:10.1016/j.jsp.2013.11.009. PMID 24606971.
  107. ^ Zelinsky, Nicole A. M.; Shadish, William (19 May 2018). «A demonstration of how to do a meta-analysis that combines single-case designs with between-groups experiments: The effects of choice making on challenging behaviors performed by people with disabilities». Developmental Neurorehabilitation. 21 (4): 266–278. doi:10.3109/17518423.2015.1100690. ISSN 1751-8423. PMID 26809945. S2CID 20442353.
  108. ^ Van den Noortgate W, Onghena P (2007). «Aggregating Single-Case Results». The Behavior Analyst Today. 8 (2): 196–209. doi:10.1037/h0100613.
  109. ^ Mantel N, Haenszel W (April 1959). «Statistical aspects of the analysis of data from retrospective studies of disease». Journal of the National Cancer Institute. 22 (4): 719–748. doi:10.1093/jnci/22.4.719. PMID 13655060. S2CID 17698270.
  110. ^ Deeks JJ, Higgins JP, Altman DG, et al. (Cochrane Statistical Methods Group) (2021). «Chapter 10: Analysing data and undertaking meta-analyses: 10.4.2 Peto odds ratio method». In Higgins J, Thomas J, Chandler J, Cumpston M, Li T, Page M, Welch V (eds.). Cochrane Handbook for Systematic Reviews of Interventions (Version 6.2 ed.). The Cochrane Collaboration.
  111. ^ Bargaje R, Hariharan M, Scaria V, Pillai B (January 2010). «Consensus miRNA expression profiles derived from interplatform normalization of microarray data». RNA. 16 (1): 16–25. doi:10.1261/rna.1688110. PMC 2802026. PMID 19948767.
  112. ^ Li, Xihao; Quick, Corbin; Zhou, Hufeng; Gaynor, Sheila M.; Liu, Yaowu; Chen, Han; Selvaraj, Margaret Sunitha; Sun, Ryan; Dey, Rounak; Arnett, Donna K.; Bielak, Lawrence F.; Bis, Joshua C.; Blangero, John; Boerwinkle, Eric; Bowden, Donald W.; Brody, Jennifer A.; Cade, Brian E.; Correa, Adolfo; Cupples, L. Adrienne; Curran, Joanne E.; de Vries, Paul S.; Duggirala, Ravindranath; Freedman, Barry I.; Göring, Harald H. H.; Guo, Xiuqing; Haessler, Jeffrey; Kalyani, Rita R.; Kooperberg, Charles; Kral, Brian G.; Lange, Leslie A.; Manichaikul, Ani; Martin, Lisa W.; McGarvey, Stephen T.; Mitchell, Braxton D.; Montasser, May E.; Morrison, Alanna C.; Naseri, Take; O’Connell, Jeffrey R.; Palmer, Nicholette D.; Peyser, Patricia A.; Psaty, Bruce M.; Raffield, Laura M.; Redline, Susan; Reiner, Alexander P.; Reupena, Muagututi’a Sefuiva; Rice, Kenneth M.; Rich, Stephen S.; Sitlani, Colleen M.; Smith, Jennifer A.; Taylor, Kent D.; Vasan, Ramachandran S.; Willer, Cristen J.; Wilson, James G.; Yanek, Lisa R.; Zhao, Wei; NHLBI Trans-Omics for Precision Medicine (TOPMed) Consortium; TOPMed Lipids Working Group; Rotter, Jerome I.; Natarajan, Pradeep; Peloso, Gina M.; Li, Zilin; Lin, Xihong (January 2023). «Powerful, scalable and resource-efficient meta-analysis of rare variant associations in large whole genome sequencing studies». Nature Genetics. 55 (1): 154–164. doi:10.1038/s41588-022-01225-6. PMID 36564505. S2CID 255084231.

Further reading[edit]

  • Cornell JE, Mulrow CD (1999). «Meta-analysis». In Mellenbergh GJ (ed.). Research methodology in the life, behavioural, and social sciences. London: SAGE. pp. 285–323. ISBN 978-0-7619-5883-3.
  • Ellis PD (2010). The Essential Guide to Effect Sizes: An Introduction to Statistical Power, Meta-Analysis and the Interpretation of Research Results. Cambridge: Cambridge University Press. ISBN 978-0-521-14246-5.
  • Sutton AJ, Jones DR, Abrams KR, Sheldon TA, Song F (2000). Methods for meta-analysis in medical research. London: John Wiley. ISBN 978-0-471-49066-1.
  • Wilson DB, Lipsey MW (2001). Practical meta-analysis. Thousand Oaks: Sage publications. ISBN 978-0-7619-2168-4.
  • Cooper H, Hedges LV, eds. (1994). The Handbook of Research Synthesis. New York: Russell Sage Foundation. ISBN 978-0-87154-226-7.
  • Bonett DG (December 2010). «Varying coefficient meta-analytic methods for alpha reliability». Psychological Methods. 15 (4): 368–385. doi:10.1037/a0020142. PMID 20853952. S2CID 207710319.
  • Bonett DG, Price RM (November 2014). «Meta-analysis methods for risk differences». The British Journal of Mathematical and Statistical Psychology. 67 (3): 371–387. doi:10.1111/bmsp.12024. PMID 23962020.
  • Bonett DG (September 2008). «Meta-analytic interval estimation for bivariate correlations». Psychological Methods. 13 (3): 173–181. doi:10.1037/a0012868. PMID 18778150. S2CID 5690835.
  • Bonett DG (September 2009). «Meta-analytic interval estimation for standardized and unstandardized mean differences». Psychological Methods. 14 (3): 225–238. doi:10.1037/a0016619. PMID 19719359.
  • Bonett DG, Price RM (September 2015). «Varying coefficient meta-analysis methods for odds ratios and risk ratios». Psychological Methods. 20 (3): 394–406. doi:10.1037/met0000032. PMID 25751513.
  • Bonett DG (November 2020). «Point-biserial correlation: Interval estimation, hypothesis testing, meta-analysis, and sample size determination». The British Journal of Mathematical and Statistical Psychology. 73 Suppl 1 (Suppl 1): 113–144. doi:10.1111/bmsp.12189. PMID 31565811. S2CID 203607297.
  • Normand SL (February 1999). «Meta-analysis: formulating, evaluating, combining, and reporting». Statistics in Medicine. 18 (3): 321–359. doi:10.1002/(SICI)1097-0258(19990215)18:3<321::AID-SIM28>3.0.CO;2-P. PMID 10070677.
  • Owen AB (December 2009). «Karl Pearson’s meta-analysis revisited» (PDF). The Annals of Statistics. 37 (6B): 3867–2892. arXiv:0911.3531. doi:10.1214/09-AOS697. S2CID 7632667. Archived from the original (PDF) on 26 July 2011.
  • Slough, Tara; Tyson, Scott A. (2022). «External Validity and Meta‐Analysis». American Journal of Political Science. doi:10.1111/ajps.12742. ISSN 0092-5853.
  • Thompson SG, Pocock SJ (November 1991). «Can meta-analyses be trusted?» (PDF). Lancet. 338 (8775): 1127–1130. doi:10.1016/0140-6736(91)91975-Z. PMID 1682553. S2CID 29743240. Archived from the original (PDF) on 22 November 2011. Retrieved 17 June 2011.. Explores two contrasting views: does meta-analysis provide «objective, quantitative methods for combining evidence from separate but similar studies» or merely «statistical tricks which make unjustified assumptions in producing oversimplified generalisations out of a complex of disparate studies»?
  • O’Rourke K (2007). «Just the history from the combining of information: investigating and synthesizing what is possibly common in clinical observations or studies via likelihood» (PDF). Oxford: University of Oxford, Department of Statistics. Archived from the original (PDF) on 2 November 2011. Gives technical background material and details on the «An historical perspective on meta-analysis» paper cited in the references.

External links[edit]

  • Cochrane Handbook for Systematic Reviews of Interventions
  • Meta-Analysis at 25 (Gene V Glass)
  • Preferred Reporting Items for Systematic Reviews and Meta-Analyses (PRISMA) Statement Archived 27 July 2011 at the Wayback Machine – «an evidence-based minimum set of items for reporting in systematic reviews and meta-analyses.»
  • «metansue» R package and graphical interface
  • Best Evidence Encyclopedia
Расширенный поиск

posostavu.ru логотип

  • Войти

    • Логин:

    • Пароль

    Регистрация
    Забыли пароль?

На главную » Вопросы по грамматике » Как правильно: мета-анализ или метаанализ?

На главную

Как правильно: мета-анализ или метаанализ?

  • Жалоба
  • Просмотрен 163 раз
  • 0
  • Аноним Вопрос задан 22.02.22


Как правильно: мета-анализ или метаанализ?

Ответить


Лучший ответ:

Приставка _мета…_ пишется слитно. Правильно: _метаанализ_.

Ссылка на ответ
Ответ эксперта

Вопросы по грамматике

  • 100
  • 1
  • 2
  • 3
  • 4
  • 5

Похожее

  • Какое значение имеет приставка мета-? В слове мета(?)анализ «мета» — приставка? Мета(?)анализ слитно или через дефис?
    Вопросы по грамматике

  • Как пишутся слова с приставкой мета? Например, (мета)уровень или (мета)игра?
    Вопросы по грамматике

  • Подскажите, в медицинском тексте слово «метаанализ» пишется с двумя «а» ?
    Вопросы по грамматике

  • Приставка мета- пишется слитно в слова метакатегория? Мета- всегда пишется слитно?
    Вопросы по грамматике

  • Как правильно: мета-анализ или метаанализ?
    Вопросы по грамматике

Предыдущий вопрос
Следующий вопрос

Добавить комментарий

Оставить комментарий


  • Разделы сайта

  • Связь с нами

  • Посетителю

МЕТААНАЛИЗ

статистический метод, который позволяет объединять результаты ряда исследований и определять, не выявляются ли в них важные тенденции. Процедура позволяет работать с большим числом исследований, часто противоречивых, выполненных разными авторами по определенной проблеме. Мета-анализ позволяет статистически оценивать вероятность значимых эффектов.

МЕТАБОЛИЗМ →← МЕНДЕЛИЗМ

Смотреть что такое МЕТААНАЛИЗ в других словарях:

МЕТААНАЛИЗ

(греч. meta после, за, между; analysis разложение, расчленение) 1. статистическая процедура, которая позволяет объединять результаты ряда исследований и тем самым определять, не выявлятся ли у них некие важные общие тенденции. Считается, что метаанализ способен обеспечивать достоверные статистические оценки вероятности значимых эффектов, но существует и скептическая оценка возможностей метаанализа; 2. любая попытка анализа различных теорий с целью выявить элементы общности и различия между ними…. смотреть

МЕТААНАЛИЗ

— техника обработки данных многих исследований. Суть ее состоит в том, что с его помощью определенным способом статистически анализируются результаты отдельных исследований. Метаанализ позволяет с большей, чем обычно, точностью выявлять общие тенденции и закономерности, определившиеся в проведенных исследованиях…. смотреть

МЕТААНАЛИЗ

техника обработки данных многих исследований. Суть ее состоит в том, что с его помощью определенным способом статистически анализируются результаты отдельных исследований. Метаанализ позволяет с большей, чем обычно, точностью выявлять общие тенденции и закономерности, определившиеся в проведенных исследованиях. … смотреть

МЕТААНАЛИЗ

метод вторичной математической обработки данных однородных исследований, посвященных одной проблеме; используется как основа для обобщения результатов, полученных разными авторами; дает возможность установить степень различий между мужчинами и женщинами: малую, среднюю, большую — индекс d. … смотреть

МЕТААНАЛИЗ

Метод статистической обработки, позволяющий сравнить данные целого ряда научных исследований, посвященных одному и тому же феномену, сопоставляя величину и направление их результатов. … смотреть

МЕТААНАЛИЗ (METAANALYSIS)

М. представляет собой попытку объединения, используя различные статистические методы, данных из разных исслед., посвященных изучению одного и того же вопроса. Он предусматривает количественную оценку степени согласованности или расхождения результатов, полученных в разных исслед. Как отметил Гласе: «Мета-анализ относится к… статистическому анализу большой совокупности результатов анализа данных из отдельных исследований в целях объединения этих данных. Он ассоциируется со строгой альтернативой бессистемным, описательным научным обзорам, которые служат типичным примером наших попыток осмыслить стремительно увеличивающееся количество научных публикаций… Современные обзоры научных исследований должны быть в большей мере техническими и статистическими, чем описательными… Данные многократных исследований должны рассматриваться как комплексное множество данных, дающее без статистического анализа ничуть не больше информации, чем результаты обработки нескольких сотен данных одного единственного исследования».М. применялся при решении весьма широкого круга задач, лишь частично иллюстрируемых следующими примерами: исслед. валидности вопросов, используемых в опросах общественного мнения; определение воздействия претестовой сенсибилизации на выполнение психол. и образовательных тестов; анализ влияния школьной десегрегации на успеваемость уч-ся. Диапазон тем в приведенных примерах указывает на уместность использования М. в самых различных областях исслед. Хотя интерес к М. в последнее время возрос, господствующим методом сведения воедино и сравнения исследовательских данных в поведенческих науках по-прежнему остается описательный обзор литературы. Однако, с учетом распространения метааналитических методов и их дальнейшего совершенствования, традиционные научные обзоры литературы можно больше уже не считать единственно подходящим или приемлемым средством для составления сводок, сравнения и объединения данных.О пользе мета-анализаОбзор данных из любой области исслед. в поведенческих науках мог бы выиграть от применения мета-аналитических методов по двум причинам.Первая имеет отношение к комплексности и разнородности данных. В отличие от более парадигматических научных дисциплин, накопление знаний в которых происходит путем постепенных последовательных приращений, комплексность челов. поведения per се, помноженная на трудность применения эффективных и обоснованных мер контроля в исслед. поведения, способствует получению разнотипных и расходящихся данных, да и общий подход к проведению поведенческих исслед. яв-ся дополнительным источником вариабельности данных. Состояние изучения любой проблемы обычно характеризуется научными работами, в к-рых даются разные определения основных понятий, используются разные методы исслед. и несходные выборки испытуемых, различающиеся наборы независимых переменных и различные методы анализа данных. Неудивительно, что уже давно поднимались вопросы об адекватности и надежности описательных научных обзоров. Субъективность и возможную тенденциозность составителей научных обзоров особенно трудно преодолеть в 3 областях, а именно, при: а) отборе конкретных научных публикаций, б) оценивании исслед. с т. зр. их относительной важности и в) интерпретации значения полной совокупности научных данных. Кроме того, когда количество анализируемых в обзоре научных данных становится внушительным, адекватность описательных обзоров вызывает еще больше сомнений.Вторая причина, по которой традиционные научные обзоры могли бы выиграть от применения метааналитических методов, связана со способностью к распознаванию ранее не установленных паттернов в совокупности данных. М. имеет результатом более точную оценку степени изменчивости или устойчивости данных в конкретных областях исслед. Обнаружение возможных различий в значимости, направленности и величине связей внутри изучаемой совокупности переменных может повысить чувствительность к ранее ускользавшим от внимания паттернам. Кроме того, поскольку М. позволяет исследовать различия в характеристиках самих исслед. как источники разброса данных, сказанное выше не ограничивается обзором данных per се, но распространяется и на условия, в к-рых данные собираются. Следовательно, обладая большей осведомленностью в отношении степени и характера вариации данных, при проведении исслед. можно сосредоточить усилия на более точных и продуманных концептуализациях и средствах измерения поведенческих феноменов.Критика мета-анализаНесмотря на свою жизнеспособность в качестве альтернативы традиционным способам выполнения аналитических обзоров научной литературы, М. стал объектом критики. Эту критику можно проиллюстрировать, отчасти, на примерах озабоченности специалистов тремя разными проблемами: а) проблемой «картотечного ящика», б) проблемой учета качественных различий между исслед. и в) проблемой использования множественных данных из одного исслед. В добавление к краткому изложению существа трех отмеченных видов критики, будут также указаны направления, в каких метааналитические процедуры были модифицированы в ответ на каждый вид критики.Во-первых, проблема картотечного ящика (file drawer problem) указывает на тенденцию не публиковать статистически незначимые результаты, сохраняя их в архивах исследователей. Т. о. опубликованные исслед., по-видимому, тяготеют к смещению в сторону положительных результатов, в результате чего возрастает вероятность ошибки I-рода. В качестве корректирующей меры предлагается включение в анализ данных неопубликованных исслед., получаемых из личных и профессиональных источников. Однако далеко не все неопубликованные данные доступны (да и пригодны) для анализа. Розенталь предложил в качестве частичного решения этой дилеммы использовать оценку требуемого количества незначимых данных, к-рое нужно было бы получить для того, чтобы аннулировать отмеченный значимый эффект. Если требуемое количество дополнительных данных сравнительно велико, тогда к результатам анализа, основанного на доступных данных, можно относиться с доверием. Т. о., М. может, по крайней мере имплицитно, обращаться к проблеме систематической ошибки опубликованных научных данных.Во-вторых, М. критиковали как метод, нечувствительный к различиям качества анализируемых исслед. Так, результаты анализа может быть сложно интерпретировать, если данные из хорошо спланированных исслед. объединяются с данными, полученными на основе неудачного экспериментального плана. Метааналитические процедуры можно ориентировать на эту проблему, используя кодирование исслед. соответственно качеству плана, с последующим введением этой кодированной переменной в анализ. В итоге можно заметить, будут ли результаты анализа различаться в зависимости от изменений качества планирования исслед. Т. о., М. можно приспособить и к влиянию различий экспериментальных планов.В-третьих, в публикациях часто сообщаются множественные данные (multiple findings). Поскольку эти данные не являются независимыми, озабоченность вызвал вопрос о том, как учитывается зависимость между ними в ходе М. Одни исследователи выполняют анализ раздельно для каждой меры зависимой переменной, выявленной в научных публикациях, тогда как другие, в таком же М., объединяют данные, касающиеся значимости и воздействия независимой переменной на все меры зависимой переменной. Однако, если такие множественные данные включаются в анализ, его результаты могут выглядеть более надежными, чем это оправдано проведенными исслед., так как не все использованные в нем данные являются независимыми. Хотя и не существует правила, предписывающего в таких случаях выбор единственно правильного метода, то, каким эмпирическим способом решается эта проблема, может оказывать влияние на результаты М. Если множественные данные из одних и тех же исслед. включаются в анализ, число критериев значимости и величины эффектов будет больше числа независимых исслед. Несмотря на то, что такой способ повышает мощность М., он не только усложняет определение ошибки, связанной со статистическими результатами анализа, но, что гораздо серьезнее, может способствовать возникновению концептуальной неопределенности и путаницы. Бесспорно, полезно знать общую значимость и общее влияние заданной независимой переменной на весь спектр зависимых переменных, однако знание дифференциальной значимости и частного влияния независимой переменной на отдельные группы зависимых переменных может иметь более важное значение для понимания поведенческих феноменов. Тем не менее, споры по поводу относительных достоинств противоположных подходов к проблеме множественных зависимых переменных продолжаются до сих пор.Вычислительные процедуры для объединения данных научных исследованийПрежде чем обрисовать в общих чертах вычислительные процедуры М., важно разграничить две области применения этого метода: а) объединение данных, полученных в разных исслед., б) сравнение таких данных. Каждая из этих областей требует использования различных метааналитических методов. Что касается рассмотрения процедур, посредством к-рых данные разных исслед. сравниваются в явном виде, независимо от того, проводится ли это сравнение в расплывчатой или сфокусированной форме, следует обратиться к Розенталю.В контексте объединения данных из разных исслед., посвященных изучению одного и того же конкретного вопроса, встречаются две основные стратегии: а) определение общего уровня значимости объединенных данных и б) определение величины отмеченных эффектов. Для каждой из этих стратегий было разработано множество конкретных процедур.Общая значимость данныхПри объединении результатов, полученных в независимых работах, оценивающих одинаково направленную конкретную гипотезу, в распоряжении исследователя имеется множество процедур, называемых сложными критериями. В этой статье мы ограничиваемся рассмотрением методов, разработанных Фишером, Вайнером и Стауффером с соавторами.Известный под названием метода суммирования логарифмов (adding logs method), сложный критерий Фишера является одной из наиболее популярных и часто используемых процедур проверки гипотез и задается следующим уравнением:χ2 = Σ — 2 ln p.Эта процедура заключается в суммировании со знаком минус удвоенных натуральных логарифмов соответствующих значений р односторонних критериев, приведенных в анализируемых исслед. Получающаяся в результате стат., к-рая и положена в основу данного критерия, имеет χ2-распределение с числом степеней свободы (df), равным удвоенному числу исследований (N), включенных в анализ (т. е. df = 2N). Метод Фишера особенно эффективен, когда число анализируемых исслед. относительно невелико (не более 5). Хотя было доказано, что эта процедура яв-ся в большей степени асимптотически оптимальной, чем др. методы объединения, она обнаруживает довольно серьезный недостаток всякий раз, когда в двух исслед. приводятся одинаково значимые результаты противоположного характера. В этой ситуации метод Фишера дает допускающие двоякое толкование результаты, подтверждая значимость любого из исходов. Поэтому, когда проводится обзор всего нескольких исслед., рекомендуется не использовать эту процедуру механически. Но, вообще говоря, можно усомниться в пользе проведения М. в тех случаях, когда расходящиеся данные получены в таком ограниченном количестве исслед. Если число исслед. в к.-л. области мало, а полученные в них данные явно расходятся, то возникают вопросы не только в отношении уместности применения М. как метода обзора данных, но и в отношении того, указывают ли анализируемые публикации на сколько-нибудь жизнеспособную область исслед.Сложный критерий Вайнера, называемый методом «суммирования значений t», имеет вид:Основанная на выборочном распределении независимых статистик t, эта процедура заключается в вычислении нормированного отклонения (standard normal deviate), равного сумме значений t-критерия, деленной на корень квадратный из дисперсии t-распределения. Эти значения t-критерия или берутся прямо из включаемых в обзор публикаций, или, если в них приведены только значения р, получаются путем преобразования указанных р в t. Дисперсия t-распределения имеет приближенно нормальное распределение, когда число степеней свободы (df) для каждого значения t больше или равно 10. Следовательно, в тех случаях, когда число степеней свободы для каждого значения t меньше 10, этот метод не будет давать достаточно хорошего приближения. Т. о., хотя метод Вайнера и обладает преимуществом в том смысле, что нечувствителен к числу обозреваемых исслед., его эффективное использование, в конечном счете, зависит от числа степеней свободы, связанного с каждым исслед.Наконец, метод Стауффера, известный как метод суммирования значений Z (adding Z’s method), яв-ся, возможно, наиболее широко используемой процедурой объединения данных, к-рая иллюстрируется следующим уравнением:Эта вычислительная процедура относительно проста. После преобразования приведенных в публикациях значений р в соответствующие нормированные отклонения, или Z-величины, эти значения Z суммируются и делятся на корень квадратный из числа объединяемых исслед. (N). Данная процедура основана на том известном факте, что сумма нормированных отклонений сама яв-ся нормированным отклонением, с дисперсией, равной числу включаемых в анализ исслед. Единственное известное ограничение этого метода связано с тем, что предположение единичной дисперсии для каждого из объединяемых исследований может при некоторых обстоятельствах повышать ошибки I и II рода.Когда число объединяемых данных невелико, при оценивании общей значимости данных разумно воспользоваться не одной, а несколькими процедурами параллельно. Даже если объединяется большое число опубликованных данных, рекомендуется использовать вторую процедуру объединения как средство проверки результатов М. Хотя существенные различия в результатах применения метааналитических процедур встречаются крайне редко, вычисление критериальных статистик разными методами все же делает выводы анализа более убедительными. В зависимости от конкретных обстоятельств, исследователь должен рассматривать возможность применения и других процедур, включ. модели сложения вероятностей и проверки среднего р Эджингтона (Edgington’s adding probabilities and testing mean p models), модели сложения взвешенных Z-величин и проверки среднего Z (the adding weighted Zs and testing mean Z models), а также различные вычислительные методы и методы объединения данных в блоки.Оценка величины эффектаВторая общая метааналитическая стратегия в области объединения данных, полученных в разных исслед., предполагает оценивание силы интересующего эффекта. В отличие от первой стратегии, предполагающей определение общей значимости данных, оценка величины эффекта сосредоточена более конкретно на силе эффекта гипотетической связи между переменными. Как заметил Коэн: «Не подразумевая каких-либо необходимых выводов о причинности, удобно пользоваться выражением величина эффекта в значении уровня представленности определенного феномена в генеральной совокупности или, иначе говоря, степени ложности нулевой гипотезы (нулевой величины эффекта)».Оценки величины эффекта можно получать с помощью широкого множества методов. В данном случае мы ограничимся рассмотрением статистических критериев, подходящих для оценки а) корреляционных связей и б) групповых различий на основе t-критерия Стьюдента. При оценивании эффекта корреляционных связей цель заключается в объединении данных разных исслед., касающихся связи между двумя изучаемыми переменными, измеренными в интервальной шкале или шкале отношений, тогда как оценивание групповых различий относится к оценке степени изменения предусмотренного гипотезой исхода (= результата) при сравнении двух тождественных групп, чаще всего определяемой относительно таких условий, как «контроль/эксперимент» или «предварительное/итоговое тестирование».Опубликованные исслед. различаются эксперим. планами и критериальными статистиками, приводимыми в описании результатов. Данные, относящиеся к связи между переменными, могут быть выражены в единицах корреляции произведения моментов Пирсона (r), квантилей χ2-распределения или к.-л. др. стат., а данные о групповых различиях могут приводится с использованием t, F или др. стат. Поэтому прежде чем оценивать общую величину эффекта, нужно перейти от разных итоговых статистик, сообщаемых в анализируемых публикациях, к к.-л. общей мере. К наиболее часто используемым для этой цели мерам относятся корреляция произведения моментов Пирсона (применительно к корреляционным данным) и d-статистика (применительно к групповым различиям, оцениваемым с помощью t-критерия Стьюдента). Хотя далее речь пойдет именно об этих двух стат., М., конечно же, не ограничивается их применением. Что касается процедур преобразования с использованием разнообразных стат., следует обратиться к Розенталю. После того как сообщаемые в анализируемых публикациях стат. выражены в единых мерах, можно начинать анализ величины эффекта.Корреляционные связи. Оценка величины эффекта между двумя изучаемыми переменными требует выполнения простых арифметических действий по следующей формуле:Иначе говоря, вычисляется простое среднее арифметическое корреляций путем деления суммы приведенных в публикациях коэффициентов корреляции на число суммируемых коэффициентов (п). В качестве альтернативы использованию значений r можно усреднять значения величины Z Фишера:После замены значений r соответствующими значениями Z (по формуле или с помощью специальной таблицы преобразований Фишера) сумма значений Z делится на число коэффициентов корреляции, включ. в анализ. Затем преобразуется обратно в соответствующее значение r, к-рое и сообщается в качестве итоговой стат. анализа.В ходе дальнейшего оценивания величины эффекта может потребоваться учесть различия между исслед., касающиеся а) вариации объема выборок и б) использования различных способов или методик измерения. Так как две вышеописанные процедуры не предусматривают введение поправок или весов исходя из различий объема выборок, коэффициент корреляции (или Z Фишера) из исслед., проведенного на выборке из 10 чел., будет учитываться в них с тем же весом, что и др. коэффициент, полученный на выборке объемом в 500 человек. Признавая потенциальную важность этого типа вариабельности, Хантер с соавторами и Розенталь рекомендуют при проведении анализа величины эффекта использовать среднее арифметическое значений r, взвешенных соответственно различиям выборок, на к-рых они были получены. Вообще говоря, желательно сообщать данные о величине эффекта, основанные на средних арифметических и взвешенных, и невзвешенных величин.Относительно измерения переменных, включаемых в М. величины эффекта, должно быть подтверждено, что на общем концептуальном или теорет. уровне выбранные для анализа переменные относятся к двум феноменам, сохраняющим свою идентичность во всех условиях проведения обозреваемых исслед. (напр., соц. класс и психол. благополучие). Но на уточненном и более конкретном уровне измерений соответствующие переменные могли измеряться с помощью разных способов или методик. Хотя этот источник потенциальных различий так или иначе учитывается в анализе общей значимости данных, его нужно принимать в расчет и при интерпретировании значения оценок величины эффекта. В тех областях исслед., где определенные измерительные шкалы были признаны стандартными и потому регулярно используются, эта проблема может не быть столь острой, как в тех областях, где нет общепринятых и широко используемых шкал. Однако именно в этих последних областях исслед. можно извлечь существенные выгоды из М., разумеется, при условии, что он отражает вдумчивый и внимательный подход к анализируемым данным.Групповые различия. При оценивании групповых различий, определенных на основе t-критерия Стьюдента, проводится двухступенчатый анализ. Сначала, по данным каждого включенного в обзор исслед. определяется стандартизованная масштабно-инвариантная оценка предполагаемого эффекта. Так, напр., если проводится обзор 7 опубликованных исслед., стандартизованная оценка величины эффекта вычисляется для каждого из различных наборов групп, содержащихся в этих исслед. Эти наборы сопоставляемых групп чаще всего отображают ситуации типа «контроль/эксперимент» или «предварительное/итоговое тестирование». Для вычисления стандартизованной оценки величины эффекта (d) в каждом исслед. используется следующая формула:В этом выражении абсолютная разность между средними величинами, приводимыми при каждом сопоставлении групп, делится на стандартное (среднее квадратическое) отклонение (SD). Используемое здесь SD — это стандартное отклонение, вычисленное либо по данным контрольной группы или предварительного тестирования, либо по данным объединенной выборки (или «генеральной совокупности»). После определения этих стандартизованных разностей между групповыми средними (d), каждой величине d придается положительное или отрицательное значение, в зависимости от дифференциального эффекта, зарегистрированного внутри этих двух типов групп. Если, как и предполагалось в гипотезе, величина группового среднего больше в экспериментальной группе или в итоговом тестировании, чем в контрольной группе или в предварительном тестировании, то соответствующая величина d для данного исслед. получает знак плюс. Если же наблюдается обратное, противоречащее исходной гипотезе, соотношение групповых средних, то соответствующая величина d получает знак минус. Когда все знаки определены, можно вычислить общую итоговую меру величины эффекта для объединяемых из разных исслед. данных. Эта вычислительная процедура представлена выражениемсогласно к-рому сумма положительных и отрицательных значений d для каждого включенного в обзор исслед. делится на число исслед. (п). Эта итоговая статистика (среднее d) и будет отображать величину эффекта между двумя состояниями групп, измеренного в единицах стандартного отклонения.ЗаключениеРешающим условием расширения сферы использования метааналитических методов является доступность необходимой информ. о статистических критериях, используемых в обозреваемых исслед. Без сообщения в публикациях точных значений критериальных статистик (например, р, t, Z, d или r) и др. необходимой информ., перспективы применения М. будут весьма ограниченными. С увеличением доступности такой информ. будет продолжаться реальное расширение метааналитических исслед. и совершенствование его методологии.По мере развития самого М. ряд проблем, считавшихся ранее препятствиями на пути использования его методов, привлек внимание исследователей. В результате были выявлены некоторые вызывающие сомнение аспекты М. и предприняты попытки (нужно сказать, успешные) найти решения этих проблем. В частности, М. справился с такими проблемами, как учет посредствующего воздействия др. переменных и применение в исслед. непараметрических методов. В настоящее время М. представляет собой динамическую, многоаспектную систему методов, позволяющую теоретически и методологически убедительным способом объединять в одно целое данные разных научных исслед.Будущее М., по-видимому, зависит не столько от разрешения технических проблем, сколько от продвижения в понимании концептуальной базы М.См. также Теория алгоритмически-эвристических процессов, Критерий хи-квадрат, Корреляционные методы, Теория обработки информации, Проверка нулевой гипотезы, Моделирование структурными уравнениями, Анализ временных рядовД. Никинович… смотреть

МЕТААНАЛИЗ РЕЗУЛЬТАТОВ ИССЛЕДОВАНИЯ ЭФФЕКТИВНОСТИ ПСИХОТЕРАПИИ ГРАВЕ

МЕТААНАЛИЗ РЕЗУЛЬТАТОВ ИССЛЕДОВАНИЯ ЭФФЕКТИВНОСТИ ПСИХОТЕРАПИИ ГРАВЕ. В 1994 г. была опубликована книга Граве и др. (Grawe K. et al.) «Психотерапия в процессе перемен: от конфессии к профессии», в которой проанализированы результаты исследований эффективности психотерапии, приведенные в литературе. В данной статье использованы материалы анализа этого фундаментального труда Лаутербахом (Lauterbach W., 1994).<br>     Еще 20 лет назад статистические методики сравнения результатов разнообразных исследований эффектов и видов психотерапии были плохо разработаны. Люборски, Зингер (Luborsky L, Singer В., 1975) сравнивали результативность разных видов психотерапии простым числом преимуществ. Статистически достоверных различий в эффективности исследуемых психотерапевтических подходов таким способом авторы не нашли. Их резюме: «Все выигрывают и каждый заслуживает награды» (слова из «Алисы в стране чудес» Л. Кэрролла) — успокоило психотерапевтов всех школ, встревоженных конкуренцией. Неоправданным представляется то, что эта фраза охотно цитируется еще и сегодня, особенно теми школами психотерапии, которые вообще не исследовали методы лечения людей, как будто бы наукой доказано, что все разнообразные психотерапевтические подходы дают однозначные результаты.<br>     С того времени число работ по анализу психотерапевтических методов увеличилось, улучшились способы изучения и статистические приемы сравнения результатов. Что побудило Граве так тщательно анализировать буквально все эмпирические исследования эффектов и эффективности психотерапии? Его беспокоил глубокий разрыв между результатами исследователей психотерапии и ее практикой. Если бы руководители органов здравоохранения знали эти результаты, то увеличили бы число кабинетов психотерапии, так как применение современных методов психотерапии обходится здравоохранению в 3 раза дешевле, чем лечение без поддержки психотерапией. Психотерапевты же, зная эти результаты, не были бы привязаны только к тем методам, в которые они верят, и применяли бы те из них, которые оптимальны для конкретных пациентов. Почему же ни руководители, ни психотерапевты не знают об этих результатах? Потому, что они доступны только узким специалистам-исследователям: число публикаций огромно, их результаты и научное качество в такой степени разнообразны, что никто до сих пор не брался за их обзор и не мог сделать интегральных выводов из этих данных. Именно это сделал Граве в своей книге.<br>     Граве исследовал 2 вопроса: 1. Каково количество научно-эмпирических исследований различных психотерапевтических подходов в литературе, каков их научный уровень и каковы результаты? 2. Какие психотерапевтические подходы сравнивались и каковы результаты этих сравнений? Граве и его сотрудники собрали все опубликованные до начала 1984 г. исследования с приемлемым научным уровнем (т. е. проводилась серьезная психотерапия и статистическое сравнение групп пациентов); их оказалось 3500. Далее они отобрали те из работ, которые исследовали индивидуальную или групповую психотерапию, где было не меньше четырех взрослых больных и в которых эти группы сравнивались с контрольными. Осталось 897 источников; они представляли собой совокупность научно приемлемых исследований психотерапии взрослых пациентов, опубликованных в течение 30 лет. Все гуманистические и психодинамические методы анализировались 153 раза. Чаще всего изучались когнитивно-поведенческие методы — 452 исследования, интерперсональные методы — 63, методы релаксации — 66, аутогенная тренировка — 14, гипноз — 19, медитация — 15, эклектические и комплексные подходы — 22 исследования.<br>     Научно-эмпирический уровень всех работ был не просто приемлемым: он дополнительно оценивался авторами почти по тысяче признаков: характер исследования и публикации (место проведения психотерапии; авторы и их специализация); план исследования (изученные факторы; контрольные мероприятия — употребление пересекающихся методов: первая группа лечится первым методом, потом вторым; вторая группа лечится вторым методом, потом первым; состав групп, организация психотерапии — амбулаторная, групповая — и т. д.); пациенты (вид и тяжесть расстройства, мотивация, социальная принадлежность и пр.); психотерапевты (опыт работы с применяемыми психотерапевтическими методами; профессионально-групповая принадлежность — психолог, врач; отношение к исследуемой психотерапии, точное описание применяемых методов); насыщенность информации, необходимой для оценки валидности исследований; насыщенность информации, необходимой для оценки качества измерения параметров — время, способы и источники их измерения и разнообразие.<br>     Анализ проводился по таким параметрам: 1) глобальная оценка успеха, 2) индивидуально-дифференцированная проблематика или симптоматика, 3) общие формулировки проблематики или симптоматики членов групп, 4) остальные параметры самочувствия, 5) изменения в личности и способностях, 6) изменения в межличностных отношениях, 7) изменения в использовании свободного времени, 8) изменения в работе или профессии, 9) изменения в сексуальной сфере, 10) изменения по психофизиологическим параметрам, — с помощью которых оценивались все исследования по следующим факторам: клиническая значимость, валидность исследования, качество информации, осторожность интерпретации, разнообразие измеряемых параметров, качество и разнообразие статистической обработки; богатство результатов, значимость их индикации. Основанием для получения результатов оценки психотерапии явились упомянутые 897 публикаций и самые важные (но не все опубликованные) исследования психотерапии до 1993 г. Невозможно описать результаты всех исследований, включенных в метаанализ. Многие методы совсем не исследовались научно приемлемым образом. К ним относятся аналитическая психология Юнга (Jung С. G.), логотерапия, нейролингвистическое программирование, первичная терапия Янова (Janov A.), трансцендентальная медитация и многие другие. Близки к этим методам и те, которые до сих пор мало и плохо исследовались: дазайнанализ, биоэнергетика, кататимные образные переживания по Лейнеру (Leuner H.), индивидуальная психология Адлера (Adler А.) и трансактный анализ. Не очень убедительны и исследования эффективности арттерапии, хореотерапии и музыкотерапии (однако в настоящее время музыкотерапией интересуются серьезные исследователи, начавшие ее изучать). Все 3 вида терапии не рекомендуется применять как самостоятельные, а использовать вместе с основной психотерапией. То же самое можно сказать о прогрессирующей мышечной релаксации Джекобсона (Jacobson E.), аутогенной тренировке, психодраме, гипнотерапии и йоге; эти методы исследовались, но применять их рекомендуется в комплексе с основной психотерапией. Гештальт-терапия изучалась только в 7 исследованиях, из которых следует, что она эффективно действует на довольно широкий круг показателей.<br>     Оценка долговременного психоанализа. Неудовлетворительную эффективность обычного (т. е. недолговременного) психоаналитического лечения психоаналитики объясняют тем, что требуется несколько сотен или даже больше сессий (3-5 раз в неделю), чтобы достичь необходимых отношений с пациентом для обнаружения психоаналитических причин симптомов, перестройки его личности и позитивного сдвига в симптоматике. В течение 100 лет это утверждение не доказано: самый старый и известный метод психотерапии на приемлемом научном уровне не изучался. Исключение составляет анализ долговременного психоанализа в клинике Меннингера (Menninger K. А.), который, по мнению Граве, оказался самым крупным, тщательным, убедительным и длительным среди других исследований психотерапии и проводился крупнейшими исследователями психоанализа США в естественных условиях. В 1950-х гг. в этой клинике отобрали 22 пациента для группы долговременного психоанализа и 20 пациентов для группы суппортивной психоаналитической психотерапии; контрольной группы не было. До конца лечения ни пациенты, ни психотерапевты не знали о том, что их терапию исследуют. В долговременной группе 15 пациентов регулярно посещали 1017 сессий в течение б лет; 2 пациента лечились еще во время окончательного отчета, т. е. спустя 25 лет после начала терапии; 4 пациента прекратили лечение после 16 месяцев и 316 сессий; 1 пациент умер после 7 лет и 1238 сессий. В группе суппортивной психотерапии 14 пациентов регулярно лечились, участвуя в 316 сессиях более 4 лет; 2 пациента еще лечились во время окончательного отчета; 5 пациентов прекратили терапию после 2 лет и 202 сессий, у одного из них был суицид. Оказалось, что психоаналитики были склонны включать пациентов с более выраженной симптоматикой в группу суппортивной психотерапии и что в течение раскрывающей психотерапии половина пациентов нуждалась в суппортивной психотерапии вместо раскрывающей.<br>     Терапевтические эффекты раскрывающей, долговременной психотерапии оказались намного хуже, чем были предсказаны психотерапевтами. Спрогнозированные эффекты суппортивной психотерапии были более умеренными — их и достигли. Исследования в клинике Меннингера показали, что долговременным психоанализом достигаются хорошие результаты у 40% пациентов и умеренное улучшение у 20%; хорошие результаты, однако, были получены и другими методами со значительно (в 10-20 раз) меньшими затратами. У 40% пациентов вовсе не наступило улучшения через несколько лет; но лучше констатировать неудачу через 20 сессий, чем через несколько сотен или тысяч. У 11 пациентов улучшения не наблюдалось: 6 из них умерли (по мнению исследователей, суицид связан с психоанализом); у 3 пациентов возник психоз, что связано, по мнению исследователей, с отношениями их к психотерапевту; у 2 пациентов улучшения также не было (без ятрогенных расстройств). Граве резюмирует результаты этих исследований: положительной индикации для долговременного психоанализа нет, а контриндикация есть: у пациентов с более выраженной симптоматикой имеется опасность ятрогенных эффектов.<br>     Лучше исследовались интерперсональные методы, в том числе интерперсональная психотерапия Клермана и Вейссман (Klerman G. L., Weissman M. М.). Проведено 10 исследований, которые включали почти 1000 пациентов с депрессией или с нервной булимией. Эта психотерапия является совсем новым подходом, концентрирующимся на межличностных отношениях. Научный уровень исследований, начавшихся лишь десятилетие назад, высок, и результаты терапии достаточно убедительны.<br>     Поведенческие методы терапии семейных пар также часто исследовались (29 работ) и очень успешно применялись; они включают целый ряд поведенческих приемов, в том числе тренинг интеракций в коммуникации.<br>     Интерперсонально-ориентированный подход системной семейной психотерапии (Хейли (Haley J.), Минухин (Minuchin S.), Сатир (Satir V.), Сельвини (Selvini M. и др.)) изучался в 8 исследованиях. Эти методы направлены на анализ отношений между пациентами и близкими и успешно преобразуют их, что часто приводит к уменьшению симптоматики.<br>     Относительно хорошо исследовались и такие психотерапевтические подходы, как психоаналитическая психотерапия — 12 работ среднего научного качества, средняя длительность терапии 14 месяцев и 57 сессий; краткосрочный психоанализ — 29 работ хорошего научного качества, средняя длительность психотерапии 14 месяцев и 16 сессий. Краткосрочный психоанализ уменьшал симптоматику у пациентов со слабовыраженными невротическими и личностными расстройствами. Отношения с другими людьми улучшались, но только как результат групповой, а не индивидуальной психотерапии. Общее самочувствие улучшилось лишь после окончания длительной психотерапии. Плохо поддаются лечению пациенты со страхами, фобиями и с психосоматическими расстройствами.<br>     Клиент-центрированная психотерапия Роджерса (Rogers С. R.) исследовалась в 35 работах хорошего научного качества, где оценивались разнообразные результаты. Средняя продолжительность лечения — 20-33 занятия. Результаты исследований показали, что разговорная психотерапия по Роджерсу уменьшает симптоматику, улучшает общее самочувствие и часто — отношения с другими людьми, способствует личностному росту пациентов. Она показана и эффективна при лечении всех невротических расстройств, а также благоприятна для лечения алкоголизма, шизофрении, часто комбинируется с методами поведенческой психотерапии. Однако отмечается, что пациенты с социальными страхами и нуждающиеся в указаниях и руководстве хуже поддаются психотерапии по Роджерсу.<br>     Теоретическим, методическим и научно-эмпирическим обоснованием когнитивно-поведенческой психотерапии является психология. До 1960-х и 1970-х гг. психология биохевиоризма исследовала в основном те психические процессы у человека и животных, которые ученые могли объективно наблюдать: поведение как результат восприятия, научения, мотивации, эмоций, развития и социальных факторов. На базе психологии поведения развивались приемы модификации поведения — методы поведенческой психотерапии. Когнитивный перелом в психологии, т. е. изучение не только непосредственно наблюдающихся процессов в 60-х и 70-х гг., стимулировал развитие новых, когнитивных методов лечения. По мнению психодинамических психотерапевтов, когнитивно-поведенческие методы относятся к поддерживающим, а не к раскрывающим методам психотерапии. Они отличаются от гуманистических и психодинамических тем, что при разных расстройствах показаны разные целесообразные методики, которые развивались на основе исследований эффектов и подтверждаются теорией методов. Из-за того что пациенты чаще всего страдают не от одной, а сразу от нескольких проблем, взаимно усиливающих друг друга (например, алкоголизм, дефицит в социальной сфере и депрессия), в их лечении сочетаются разные методики. Методы когнитивно-поведенческой психотерапии развивались в зависимости от результатов эмпирических исследований действующих факторов, эффектов и эффективности, поэтому число таких исследований очень велико — 452 источника. Систематическая десенсибилизация исследовалась 56 раз на высоком научном уровне. Специфические страхи, например социальные и сексуальные фобии, очень хорошо поддаются лечению; чем больше пациенты боялись ситуации, тем лучше были терапевтические результаты, в частности у пациентов со страхом перед экзаменами. Пациенты с многообразными страхами — агорафобией, с общим состоянием тревожности и одновременной депрессией поддаются лечению менее успешно. Диапазон эффектов ограничивается симптоматикой страха; по этой причине десенсибилизация часто комбинируется с другими поведенческими методами. Наиболее эффективными при многообразных страхах, включая и панические, являются методики конфронтации с ситуациями, которых пациенты боятся; они исследовались 62 раза на отличном научном уровне. Большинство из этих работ клинически очень значимы, валидны; качество и разнообразие информации, параметров, статистической обработки и результатов высокие; они включали катамнезы, конфронтативные методы сравнивались с другими поведенческими приемами. В поведенческой психотерапии существует 3 вида конфронтации: постепенная конфронтация в реальных ситуациях (in vivo), усиленная конфронтация в реальных ситуациях (наводнение) и усиленная конфронтация в воображении (имплозия). Конфронтирующие методики в реальных ситуациях (in vivo) показаны при фобиях, панических и навязчивых состояниях. Эффективность была очень высокой; лечились пациенты не только с общей и индивидуально сформулированной проблематикой и симптоматикой, т. е. с фобическими и навязчивыми состояниями, но и с проблемами в области работы, досуга и самочувствия. Длительность психотерапии — менее 20 занятий в течение 10 недель, но отдельные занятия длились до тех пор, пока пациент в течение 1,2-2 часов не становился спокойным. Чем выраженнее симптоматика и чем длиннее занятие, тем заметнее и эффекты конфронтации. Конфронтация с ситуациями, которых пациенты боятся, — драматическое переживание, эмоционально затрагивающее не только пациентов, но и психотерапевтов; пациенты, которые согласились на проведение такой терапии под руководством психотерапевта, справедливо чувствуют себя героями. Групповая психотерапия (с 4 пациентами) еще эффективнее, чем индивидуальная. Конфронтация в воображении (имплозия) является менее эффективной. Хотя симптоматика уменьшилась у пациентов большинства групп, только в 60% терапевтических групп эффективность была значительно выше, чем в контрольных группах, а на индивидуально сформулированную проблематику и симптоматику имплозия практически не влияла. Имплозия, как и десенсибилизация, оказывала незначительный эффект при агорафобии, а также при специфических фобиях. При сравнении с другими методами конфронтация в реальности (а не в воображении) имеет преимущества, эффективность ее выше, чем медикаментов (6-блокаторов). Тренинг социальной компетентности совершенствует социальные возможности пациентов в трудных для них ситуациях с помощью разных методик: постепенное улучшение по модели, ролевая игра, дифференцированное подкрепление, поведенческие упражнения и др. Эффекты и эффективность тренинга исследовались на высоком научном уровне в 74 работах на материале 3400 пациентов. Лечение проходили пациенты с выраженной неуверенностью в себе и социальными фобиями, а также с другими диагнозами: депрессия, психозы, алкоголизм, срывы или болезненные реакции вследствие тяжелых семейных, профессиональных, социальных переживаний, катастроф, пыток, инвалидности и др. Тренинг часто комбинировали с когнитивными и другими поведенческими методами или с медикаментами. Длительность терапии 6- 15 занятий, а в 15 исследованиях — и 40. Эффективность тренинга высокая: во всех группах у пациентов не только значительно возрастала уверенность в себе и преодолевались социальные страхи, но и улучшались отношения в социальной и профессиональной сферах, а также общее самочувствие; в половине групп тренинг привел к значительному уменьшению депрессии, мигрени и сексуальных расстройств. Алкоголизм тренингом социальной компетентности не лечился, однако методика благотворно влияла на межличностные отношения больных алкоголизмом, эффективность повышалась в сочетании с когнитивными методами.<br>     Центральным теоретическим и эмпирически доказанным обоснованием эффективности когнитивных методов является положение, что мысли, убеждения, предположения, ожидания (т. е. опасения, надежды) управляют поведением, чувствами и эмоциональным состоянием. Может быть и обратная зависимость. Такими взаимодействиями стабилизируются психические системы. Но если удается изменить одну сторону взаимодействия, тогда во взаимосвязанных системах другая сторона должна тоже измениться. Этот принцип находит отражение во многих методах поведенческой психотерапии: пациенты под руководством психотерапевта успешно учатся вести себя более уверенно или не бояться сложных для них ситуаций, и в итоге действительно растет чувство уверенности или уменьшается страх в таких ситуациях. Когнитивная психотерапия по Беку (Beck А. Т.) — ряд методик для лечения депрессии, страхов и расстройств личности. Когнитивная ее часть состоит в том, что обнаруживаются патогенные, т. е. неадекватные, мысли, убеждения, предположения, ожидания, которые предшествуют патологическим (неадекватным) чувствам (депрессии, страху) или поведению. Мысли проявляются разными способами — в разговоре, систематических записях (специальные дневники) мыслей, чувств, поведения, событий, в конфронтации, ролевой игре и др. Патогенные, неадекватные мысли психотерапевт изменяет с помощью сократовского диалога и путем сравнения с реальностью, представленной и описанной самим пациентом. Эффективность когнитивной психотерапии по Беку изучалась с 1977 г. в 16 исследованиях на высоком научном уровне и с большим успехом. Терапия длилась от 4 до 24 недель; в 7 исследованиях проводили меньше 10 занятий. Во всех группах все измеренные параметры (симптоматика, личность, общее самочувствие) значительно улучшились и в сравнении с контрольными группами, и включая катамнезы. В 2 из 3 исследований сопоставление когнитивной психотерапии с психоаналитической доказало значительное превосходство первой.<br>     Исследовалась также эффективность психотерапии депрессии по Левинсону (Lewinsohn P. M., 1974). Предполагая наличие порочного круга из пассивности, недостатка положительных, радостных переживаний с давящей, парализующей депрессией, психотерапевт систематически перестраивает, стимулирует или восстанавливает активность, предприимчивость пациента с помощью различных поведенческих методик. Исследовалась и подтверждалась эффективность психотерапии по Левинсону 17 раз. Число занятий не превышало 16.<br>     Методы релаксации исследовались не только как дополнительные приемы в комплексе с другими, но и как самостоятельные виды лечения. Эффективность гипноза анализировалась в 19 работах на среднем научном уровне. Хорошо поддавались лечению, в сравнении с контрольными группами, пациенты с болями, психосоматическими расстройствами и бессонницей. Улучшение других параметров (например, личностных проблем) наблюдалось редко. Аутогенная тренировка используется в Германии и России чаще, чем прогрессирующая мышечная релаксация Джекобсона, а в США наоборот. Аутогенная тренировка исследовалась в 14 работах на хорошем научном уровне. Ее эффективность оказалась неожиданно небольшой. Уменьшилась симптоматика меньше чем у половины групп пациентов, 6 сравнительных исследований показали, что только в 2 группах лечение проходило успешнее, чем в контрольных, а в 5 из 13 случаев сопоставления с другими релаксационными методиками аутогенная тренировка давала худший симптоматический эффект, чем другие методы, и только 1 раз — лучший.<br>     Граве провел метаанализ результатов 41 исследования, опубликованных до 1991 г., в которых сравнивалась эффективность разных видов психотерапии, проводилось по крайней мере 6 занятий и изучалось 3 параметра эффектов. Оказалось, что сопоставлялись только те методы, которые были хорошо исследованы: клиент-центрированная психотерапия Роджерса, психоанализ, семейная психотерапия (системная и поведенческая) и поведенческая психотерапия. Эффективность определялась разными статистическими приемами. Оказалось, что раскрывающие методы психоаналитической и разговорной психотерапии по Роджерсу по степени эффективности не отличаются; мало отличаются по степени эффективности поддерживающие методы семейной и поведенческой психотерапии, а поддерживающие методы лечения гораздо более эффективны, чем раскрывающие. Различия тем значительнее, чем более обширная информация использовалась при статистическом сопоставлении. Метаанализ исследований (с применением специальных статистических процедур) показал, что поведенческие методы почти в 2 раза эффективнее, чем психоаналитическая психотерапия.<br>     Исследования Граве и его сотрудников позволяют сделать некоторые общие выводы. Поведенческие, поддерживающие методы гораздо эффективнее, чем раскрывающие, помогают пациентам преодолеть проблемы. Тренинг социальной компетентности повышает уверенность в себе; конфронтацией преодолеваются фобии и страхи; сексуальная терапия лечит фригидность; гипноз смягчает боли; семейные проблемы преодолеваются системным изменением структуры семьи; восстановлением активности и изменением нерациональных мыслей лечат депрессию; поведенческий тренинг помогает больным алкоголизмом усилить самоконтроль в ситуации искушения и т. д. Психотерапевт понимает проблемы пациента и активно способствует их преодолению; он не ищет скрытой мотивации и не придает проблемам иных значении, нежели сам пациент, а смотрит на них как на трудности, которые пациент без помощи преодолеть не может. Такой подход сам по себе уже помогает пациенту, но он не объясняет эффективность метода. Психотерапевт должен знать и уметь применять даже в трудных ситуациях специфические методики, успешность которых в преодолении специфических проблем подтверждена. Итак, психотерапия помогает преодолевать проблемы.<br>     Но это только одна сторона психотерапии. Имеются эффективные методы, с помощью которых психотерапевт помогает пациенту не преодолевать проблемы, а лучше понять самого себя, например разговорная психотерапия по Роджерсу.<br>     При работе с каждым новым пациентом необходимо решить, нуждается ли он в преодолении проблемы или в том, чтобы лучше понять себя. Пациентам с хорошим образованием, удачным в жизни чаще всего не нужна помощь в преодолении проблем. Им нужно узнать, почему они ведут себя так, что возникают проблемы. Если такой человек способен понять это, он сможет и решить проблемы. Результаты многих исследований показывают, что психоаналитическая психотерапия более всего пригодна для так называемых YAVIS-пациентов (young, attractive, verbal, intelligent, successful) — молодых, привлекательных, разговорчивых, интеллигентных, успешных, — симптомы которых мало выражены.<br>     Совсем не удивительно, что психотерапевты, которые пытаются лучше понять самих себя, предпочитают раскрывающие методы лечения и отказываются от поведенческих. Также не удивительно, что поведенческие психотерапевты, у которых возникли проблемы, совсем не нуждаются в поведенческой психотерапии, но им необходимо помочь понять самих себя и свои проблемы; если проблемы прояснились, эти психотерапевты лучше других способны их разрешить.<br>     Результаты метаанализа показывают, что большинству пациентов нужна помощь в преодолении своих проблем, а не в обнаружении скрытых мотивов. Исследования различных видов психотерапии свидетельствуют о том, что эффективность поведенческих и системных методов выше. Однако многие психотерапевты считают психодинамические и гуманистические методы более подходящими для их работы.<br>     См. также Оценка эффективности психотерапии.<br><br><br>… смотреть

МЕТААНАЛИЗ РЕЗУЛЬТАТОВ ИССЛЕДОВАНИЯ ЭФФЕКТИВНОСТИ ПСИХОТЕРАПИИ ГРАВЕ

В 1994 г. была опубликована книга Граве и др. (Grawe K. et al.) «Психотерапия в процессе перемен: от конфессии к профессии», в которой проанализированы результаты исследований эффективности психотерапии, приведенные в литературе. В данной статье использованы материалы анализа этого фундаментального труда Лаутербахом (Lauterbach W., 1994).
Еще 20 лет назад статистические методики сравнения результатов разнообразных исследований эффектов и видов психотерапии были плохо разработаны. Люборски, Зингер (Luborsky L, Singer В., 1975) сравнивали результативность разных видов психотерапии простым числом преимуществ. Статистически достоверных различий в эффективности исследуемых психотерапевтических подходов таким способом авторы не нашли. Их резюме: «Все выигрывают и каждый заслуживает награды» (слова из «Алисы в стране чудес» Л. Кэрролла) — успокоило психотерапевтов всех школ, встревоженных конкуренцией. Неоправданным представляется то, что эта фраза охотно цитируется еще и сегодня, особенно теми школами психотерапии, которые вообще не исследовали методы лечения людей, как будто бы наукой доказано, что все разнообразные психотерапевтические подходы дают однозначные результаты.
С того времени число работ по анализу психотерапевтических методов увеличилось, улучшились способы изучения и статистические приемы сравнения результатов. Что побудило Граве так тщательно анализировать буквально все эмпирические исследования эффектов и эффективности психотерапии? Его беспокоил глубокий разрыв между результатами исследователей психотерапии и ее практикой. Если бы руководители органов здравоохранения знали эти результаты, то увеличили бы число кабинетов психотерапии, так как применение современных методов психотерапии обходится здравоохранению в 3 раза дешевле, чем лечение без поддержки психотерапией. Психотерапевты же, зная эти результаты, не были бы привязаны только к тем методам, в которые они верят, и применяли бы те из них, которые оптимальны для конкретных пациентов. Почему же ни руководители, ни психотерапевты не знают об этих результатах? Потому, что они доступны только узким специалистам-исследователям: число публикаций огромно, их результаты и научное качество в такой степени разнообразны, что никто до сих пор не брался за их обзор и не мог сделать интегральных выводов из этих данных.Именно это сделал Граве в своей книге.
Граве исследовал 2 вопроса: 1. Каково количество научно-эмпирических исследований различных психотерапевтических подходов в литературе, каков их научный уровень и каковы результаты? 2. Какие психотерапевтические подходы сравнивались и каковы результаты этих сравнений? Граве и его сотрудники собрали все опубликованные до начала 1984 г. исследования с приемлемым научным уровнем (т. е. проводилась серьезная психотерапия и статистическое сравнение групп пациентов); их оказалось 3500. Далее они отобрали те из работ, которые исследовали индивидуальную или групповую психотерапию, где было не меньше четырех взрослых больных и в которых эти группы сравнивались с контрольными. Осталось 897 источников; они представляли собой совокупность научно приемлемых исследований психотерапии взрослых пациентов, опубликованных в течение 30 лет. Все гуманистические и психодинамические методы анализировались 153 раза. Чаще всего изучались когнитивно-поведенческие методы — 452 исследования, интерперсональные методы — 63, методы релаксации — 66, аутогенная тренировка — 14, гипноз — 19, медитация — 15, эклектические и комплексные подходы — 22 исследования.
Научно-эмпирический уровень всех работ был не просто приемлемым: он дополнительно оценивался авторами почти по тысяче признаков: характер исследования и публикации (место проведения психотерапии; авторы и их специализация); план исследования (изученные факторы; контрольные мероприятия — употребление пересекающихся методов: первая группа лечится первым методом, потом вторым; вторая группа лечится вторым методом, потом первым; состав групп, организация психотерапии — амбулаторная, групповая — и т. д.); пациенты (вид и тяжесть расстройства, мотивация, социальная принадлежность и пр.); психотерапевты (опыт работы с применяемыми психотерапевтическими методами; профессионально-групповая принадлежность — психолог, врач; отношение к исследуемой психотерапии, точное описание применяемых методов); насыщенность информации, необходимой для оценки валидности исследований; насыщенность информации, необходимой для оценки качества измерения параметров — время, способы и источники их измерения и разнообразие.
Анализ проводился по таким параметрам: 1) глобальная оценка успеха, 2) индивидуально-дифференцированная проблематика или симптоматика, 3) общие формулировки проблематики или симптоматики членов групп, 4) остальные параметры самочувствия, 5) изменения в личности и способностях, 6) изменения в межличностных отношениях, 7) изменения в использовании свободного времени, 8) изменения в работе или профессии, 9) изменения в сексуальной сфере, 10) изменения по психофизиологическим параметрам, — с помощью которых оценивались все исследования по следующим факторам: клиническая значимость, валидность исследования, качество информации, осторожность интерпретации, разнообразие измеряемых параметров, качество и разнообразие статистической обработки; богатство результатов, значимость их индикации. Основанием для получения результатов оценки психотерапии явились упомянутые 897 публикаций и самые важные (но не все опубликованные) исследования психотерапии до 1993 г. Невозможно описать результаты всех исследований, включенных в метаанализ. Многие методы совсем не исследовались научно приемлемым образом. К ним относятся аналитическая психология Юнга (Jung С. G.), логотерапия, нейролингвистическое программирование, первичная терапия Янова (Janov A.), трансцендентальная медитация и многие другие. Близки к этим методам и те, которые до сих пор мало и плохо исследовались: дазайнанализ, биоэнергетика, кататимные образные переживания по Лейнеру (Leuner H.), индивидуальная психология Адлера (Adler А.) и трансактный анализ. Не очень убедительны и исследования эффективности арттерапии, хореотерапии и музыкотерапии (однако в настоящее время музыкотерапией интересуются серьезные исследователи, начавшие ее изучать). Все 3 вида терапии не рекомендуется применять как самостоятельные, а использовать вместе с основной психотерапией. То же самое можно сказать о прогрессирующей мышечной релаксации Джекобсона (Jacobson E.), аутогенной тренировке, психодраме, гипнотерапии и йоге; эти методы исследовались, но применять их рекомендуется в комплексе с основной психотерапией. Гештальт-терапия изучалась только в 7 исследованиях, из которых следует, что она эффективно действует на довольно широкий круг показателей.
Оценка долговременного психоанализа. Неудовлетворительную эффективность обычного (т. е. недолговременного) психоаналитического лечения психоаналитики объясняют тем, что требуется несколько сотен или даже больше сессий (3-5 раз в неделю), чтобы достичь необходимых отношений с пациентом для обнаружения психоаналитических причин симптомов, перестройки его личности и позитивного сдвига в симптоматике. В течение 100 лет это утверждение не доказано: самый старый и известный метод психотерапии на приемлемом научном уровне не изучался. Исключение составляет анализ долговременного психоанализа в клинике Меннингера (Menninger K. А.), который, по мнению Граве, оказался самым крупным, тщательным, убедительным и длительным среди других исследований психотерапии и проводился крупнейшими исследователями психоанализа США в естественных условиях. В 1950-х гг. в этой клинике отобрали 22 пациента для группы долговременного психоанализа и 20 пациентов для группы суппортивной психоаналитической психотерапии; контрольной группы не было. До конца лечения ни пациенты, ни психотерапевты не знали о том, что их терапию исследуют. В долговременной группе 15 пациентов регулярно посещали 1017 сессий в течение б лет; 2 пациента лечились еще во время окончательного отчета, т. е. спустя 25 лет после начала терапии; 4 пациента прекратили лечение после 16 месяцев и 316 сессий; 1 пациент умер после 7 лет и 1238 сессий. В группе суппортивной психотерапии 14 пациентов регулярно лечились, участвуя в 316 сессиях более 4 лет; 2 пациента еще лечились во время окончательного отчета; 5 пациентов прекратили терапию после 2 лет и 202 сессий, у одного из них был суицид. Оказалось, что психоаналитики были склонны включать пациентов с более выраженной симптоматикой в группу суппортивной психотерапии и что в течение раскрывающей психотерапии половина пациентов нуждалась в суппортивной психотерапии вместо раскрывающей.
Терапевтические эффекты раскрывающей, долговременной психотерапии оказались намного хуже, чем были предсказаны психотерапевтами. Спрогнозированные эффекты суппортивной психотерапии были более умеренными — их и достигли. Исследования в клинике Меннингера показали, что долговременным психоанализом достигаются хорошие результаты у 40% пациентов и умеренное улучшение у 20%; хорошие результаты, однако, были получены и другими методами со значительно (в 10-20 раз) меньшими затратами. У 40% пациентов вовсе не наступило улучшения через несколько лет; но лучше констатировать неудачу через 20 сессий, чем через несколько сотен или тысяч. У 11 пациентов улучшения не наблюдалось: 6 из них умерли (по мнению исследователей, суицид связан с психоанализом); у 3 пациентов возник психоз, что связано, по мнению исследователей, с отношениями их к психотерапевту; у 2 пациентов улучшения также не было (без ятрогенных расстройств). Граве резюмирует результаты этих исследований: положительной индикации для долговременного психоанализа нет, а контриндикация есть: у пациентов с более выраженной симптоматикой имеется опасность ятрогенных эффектов.
Лучше исследовались интерперсональные методы, в том числе интерперсональная психотерапия Клермана и Вейссман (Klerman G. L., Weissman M. М.). Проведено 10 исследований, которые включали почти 1000 пациентов с депрессией или с нервной булимией. Эта психотерапия является совсем новым подходом, концентрирующимся на межличностных отношениях. Научный уровень исследований, начавшихся лишь десятилетие назад, высок, и результаты терапии достаточно убедительны.
Поведенческие методы терапии семейных пар также часто исследовались (29 работ) и очень успешно применялись; они включают целый ряд поведенческих приемов, в том числе тренинг интеракций в коммуникации.
Интерперсонально-ориентированный подход системной семейной психотерапии (Хейли (Haley J.), Минухин (Minuchin S.), Сатир (Satir V.), Сельвини (Selvini M. и др.)) изучался в 8 исследованиях. Эти методы направлены на анализ отношений между пациентами и близкими и успешно преобразуют их, что часто приводит к уменьшению симптоматики.
Относительно хорошо исследовались и такие психотерапевтические подходы, как психоаналитическая психотерапия — 12 работ среднего научного качества, средняя длительность терапии 14 месяцев и 57 сессий; краткосрочный психоанализ — 29 работ хорошего научного качества, средняя длительность психотерапии 14 месяцев и 16 сессий. Краткосрочный психоанализ уменьшал симптоматику у пациентов со слабовыраженными невротическими и личностными расстройствами. Отношения с другими людьми улучшались, но только как результат групповой, а не индивидуальной психотерапии. Общее самочувствие улучшилось лишь после окончания длительной психотерапии. Плохо поддаются лечению пациенты со страхами, фобиями и с психосоматическими расстройствами.
Клиент-центрированная психотерапия Роджерса (Rogers С. R.) исследовалась в 35 работах хорошего научного качества, где оценивались разнообразные результаты. Средняя продолжительность лечения — 20-33 занятия. Результаты исследований показали, что разговорная психотерапия по Роджерсу уменьшает симптоматику, улучшает общее самочувствие и часто — отношения с другими людьми, способствует личностному росту пациентов. Она показана и эффективна при лечении всех невротических расстройств, а также благоприятна для лечения алкоголизма, шизофрении, часто комбинируется с методами поведенческой психотерапии. Однако отмечается, что пациенты с социальными страхами и нуждающиеся в указаниях и руководстве хуже поддаются психотерапии по Роджерсу.
Теоретическим, методическим и научно-эмпирическим обоснованием когнитивно-поведенческой психотерапии является психология. До 1960-х и 1970-х гг. психология биохевиоризма исследовала в основном те психические процессы у человека и животных, которые ученые могли объективно наблюдать: поведение как результат восприятия, научения, мотивации, эмоций, развития и социальных факторов. На базе психологии поведения развивались приемы модификации поведения — методы поведенческой психотерапии. Когнитивный перелом в психологии, т. е. изучение не только непосредственно наблюдающихся процессов в 60-х и 70-х гг., стимулировал развитие новых, когнитивных методов лечения. По мнению психодинамических психотерапевтов, когнитивно-поведенческие методы относятся к поддерживающим, а не к раскрывающим методам психотерапии. Они отличаются от гуманистических и психодинамических тем, что при разных расстройствах показаны разные целесообразные методики, которые развивались на основе исследований эффектов и подтверждаются теорией методов. Из-за того что пациенты чаще всего страдают не от одной, а сразу от нескольких проблем, взаимно усиливающих друг друга (например, алкоголизм, дефицит в социальной сфере и депрессия), в их лечении сочетаются разные методики. Методы когнитивно-поведенческой психотерапии развивались в зависимости от результатов эмпирических исследований действующих факторов, эффектов и эффективности, поэтому число таких исследований очень велико — 452 источника. Систематическая десенсибилизация исследовалась 56 раз на высоком научном уровне. Специфические страхи, например социальные и сексуальные фобии, очень хорошо поддаются лечению; чем больше пациенты боялись ситуации, тем лучше были терапевтические результаты, в частности у пациентов со страхом перед экзаменами. Пациенты с многообразными страхами — агорафобией, с общим состоянием тревожности и одновременной депрессией поддаются лечению менее успешно. Диапазон эффектов ограничивается симптоматикой страха; по этой причине десенсибилизация часто комбинируется с другими поведенческими методами. Наиболее эффективными при многообразных страхах, включая и панические, являются методики конфронтации с ситуациями, которых пациенты боятся; они исследовались 62 раза на отличном научном уровне. Большинство из этих работ клинически очень значимы, валидны; качество и разнообразие информации, параметров, статистической обработки и результатов высокие; они включали катамнезы, конфронтативные методы сравнивались с другими поведенческими приемами. В поведенческой психотерапии существует 3 вида конфронтации: постепенная конфронтация в реальных ситуациях (in vivo), усиленная конфронтация в реальных ситуациях (наводнение) и усиленная конфронтация в воображении (имплозия). Конфронтирующие методики в реальных ситуациях (in vivo) показаны при фобиях, панических и навязчивых состояниях. Эффективность была очень высокой; лечились пациенты не только с общей и индивидуально сформулированной проблематикой и симптоматикой, т. е. с фобическими и навязчивыми состояниями, но и с проблемами в области работы, досуга и самочувствия. Длительность психотерапии — менее 20 занятий в течение 10 недель, но отдельные занятия длились до тех пор, пока пациент в течение 1,2-2 часов не становился спокойным. Чем выраженнее симптоматика и чем длиннее занятие, тем заметнее и эффекты конфронтации. Конфронтация с ситуациями, которых пациенты боятся, — драматическое переживание, эмоционально затрагивающее не только пациентов, но и психотерапевтов; пациенты, которые согласились на проведение такой терапии под руководством психотерапевта, справедливо чувствуют себя героями. Групповая психотерапия (с 4 пациентами) еще эффективнее, чем индивидуальная. Конфронтация в воображении (имплозия) является менее эффективной. Хотя симптоматика уменьшилась у пациентов большинства групп, только в 60% терапевтических групп эффективность была значительно выше, чем в контрольных группах, а на индивидуально сформулированную проблематику и симптоматику имплозия практически не влияла. Имплозия, как и десенсибилизация, оказывала незначительный эффект при агорафобии, а также при специфических фобиях. При сравнении с другими методами конфронтация в реальности (а не в воображении) имеет преимущества, эффективность ее выше, чем медикаментов (6-блокаторов). Тренинг социальной компетентности совершенствует социальные возможности пациентов в трудных для них ситуациях с помощью разных методик: постепенное улучшение по модели, ролевая игра, дифференцированное подкрепление, поведенческие упражнения и др. Эффекты и эффективность тренинга исследовались на высоком научном уровне в 74 работах на материале 3400 пациентов. Лечение проходили пациенты с выраженной неуверенностью в себе и социальными фобиями, а также с другими диагнозами: депрессия, психозы, алкоголизм, срывы или болезненные реакции вследствие тяжелых семейных, профессиональных, социальных переживаний, катастроф, пыток, инвалидности и др. Тренинг часто комбинировали с когнитивными и другими поведенческими методами или с медикаментами. Длительность терапии 6— 15 занятий, а в 15 исследованиях — и 40. Эффективность тренинга высокая: во всех группах у пациентов не только значительно возрастала уверенность в себе и преодолевались социальные страхи, но и улучшались отношения в социальной и профессиональной сферах, а также общее самочувствие; в половине групп тренинг привел к значительному уменьшению депрессии, мигрени и сексуальных расстройств. Алкоголизм тренингом социальной компетентности не лечился, однако методика благотворно влияла на межличностные отношения больных алкоголизмом, эффективность повышалась в сочетании с когнитивными методами.
Центральным теоретическим и эмпирически доказанным обоснованием эффективности когнитивных методов является положение, что мысли, убеждения, предположения, ожидания (т. е. опасения, надежды) управляют поведением, чувствами и эмоциональным состоянием. Может быть и обратная зависимость. Такими взаимодействиями стабилизируются психические системы. Но если удается изменить одну сторону взаимодействия, тогда во взаимосвязанных системах другая сторона должна тоже измениться. Этот принцип находит отражение во многих методах поведенческой психотерапии: пациенты под руководством психотерапевта успешно учатся вести себя более уверенно или не бояться сложных для них ситуаций, и в итоге действительно растет чувство уверенности или уменьшается страх в таких ситуациях. Когнитивная психотерапия по Беку (Beck А. Т.) — ряд методик для лечения депрессии, страхов и расстройств личности. Когнитивная ее часть состоит в том, что обнаруживаются патогенные, т. е. неадекватные, мысли, убеждения, предположения, ожидания, которые предшествуют патологическим (неадекватным) чувствам (депрессии, страху) или поведению. Мысли проявляются разными способами — в разговоре, систематических записях (специальные дневники) мыслей, чувств, поведения, событий, в конфронтации, ролевой игре и др. Патогенные, неадекватные мысли психотерапевт изменяет с помощью сократовского диалога и путем сравнения с реальностью, представленной и описанной самим пациентом. Эффективность когнитивной психотерапии по Беку изучалась с 1977 г. в 16 исследованиях на высоком научном уровне и с большим успехом. Терапия длилась от 4 до 24 недель; в 7 исследованиях проводили меньше 10 занятий. Во всех группах все измеренные параметры (симптоматика, личность, общее самочувствие) значительно улучшились и в сравнении с контрольными группами, и включая катамнезы. В 2 из 3 исследований сопоставление когнитивной психотерапии с психоаналитической доказало значительное превосходство первой.
Исследовалась также эффективность психотерапии депрессии по Левинсону (Lewinsohn P. M., 1974). Предполагая наличие порочного круга из пассивности, недостатка положительных, радостных переживаний с давящей, парализующей депрессией, психотерапевт систематически перестраивает, стимулирует или восстанавливает активность, предприимчивость пациента с помощью различных поведенческих методик. Исследовалась и подтверждалась эффективность психотерапии по Левинсону 17 раз. Число занятий не превышало 16.
Методы релаксации исследовались не только как дополнительные приемы в комплексе с другими, но и как самостоятельные виды лечения. Эффективность гипноза анализировалась в 19 работах на среднем научном уровне. Хорошо поддавались лечению, в сравнении с контрольными группами, пациенты с болями, психосоматическими расстройствами и бессонницей. Улучшение других параметров (например, личностных проблем) наблюдалось редко. Аутогенная тренировка используется в Германии и России чаще, чем прогрессирующая мышечная релаксация Джекобсона, а в США наоборот. Аутогенная тренировка исследовалась в 14 работах на хорошем научном уровне. Ее эффективность оказалась неожиданно небольшой. Уменьшилась симптоматика меньше чем у половины групп пациентов, 6 сравнительных исследований показали, что только в 2 группах лечение проходило успешнее, чем в контрольных, а в 5 из 13 случаев сопоставления с другими релаксационными методиками аутогенная тренировка давала худший симптоматический эффект, чем другие методы, и только 1 раз — лучший.
Граве провел метаанализ результатов 41 исследования, опубликованных до 1991 г., в которых сравнивалась эффективность разных видов психотерапии, проводилось по крайней мере 6 занятий и изучалось 3 параметра эффектов. Оказалось, что сопоставлялись только те методы, которые были хорошо исследованы: клиент-центрированная психотерапия Роджерса, психоанализ, семейная психотерапия (системная и поведенческая) и поведенческая психотерапия. Эффективность определялась разными статистическими приемами. Оказалось, что раскрывающие методы психоаналитической и разговорной психотерапии по Роджерсу по степени эффективности не отличаются; мало отличаются по степени эффективности поддерживающие методы семейной и поведенческой психотерапии, а поддерживающие методы лечения гораздо более эффективны, чем раскрывающие. Различия тем значительнее, чем более обширная информация использовалась при статистическом сопоставлении. Метаанализ исследований (с применением специальных статистических процедур) показал, что поведенческие методы почти в 2 раза эффективнее, чем психоаналитическая психотерапия.
Исследования Граве и его сотрудников позволяют сделать некоторые общие выводы. Поведенческие, поддерживающие методы гораздо эффективнее, чем раскрывающие, помогают пациентам преодолеть проблемы. Тренинг социальной компетентности повышает уверенность в себе; конфронтацией преодолеваются фобии и страхи; сексуальная терапия лечит фригидность; гипноз смягчает боли; семейные проблемы преодолеваются системным изменением структуры семьи; восстановлением активности и изменением нерациональных мыслей лечат депрессию; поведенческий тренинг помогает больным алкоголизмом усилить самоконтроль в ситуации искушения и т. д. Психотерапевт понимает проблемы пациента и активно способствует их преодолению; он не ищет скрытой мотивации и не придает проблемам иных значении, нежели сам пациент, а смотрит на них как на трудности, которые пациент без помощи преодолеть не может. Такой подход сам по себе уже помогает пациенту, но он не объясняет эффективность метода. Психотерапевт должен знать и уметь применять даже в трудных ситуациях специфические методики, успешность которых в преодолении специфических проблем подтверждена. Итак, психотерапия помогает преодолевать проблемы.
Но это только одна сторона психотерапии. Имеются эффективные методы, с помощью которых психотерапевт помогает пациенту не преодолевать проблемы, а лучше понять самого себя, например разговорная психотерапия по Роджерсу.
При работе с каждым новым пациентом необходимо решить, нуждается ли он в преодолении проблемы или в том, чтобы лучше понять себя. Пациентам с хорошим образованием, удачным в жизни чаще всего не нужна помощь в преодолении проблем. Им нужно узнать, почему они ведут себя так, что возникают проблемы. Если такой человек способен понять это, он сможет и решить проблемы. Результаты многих исследований показывают, что психоаналитическая психотерапия более всего пригодна для так называемых YAVIS-пациентов (young, attractive, verbal, intelligent, successful) — молодых, привлекательных, разговорчивых, интеллигентных, успешных, — симптомы которых мало выражены.
Совсем не удивительно, что психотерапевты, которые пытаются лучше понять самих себя, предпочитают раскрывающие методы лечения и отказываются от поведенческих. Также не удивительно, что поведенческие психотерапевты, у которых возникли проблемы, совсем не нуждаются в поведенческой психотерапии, но им необходимо помочь понять самих себя и свои проблемы; если проблемы прояснились, эти психотерапевты лучше других способны их разрешить.
Результаты метаанализа показывают, что большинству пациентов нужна помощь в преодолении своих проблем, а не в обнаружении скрытых мотивов. Исследования различных видов психотерапии свидетельствуют о том, что эффективность поведенческих и системных методов выше. Однако многие психотерапевты считают психодинамические и гуманистические методы более подходящими для их работы.
См. также ОЦЕНКА ЭФФЕКТИВНОСТИ ПСИХОТЕРАПИИ…. смотреть

Понравилась статья? Поделить с друзьями:
  • Мета теги как пишется
  • Методика исследования как написать
  • Мета тег title как правильно написать opencart
  • Метод тыка как пишется
  • Мета приставка как пишется