Без рубрики

Можно ли по-прежнему доверять научным исследованиям?

Ежедневно во всем мире публикуются сотни научных исследований. Однако многие из них противоречат друг другу, даже если они посвящены одной и той же теме и используют схожие методологии. Эта какофония свидетельствует о более глубокой проблеме: современная научная система страдает от структурных дисфункций, которые подрывают надежность исследований.

Источник: VapingPost

Когда обзор обзорных исследований выявляет недостатки

Как и любой другой потребительский продукт, электронные сигареты широко изучаются исследователями. Однако не проходит и дня, чтобы не было опубликовано исследование, противоречащее выводам предыдущего. Хотя использование различной методологии иногда может объяснить, почему два похожих исследования приходят к противоположным выводам, это не всегда так. Правда в том, что научный мир сталкивается с многочисленными проблемами.

Несколько дней назад было опубликовано новое британское исследование[1]. Это был обзорный обзор, то есть систематический обзор систематических обзоров. Вот что это означает:

Когда исследователь публикует исследование по конкретной теме, это простое исследование. Когда исследователь анализирует результаты всех исследований по одной и той же теме, это систематический обзор. Таким образом, зонтичный обзор направлен на анализ результатов нескольких исследований (систематических обзоров), в которых сами по себе были проанализированы результаты многих исследований. Короче говоря, зонтичный обзор — это синтез синтеза.

В рассматриваемом зонтичном обзоре рассматривалось курение электронных сигарет среди молодежи. В своих выводах авторы сообщили о «последовательных доказательствах того, что более высокий риск начала курения, употребления психоактивных веществ (марихуаны, алкоголя и стимуляторов), астмы, кашля, травм и проблем с психическим здоровьем связан с использованием электронных сигарет среди молодежи».

На этот раз мы не будем критиковать этот конкретный зонтичный обзор. Учитывая его многочисленные ограничения, авторы явно не смогли дать нюансированную оценку своим результатам. На этот раз мы сосредоточимся на так называемом AMSTAR 2.

AMSTAR 2, инструмент измерения, искажающий реальность

AMSTAR 2 — это инструмент критической оценки. Этот термин относится к семейству инструментов, используемых учеными для оценки качества исследования. В данном случае AMSTAR 2 — сокращение от A MeaSurement Tool to Assess systematic Reviews (инструмент измерения для оценки систематических обзоров) — является стандартным инструментом для оценки систематических обзоров.

Существует множество подобных инструментов. AMSTAR 2 был разработан для оценки качества систематических обзоров; GRADE оценивает достоверность доказательств; инструмент Cochrane Risk of Bias используется для отдельных исследований; NOS ориентирован на когортные и случай-контрольные исследования; QUADAS-2 — на диагностические исследования и т. д. Существуют сотни инструментов.

Все они преследуют одну и ту же цель: быстро и последовательно оценивать качество научного исследования. С учетом десятков тысяч новых исследований, публикуемых каждый год, ученым нужен был способ отделить зерна от плевел.

Среди этих инструментов выделяется AMSTAR 2. По сути, это ожидаемый стандарт для оценки качества систематических обзоров. Вообще говоря, если исследователь работает с данными одного или нескольких систематических обзоров, большинство медицинских журналов откажутся публиковать его работу, если он не использовал этот инструмент. Поэтому упомянутый ранее обзорный обзор опирался на AMSTAR 2.

Даже если авторы указывают в своих рукописях, что систематический обзор был проведен/подготовлен/разработан в соответствии с AMSTAR 2, это не обязательно означает, что он достигает высокого или даже умеренного уровня достоверности по AMSTAR 2.

Большинство систематических обзоров, в которых сообщалось о соблюдении AMSTAR 2, имели критически низкое методологическое качество: перекрестное метаисследование.

Результат? Авторы сообщают: «Большинство включенных нами систематических обзоров были оценены как низкого или критически низкого качества с использованием AMSTAR 2».

Означает ли это, что обзор был почти полностью основан на систематических обзорах низкого качества? Не совсем. AMSTAR 2 в среднем классифицирует более 90% систематических обзоров как «критически низкого качества» [2]. Почему?

Потому что AMSTAR 2 опирается на шестнадцать пунктов, семь из которых считаются критическими, что сильно искажает окончательную оценку. На самом деле менее половины этих пунктов действительно применимы ко всем систематическим обзорам[3]. Добавьте к этому нечеткие критерии, которые часто неправильно понимают исследователи[4], и в результате вы получите инструмент, который многие считают фундаментально несовершенным.

Так зачем же вообще использовать AMSTAR 2, если так много исследователей знают, что он не подходит для этой задачи?

Проще говоря: потому что AMSTAR 2 является ожидаемым стандартом в академической практике. Несмотря на его недостатки, этого требует традиция. И это не единичный случай — другие инструменты или практики, призванные гарантировать научную строгость, также проблематичны.

Импакт-фактор

Импакт-фактор — еще один инструмент, который отклонился от своего первоначального назначения. Он был создан, чтобы помочь библиотекам выбирать журналы для подписки. Сегодня, несмотря на неоднократные предупреждения его создателя Юджина Гарфилда, он стал основным критерием оценки исследователей и их работы.

Использование импакт-факторов журналов вместо фактического количества цитирований статей для оценки исследователей является весьма спорным вопросом.

Юджин Гарфилд, создатель импакт-фактора

Что на самом деле измеряет импакт-фактор? Журнал, в котором публикуется работа исследователя. Таким образом, репутация ученого и воспринимаемое качество его работы связаны с местом публикации, а не с качествами самого исследования.

Это похоже на оценку фильма — и актеров в нем — не по сценарию или их игре, а по кинотеатру, в котором показывают фильм. Это не имеет смысла, но именно это часто происходит в современной науке[5].

Хищнические журналы

Еще одна проблема: хищнические журналы. Они утверждают, что являются легитимными научными изданиями, но на самом деле принимают практически любые исследования — за определенную плату. Без рецензирования, иногда даже без беглого прочтения. Если автор платит, его работа публикуется.

Эти журналы загрязняют научную литературу. Они позволяют «любому» публиковать исследования, данные которых не были проверены. В 2014 году в таких журналах, число которых превышало 8000, было опубликовано около 420 000 исследований[6].

Еще хуже то, что некоторые из этих статей цитируются в подлинных научных работах. Плохая наука проникает в хорошую науку — эта проблема известна как «загрязнение цитированием».

Негативным следствием быстрого роста научных публикаций в открытом доступе, финансируемых за счет сборов за обработку статей, является появление издателей и журналов с весьма сомнительными методами продвижения и рецензирования.

«Хищнический» открытый доступ: продольное исследование объемов публикаций статей и характеристик рынка.

В качестве дополнительного доказательства польские исследователи провели эксперимент[7]: они создали вымышленную ученую Анну Шуст с поддельным резюме и подали заявку на должность редактора в 120 медицинских журналах. Сорок хищнических журналов приняли ее в течение нескольких часов. Еще более тревожным является то, что восемь журналов, включенных в Справочник журналов с открытым доступом (считающихся качественными OA-ресурсами), также приняли ее. К счастью, ни один из журналов, индексируемых в Journal Citation Reports, не попался на эту уловку.

Хищнические журналы также способствуют другим видам мошенничества, таким как «фабрики статей» — предприятия, которые по запросу фабрикуют целые исследования (поддельные данные, поддельные диаграммы), публикуют их в хищнических изданиях и продают авторство исследователям, которые хотят «подправить» свое резюме, чтобы получить финансирование. И список недостатков системы можно продолжать.

Рецензирование

Рецензирование широко считается золотым стандартом научной валидации — как учеными, так и журналистами. Но на самом деле оно далеко от совершенства.

Краткое описание процесса:

  • Автор подает статью в журнал;
  • Редактор отправляет ее экспертам в данной области;
  • Они анонимно рецензируют ее и рекомендуют принять, переработать или отклонить;
  • Журнал принимает окончательное решение.

Проблема: хотя экспертная оценка считается объективной, она по своей сути субъективна, поскольку качество исследования оценивается произвольно несколькими людьми, которые часто не соглашаются друг с другом. Один эксперт может рекомендовать принять одну и ту же статью, а другой — отклонить. Это свидетельствует о несовершенстве системы.

При оценке содержания большинство людей не имеют времени — или не уделяют времени — чтению статей! И даже если бы они это делали, на их суждение, скорее всего, повлияли бы комментарии тех, кто цитировал эту работу.

Юджин Гарфилд, создатель импакт-фактора

К этому следует добавить множество факторов, которые могут повлиять на процесс[8]: национальность автора по сравнению с национальностью рецензента, престиж учреждения, пол, дисциплина, подтверждающий уклон и т. д.

Для справки: некоторые исследования, отклоненные после рецензирования, впоследствии были удостоены Нобелевской премии[9].

Тем не менее, как и в случае с AMSTAR 2, рецензирование глубоко укоренилось в научной практике. К его чести, на данный момент не существует полностью жизнеспособной альтернативы.

Манипуляция цитированием

Еще одна проблема — цитирование. Оно является валютой науки. Чем чаще цитируется работа исследователя, тем более влиятельной она считается. Количество цитирований влияет на прием на работу, продвижение по службе и финансирование.

Но цитирование может иметь и обратный эффект: оно превращает сотрудничество в конкуренцию. Исследователи могут выбирать темы, которые чаще цитируются, а не те, которые более важны.

Возможность приобретать цитаты оптом — это новое и тревожное явление.

— Дженнифер Бирн, исследователь рака

Еще более серьезная проблема: некоторые участники продают цитирования[10]. Ученый платит и получает цитирование. Незначительное или некачественное исследование может восприниматься как убедительное просто потому, что оно часто цитируется. На этой основе сформировался черный рынок.

P-хакинг (P-Hacking)

Наконец, p-хакинг. Буква p в исследованиях обозначает вероятность того, что результат является случайным. В научных исследованиях результаты обычно считаются статистически значимыми, когда p < 0,05, что означает, что вероятность того, что результат является случайным, составляет менее 5%.

Что касается различных стратегий p-hacking, мы обнаружили, что даже при использовании одной стратегии уровень ложноположительных результатов может быть увеличен как минимум на 30 % выше типичного порога в 5 % при «разумных усилиях», то есть без учета автоматизации процедур интеллектуального анализа данных исследователями.

— Большая маленькая ложь: сборник и моделирование стратегий p-hacking.

Этот порог в 5%, выбранный Рональдом Фишером в 1920-х годах[11] без каких-либо особых научных обоснований, стал настоящим кошмаром. Журналы могут отказывать в публикации исследований, результаты которых не являются «значимыми», что создает стимул для манипулирования статистикой.

Некоторые исследователи тогда обманывают, чтобы получить p < 0,05: прекращают сбор данных, как только порог достигнут; исключают участников, если их включение поднимает p выше 0,05; тестируют длинный список переменных и сообщают только о тех, которые ниже 0,05; или разделяют данные на абсурдные подгруппы, пока не появится «значимый» эффект.

Многие исследования документировали p-hacking[12]. Например, один исследователь изучил 100 психологических статей из престижных журналов и повторил их. Из 97, которые изначально сообщали p < 0,05, только 36 действительно воспроизвели статистически значимые результаты[13]. (Не все области так сильно затронуты, как психология.)

Реформа, а не отказ

Во многих областях исследований широкое распространение сомнительных методов исследования поставило под угрозу достоверность научных результатов.

Большая маленькая ложь: сборник и моделирование стратегий p-hacking.

Примеры, приведенные в этой статье, не являются исчерпывающими. Можно привести и другие. Цель не состоит в том, чтобы дискредитировать исследователей.

Несмотря на эти дисфункции, наука остается нашим лучшим инструментом для понимания мира. Обнадеживающим является появление некоторых инициатив[12]: предварительная регистрация протоколов исследований, обязательный обмен исходными данными и усилия по разработке более подходящих инструментов оценки (чем, например, AMSTAR 2).

Сегодня проблема заключается не в незнании недостатков, а в том, как их устранить — и, честно говоря, в сопротивлении изменениям.

Должны ли мы отвергнуть науку? Нет. Но эти открытия требуют более критического подхода к изучению исследований, особенно в таких спорных областях, как вейпинг. Между догматическими выводами и слепым скептицизмом лежит средний путь: наука, осознающая свои собственные ограничения.

Источники и ссылки

  1. Golder S, Hartwell G, Barnett LM, et alVaping and harm in young people: umbrella reviewTobacco Control Published Online First: 19 August 2025. https://doi.org/10.1136/tc-2024-059219.
  2. Bojcic, R., Todoric, M., & Puljak, L. (2024). Most systematic reviews reporting adherence to AMSTAR 2 had critically low methodological quality: a cross-sectional meta-research study. Journal of Clinical Epidemiology, 165, 111210. https://doi.org/10.1016/j.jclinepi.2023.10.026.
  3. Rotta, I., Diniz, J. A., & Fernandez-Llimos, F. (2025). Assessing methodological quality of systematic reviews with meta-analysis about clinical pharmacy services: A sensitivity analysis of AMSTAR-2. Research in Social and Administrative Pharmacy, 21(2), 110–115. https://doi.org/10.1016/j.sapharm.2024.11.002.
  4. Puljak, L., Bala, M. M., Mathes, T., Poklepovic Pericic, T., Wegewitz, U., Faggion, C. M., Matthias, K., Storman, D., Zajac, J., Rombey, T., Bruschettini, M., & Pieper, D. (2023). AMSTAR 2 is only partially applicable to systematic reviews of non-intervention studies: a meta-research study. Journal of Clinical Epidemiology, 163, 11–20. https://doi.org/10.1016/j.jclinepi.2023.08.021.
  5. Paulus, F. M., Cruz, N., & Krach, S. (2018). The Impact Factor Fallacy. Frontiers in Psychology, 9. https://doi.org/10.3389/fpsyg.2018.01487.
  6. Shen, C., Björk, BC. ‘Predatory’ open access: a longitudinal study of article volumes and market characteristics. BMC Med 13, 230 (2015). https://doi.org/10.1186/s12916-015-0469-2.
  7. Sorokowski, P., Kulczycki, E., Sorokowska, A. et al. Predatory journals recruit fake editor. Nature 543, 481–483 (2017). https://doi.org/10.1038/543481a.
  8. Smith, R. (2006). Peer review: a flawed process at the heart of science and journals. Journal of the Royal Society of Medicine, 99(4), 178–182. https://doi.org/10.1258/jrsm.99.4.178.
  9. MacDonald, F. ScienceAlert. (2016, August 19). 8 Scientific Papers That Were Rejected Before Going on to Win a Nobel Prize. ScienceAlert. https://www.sciencealert.com/these-8-papers-were-rejected-before-going-on-to-win-the-nobel-prize.
  10. Langin, K. (2024, February 26). Vendor offering citations for purchase is latest bad actor in scholarly publishing. Science. https://www.science.org/content/article/vendor-offering-citations-purchase-latest-bad-actor-scholarly-publishing.
  11. Biau, D. J., Jolles, B. M., & Porcher, R. (2010). P value and the theory of hypothesis testing: an explanation for new researchers. Clinical orthopaedics and related research, 468(3), 885–892. https://doi.org/10.1007/s11999-009-1164-4.
  12. Stefan, A. M., & Schönbrodt, F. D. (2023). Big little lies: a compendium and simulation of p-hacking strategies. Royal Society Open Science, 10(2), 220346. https://doi.org/10.1098/rsos.220346.
  13. Open Science Collaboration. (2015). Estimating the reproducibility of psychological science. Science, 349(6251). https://doi.org/10.1126/science.aac4716

Добавить комментарий