hwdtech blog
Как машинное обучение породило кризис в научных исследованиях?
«Кризис воспроизводимости», неверные корреляции и другие подводные камни работы машин с данными.
30-12-2019
машинное обучение, Machine Learning
Время чтения: 5 минут
Сегодня у нас для вас краткий перевод очень любопытной и весьма спорной статьи доктора философских наук и эксперта по машинному обучению (МО) Мэттью Стюарта из Гарварда. Материал называется «Кризис машинного обучения в научных исследованиях» и его лид довольно точно раскрывает главную проблему ученых, связанную с МО: «Эксперимент все еще научен, если он не воспроизводим?». Ссылка на оригинал.
Первым делом, автор цитирует Дженевьеру Аллен, профессора статистики и электротехники Университета Райса: «В настоящее время в науке широко признается кризис воспроизводимости. Я бы рискнула утверждать, что по большей части это происходит из-за использования методов машинного обучения в науке».
Вообще, «кризис воспроизводимости» заключается в тревожном росте числа результатов исследований, которые не повторяются, когда другая группа ученых пытается поставить такой же эксперимент. Это может означать, что первоначальные результаты были неправильными, а усилия были потрачены впустую.

Далее Мэттью Стюарт подтверждает, что использование машинного обучения все шире распространяется в научном мире, заменяя традиционные статистические методы. При этом, некоторые утверждают, что метод МО, основанный на подходе «черного ящика» как раз и является причиной кризиса воспроизводимости научных исследований. А это серьезная проблема: ведь если данные не воспроизводимы, можно ли считать их научными?
Дискуссия сейчас идет о том, действительно ли из-за того, что многие предпочитают машинное обучение статистике, возникает кризис воспроизводимости.
Стоит отметить, что МО не просто так стало популярно в научной среде: оно прекрасно дополняет исследовательский процесс, помогает найти оптимальные ответы или прогнозы. Сейчас оно используется для получения открытий во многих областях, таких как астрономия, генетика, экология, здравоохранение.
В феврале уходящего года все та же Дженевьера Аллен предостерегла ученых Американской ассоциации развития науки от использования алгоритмов машинного обучения, обращая внимание на то, что при работе с большими объемами данных алгоритмы зачастую неверно их анализируют и выявляют несуществующие связи.

Основной пример, который использует Аллен – это исследование геномных данных, которые обычно имеют гигантский объем: сотни гигабайт или несколько терабайт. Она утверждает, что, когда ученый использует плохо изученные алгоритмы MО для кластеризации геномных профилей, часто могут возникать ложные и невоспроизводимые результаты.
Подобные ошибки могут проявляться по нескольким причинам:
Недостаток знаний об алгоритме;
Проблема с отсутствием алгоритмических знаний чрезвычайно распространена в сфере машинного обучения. Если вы не понимаете, как алгоритм достиг полученных результатов, то как вы можете вообще быть уверены, что он вас не обманывает и не обнаруживает ложные корреляции между переменными?
Недостаток знаний о данных;
Отсутствие знаний о данных также является огромной проблемой, но она распространяется и на традиционные статистические методы. Ошибки в сборе данных, такие как ошибки квантования, погрешности датчиков и использование прокси-переменных, являются одной из основных проблем в работе с информацией.
Неправильная интерпретация результатов.
Неверное толкование результатов можно назвать очень «популярной» проблемой в научном мире. Одна из причин этого заключается в том, что корреляция не подразумевает какую-то одну определенную причинно-следственную связь. Существует несколько причин, по которым переменные А и В могут коррелировать:

- А может быть вызвано появлением В;

- B может быть вызвано появлением A;

- A и B могут быть вызваны другой ошибочной переменной, C;

- Между А и В вообще может быть обнаружена ложная корреляция;
Давайте немного углубимся в суть проблемы. Легко показать корреляцию между двумя значениями, но чрезвычайно трудно определить, откуда она взялась. Вы можете нагуглить совершенно невероятные, нелепые и, конечно, ложные корреляции, которые при этом имеют статистическую значимость. В качестве примеров автор приводит безумные графики корреляции количества разводов в штате Мэн и употребления маргарина населением, а также количества свадеб и людей, утонувших после падения из лодки.

Со стороны это смешно, но страшно то, что, если эти переменные объединить в наборе данных и передать в алгоритм машинного обучения, он спокойно примет это как причинные переменные, не задавая вопросов о достоверности связи разводов и маргарина.

Возникновение ложных корреляций стало угрожающе распространяться в последние годы из-за использования больших наборов данных с тысячами переменных. Чем больше у вас данных, тем больше вероятность того, что вы обнаружите ложную корреляцию между двумя переменными. Как мы уже сказали, для работы с большими объемами данных предпочитают использовать методы машинного обучения, а они, в свою очередь, порождают ошибки.
Обеспечение корреляции
Еще одной проблемой машинного обучения является то, что алгоритм должен делать прогнозы. Он не может сказать «Я ничего не нашел», он устроен так, чтобы в любом случае найти какой-то способ объяснения, откуда взялись данные, независимо от того, насколько нелепыми были предоставленные функции (при условии, что алгоритм и данные были настроены правильно, в противном случае он может не сойтись).

«В настоящее время я не знаю ни одного алгоритма машинного обучения», - пишет Стюарт, - «Который мог бы вернуться к пользователю и сказать ему, что данные являются неподходящими».
Зачем тогда вообще использовать машинное обучение?
Это хороший вопрос. Машинное обучение значительно упрощает анализ наборов данных, а алгоритмы MО выполняют большую часть работы за пользователя. В областях, где наборы данных слишком велики для эффективного анализа с использованием стандартных статистических методов, это бесценно. Однако, хотя это ускоряет работу ученых, увеличение производительности, обеспечиваемое машинным обучением, возможно, компенсируется качеством этих «предсказаний».
Что делать в сложившейся ситуации?
Не все так плохо. Все эти проблемы были и раньше, когда использовались традиционные статистические методы и наборы данных. Они только усилились за счет больших объемов информации и использования алгоритмов, которые могут автоматически находить корреляции где попало.

Все это выявило слабости в научном процессе, которые должны быть устранены. В настоящее время ведется работа над следующим поколением систем машинного обучения, которые смогли бы оценивать неопределенность и воспроизводимость своих прогнозов.
Заключение
Машинное обучение в науке создает проблемы в академических кругах из-за отсутствия воспроизводимости результатов. Тем не менее, ученые знают об этих проблемах, и в настоящее время ведется работа по созданию более воспроизводимых и интерпретируемых моделей машинного обучения. Настоящий прорыв будет, как только это будет завершено для нейронных сетей.

Дженевьера Аллен подчеркивает фундаментальную проблему, стоящую перед машинным интеллектом: ученые, работающие с данными, до сих пор не понимают механизмов, с помощью которых машины учатся. Научное сообщество должно приложить согласованные усилия для того, чтобы понять, как работают эти алгоритмы и как их наилучшим образом использовать для обеспечения надежных, воспроизводимых и научно обоснованных выводов с использованием методов, основанных на данных.
Раз в месяц мы делаем рассылку с анонсом новых кейсов и статей, опубликованных на сайте.
Подпишитесь на обновления.
Гарантируем - никакого спама. Нажимая на кнопку, вы даете согласие на обработку персональных данных и соглашаетесь c политикой в отношении обработки персональных данных.