Пять мифов об искажениях data-mining

Data-mining (интеллектуальный анализ данных) сейчас широко используется в алготрейдинге. Есть несколько мифов по поводу того, как работать с искажениями (bias) data-mining. Мы раскроем пять из них.

Что такое искажения data-mining?

На высшем уровне, искажения data-mining идут от тестирования множества гипотез на исторических данных. По мере увеличения числа протестированных гипотез, увеличиваются шансы на принятие случайных правил вместо истинных. Искажения data-mining имеют сильный негативный эффект на качество процесса data-mining. Мифы, о которых говорится в этой статье, есть результаты усилий по работе с качественными особенностями процесса с количественной точки зрения.

Миф 1: Искажения data-mining могут быть измерены

Искажения data-mining не могут быть эффективно измерены, поскольку относятся к качественной стороне процесса, а не к какому-то конкретному параметру. Любое определение искажения data-mining, которое приписывается конкретной природе, или конкретной мере, есть результат необоснованных попыток выразить количественно понятие, которое в принципе не может быть выражено количественно.

Например, некоторые кванты (quants) пытаются измерить искажения data-mining через генерацию случайных данных и применение data-mining к ним. Они надеются, что повторив этот процесс много раз и получив распределение какой-то метрики случайных исходов, они смогут скорректировать исходные результаты от настоящих данных и скомпенсировать искажение data-mining. Однако, такие методы по сути ранжируют результаты алго среди большого числа алго, полученных на случайных данных и ничего более. Не существует оправдания заявлению, что алго, который ранжируется высоко, будет вести себя лучше в реальной торговле. Например, если исходный алго был хорошо подогнан к историческим данным, он все еще имеет мало шансов показывать себя хорошо, если рыночные условия изменятся, независимо от того, высоко или низко он ранжируется среди алго, полученных из случайных данных.

Миф 2: Тестирование вне выборки (out-of-sample) может устранить искажения data-mining

Тестирование вне выборки это часть всего процесса разработки алго, пораженного искажениями data-mining. Следовательно, оно не может быть использовано для устранения искажения. Если многие гипотезы тестируются на исторических данных, некоторые из них случайно пройдут тест вне выборки. Следовательно, теста вне выборки недостаточно, чтобы гарантировать того, что алго истинный, а не случайный. Вдобавок, неправильно называть тестирование вне выборки «кросс-валидацией». Этот способ тестирования всего лишь метод валидации, который не может устранить искажения data-mining в условиях тестирования большого числа гипотез.

Миф 3: Форвардное тестирование может устранить искажения data-mining

Когда продавцам софта по машинному обучению попадаются пользователи, которые использовали тестирование вне выборки без особого успеха, они рекомендуют вдобавок форвардное тестирование. Однако форвардное тестирование это просто еще одна форма тестирования вне выборки и его естественное продолжение. Если тестировать много гипотез, тогда высока вероятность обнаружить случайную гипотезу, проходящую все тесты и вне выборки и на форвардном участке. По мере того, как число гипотез становится большим, эта вероятность стремиться к 1, то есть наверняка обнаружится случайное алго, проходящее все тесты.

Миф 4: Анализ Монте Карло может устранить искажения data-mining

Некоторые разработчики алго используют анализ Монте Карло, чтобы определить действие вариаций параметров на результат. Если алго достаточно устойчив к таким вариациям, он принимается как истинный. Однако, анализ Монте Карло становится частью процесса data-mining как только его начинают применять. Если даже анализ Монте Карло проводится на новых данных, когда тестируется большое число гипотез, высока вероятность найти такую, которая проходит тест вне выборки, форвардный тест и анализ Монте Карло. Вообще, вероятность стремиться к 1 по мере того, как те же данные переиспользуются с теми же правилами. Любой процесс машинного обучения, используемый повторно и экстенсивно, будет генерировать алго, которые случайны, но проходят все тесты, даже когда используется анализ Монте Карло. Вдобавок, отметьте, что этот анализ имеет много недостатков и неприменим к торговым алго кроме случаев когда объем данных невелик.

Миф 5: Если вы не используете data-mining, тогда нет никаких искажений data-mining

Leda Braga, известный разработчик торговых алго, повторял этот миф в недавнем интервью. Однако, единственная разница между тем, придумали вы гипотезу или сгенерировали ее на компьютере – это скорость процесса. Искажения data-mining всегда присутствуют, когда гипотезы тестируются на исторических данных. Разве что кто-нибудь не придумает совершенно уникальную гипотезу, которую еще никто не придумал, есть все шансы, что ее уже сгенерировал компьютер.

Исследователи начали применять машинное обучение к рынкам в середины 1980-х и с тех пор анализируют данные беспрерывно. Только те, кто внезапно открыл для себя машинное обучение в последние 5-10 лет, могут быть им впечатлены. Большинство забросило это дело в середине 2000-х. Машинное обучение мало применимо для разработки алго, торгующих рынки. Очень наивно в наши дни пытаться скомбинировать несколько индикаторов и правила выхода с помощью каких-то алгоритмов машинного обучения в надежде найти золото. Хотя некоторые результаты могут работать какой-то период времени, по сути они случайны.

В наши дни, методы для работы с искажениями data-mining определяют природу процесса, который может быть использован для обнаружения торговых алго. Следовательно, эти методы сами по себе и есть преимущество (edge) и процесс data-mining. Например, основатель хорошо известного фонда поддержал определенный метод измерения искажения data-mining и поэтому многие кванты пытаются воспроизвести его. Однако, если посмотреть на результаты того фонда, они были плоскими или негативными последние несколько лет. Так что, очевидно, что у фонда нет преимущетсва (edge).

В заключение, машинное обучение без лежащей в его основе логики и философии для работы с искажениями data-mining, которые не основаны на методах, ставшими частью цикла, вроде описанных выше, неотличимо от случайного процесса и азартной игры.

Автор: Michael Harris

Five Myths About Data-Mining Bias

Комментарии:

Vitas: песнь лузера 😉

mehanizator: я практически то же самое спел не так давно:
/post/snova-o-glavnoy-probleme-algotreydinga-839

Vitas: да, видел.
оверфит, безусловно, огромная проблема, но как по мне вполне решаемая. если правильно решать ;). могу свою статистику выложить.

dobrachev: Можно подумать, что чья-то статистика может служить доказательством того что решение проблемы существует (а так конечно выкладывайте статистику 🙂

На мой взгляд, проблему переоптимизации нужно решать через подробное исследование зависимости доходности (и пр. показателей) от параметров стратегии (а не просто найти самый жирный пик по монте-карло или генетикой), а затем основываясь на этих данных подбирать правильный размер капитала для входа в позицию.
Все эти хрустальные дворцы рушатся от того, что их пытаются построить на фундаменте за 3 копейки.

Vitas: можно подумать что мне надо что-то кому-то доказывать.
и вообще, алготрейдинг не работает, не ходите сюда больше, здесь все очень плохо, последний х. без соли доедаю, доем — утоплюсь в океане, благо идти недалеко.

dobrachev: Vitas: Точно, совершенно с Вами согласен. Нечего сюда ходить и тут чего-то читать.
НОВИЧОК ПОМНИ, ЧТО лучше слить 100 баксов на форексе и уйти, чем потратить пару лет жизни на то чтобы понять, что с такими деньгами(капиталом) как у тебя выгоднее на работу ходить, чем за торговым терминалом сидеть. И заработаешь больше и рисков никаких 🙂

Конв: так что делать-то в статье не объяснено

mehanizator: зато в статье объяснено чего не делать 🙂

Подпишитесь на уведомления о новых постах