Снова о главной проблеме алготрейдинга

Автор: Александр Кургузкин (mehanizator).

Не так давно я написал небольшой текст о главной проблеме алготрейдинга. Я обозначил ее как нестационарность ценового ряда. Как мне представляется, я недостаточно внятно изложил суть проблемы, поэтому постараюсь исправить это упущение сейчас.

Снова повторюсь, что речь идет о торговых стратегиях, неважно алгоритмических или дискреционных, система принятия решений которых опирается на свойства ценового ряда, взятые из определенного диапазона прошлых данных. Сейчас доступен целый арсенал средств, позволяющих вытащить некие свойства из набора данных и получить стратегию.

В формировании этих свойств принимает участие очень большое число людей, каждый из которых сегодня на рынке, а завтра может уйти, или изменить систему принятия своих решений. Таким образом, конфигурация участников, которая формирует свойства ценового ряда, постоянно меняется. С ней меняются и свойства ценового ряда.

Если мы берем кусок прошлых данных, делаем под него модель, а потом пытаемся применить эту модель на будущих данных, мы сходу делаем ошибку. Мы применяем модель, полученную на одном источнике данных, к данным, созданным другим источником. То есть в принципе другим источником. Новые данные будут создаваться другой конфигурацией других трейдеров, действующих на основе других соображений в других рыночных обстоятельствах. Корреляции, моменты распределений, любые доверительные диапазоны любых параметров — все в общем случае будет другим.

Данные с разных временных отрезков это данные разных источников. Они все сцеплены друг с другом и это может вызвать (и вызывает) иллюзию того, что это все данные одного источника, но это не так.

Когда вы создаете стратегию, вы решаете определенную задачу. Если вы понимаете эту задачу как просто восстановление зашумленного сигнала, вы решаете не ту задачу. Можете использовать хоть нейросети, хоть генетические алгоритмы, но в результате решения такой задачи вы получите модель, которая не будет годна ни для чего, кроме как использования на том куске данных, с которого вы ее получили.

Тогда как правильная задача значительно интереснее. Вам нужно восстановить свойства сигнала, имея на руках зашумленный сигнал ДРУГОГО источника данных (шум, кстати, тоже разный). Вам нужно как-то связывать свойства сигналов из разных источников, а это уже другая задача, и вам, как минимум, нужно хотя бы понимать, что это именно ее нужно решать, что без ее решения получится ерунда.

И для этого вам нужно будет опровергать нулевую гипотезу, по которой свойства сигналов из разных источников (на разных временных интервалах) никак не связаны. Причем располагаемые вами сигналы во всех случаях сильно зашумленные.

Я понимаю, что в основном трейдеры действуют на основе неявных допущений о сохранении отдельных свойств ценового ряда во времени. Или даже на основе слепой веры в существовании неких инвариантов в свойствах цены. Но по вере и воздается. И учитывает ли кто-то риски, связанные с допущениями по поводу изменчивости ценового ряда, иначе как «на глазок»?

Автор: Александр Кургузкин (aka mehanizator)

Комментарии:

germiona: Интересная тема, но и обратное тоже нужно доказывать. Например, что если меняется конфигурация участников, то и меняются свойства. Тем более, ни слова про то, как быстро они меняются и что они возможно уже были на более давних данных. А может и нет.
Про источники тоже интересно. Игроков на рынке несчетное количество, и все на разных временах, у всех свои цели, тут никак нельзя говорить о каком-то едином мнении рынка (один источник сигнала). Допустим один игрок ушел, другой пришел. Свойства рынка в целом почти не изменились. Так как все и сразу игроки поменяться не могут (и поменять свои стратегии в один момент), то в любом случае у свойств есть некий период распада. А если мы знаем свойство рынка в окне шириной T, то логично его сместить на T + dT (понятно, что T >> dT ), осмелюсь предположить, что все и сразу свойства не уйдут.

> И учитывает ли кто-то риски, связанные с допущениями по поводу изменчивости ценового ряда, иначе как «на глазок»?
А какие ваши варианты? ) Если не брать диверсификацию стратегий/инструментов.

Kent: germiona
+1

EdgeStone: Александр, респект за такие глубины, среди всех ресурсув рунета по трейдингу Ваш ресурс реально самый серьёзный и адекватный.
а по теме
Имхо:
Оба по своему правы,
и Александр, в том смысле, что анализ Доу Джонса в начале века врядли что даст прогностически ценного в начале века 21,и конечно поведение акций меняется с изменением компании, одно дело Форд и GM в 50-х и другое сейчас.
И при такой эмиссии ФРС и прочих рецепты скупых 70-х не помогут.
Сколько было роботов в 2000-е сколько сейчас? И т.д.

Но и уважаемая Germioa права, ее возражения очень резонны.
Как у Талеба, отсутствие доказательства не является доказательством отсутствия.
И действительно, надо доказать что источники существенно разные.

Например на персистентность, т.е. инертность, склонность к продолжениею тренда, у акций Эпл с их Хёрстом больше 0,7 Мадельброт указывал в Непослушных рынках, еще в 2003, а данные анализировал за 80-е вообще, так это свойство Эпл сохраняется до сих пор.
Мандельброт в своих работах показал, что у рынка многих активов есть по сути долговременная память, в Непослушных рынках есть ссылки на исследования по Хёрсту и показателям степенного ряда распределения по разным активам.
так например акции вышедшие из расчлененного Стандарт Ойл до сих пор несут его свойства и коррелируют.
Бартон Бигс считал в Хеджере, что свойства индексов американских сохраняются на протяжении поколения, и что резкий рост 90-х и 2000-х а затем обвалы dot.com и 2008 случились, потому что не осталось уже тех, кто помнил Великую Депрессию и резких крах рынка, который наример не смотря на долгий рост экономики не рос все 40-50е, потому что участники боялись активно покупать, а начался рост, когда на рынок вышло поколение, не видевшие своими глазами крах 29го,
Да и сейчас очевидна разница между трейдерами, кто видел 2008 и кто начал позже.
Сорос тоже говорит, что пока основные капиталы не передут роботам, рыночный цикл Бум-Крах будет повтлряться, в силу психологии людей,
Участники приходят и уходят, а психика у них устроена одинаково.
Помните эксперимент с американскими школьниками Как за неделю стать фашистом? Этот эксперимент одинаково успешно проходит в любой аналогичной группе любой национальности.
Биологический базис одинаковый, и социальные свойства распределены одинаково примерно среди всего человечества.
Т.е. рынок это пока математически выражаемая социология,
И как было хорошо показано в статье, что Кент приводил, рынок это сложная система с нелинейной динамикой и принципиальной непредсказуемостью из-за расходимости даже соседних кривых вероятных сценариев в фазовых пространствах.Но бывают области джокеров, где взмах крыла бабочки вызывает ураган через три месяца, а бывают русла, где взрывной рост экономики в последние 20 лет Китая предсказан еще в середине 80-х.

Тем более что не смотря на всю сложность факторов влияющих на цену, цена двумерна, и все факторы ложаться на чашу весов или вниз или вверх, третьего не дано.

По сути вопрос, в том, что реально сигнал, и почему это сигнал, а что математическая химера в бесконечных массивах данных.

Имхо, такие штуки, как коинтеграции,
И конечно mean reversion, momentum и вообще импульсы, инерционность в поведении цены — базовые вещи, которые циклично сменяют друг друга.
У Александра есть классная статья на эту тему.

Простите за много букв, очень понравилась статья, и захотелось поделиться мыслями.
Очень хочется чтобы вы, Александр, Кент, germiona, идругие продолжили обсуждение, тут такие глубины затронуты, копать и копать )))

mehanizator: Доказывать нужно присутствие зависимости, а не отсутствие зависимости. Отсутствие зависимости — это нулевая гипотеза.

Атеистам же никто не предъявляет аргумент «нет, это вы докажите, что Бога нет!».

Kent: несколько моделей:
1. случайность/неслучайность относительна
мне поступает ззапрос на бросок монеты и я выдаю ответ орел/решка по следующему алгоритму:
— если в четную секунду поступил, то выдаю решка
— если в нечетную секунду поступил, то выдаю орел
чисто детерминированный алгоритм, но со стороны он будет казаться случайным броском монеты. Но если выдвинуть правильную гипотезу, то закономерность сразу выявится.

2. проблема кучи
есть куча синих шариков, мы по одному шарику извлекаем из кучи, вместо извлеченного добавляем красный шарик
происходит постепенная замена синих шаров на красные
возникает проблема, когда кучу можно называть более красной?
проблема аналогична постепенному вымыванию старых игроков с их привычками и замене на новых игроков с новыми привычками

3. проблема лавины
в чем-то это также похоже на лавины, такое обычно у нелинейных систем
пока изменений меньше критического уровня, то все выглядит и происходит по старому, система меняется медленно, но подошли к критическим значениям параметров и малейший толчок прриводит к лавинообразному процессу,
к быстрому изменению системы и ее эволюционирование в новое соостояние, переходный лавинообразный процесс.

EdgeStone: Kent +100

EdgeStone: mehanizator

В общем случае да, согласен, нулевая гипотеза,но почему она, эта нулевая гипотеза более вероятна, чем наличие связи у источников данных?

Экстраполировать выводы, полученные на данных последних лет, можно например на основании того, что не смотря на приток и отток участников, в целом их статистическая структура остаётся более менее стабильной,
В качестве нулевой гипотезы ведь можно и такое утверждение брать.
Ну как наример возрастная и половая структура населения конкретной страны со временем меняется, но скорость изменения доволно медленная.

Это только конечно мои контраргументы, как на самом деле не знаю.

Для меня вопрос в отличии реального сигнала от мат. химер из массива данных.

Грубо говоря, как мне узнать стационарен ли ряд, (и/или есть в нём некие инварианты) в прошлом, и останутся ли они в будущем?

mehanizator: Допустим вас задержали недалеко от места преступления. Нулевая гипотеза — вы там проходили случайно. В суде (нормальном, не басманном) будут придерживаться ее, пока не доказано обратное, даже если статистически более вероятно, что вы таки преступник. Почему? Потому что есть шанс посадить невиновного. А в случае трейдинга — есть шанс наловить убытков торгуя шум вместо сигнала.

То что вы привели в качестве аргументов это все гипотезы, которые должны быть доказаны или опровергнуты. Кому-то кажется, что структура рынка остается стабильной, кому-то кажется, что за ним следит ЦРУ, мало ли что кому в голову придет.

germiona: mehanizator,
А у вас есть доказательство/опровержение вашей нулевой гипотезы? Это практически недоказуемо, на мой взгляд. И, как в случае с Богом — спорить на эту тему бессмысленное занятие. Никто (надеюсь) не будет торговать целый год только по одному сигналу из прошлого года. Необходимо постоянно следить за сигналом, чтобы не пропустить его выхолащивание, и постоянно искать новые сигналы. Сигнал сломался — что ж, значит надо искать другой, либо отфильтровывать этот. Или подумать, почему он сломался. Я, если честно, не представляю, как можно торговать, если не предполагать какой-либо квазистационарности в определенные моменты (и разумеется, держать в уме черных лебедей, когда все летит к чертям).

EdgeStone,
> Для меня вопрос в отличии реального сигнала от мат. химер из массива данных.
Аналогично.
А также еще несколько:
Должно ли свойство быть универсальным? Если что-то работает на акции Гугла, должно ли это работать на Майкрософте? Или на S&P ? А если не работает, значит ли что успех в случае с Гуглом — случайность? А если взять акцию из другой отрасли? Или другого рынка, Сбер например?

EdgeStone: mehanizator:
Да, всё так.
Но как тогда вообще алго то торговать?
Ведь невозможно устранить эту проблему,
да источник, где был обнаружен некий сигнал не тот на котором мы теперь его по той же методике определяем.
Даже больше, возможно и на ист. данных сигнал не реальный, а причудливая выборка.
И сказать, стационарен ряд или нет мы никогда точно не можем.

Т.е. Вы принципиально системное алго отвергаете получается?

EdgeStone: germiona:
А у вас блога нет случайно? )) Я бы с удовольствием почитал.

Для меня еще загадка — это тайм фреймы.
Я глазами на дневках и неделях СиПи вижу офигенный многолетний тренд,
проверяю трендовыми системами его часовики — там нет ни фига.
Как такое получается?

mehanizator: Во-первых, я говорю, что есть проблема, я не говорю, что она в принципе неразрешима (хотя может быть и такое).

Во-вторых, я же написал, что эта проблема актуальна для моделей, полученных исключительно из прошлых данных. Есть модели, которые получены из внешних по отношению к данным соображений.

Насчет «как алго торговать» — вам обязательно алго, или все-таки изначальная цель была «получать доход»? 🙂

germiona: EdgeStone, нет, у меня пока нет компетенций что-то писать, пусть даже в личный блог)
Касательно таймфреймов ничего не скажу, зависит от того, как вы ищите тренд, но есть одна деталь. Надо ведь смотреть не только продолжается ли движение вверх или вниз, но и то, насколько сильно оно продолжается. Условно говоря, 50 свечей вниз, 50 вверх, но те которые вверх по модулю больше, вот вам и неделя вверх, если это продолжается, то и тренд на неделях появится. К тому же, есть распространенное мнение, что на длительных периодах имеет смысл фундаментальные оценки компании, и лучшая стратегия — байэндхолд. Но тут уже вопрос отбора таких компаний. Или можно просто взять индекс и не париться. Бесконечная тема)
Вообще, очень странно, что в рунете крайне мало обсуждений таких, казалось бы базовых вещей (или я плохо ищу?) Остается только копать самостоятельно, ручками. Но вопросов все равно много, хоть и на многие этот ресурс дает ответ.

EdgeStone: mehanizator:
Во всём, кроме алго, моя собственная психика убивает любой анализ, алго, будь то коинтеграции, или арбитраж прямой, или направленная торговля, или опционы, позволяет устранить эмоции и привязанность к позе, чем личноя сильно грешу.

А что значит, если не секрет, внешние по отнтшению к данным соображения? Можно пример?
Что-то из data mining, типа анализируем динамику отношения числа постов с позитивным/негативным упоминаниями компании в твиттере и фейсбук?
Как можно делать вывода о какой-то связи между ценой и неким фактором, без анализа этой связи на истории? А дальше всё теже проблемы.
Разве нет? Гипотезы то где еще проверять, кроме истории и форворда, но форвард стат. достоверный устанешь ждать, если не hft.

EdgeStone: EdgeStone: germiona.
Да, Вы правы,
большинство вообще не понимает что мы обсуждаем, и почему тот или иной метод торговли может/должен работать или не работать, стационарность, нестационарность, авкорелляция, случайное блуждание,
гомоскедастичность и гетероскедастичность данных, стохастические тренды, мультифрактальность и т.д. — про это вообще почти не с кем поговорить в рунете.Ресурс Меха редкое исключение.

Да, про модуль свечи,верно подмечено, надо проверить, спасибо за идею, я на автомате считал, что рост это много маленьких белых свечек, а падения всего две три больших чёрных, типа бык медленно взбирается в гору, а медведь резко падает с дерева, как в классике, но может сейчас всё и не так стало.

У Мандельброта есть модель описания рынка «в лоб» через два параметра и связь между ними,
Коэффициент Херста, как мера вероятности последовательности из N свечек одного цвета, мера инертности цены,
И коэффициент Альфа, как мера вероятности появления свечек различного размера,
И закон связи этих коэффициентов.
Но как на этом построить систему, пока не придумывается ))

EdgeStone: mehanizator:
Александр у Вас была хорошая статья, где чел скользящим окном на 22 днях считал коэффициент автокорреляции, и использовал его как переключатель, близко к 1, торгуем тренд, близко к -1, торгуем возврат к среднему, если около нуля -ничего не делаем.
www.long-short.ru/post/prostaya-strategiya-pereklyucheniya-rezhima-torgovli-dlya-sp-500-432
sanzprophet.blogspot.ru/2013/09/from-regime-switching-to-fuzzy-logic.html

Так, если есть такие участки с автокорреляцией близкой по модулю к 1,так вот оно базовое свойство рынка.
Смена тренда и возврата к среднему.
www.long-short.ru/post/tsiklichnost-finansovyh-rynkov-i-vechnye-poiski-novogo-ravnovesiya-640

Если реально, такие высокие автокорреляции устойчиво держаться.
Это разве не та самая нулевая гипотеза в поведении рынков?

Леонид Альтман: Всё так, жаль только что StatArb и HFT арбитраж вотчина крутых фондов, которые с их ресурсами заведомо имеют лютое преимущество перед частным трейдером.

Vitas: есть довольно простой способ опровергнуть H0.
в криптоанализе разработаны целые батареи тестов на случайность. ну там всякие Die Hard. Биржевые котировки эти тесты НЕ проходят. они НЕ случайны. следовательно возможность предсказания есть. но чем больше умных людей, хорошо владеющих математикой, пасется на этой ниве, тем ближе все становится к чисто случайному процессу. завтра будет тяжелее чем сегодня. но целиком закономерности не исчезнут, в силу психологии. и роботы сильно ситуацию не изменят — рулят же ими все те же эмоциональные люди.

EdgeStone: Vitas:Спасибо, интересная тема про криптографические тесты,
RS-анализ тоже кстати показывает, что рынок не является чистым белым гауссовым шумомо, т.е. изменения цены НЕ независимы,

Подпишитесь на уведомления о новых постах