Хотя переподгонка, конечно, является проблемой, но борясь с ней ее можно уйти в другую крайность.
Вот часть интервью Уильяма Экхардта (William Echkardt) журналу Futures (которую я рекомендую прочитать целиком):
«Я бы мог еще немного рассказать о переподгонке, если бы это не касалось моих собственных методов. Прежде всего, мне больше нравится термин «переподгонка», а не «подгонка под кривую», потому что подгонка под кривую – это термин из нелинейного регрессионного анализа. Это когда у вас есть много данных, и вы подгоняете базовые точки под некоторую кривую. С фьючерсами не тот случай. Технически здесь нет подгонки под кривую, этот термин здесь не применим. Но вы можете переподогнать. Мне нравится термин переподгонка, потому что также может быть недоподгонка. Люди, которые не используют оптимизацию, недоподгоняют».
Недоподгонка и неверная подгонка
Если мы используем недостаточное количество степеней свободы, так, что наша система не различает некоторые ключевые изменения в поведении рынка, то, что мы делаем, является недоподгонкой. В качестве примера недоподгонки можно назвать покупку случайных акций на случайном рынке в случайный момент времени и удержание их в течение случайного периода времени.
В другом случае мы не используем правильные переменные (или имеем правильные переменные, но используем их не правильно) – назовем это неверной подгонкой. Представьте себе модель, построенную на итальянских государственных облигациях (Italian BTP), которая обращает внимание на цены на сырую нефть, и полностью игнорирует спрэд с немецкими облигациями (в настоящее время нет никаких взаимосвязей между BTP и сырой нефтью, просто пытаюсь донести мысль).
Очевидно, что то, что делает переменную «правильной» для данной модели и данного актива, является очень спорным.
Я не думаю, что мы легко можем сказать в абсолютных величинах является ли модель подвержена недоподгонке или неверной подгонке (за исключением очень очевидных случаев), аналогично тому, как можно сказать про переподгонку. Я просто хочу рассуждать в терминах возможного существования подробного описания лучшей модели, которое мы игнорируем, например, может существовать ключевой фактор, к которому очень чувствительна наша модель, и который мы не учитываем (либо с точки зрения конкретного актива, к которому мы применяем модель, или с точки зрения текущей динамики рынка). Или может быть так, что мы используем некоторые переменные, которые связаны только с реальным фактором, но не с фактическим источником альфы.
Методы для проведения этого вида анализа включают Метод главных компонент (Principal component analysis, PCA) и Факторный анализ (factor analysis), но можно использовать многие другие количественные методы (на уровне портфеля представляется перспективным что-то вроде метода группирования рынков Дэвида Варади (David Varadi)). Конечно (и к сожалению), мы должны помнить, что чем больше мы работаем с таким типом апостериорного анализа, тем больше вероятность, что мы перейдем из одной крайности (недоподгонка/неверная подгонка) в другую (переподгонка).
«Толстые хвосты» и изменение динамики рынка
В другой части упомянутого интервью Экхардт строго соотносит число степеней свободы с числом сделок в бэктесте, утверждая, что из-за толстых хвостов рыночных изменений необходимо большее число сделок, чем нужно в «Гаусовсом мире». Хотя я согласен с качественной связью между степенями свободы и количеством сделок, я не уверен, что согласен со строгим количественным соотношением между этими двумя переменными.
На это есть две причины:
1) Не всегда можно точно определить количество используемых фактических степеней свободы, или то, на сколько наше моделирование зависит от прошлых данных.
2) Я думаю, что толстые хвосты являются лишь частью истории. Другая большая часть – это непрерывные изменения, через которые проходят рынки (в виде гетероскедастичности и не только).
Представьте себе, что вы тестируете модель на двухлетних данных, и потому, что модель является относительно высокочастотной (т.е. заключает очень большое число сделок), вы думаете, что ограждаете себя от переподгонки. Есть вероятность упустить факт, что протестировав модель на относительно коротком временном окне, вы можете не протестировать ее при различных рыночных условиях. Вполне возможно, что 2,5 года назад рынки были немного другими, и ваша модель тогда была бесполезна, а это означает, что как только рынки снова изменяться вы потеряете свое преимущество. Примером может служить модель, которая неосознанно использует преимущества поведения некоторых рынков, вызванные долгосрочной политикой Федеральной резервной системы. Можно сказать, что это другая форма переподгонки, но которую нельзя определить, просто взглянув на количество сделок по сравнению с числом параметров модели.
Из-за этого я бы всегда тестировал любую новую стратегию на всех возможных исторических данных. Поэтому я частично не согласен с доктором Ченом (Chan), который утверждает, что он редко проверяет стратегии на данных старше 2007 года (подробнее здесь: «Псевдо-наука тестирования гипотез» (The Pseudo-science of Hypothesis Testing)). При прочих равных условиях, если я нахожу стратегию, которая хорошо работала в течение долгого периода времени, то более вероятно, что она так же будет работать в ближайшем будущем, чем та стратегия, которая работала хорошо более короткий период времени (это не означает, что если стратегия начала работать совсем недавно, то она не будет продолжать работать). Кроме того, даже если у вас есть что-то, что начало работать совсем недавно, если взглянуть на то, как оно вело себя, когда не давало результаты, то можно получить некоторую интересную информацию – особенно, если вы не уверены о том, что является источником вашей альфы на самом деле.
Источники альфы
Это приводит меня к конечной точке: действительно ли мы должны понимать, что делает наша модель, и какой вид неэффективности мы эксплуатируем?
Лично я думаю, что понимание того, что является основным источником нашей альфы, безусловно, большой плюс, поскольку это позволяет напрямую отслеживать его поведение, что в свою очередь в неспокойные времена может дать вам некоторые практические догадки. Тем не менее, этого не всегда достаточно – вспомним о количественных фондах во время обвала 2007-2008 года: они были полностью осведомлены об источнике, лежащем в основе фондовых статических арбитражных стратегий, но увязли в потоках заявок и в вынужденной продаже ценных бумаг.
Другим примером вполне может служить крах фонда LTCM (Long-Term Capital Management).
Мораль этой истории заключается в том, что всегда может быть еще один уровень сложности, который не учитывается, так что (частичное) понимание источника альфы может не давать дополнительных преимуществ.
Таким образом, хотя и было бы неплохо понимать, что стоит за источником альфы, я не считаю это необходимым, при условии, что статистический анализ дает нам достаточно уверенности в том, что стратегией можно торговать.
Автор: Mathtrading
Источник: Underfitting, misfitting and understanding alpha’s drivers
Другие статьи по теме
Бэктестинг — полная чушь и подгонка под кривую?
Успешная проверка алгоритмических торговых стратегий на исторических данных. Часть 1: Ошибки, оказывающие влияние
Кросс-валидация (Cross-validation)