Бар-Хаим (Bar-Haim) вместе с коллегами из Еврейского университета Иерусалима (Hebrew University of Jerusalem) скачали твиты с сайта StockTwits.com за два периода: с 25 апреля 2010 года по 1 ноября 2011 года и с 14 декабря 2010 года по 3 февраля 2011 года. В общей сложности было загружено и изучено 340 тыс. твитов.
Была использована система машинного обучения для группировки твитов по различными категориям – фактические данные (например, новости, графические паттерны, отчет об открытии сделки, отчет о закрытии сделки) и мнения (гипотезы, графики прогноза, рекомендации и настроения). Затем для определения того, не предсказывают ли одни микроблоггеры будущее движение акций лучше, чем другие, были использованы разные алгоритмы.
Вне выборки, результаты теста следующего дня
Данный график показывает совокупные результаты модели для первых двадцати пользователей. Эта модель для каждого отдельного пользователя получает из опытного набора отдельную регрессионную модель метода опорных векторов (Support Vector Machine regression model), основываясь исключительно на твитах этого пользователя. Подход основывался на машинном обучении полностью «без учителя» и не требовал ручной маркировки данных режима обучения или лексики настроения.
Результаты показали, что эта модель достигла хорошей точности для относительно большого числа твитов, а для большинства точек данных, представленных в таблице, результаты значительно превзошли базовую линию. В целом, эти результаты показали эффективность двух методов машинного обучения для нахождения экспертов посредством обучения «без учителя».
Хотя уровень точности уменьшался по мере включения дополнительных пользователей, результаты были статистически значимыми для первых одиннадцати пользователей, и снова для пользователей с семнадцатого до двадцатого. В целом, эти результаты свидетельствуют о важности различения экспертов от не-экспертов в микроблогах.
Ключом к выявлению эффективности отдельных блоггеров была разработка уникальных моделей регрессии для каждого блоггера, а не поиски «одной для всех» эвристики. Важно также понимать соответствующие используемые временные рамки. Например, другое исследование показало, что розничные трейдеры лучше всего реагировали на рекомендации тех блоггеров, которые давали наиболее точный прогноз в течение предыдущих пяти дней.
Автор:
Источник: Identifying expert microblog forecasters