Управление разработкой моделей и их внедрением
Собранные данные о деятельности организации, организованные для их эффективного использования в хранилище данных, являются основой для получения ответа на сложные вопросы, жизненно важные для успешного выживания в условиях быстро меняющегося рынка, к числу таких вопросов можно отнести вопросы углубленного исследования данных (data mining ), поиск скрытых закономерностей. Приведем пример. У риск - менеджера Х наблюдается 20% выход на просрочку, что значительно выше чем в среднем по портфелю. Это тривиальная зависимость Риск-Менеджер Х - просрочка. Очевидно, что Риск-Менеджер Х не выполняет свои обязанности должным образом в силу некоторых причин. Другой пример. Клиенты банка, определенные как мошенники (не планирующие погашать кредит) составляют 1% от общего количества должников. Надо найти основные факторы, вероятностно определяющие профиль мошенника. Так же к аналитическим задачам, связанным с углубленным исследованием данных относятся задачи Cross-Sell - Up-Sell (какова вероятность того, что покупатель, купивший сегодня компьютер, завтра купит принтер и, главным образом, от чего эта вероятность зависит). SAS/Enterprise Miner позволяет пользователю-аналитику наглядно представлять проводимое исследование в виде диаграммы. Динамическая схема позволяет следить за стадиями аналитической обработки в процессе их выполнения. Когда данные, специальным образом подготовленные и обогащенные для решения поставленной задачи, будут готовы к проведению моделирования - самой сути процесса поиска знаний, начинается нетривиальный путь построения моделей, во многом определяемым человеческим фактором и требующим определенного опыта. На этом этапе данные автоматически анализируются и формируется модель, связывающая входные и выходные показатели. Основными методами для построения моделей являются:
Нейронные сети Методы нейронных сетей возникли в результате попыток моделирования нейрофизиологических процессов, происходящих в мозгу человека при распознавании образов. Нейронные сети используются для выявления нелинейных отношений в данных, и, следовательно, для решения широкого класса проблем прогнозирования. Деревья решений Используются для автоматического последовательного сегментирования данных со схожими характеристиками, но с учетом причинно-следственных отношений на основании критерия хи-квадрат и уменьшения энтропии (F-тест, уменьшение дисперсии). Далее полученная модель дерева решений может использоваться для прогнозирования значений целевой переменной или для классификации событий. Например, при планировании маркетинговой кампании деревья могут быть эффективным инструментом для построения профилей покупателей, наиболее реагирующих на рассылку рекламной информации по почте. Во многих случаях методы деревьев решений имеют преимущество по сравнению с нейронными сетями, так полученная модель может быть легко представлена графически и в виде совокупности правил. Регрессия Регрессионный модуль предоставляет аналитику возможность выявления в данных линейных и логических зависимостей между целевой переменной и совокупностью независимых (входных) переменных. В случае линейной регрессии эти отношения выражаются в виде линейной функции целевой переменной от значений входных переменных. В случае логической регрессии будет построена функция для вычисления вероятности того, что целевая переменная будет равна некоторому дискретному значению. Для моделирования нелинейных регрессионных зависимостей может использоваться обобщенная линейная модель. Кластерный анализ Цель кластерного анализа - поместить отдельные события в группы (или кластеры), причем так, что события отнесенные к конкретному кластеру имели наибольшее подобие между собой, а события из разных кластеров максимально отличались. В частности, с помощью кластерного анализа можно выявить группы покупателей в зависимости от типов продуктов, которые они приобретают. Ассоциации и последовательности Модуль поиска ассоциаций, основанный на подсчете условных вероятностей, позволяет выявлять в данных, как ассоциативные связи, так и последовательности и представлять их в виде правил. Методы поиска ассоциаций и последовательностей широко используются для анализа покупательского спроса. Методы выявления последовательностей используются в том случае, если между событиями имеется временной промежуток. В этом случае, результатом анализа может быть совокупность правил следующего вида: «Из тех покупателей, которые воспользовались данной услугой, 25 процентов приобретут новую услугу в следующем месяце». Примечание Касаясь вопросов моделирования, невозможно обойти вниманием валидацию моделей, которая также является обязательным этапом. Любая, даже идеально построенная модель должна быть апробирована и подтверждена на предмет точности своих прогнозов. Валидация моделей может производиться разными способами. Наиболее часто встречается out-of-sample validation, когда большая часть имеющихся данных (примерно 70%) используется для построения модели, а оставшаяся часть (не задействованная в моделировании) идет на ее валидацию. Этот подход позволяет убедиться, что «успешная» на одних данных модель продолжает строить точные прогнозы и на других данных кредитного портфеля. Часто на практике применяется также out-of-time validation, когда для валидации модели используются данные другого временного промежутка, а затем результаты работы модели сравниваются (например, текущий год с предыдущим). Если модель ведет себя ровно во времени, то это подтверждает ее стабильность.
|
||
2009
Copyright
Accessibility | legal notice | Contact | sitemap |