Празднование 10-летнего Юбилея РЭШ: 19-21 Декабря, 2002

Список курсов
2002/03 ак.г.:

Английский язык
Антимонопольная политика и регулирование+
Банковское дело
Внешне торговая политика (engl)
Избранные главы микроэкономики
Избранные главы теории игр
Избранные главы эконометрики
Избранные главы экономической статистики
Исследовательский семинар (обяз.)
История Экономической Мысли (обяз.)
Корпоративные финансы +
Макро теория открытых экономик*
Макроэкономика 1
Макроэкономика 2
Макроэкономика 3
Макроэкономика 4 (engl)
Макроэкономика 5
Макроэкономика 6 (обяз.)
Математика для экономистов
Международная торговля*
Микроэкономика 1
Микроэкономика 2
Микроэкономика 3
Микроэкономика 4
Микроэкономика 5 (engl)
Монетарная Экономика
Некооперативные игры в экономике
Прикладная микроэкономика
Прикладная эконометрика
Прикладной анализ данных
Рекурсивная макроэкономика II
Рекурсивная макроэкономика I
Российская финансовая система
Россия в современном мире
Теория Вероятностей и Математическая Статистика
Теория денег (engl)
Теория игр
Теория инвестиций
Теория контрактов I
Теория контрактов II
Теория производственных организаций I*
Теория производственных организаций II*
Теория роста
Теория экономических реформ*
Теория экономического развития +
Эконометрика 1
Эконометрика 2 (engl)
Эконометрика 3 (engl)
Эконометрика 4 (обяз.)
Эконометрика финансовых рынков
Экономика здоровья и здравоохранения
Экономика и право
Экономика коррупции
Экономика общественного сектора I*
Экономика общественного сектора II*
Экономика общественного сектора (Cost Benefit)
Экономика переходного периода
Экономика переходного периода
Экономика природопользования
Экономика труда I *
Экономика труда II*
Экономика финансового сектора (engl)

АНАЛИЗ ДАННЫХ

Станислав Колеников, skolenik@unc.edu

Ассистент: Ахмед Ахмедов AAkhmedov@cefir.ru

Задача этого курса – дополнить базовые курсы по эконометрике и вооружить студентов РЭШ современными средставми статистического анализа, которые, как правило, в этих курсах не рассматриваются. В частности, будет рассказано, как отметить основные особенности данных, найти подходящие средства для их анализа и оценить, насколько удачно выбранный статистический метод применим к имеющимся данным. Примеры и наборы данных, используемые в курсе, будут базироваться на российских данных. Базовый статистический пакет курса – Stata. Выбор тем может быть несколько изменен или перегруппирован по ходу курса в соответствии с потребностями студентов.

Структура оценки: Оценка за курс будет состоять из 20% домашних заданий, 20% промежуточного экзамена и 60% – курсовой работы. Приветствуется использование в качестве рабочего материала данных, на основе которых студенты ведут свои исследования. В качестве курсовой работы может также быть использована эмпирическая часть диплома, если в ней используются обсуждаемые на данном курсе методы.

Литература

Айвазян С.А., Мхитарян В.С. Прикладная статистика и основы эконометрики. М., ЮНИТИ, 1999.

С. Колеников. Прикладной эконометрический анализ в пакете Stata, РЭШ/ЦЭМИ, 2001.

F. Hampel (ed.), E. Ronchetti, P. Rousseeuw. Robust Statistics: The Approach Based on Influence Functions. Wiley, 1986 (имеется русский перевод: Ф. Хампель, Э. Ронкетти, П. Руссо. Робастная Статистика: подход на основе функций влияния).

F. E. Harrell. Regression Modeling Strategies. Springer, 2001.

T. Hastie, R. Tibshirani, J. H. Friedman. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Springer, 2001.

P. Huber. Robust Statistics. Wiley, 1981 (имеется русский перевод: П. Хьюбер. Робастность в статистике)

K. V. Mardia. Multivariate Analysis. Academic Press, 1997.

F. Mosteller, J. W. Tukey. Data Analysis and Regression: A Second Course in Statistics. Addison-Wesley, 1977.

A. Rencher. Methods of Multivariate Analysis. Wiley, 2002.

StataCorp. Stata statistical software: Release 7. College Station, TX, US, 2000.

 

По методам многомерного статистического анализа имеется много хороших книг, однако большинство из них сильно теоретические, и они ограничиваются линейными моделями и предположениями нормальности. Будет полезно дополнить подобные источники более практическими руководствами, такими, как

Harrell в контексте регрессионного анализа и Rechner – многомерного. Также полезно рассказать об основных наработках по анализу данных в близких областях – машинного обучения и анализа знаний, см. Hastie et. al.

 

 

Темы курса (по одной неделе на каждую тему).

A. Принципы статистического моделирования.

Современные методы анализа данных включают в себя широкий спектр статистических моделей с различными вариантами их практического применения и/или настроечными параметрами.Специалист, занимающийся анализом данных, должен уметь находить метод, подходящий для поставленной перед ним конкретной задачи. Первая неделя занятий на курсе будет посвящена краткому обзору существующих методов визуализации данных,классификации, построения прогнозов, кластерного и дискриминантного анализа, а также способов оценки точности и статистической значимости получаемых результатов. На практических занятиях будет предложено введение в пакет Stata, на основе которого будет строиться дальнейшее обучение.

B. Статистическая графика.

Применение графических методов для знакомства с данными – необходимый элемент начальных стадий анализа данных. Исследователю может быть полезно познакомиться с распределениями данных,связях между переменными, трендами, группами и кластерами в данных, найти выбросы и резко выделяющиеся наблюдения. Многие характеристики такого рода гораздо проще обнаружить при помощи графических методов, нежели с привлечением численных характеристик.В рамках данной темы будет обсуждаться применение ряда графических методов анализа данных (одно- и двухмерные графики разного рода, использование дополнительной информации на диаграмах рассеяния), а также ошибки, связанные с применением этих методов. 

C. Диагностика выбросов и робастные методы

Выбросы и сильно выделяющиеся наблюдения – весьма общая проблема в анализе экономических данных. Грамотный исследователь должен уметь находить выбросы в своей выборке – как отдельные точки, так и группы выбросов, маскирующие друг друга – и оценивать степень их влияния на результаты статистического анализа. В тех случаях, когда выбросы все-таки являются существенной и информативной частью данных, необходимо применять робастные процедуры анализа данных.

D. Метод главных компонент и факторный анализ

Главные компоненты служат для компактного описания коррелированных данных путем создания наиболее «эффективной», в определенном смысле, линейной комбинации переменных. ГК являются удачным средством для визуализации многомерных данных в пространстве меньшей размерности (двумерный график). Будут изучены статистические свойства главных компонент и рассмотрены асимптотические результаты. К методу ГК примыкает факторный анализ, целью которого является получение более удачно интерпретируемых комбинаций переменных.

E. Кластерный анализ.

Кластерный анализ служит для выявления в данных групп точек, явственно отличающихся друг от друга. Важность решения этой задачи связана с тем, что применение стандарнтых средств анализа данных (в т.ч. стандартных эконометрических процедур) при наличии кластеров в данных приведет к смещению как точечных оценок (коэффициентов регрессии), так и стандартных ошибок, а значит, и к неверным статистическим выводам. Кроме того, структура данных и схожесть наблюдений могут представлять и самостоятельный интерес. Будут рассмотрены два основных подхода к поиску кластеров – иерархический анализ, результатом которого является построение дендрограммы, описывающей близость отдельных точек и кластеров друг к другу, и неиерархический (композиционный) анализ, в котором число кластеров зафиксировано и необходимо найти оптимальное разбиение точек по этим кластерам.

F. Дискриминантный анализ и классификация.

Классификация данных состоит в выработке правил отнесения точек выборки к одному из классов. В отличие от кластерного анализа, число классов и их «метки» (например, названия политических партий, к которым относятся члены парламента) известны Задача методов классификации – во-первых, найти характеристики, наиболее сильно связанные с принадлежностью к данному классу; во-вторых, анализируя данные характеристики для данного наблюдения, определить, к какому классу это наблюдение ближе всего. Классическим методом классификации является линейный дискриминантный анализ (аналогом которого в эконометрической литературе является логит-регрессия), который разделяет пространство характеристик гиперплоскостью на два класса. Будут рассмотрены альтернативы, в т.ч. непараметрические, данному методу, которые позволяют получить границы более сложной конфигурации.

G. Другие методы снижения размерности и графического анализа

При наличии времени, в конце курса можно будет дать обзор прочих методов анализа данных, таких, как многомерное шкалирование (нахождение пространства наименьшей размерности для многомерных дискретных данных), целенаправленное проецирование (нахождение направлений и проекций данных, отвечающих заданным требованиям и свойствам – таким, как построение кривой регрессии с наименьшей среднеквадратической ошибкой или наиболее удачная кластеризация в пространстве проекции); анализ функциональных данных (в которых наблюдением является функция или изображение).


РЭШ: 117418, Москва, Нахимовский пр. 47, 17 этаж,
офис 1721
(м.Профсоюзная, здание ЦЭМИ)
Тел: 332 - 4423, 129-3911,
129-1700, факс: 129-3722
nes@nes.ru
NES, Nakhimovsky Prospekt, 47, Suite 1721,
117418, Moscow Russian Federation
Tel: (7-095) 129-3911,129-3236, 129-4611, 129-3844;
Fax: (7-095) 129-3722
2002 © Российская Экономическая Школа
Questions? Comments? Ask webmaster
Дата обновления: 04.07.03