Метод восстановления бинарных данных с пропусками

Wednesday, August 5, 2015 /
G+
С проблемой обработки пропусков в данных приходится сталкиваться в самых разнообразных приложениях статистического анализа. Исследователи, как правило, стремятся как можно быстрее избавиться от пропусков с тем, чтобы впоследствии провести обработку “полных” данных стандартными средствами, мало задумываясь над тем, что такой подход может привести к сильному различию статистических выводов, сделанных при наличии пропусков в данных и при их отсутствии. Самыми распространенными приемами анализа данных с пропусками являются исключение некомпетентных наблюдений (т. е. содержащих хотя бы один пропуск) и традиционные методы заполнения пропусков. Эти методы в общем случае имеют малую эффективность, ведут, как правило, к смещенности и несостоятельности, к нарушению уровней значимости критериев и другим искажениям статистических выводов, не обладают устойчивостью к распределению пропусков.

В статье предложен метод восстановления бинарных данных, основанный на максимизации критерия частоты совпадений данных в однородных группах источников информации. Предлагаемый метод является модификацией известных методов заполнения, где пропуски не имеют критического значения, однако в отличие от них он существенно повышает достоверность восстановления генеральной совокупности бинарных данных за счет анализа групповых свойств источников информации.

Перейти к материалу