Формула стерджесса в excel

Формула стерджесса в excel

Формула Стерджесса и другие способы определения числа групп при построении гистограммы.

Сегодня, говоря о статистике, я буду обсуждать гистограммы. Вообще говоря, гистограмма является наглядным отображением метода группировки, то есть распределения множества результатов измерений какой-либо величины по группам, в соответствии с существенным для данной группы признаком. Методы группировки широко применяются для обработки первичных данных.

Под первичными данными в статистике мы понимаем статистические ряды, которые называют рядами динамики, если речь идет об изменении явления во времени, либо рядами распределения, если речь идет о составе или структуре исследуемого явления.

Если речь идет о рядах, построенных на основе качественных признаков (например, предприятия по формам собственности), то такие ряды называются атрибутивными, если ряды построены по количественным признакам (например, предприятия по объему товарооборота), то они называются вариационными.

В зависимости от прерывности вариации признака различают дискретные и интервальные вариационные ряды.

Гистограмма представляет собой столбчатый график, построенный по полученным данным, которые разбиваются на несколько групп. Число данных, попавших в каждую группу (частота), выражается высотой столбика, соответствующего данной группе.

Гистограмму можно строить для любых рядов, при этом, если это атрибутивный либо дискретный вариационный ряд (например, число рабочих в каждом тарифном разряде), то число выделяемых групп равно числу вариантов значений признака. В случае же интервального вариационного ряда число групп будет зависеть от величины интервала, используемого для группировки данных.

Интервал — разница между максимальным и минимальным значениями признака в каждой группе. Понятно, что чем больше групп, тем меньше интервал и наоборот. Группы в таком случае иногда называют также классами интервалов.

Например, можно разбить полученные данные о численности рабочих на предприятиях на следующие группы:
до 25 человек,
25–50 человек,
50–100 человек,
свыше 100 человек.

Тогда гистограмма будет содержать 4 столбика, высота которых будет соответствовать числу предприятий попавших в данную группу.
Заметим, кстати, что вышеприведенное распределение является примером использования неравных интервалов, выделенных, что называется, программой исследования, т. е. нами самими.

Вопрос выбора величины интервала (числа групп), используемого для группировки элементов интервального вариационного ряда, далеко не праздный. Помимо того, что гистограмма является отличным средством визуализации данных, она также является ни чем иным, как приближением функции распределения вероятности (см. картинку). Т. е. величина столбика каждой группы показывает вероятность того, что следующее значение измеряемой величины попадет в данную группу.

Слишком большое число групп может дать слишком «скачущий» график, слишком малое – слишком «сглаженный». В идеале, очевидно, хотелось бы иметь число групп, дающее наименьшее отклонение от функции распределения вероятности, т. е. позволяющее дать наиболее точную оценку настоящей функции распределения вероятности изучаемого явления.

В общем, математики этим занялись.

Первым, по всей видимости, был Стерджесc (Sturges, 1926). Он рассмотрел идеализированную частотную гистограмму из k классов, где i-ое значение было равно биномиальному коэффициенту . При достаточно больших k форма гистограммы приближалась к форме нормального распределения. Сумма всех значений была равна
.

Таким образом, для n результатов измерений величины, подчиняющейся нормальному распределению, число классов, используемых при построении гистограммы следует брать как и форма полученной гистограммы будет приближаться к форме нормального распределения для достаточно большого k. Это и есть формула Стерджесса. В этом виде она попала практически во все учебники по статистике.

Читайте также:  Срок годности пластиковых бутылок

Формула эта в настоящее время подвергается критике как раз за то, что она явным образом использует биномиальное распределение для аппроксимации нормального распределения, что не всегда применимо. Считается, что эта формула позволяет строить удовлетворительные гистограммы при числе измерений менее 200.

Существует целый ряд альтернативных формул, некоторые из которых вычисляют длину интервала, после чего определяется число требуемых классов (см. здесь).

Рассмотрим пару таких формул:

Формула Скотта (Scott, 1979)
, где h — длина интервала, s — стандартное отклонение значений ряда измерений

Формула Фридмана Диакониса (Freedman and Diaconis, 1981)
, где h — длина интервала, (IQ) — разница между верхним и нижним квартилем.

Эти формулы довольно просты и обоснованы статистической теорией, и считаются предпочтительнее формулы Стерджесса.

Калькулятор ниже использует в качестве результатов измерений результаты генератора случайных чисел, встроенного в Javascript.
Поскольку функция распределения генератора практически постоянная, случайное число, полученное от генератора, можно дополнительно модифицировать, выбрав в поле «Функция . » что-нибудь интересное. Собственно, это позволит наблюдать более веселые графики, вместо практически прямой линии.

Помимо построения гистограммы с использованием числа классов, полученных по формуле Стерджесса, строятся гистограммы с числом классов по Скотту и Фридману/Диаконису, а также с числом классов, произвольно заданных пользователем.

Конечно, практического применения в этом калькуляторе никакого, но зато можно посмотреть на разницу в числе классов и внешний вид гистограммы.

Статистическим распределением выборки.

Статистическим распределением выборкиназывают перечень вариант и соответствующих им частот (или относительных частот).

Статистическое распределение выборки можно задать в виде таблицы, в первой графе которой располагаются варианты , а во второй — соответствующие этим вариантам частоты ni, или относительные частоты Pi .

Статистическое распределение выборки

Варианты хi x1 x2 x3 xi xk
Число наблюдений (частота) ni n1 n2 n3 ni nk
Относительная частота Pi P1 P2 P3 Pi Pk

Интервальными называются вариационные ряды, в которых значения признаков, положенных в основу их образования, выражены в определенных пределах (интервалах). Частоты в этом случае относятся, не к отдельным значениям признака, а ко всему интервалу.

Интервальные ряды распределения строятся по непрерывным количественным признакам, а также по дискретным признакам, варьирующим в значительных пределах.

Интервальный ряд можно представить статистическим распределением выборки с указанием интервалов и соответствующих им частот. При этом в качестве частоты интервала принимают сумму частот вариант, попавших в этот интервал.

При группировке по количественным непрерывным признакам важное значение имеет определение размера интервала.

Определение величины интервала. Формула Стерджесса.

Величина интервала — разность между наибольшим и наименьшим значениями признака в каждой группе, называемыми границами интервала.

Интервалы групп могут быть равными и неравными. Интервалы устанавливаются в зависимости от характера распределения единиц совокупности по данному признаку. Если вариация (изменение) признака проявляется в сравнительно узких границах и распределение носит более или менее равномерный характер, то целесообразно устанавливать равные интервалы. В этом случае величину интервала определяют по формуле:

Читайте также:  Можно ли поправиться за один день обжорства

где хтах , хт1п — соответственно максимальное и минимальное значения признака в ряду;

к -число интервалов (групп).

Часто строят ряды с равновеликими интервалами. При построении вариационного ряда с равными интервалами определяют число групп (к) и величину интервала (h).

Оптимальное число групп (интервалов) может быть определено по формулеСтерджесса:

где n — число единиц совокупности.

Сами интервалы могут быть закрытыми(с указанием нижней и верхней границ) и открытыми(с указанием лишь одной из границ интервала).

При количественных группировках следует обращать внимание на правильное обозначение нижней и верхней границ интервала. При образовании интервалов по дискретным признакам это достигается посредством обозначения верхней и нижней границ смежных интервалов значениями признаков, отличных на единицу.

При построении интервальных вариационных рядов по непрерывным признакам необходимо указать, в какой интервал входит значение признака, являющегося границей смежных интервалов. То есть для устранения неопределенности необходимо решить вопрос о том, считать ли верхние границы каждой группы «включительно» или «исключительно».

После того как в результате сводки, материал статистического наблюдения сгруппирован, он, как правило, представляется в виде таблиц.

Статистическая таблица (подлежащее статистической таблицы, сказуемое статистической таблицы, групповая таблица, комбинационная таблица, простая таблица, сложная таблица).

Статистическая таблица форма наиболее рационального, наглядного и систематического изложения числовых результатов сводки и группировки статистических, материалов в виде ряда строк и столбцов. Основными элементами статистической таблицы являются подлежащее и сказуемое.

Подлежащее статистической таблицы — объекты изучения или перечень групп совокупности, характеризуемые цифровыми данными.

Сказуемое статистической таблицы — это цифровые показатели, которые характеризуют изучаемый объект. Сказуемое таблицы отражает то, что в ней говорится о подлежащем с помощью цифровых данных.

В зависимости от характера построения подлежащего различают простые, групповые и комбинационные таблицы.

Простой называется таблица, в подлежащем которой содержится перечень объектов наблюдения, например перечень работников предприятия.

Групповойназывается таблица, в подлежащем которой объекты наблюдения разгруппированы по одному признаку, например по профессиям работников предприятия. Комбинационной называется таблица, в подлежащем которой объекты наблюдения разгруппированы по двум и более признакам в комбинации, например, по категориям работников, в том числе и по полу.

По структуре сказуемого различают простые и сложные таблицы.

Простая таблицапредусматривает разработку показателей, характеризующих изучаемые объекты независимо друг от друга.

Сложная таблица предусматривает разработку показателей, характеризующих изучаемые объекты в комбинации.

Например, при характеристике объема перевозок в сказуемом таблицы можно дать перечень признаков, характеризующих объем перевозок по типам тяги и по видам движения. Это будет таблица с простой разработкой сказуемого.

Можно построить таблицу, сказуемое которой будет содержать перечень признаков по типам тяги и в том числе по видам движения. Это будет таблица со сложной разработкой сказуемого.

Наряду с таблицами, для наглядного изображения данных наблюдения и сводки, в статистике используются графики.

Построение рядов распределения

Любой ряд распределения характеризуется двумя элементами:

варианта (хi) – это отдельные значения признака единиц выборочной совокупности. Для вариационного ряда варианта принимает числовые значения, для атрибутивного – качественные (например, х=«государственный служащий»);

Читайте также:  Радиотелефон повышенного радиуса действия

частота (ni) – число, показывающее, сколько раз встречается то или иное значение признака.

Вариационный ряд называется интервальным, когда определены границы «от» и «до» для непрерывно варьируемого признака. Интервальный ряд также строят если множество значений дискретно варьируемого признака велико.

Интервальный ряд может строиться как с интервалами равной длины (равноинтервальный ряд) так и с неодинаковыми интервалами, если это диктуется условиями статистического исследования. Например, может рассматриваться ряд распределения доходов населения со следующими интервалами: k=1+3,322lg(n),

где k – число интервалов, n – объем выборки. (Конечно, формула обычно дает число дробное, а в качестве числа интервалов выбирается ближайшее целое к полученному число.)

Пример 1. Имеются данные о выбросах загрязняющих веществ из 50 источников:

Составить равноинтервальный ряд, построить гистограмму

Решение

Алгоритм построения равноинтервального ряда:

1) Внесем массив данных в лист Excel, он займет диапазон А1:J5

2) Подсчитаем объем выборки n – число выборочных данных, для этого в ячейку В7 введем формулу =СЧЁТ(А1:L5). Заметим, что для того, чтобы в формулу ввести нужный диапазон, необязательно вводить его обозначение с клавиатуры, достаточно его выделить.

3) Определим минимальное и максимальное значение в выборке, введя в ячейку В8 формулу =МИН(А1:L5), и в ячейку В9: =МАКС(А1:L5).

4) Поскольку число интервалов в задаче не задано, вычислим число интервалов k по формуле Стерджесса. Для этого в ячейку В10 введем формулу =1+3,322*LOG10(B7).

Рис.1.1. Пример 1. Построение равноинтервального ряда

5) Полученное значение не является целым, оно равно примерно 6,64. Поскольку при k=7 длина интервалов будет выражаться целым числом (в отличие от случая k=6) выберем k=7, введя это значение в ячейку С10.

6) Длину интервала d вычислим в ячейке В11, введя формулу =(В9-В8)/С10.

7) Зададим массив интервалов, указывая для каждого из 7 интервалов верхнюю границу. Для этого в ячейке Е8 вычислим верхнюю границу первого интервала, введя формулу =B8+B11; в ячейке Е9 верхнюю границу второго интервала, введя формулу =E8+B11. Для вычисления оставшихся значений верхних границ интервалов зафиксируем номер ячейки В11 в введенной формуле при помощи знака $, так что формула в ячейке Е9 примет вид =E8+B$11, и скопируем содержимое ячейки Е9 в ячейки Е10-Е14. Последнее полученное значение равно вычисленному ранее в ячейке В9 максимальному значению в выборке.

Рис.1.2. Пример 1. Построение равноинтервального ряда

8) Теперь заполним массив «карманов» при помощи функции ЧАСТОТА. Поскольку результатом является столбец частот, введение функции следует завершить нажатием сочетания клавиш CTRL+SHIFT+ENTER.

Рис.1.3. Пример 1. Построение равноинтервального ряда

По полученному вариационном ряду построим гистограмму: выделим столбец частот и выберем на вкладке «Вставка» «Гистограмма». Получив гистограмму, изменим в ней подписи горизонтальной оси на значения в диапазоне интервалов, для этого выберем опцию «Выбрать данные» вкладки «Конструктор». В появившемся окне выберем команду «Изменить» для раздела «Подписи горизонтальной оси» и введем диапазон значений варианты, выделив его «мышью».

Рис.1.4. Пример 1. Построение гистограммы

Рис.1.6. Пример 1. Построение гистограммы

Ссылка на основную публикацию
Формула рандома в паскале
Здравствуйте, уважаемые читатели нашего сайта. Сегодня мы рассмотрим две полезные процедуры в паскале - Random и Randomize.И опять я начну...
Фильм про девушку запертую в квартире
От нехватки ли бюджета, по сюжетному ли велению или просто из желания выпендриться, режиссеры время от времени помещают киноперсонажей в...
Фильмы для ipod classic
Хорошо, когда есть возможность удобно устроиться перед широким экраном огромного телевизора, а что делать, когда находишься в дороге и доступа...
Формула расчета мощности конденсатора
Реактивная мощность обусловлена способностью реактивных элементов накапливать и отдавать электрическую или магнитную энергию. Eмкостная нагрузка в цепи переменного тока за...
Adblock detector