Гистограмма это график: Как проводить анализ гистограмм? | Бережливые шесть сигм | Статьи | База знаний

Содержание

Типы распределений и соответствующие им гистограммы | Бережливые шесть сигм | Статьи | База знаний

Гистограммы помогают наглядно представить некоторые статистики выборки, а также визуально оценить закон распределения. Так как последний зачастую представляет наибольший интерес, визуальной оценке некоторых наиболее часто встречающихся распределений мы и уделим внимание в этой статье.

Для построения гистограмм воспользуемся генератором случайных чисел в программе Minitab. Подробное руководство и урок на одном листе уже опубликованы на нашем сайте, поэтому на самой процедуре получения чисел мы детально останавливаться не будем. Для каждого случая, за исключением отдельных примеров, будем генерировать по 1000 значений. Там, где это возможно, будем оставлять значения параметров по умолчанию. А там, где программа не предлагает таких значений, будем стараться разобрать на примере, какие величины мы могли бы внести.

Статья получилась довольно длинной, поэтому для удобства навигации добавлено содержание. Каждому рассмотренному распределению соответствует отдельный самодостаточный раздел. Это значит, что нет необходимости читать все подряд, но можно обратиться к нужному разделу, чтобы найти информацию об интересующем распределении. Ну а если такой информации не нашлось, обязательно оставьте отзыв в комментариях под публикацией.

Содержание:


Нормальное распределение (Normal distribution) или распределение Гаусса

Начнем, разумеется, с нормального закона распределения. Из всех распределений в проектах шести сигм чаще всего приходится иметь дело именно с ним. Нормальному распределению может подчиняться практически любая переменная, на которую не влияют специальные факторы (например, связывающие или ограничивающие).

В силу того, что на любой процесс влияет огромное количество различных факторов, его результат никогда не принимает одно и тоже значение, но распределяется вокруг некоторого значения – математического ожидания или среднего арифметического значения, если говорить о выборке. Следовательно, генерируя случайный набор чисел, подчиняющихся нормальному закону распределения, программа попросит нас задать среднее значение – Mean, а также Standard deviation – стандартное отклонение или меру рассеивания наблюдений вокруг математического ожидания:

Если построить гистограмму нормального распределения, то говорят, что она напоминает перевернутый колокол:

Примечательно, что какие бы величины параметров (математическое ожидание и стандартное отклонение) мы не задали, форма гистограммы от этого не поменяется. Чего не скажешь о следующем испытуемом.


Распределении Chi-square или χ2 (хи-квадрат)

Попробуйте сгенерировать 2 набора данных, указав разное количество степеней свободы (Degrees of freedom) – k: 1 и 5, к примеру.

Гистограммы частично перекроют друг друга, однако на графике отчетливо видно, что с увеличением числа степеней свободы пик смещается вправо. А если задать число степеней свободы 30 или выше, то гистограмма начнет напоминать нормальное распределение.

Практикам шести сигм довольно часто приходится иметь дело с распределением хи-квадрат. В частности, оно используется в тестах гипотез. Например, для оценки того, насколько хорошо выборка может быть описана распределением Пуассона (Stat \ Basic Statistics \ Goodness-of-Fit Test for Poisson), сопряженности номинальных данных (Stat \ Tables \ Chi-Square Test for Association) и т.д.

Больше о тестировании гипотез в среде Minitab вы можете в Карте выбора теста гипотез.


Распределение Фишера или Снедекора (F-distribution)

Движемся дальше – распределение Фишера или Снедекора (F), форма которого также будет зависеть от двух параметров: числителя и знаменателя числа степеней свободы – Numerator degrees of freedom и Denominator degrees of freedom соответственно.

По сути, это две независимые случайные величины, каждая из которых подчиняется распределению χ

2. Чтобы не влезать в дебри статистики и просто оценить их влияние, создайте 4 набора данных, задав следующие параметры:

Гистограммы для полученных таким образом числовых рядов будут выглядеть следующим образом:


Распределение Стьюдента (t-distribution)

Распределение Стьюдента (t) также часто применяется в статистическом анализе, к примеру, для построения доверительных интервалов, в тестах гипотез и т.д. T-критерий – частый “участник” проектов шести сигм.

Внешне гистограмма распределения Стьюдента может напоминать нормальное распределение: она также симметрична и также напоминает перевернутый колокол. Например, гистограмма распределения Стьюдента с числом степеней свободы 50 может иметь следующий вид:

Немного “упитаннее” и чуть короче хвосты, а в остальном полностью напоминает нормальное распределение.


Равномерное распределение (Uniform distribution)

На всех гистограммах выше был ярко выраженный пик. Но бывает и так, что на гистограмме присутствует большое количество пиков или вовсе нет выраженного пика. Иными словами, гистограмма представляет собой “плато”. Такие гистограммы встречаются довольно редко в проектах шести сигм и зачастую свидетельствуют о наличии специальных факторов вариации. Если каждый интервал гистограммы содержит примерно равное количество значений, то такая гистограмма называется однородной или гистограммой равномерного распределения (Uniform):

Для того, чтобы программа сгенерировала такой набор данных, нужно задать всего 2 параметра: начальную (Lower endpoint) и конечную точки (Upper endpoint). В примере выше это 0 и 20 соответственно.


Распределение Бернулли (Bernoulli distribution)

Распределение Бернулли (Bernoulli distribution) – распределение наблюдений, значения которых могут принимать лишь 2 взаимоисключающих значения: 0 или 1, успех или неудача, качественный или некачественный продукт и т.д.

При генерации чисел, программа просит задать лишь один параметр – вероятность события (Event probability),  значение от 0 до 1 (от 0 до 100%):

Вероятность того, что событие не произойдет, соответственно, равно разнице между 1 и вероятностью того, что событие произойдёт. Гистограмма такого распределения, ожидаемо, ничем нас тоже не удивит – 2 колонки, отражающее, сколько раз событие произошло и сколько раз событие не произошло:


Биномиальное распределение (Binomial distribution)

Биномиальное распределение (Binomial distribution) – также частый “участник” проектов шести сигм. Оно описывает вероятность события в серии независимых экспериментов. Например, сколько раз может выпасть число 6, если вы кинете игральную кость 10 раз? Ну или сколько бракованных изделий вы найдете, если возьмете 10 образцов из очень большой партии изделий?

Параметры распределения: количество экспериментов (Number of trials) и вероятность события (Event probability).

А вот и ответ на наши вопросы в графическом виде:

Выходит, что вероятнее всего найти 1 дефектное изделие в выборке или выкинуть шестерку 1 раз.


Геометрическое распределение (Geometric distribution)

Геометрическое распределение (Geometric distribution) – еще одно распределение, описывающее вероятность события, с тем лишь отличием, что мы получаем количество опытов до первого “успеха”. Иными словами, скольким автомобилям в конце линии нужно заглянуть под капот, чтобы найти брак?

Minitab попросит нас задать лишь вероятность – значение от 0 до 1 (от 0 до 100%). Но не спешите нажимать Ok. На сей раз при генерации чисел в диалоговом окне доступна кнопка Options. Давайте нажмем ее и посмотрим, какие возможности нам предлагает программа:

Итак, мы можем выбрать Model the total number of trials (смоделировать количество экспериментов до первого события) или Model only the number of non-events (смоделировать количество “неудач” до первого “успеха”).

Что мы видим на диаграмме? При заданной вероятности (0,1) почти 200 раз из 1000 мы нашли брак, заглянув под капот первого, второго или третьего авто. Если же проверить 10 машин, то общее значение повышается до 720 из 1000. Иными словами, вероятность вырастет до 72%.

Понятно, что до 100% можно добраться, лишь контролируя все автомобили в конце конвейера. Что, по сути, и делается на всех автомобильных заводах. Однако график показывает нам, что за 50 переваливает лишь 5 наблюдений. Это означает, что проведя контроль 49 авто, мы найдем брак с вероятностью 99,5%.


Отрицательное биномиальное распределение (Negative binomial) или распределение Паскаля

Данное распределение моделирует количество экспериментов до получения требуемого количества событий. Проводя параллель с задачей, которую мы разбирали выше, можно сформулировать вопрос так: сколько капотов необходимо открыть, чтобы найти определенное количество бракованных машин.

В отличие от предыдущего распределения – геометрического, – мы ищем количество опытов не до первого события, а до заданного числа событий. Если задать вероятность (Event probability) 0,1 и число требуемых событий (Number of events needed) 1, то получим такую же гистограмму, что и выше. Она покажет, что до первого брака нам нужно взять выборку в 49-50 авто. Но задав (Number of events needed), например, 5, получим совсем другую картину:

Чтобы найти 5 бракованных авто, придется заглянуть под сотню капотов. 117, если быть точным и придерживаться уровня 99,5%.

Говорят: “В каждой шутке есть доля правды”. Вот и из этого шутливого примера с капотами можно сделать 2 вывода:

  1. Хорошо, что современные производители машин производят на уровне 6 сигм и выше.
  2. А что это там в стороне за стоянка, и почему там крутится столько техников?

Гипергеометрическое распределение (Hypergeometric distribution)

Также, как и предыдущее, гипергеометрическое распределение описывает количество событий в серии экспериментов, с тем лишь отличием, что генеральная совокупность ограничена. Можно с уверенностью сказать, что это – любимое распределение сотрудника отдела качества, так как дает ответ на вопрос: какую выборку взять из партии, чтобы найти в ней дефект.

Параметры распределения:

  • Размер популяции – Population size (N) – это наша партия. В начале статьи мы с вами условились, что будем генерировать по 1000 наблюдений. Но чуть ниже я поясню, почему в случае гипергеометрического распределения это было не самым удачным решением.
  • Количество событий в популяции – Event count in population (M) – количество бракованных образцов в партии. Вы его не знаете, но наверняка предполагаете исходя из вероятности или предыдущего опыта с поставщиком.
  • Размер выборки – Sample size (n).

Гистограмма, которую мы получим, покажется нам весьма знакомой:

Если вы промотаете выше, то заметите что это брат-близнец гистограммы биномиального распределения. Так и есть, и в этом нет ничего странного. Распределения очень похожи, и даже примеры, которые мы с вами рассматриваем, одни и те же: партия, выборка, брак…

Это сделано не для того, чтобы вас запутать, а скорее наоборот – показать практическое применение рассматриваемых распределений. Обычно, когда вы берете образец для контроля качества, вы же не возвращаете его, чтобы потом опять выбрать случайным образом следующий образец из целой партии. Следовательно, если вы не нашли дефекта на первом образце, то вероятность нахождения дефекта на втором образце возрастает. Для описания этого подходит гипергеометрическое распределение.

Учебник по статистике или Википедия вам так и скажет: “Моделирует количество удачных выборок без возвращения из конечной совокупности”. Вот только когда вы имеете дело с большими партиями, как например партия в 1000 изделий, оба распределения могут быть с одинаковым успехом применены.

Поэтому, рассматривая биномиальное распределение, мы говорили об “очень большой партии”, а рассматривая гипергеометрическое, просто о партии и о том, что условиться генерировать 1000 значений было не самым удачным решением.

Кстати, возвращаясь к полученной гистограмме гипергеометрического распределения, можно с грустью констатировать, что если выборка в ходе приемочного контроля качества равна 20, наши поставщики могут спать спокойно, а производство – готовиться к новым вызовам.


Дискретное распределение (Discrete distribution)

Следующее распределение в списке – это дискретное (Discrete distribution). Тут следует сделать оговорку, так как это меню в списке Minitab-а предлагает нам сгенерировать некий числовой ряд с заданными величинами и вероятностями их появления в этом ряду. Это не отдельный вид распределения, а лишь общее название для распределений со счетным числом значений. Под эту категорию подпадают уже рассмотренные выше распределения: Бернулли, биномиальное, гипергеометрическое и другие.

Что нам потребуется, чтобы сгенерировать такое распределение? Нам потребуется таблица с данными и вероятностями появления этих данных. Например, для игральной кости это может выглядеть так:

У кубика 6 сторон с числами от 1 до 6. Вероятность выпадения какого-либо из них 1/6 или 0,16667:

Гистограмма для этого набора данных и такого распределения нас не удивит – она будет напоминать гистограмму равномерного распределения:

Задай вы другие величины, их количество и вероятности, гистограмма приняла бы совершенно другой вид, напоминая любое другое распределение или их смесь.


Целочисленное распределение (Integer distribution)

Опять начнем с оговорки, что это не совсем распределение – скорее, синтетический способ генерирования чисел, который предлагает нам Minitab для понимания важных теорий и практик статистического анализа.

Параметры распределения, которые нам потребуется задать: минимальное и максимальное значения. Меню, как вы заметили, очень напоминает то, как мы моделировали данные для равномерного распределения. С тем лишь отличием, что в результате мы получим только целые числа. При равномерном распределении мы могли получить целые и дробные числа.

Разделом выше мы задали величины от 1 до 6 и равные вероятности для них. Для целочисленного распределения будет достаточно задать минимальное значение (Minimum value) равным 1 и максимальное (Maximum value) – равным 6:

Гистограмма, ожидаемо, будет напоминать гистограмму равномерного распределения, а также тот график, что мы получили для дискретного распределения:


Распределение Пуассона (Poisson distribution)

Еще один частый участник проектов шести сигм – распределение Пуассона. С его помощью можно моделировать очень много процессов: количество обращений в банк за день, количество запасов для покрытия еженедельного спроса, количество инцидентов на производстве или смертей в больнице… Сложно переоценить спектр применения и важность этого распределения.

Для моделирования данных программа попросит задать всего один параметр1 – среднее значение (Mean). Давайте представим, что магазин электротоваров продает в среднем 5 пылесосов в день:

Полученная гистограмма даст возможность понять, к примеру, сколько пылесосов должно быть на складе, чтобы удовлетворить спрос с вероятностью 95%:

Чтобы не считать вручную, можно прибегнуть к анализу, который был рассмотрен в заметке Диаграмма распределения вероятностей (Probability Distribution Plot). Ну а продавай вы пылесосы десятками, можно было бы смело обратиться к нормальному распределению – с увеличением среднего распределение Пуассона все больше начинает напоминать нормальное распределение.


Бета-распределение (Beta distribution)

Данное распределение встречается реже в практике шести сигм, однако с его помощью, теоретически, можно моделировать любую случайную величину, значение которой ограничено определенным интервалом. Т.е. если стоит задача понять, когда на сайте появится новый читатель, какой срок согласования документов или любые другие SLA и т.д., то понадобится именно бета-распределение.

Для моделирования данных потребуется задать два параметра: α (альфа или First shape parameter) и β (бета или Second shape parameter). Гистограмма распределения будет зависеть от величины заданных параметров. Для понимания предлагаю сгенерировать наборы данных со следующими параметрами:

В результате получим 5 абсолютно различных гистограмм от параболической и равномерной до одновершинной симметричной и ассиметричной:

Глядя на эти графики, представьте, что α – это новый посетитель сайта SixSigmaOnline.ru, а β – пользователь Facebook. С какой вероятностью еще один человек оторвется от пролистывания темы и возьмется за голову шесть сигм?


Распределение Коши (Cauchy distribution)

Также известно как распределение Лоренца и Брейта-Вигнера. Вы наверняка встречались с этим распределением, проходя курс физики, но в проектах шести сигм это – не частый гость. Мне вот с ходу и не приходит на память проект, в котором я имел бы дело с этим распределением. Тем не менее, в списке Minitab-а это распределение есть – значит, наше дело нехитрое: генерируем данные и строим гистограмму.

У этого распределения нет математического ожидания и дисперсии, но есть коэффициент сдвига (Location) и коэффициент масштаба (Scale). Нам нет необходимости разбираться в статистике до малейших подробностей, поэтому можем условно представить, что коэффициент сдвига, даже если не представляет математическое ожидание, отражает положение пика гистограммы. А коэффициент масштаба – даже если не говорит о дисперсии – отражает размах. Также нет необходимости менять значения по умолчанию:

По сравнению с нормальным распределением, у гистограммы распределения Коши более длинные “хвосты” и острая вершина. К примеру, на графике ниже очень широкая шкала по оси X и заметна асимметрия вследствие того, что некоторые наблюдения значительно удалены от пика. Эксцесс (Kurtosis) – мера островершинности – равен 211 (у нормального распределения эксцесс близок к 0):


Экспоненциальное распределение (Exponential distribution)

Это непрерывное распределение моделирует время между двумя последовательными появлениями одного и того же события. Например, время между появлениями двух покупателей в магазине, метеоритов в небе, автобусов на остановке и даже период полураспада радиоактивных частиц будет случайной величиной с экспоненциальным распределением.

Параметры оставляем без изменений:

  • Scale – коэффициент интенсивности появления событий. С определенным допущением можем провести аналогию с распределением Пуассона и принять этот коэффициент за среднее значение.
  • Threshold – нижняя граница распределения – 0 (время между появлениями двух клиентов в магазине не может быть ниже 0).


Гамма-распределение (Gamma distribution)

Двухпараметрическое семейство абсолютно непрерывных распределений. Они применяются в различных отраслях экономики и техники, теории и практике испытаний надежности. В частности, гамма-распределению могут быть подчинены такие величины, как общий срок службы изделия, время наработки до k-го отказа (k = 1, 2, …, и т.д.). Также, это распределение используется в логистике для описания спроса в моделях управления запасами.

Параметры распределения могут называться по-разному. В Minitab это Shape parameter и Scale parameter. Чтобы оценить их влияние на распределение, сгенерируем 4 набора данных:

Также Minitab предлагает установить нижнюю границу распределения – Threshold, – но работает это так же, как и в случае с экспоненциальным распределением. Поэтому дополнительно рассматривать влияние его значения м не будем.

Судя по полученным гистограммам:

  • Первый параметр отвечает за положение пика.
  • Второй – за “ширину” гистограммы.

Распределение Лапласа (Laplace distribution)

Распределение Лапласа не часто встречается в проектах шести сигм, однако широко применимо в биологии, экономике и финансах. Для получения данных потребуется установить два параметра: Location (коэффициент сдвига) и Scale (коэффициент масштаба). Оставим значения по умолчанию:

Гистограмма распределения весьма напоминает нормальное распределение, только с более острой вершиной:


Распределения экстремумов (Extreme Value Distribution)

В этом разделе мы рассмотрим 2 распределения: распределение минимального значения (Smallest extreme value distribution) и распределение максимального значения (Largest extreme value distribution). Еще к этому семейству относится распределение Вейбулла, но его мы рассмотрим отдельно.

Как следует из названия, эти распределения помогут нам понять экстремумы: минимум и максимум. Отсюда и область применения: там, где предвидеть экстремумы очень важно. А это – анализ надежности критических процессов, финансовых рисков, страхование… Например, распределение минимального значения (Smallest extreme value distribution) может нам помочь понять при какой минимальной температуре система откажет? А распределение максимального значения (Largest extreme value distribution) – наивысшие страховые потери.

Сгенерируем данные для Smallest extreme value distribution, оставив значения параметров Location (коэффициент сдвига – отвечает положению пика) и Scale (коэффициент масштаба – отвечает дисперсии наблюдений) по умолчанию. Затем повторим тот же алгоритм для Largest extreme value distribution, оставив значения параметров по умолчанию:

Гистограммы, соответствующие распределениям:


Логистическое распределение (Logistic distribution)

Логистическая функция распределения по форме похожа на функцию нормального распределения. Её главное предназначение – моделирование данных бинарного типа. Используется, например, в медико-биологических исследованиях для анализа эффекта различных лекарств, ядов и т.д. От нормального распределения логистическое отличается длинными “хвостами” – данными, находящимися в крайних, отдалённых от центра, позициях.

Сгенерируем данные, оставив значения параметров Location (коэффициент сдвига – отвечает положению пика) и Scale (коэффициент масштаба – отвечает дисперсии наблюдений) по умолчанию:

Гистограмма — Карта знаний

  • Гистогра́мма (от др.-греч. ἱστός— столб + γράμμα — черта, буква, написание) — способ графического представления табличных данных.

    Количественные соотношения некоторого показателя представлены в виде прямоугольников, площади которых пропорциональны.

    Чаще всего для удобства восприятия ширину прямоугольников берут одинаковую, при этом их высота определяет соотношения отображаемого параметра.

Источник: Википедия

Связанные понятия

Гистогра́мма в математической статистике — это функция, приближающая плотность вероятности некоторого распределения, построенная на основе выборки из него. Столбчатая диаграмма или гистограмма — диаграмма, представленная прямоугольными зонами (столбцами), высоты или длины которых пропорциональны величинам, которые они отображают. Прямоугольные зоны могут быть расположены вертикально или горизонтально. Диагра́мма (греч. Διάγραμμα (diagramma) — изображение, рисунок, чертёж) — графическое представление данных линейными отрезками или геометрическими фигурами, позволяющее быстро оценить соотношение нескольких величин. Представляет собой геометрическое символьное изображение информации с применением различных приёмов техники визуализации. Гистограмма направленных градиентов (англ. Histogram of Oriented Gradients, HOG) — дескрипторы особых точек, которые используются в компьютерном зрении и обработке изображений с целью распознавания объектов. Данная техника основана на подсчете количества направлений градиента в локальных областях изображения. Этот метод похож на гистограммы направления края, дескрипторы SIFT и контексты формы, но отличается тем, что вычисляется на плотной сетке равномерно распределенных ячеек и использует нормализацию… Ящик с усами, диаграмма размаха (англ. box-and-whiskers diagram or plot, box plot) — график, использующийся в описательной статистике, компактно изображающий одномерное распределение вероятностей.

Упоминания в литературе

Гистограмма (столбиковая диаграмма) используется для графического представления распределения значений или вариаций рассматриваемого показателя. В качестве показателя могут выступать разнообразные величины: длина, диаметр, продолжительность, затраты и т. д. Информацию, представляемую гистограммой, также можно дать в таблице. Этот вид графиков наиболее удобен для сравнивания отдельных величин. Гистограмма бывает горизонтальной и вертикальной. Каждый столбец в ней показывает различные пункты. Скользящие средние являются широко распространенным способом сглаживания данных для выявления скрытого тренда. Однако, несмотря на их повсеместность на столбцовых гистограммах (bar charts), их использование на диаграммах «крестики-нолики» (point and figure charts) не нашло широкого применения, хотя эти диаграммы известны с конца 19-го века. Построение диаграмм «крестики-нолики», которые отражают изменение цены и его направление безотносительно к объему и времени, значительно отличается от построения столбцовых гистограмм. В столбцовых (и свечных) графиках горизонтальная шкала отображает время. Таким образом, для дневного интервала, новая точка рисуется каждый день. В «крестиках-ноликах» не все дни отображаются одинаково. В некоторые дни, отдельная бумага может претерпевать высокую активность, а в другие навевать скуку на маркет-мейкеров и специалистов.

Построение полигона, гистограммы, кумуляты, огивы

Для наглядности строят различные графики статистического распределения, и, в частности, полигон и гистограмму.

Полигоном частот называют ломаную, отрезки которой соединяют точки . Для построения полигона частот на оси абсцисс откладывают варианты , а на оси ординат – соответствующие им частоты . Такие точки  соединяют отрезками прямых и получают полигон частот.

Полигоном относительных частот называют ломаную, отрезки которой соединяют точки . Для построения полигона относительных частот на оси абсцисс откладывают варианты , а на оси ординат – соответствующие им относительные частоты (частости) . Такие точки  соединяют отрезками прямых и получают полигон частот.

Пример 1

Построить полигон частот и полигон относительных частот (частостей):

2 7 8 15 16 17
15 35 64 55 21 10

Вычислим относительные частоты (частости):

Относительные частоты,
2 15 0.075
7 35 0.175
8 64 0.320
15 55 0.275
16 21 0.105
17 10 0.050
Итого 200 1.000

Полигон частот

гистограмм

Гистограмма (также называемая гистограммой) — это графическое отображение данных с использованием столбцов разной высоты.

Представьте, что вы только что опросили своих друзей, чтобы определить, какой фильм им больше всего понравился:

Стол: Любимый тип фильмов
Комедия Экшен Романтика Драма SciFi
4 5 6 1 4

Мы можем показать это на гистограмме вроде этого:

Это действительно хороший способ показать относительные размеры: мы можем сразу увидеть, какие типы фильмов нравятся больше всего, а какие меньше всего.

Мы можем использовать гистограммы, чтобы показать относительные размеры многих вещей, например, какой тип автомобиля используют люди, сколько покупателей имеет магазин в разные дни и так далее.

Пример: Самый лучший фрукт

При опросе 145 человек их спросили: «Какой фрукт самый вкусный?»:

Фрукты: Яблоко Оранжевый Банан Киви Черника Виноград
Люди: 35 30 10 25 40 5

А вот гистограмма:

Эта группа людей думает, что черника самая вкусная.

гистограммы также могут быть горизонтальными , например:

Пример: оценки учащихся

В недавнем тесте это количество студентов получили следующие оценки:

Класс: А Б К Д
Студенты: 4 12 10 2

А вот гистограмма:

Вы можете создавать подобные графики, используя нашу страницу графиков данных (столбцы, линии, точки, круговые диаграммы, гистограммы).

Гистограммы и гистограммы

Гистограммы

хороши, когда ваши данные относятся к категориям (например, «Комедия», «Драма» и т. Д.).

Но если у вас есть непрерывные данные (например, рост человека), используйте гистограмму.

Лучше всего оставлять промежутки между столбиками гистограммы, чтобы она не выглядела как гистограмма.

гистограмм и гистограмм

Как точечные диаграммы, Гистограммы и гистограммы используются для сравнения размеров различных групп.

Примечание: Ваш браузер не поддерживает видео в формате HTML5. Если вы просматриваете эту веб-страницу в другом браузере (например, последняя версия Edge, Chrome, Firefox или Opera), вы можете посмотреть видеообработку этого урока.

Гистограммы

Гистограмма состоит из столбцов, нанесенных на график. Вот как читать гистограмму.

  • Столбцы расположены над меткой, представляющей категориальная переменная.
  • Высота столбца указывает размер группы определяется меткой столбца.

Гистограмма ниже показывает средний доход домохозяйства для четырех «Новые» штаты — Нью-Джерси, Нью-Йорк, Нью-Гэмпшир и Нью-Мексико.

Доход

36 000 долл. США

24 000 долл. США

12 000 долларов США

Новый
Джерси
Новый
Хэмпшир
Новый
Йорк
Новый
Мексика

График показывает, что доход на душу населения самый высокий в Нью-Джерси; самый низкий — в Нью-Мексико.

Гистограммы

Как и гистограмма, гистограмма состоит из столбцов, нанесенных на график. Обычно между соседними столбцами нет места. Вот как читать гистограмму.

  • Столбцы расположены над меткой, представляющей непрерывный, количественная переменная.
  • Метка столбца может быть отдельным значением или диапазоном значений.
  • Высота столбца указывает размер группы определяется меткой столбца.

Гистограмма ниже показывает доход на душу населения для пяти возрастные группы.

-34
Доход

40 000 долл. США

30 000 долл. США

20 000 долл. США

10 000 долл. США

175

56

35-44 45-54 55-64 65-74

Из диаграммы видно, что доход на душу населения является самым высоким в возрастной группе от 45 до 54 лет.

Разница между столбчатыми диаграммами и гистограммами

Вот основное различие между гистограммами и гистограммами. В гистограммах каждый столбец представляет группу, определяемую категориальная переменная; а с гистограммами каждый столбец представляет группа, определяемая непрерывной количественной переменной.

Одно из следствий этого различия: это может быть уместно говорить о перекос гистограммы; то есть тенденция наблюдений к падению больше на нижнем или верхнем конце оси X.

Однако в гистограммах ось X не имеет нижнего предела или высокий конец; потому что метки на оси X категоричны, а не количественный. В результате, комментировать асимметрия гистограммы.

Проверьте свое понимание

Задача 1

Рассмотрим гистограммы ниже.

Какие из следующих утверждений верны?

I. Оба набора данных симметричны.
II. Метки на оси X являются количественными.

(A) только я
(B) только II
(C) I и II
(D) Ни то ни другое.
(E) Для ответа на этот вопрос недостаточно информации.

Решение

Правильный ответ: (С). Обе гистограммы являются зеркальными отображениями вокруг их центр, так что оба симметричный. В гистограммах метки на оси X являются категориальными; с гистограммами метки количественные. Оба из них диаграммы — это гистограммы. Следовательно, их метки количественные.

Гистограмма для разгруппированных данных

Несмотря на то, что команда гистограммы дает желаемый результат для списка данных, который я вложил в свой файл ggb, предполагается, что гистограмма будет использоваться только для категориальных данных. Гистограмма предназначена для количественных данных. Таким образом, с точки зрения определения, команда гистограммы должна применяться только к категориальным данным. В Интернете есть множество определений, в которых говорится, что гистограммы предназначены для категориальных данных и могут иметь пробелы между ними.Это сильно отличается от гистограммы.

Определение гистограммы в соответствии с многочисленными веб-источниками: «Гистограмма состоит из табличных частот, показанных в виде смежных прямоугольников, расположенных на дискретных интервалах (интервалах), ………». Однако это определение проблематично с точки зрения преподавания математики в старших классах, поскольку группировка данных для небольших наборов данных не всегда необходима. Примером этого является бросание кости десять раз, табулирование и построение графиков набора данных. В Австралии мы сначала строим гистограммы без группировки данных.

Когда я впервые преподаю гистограммы, в столбце баллов таблицы частот я прошу своих студентов записать числа 1,2,3,4,5,6, а в столбце частот студенты записывают соответствующие частоты для каждого целого числа. Исходя из этого, мы строим гистограмму со столбцами с центрами чисел 1,2,3,4,5,6. См. Мой прикрепленный файл ggb.

Первоначальное отображение Geogebra этих данных игральных костей с помощью кнопки анализа одной переменной немного странно в том смысле, что классы, используемые при группировке данных:

1-1 5/6, 1 5/6 — 2 2/3 и т. Д. .Таким образом, Geogebra рассматривает набор данных как непрерывный, а не дискретный, и интервалы классов также не имеют смысла.

Одно из предложений для решения этой проблемы заключалось в том, чтобы вручную установить для классов ширину 1, начиная с 0,5. Это создает желаемую гистограмму. В таблице частот показаны классы 0,5 — 1,5, 1,5 — 2,5 ….. Однако зачем мне группировать дискретный набор данных со значениями 1,2,3,4,5 или 6 и зачем мне использовать такой класс интервалы для дискретных целочисленных данных? С точки зрения учащихся старшей школы, они хотят нажать кнопку анализа одной переменной и увидеть этот набор дискретных данных в виде таблицы частот, не группируя набор данных по классам, и они хотят видеть гистограмму со столбцами, сосредоточенными на числах. 1,2,3,4,5,6.Я прикрепил файл ggb, показывающий, что я хотел бы видеть с помощью кнопки анализа одной переменной в представлении электронной таблицы.

Наконец, было бы неплохо, если бы GeoGebra предоставила вам выбор между дискретными или непрерывными данными с группировкой или без группировки.

https://ggbm.at/552561

Quick-R: графики плотности

Гистограммы

Вы можете создавать гистограммы с помощью функции hist ( x ) , где x — числовой вектор значений, которые необходимо отобразить.Параметр freq = FALSE отображает плотности вероятностей вместо частот. Параметр breaks = управляет количеством ячеек.

# Простая гистограмма
hist (mtcars $ mpg)

нажмите для просмотра

# Цветная гистограмма с разным количеством ячеек
hist (mtcars $ mpg, breaks = 12, col = "red")

нажмите для просмотра

# Добавить нормальную кривую (спасибо Питеру Далгаарду)
x <- mtcars $ mpg
h <-hist (x, breaks = 10, col = "red", xlab = "Miles Per Gallon",
main = " Гистограмма с нормальной кривой ")
xfit <-seq (min (x), max (x), length = 40)
yfit <-dnorm (xfit, mean = mean (x), sd = sd (x))
yfit <- yfit * diff (h $ mids [1: 2]) * length (x)
строк (xfit, yfit, col = "blue", lwd = 2)

нажмите для просмотра

Гистограммы могут быть плохим методом для определения формы распределения, поскольку на нее сильно влияет количество используемых интервалов.

Чтобы попрактиковаться в построении графика плотности с помощью функции hist (), попробуйте это упражнение.

Графики плотности ядра

Графики плотности ядра обычно являются гораздо более эффективным способом просмотра распределения переменной. Создайте график, используя график (плотность ( x )) , где x — числовой вектор.

# Kernel Density Plot
d <- density (mtcars $ mpg) # возвращает данные плотности
plot (d) # строит результаты

нажмите для просмотра

# График плотности с заливкой
d <- density (mtcars $ mpg)
plot (d, main = "Kernel Density of Miles Per Gallon")
polygon (d, col = "red", border = "blue")

нажмите для просмотра

Сравнение групп по плотности ядра

см.Функция density.compare () в пакете sm позволяет наложить графики ядерной плотности двух или более групп. Формат: см. Плотность. Сравнение ( x , , коэффициент ), где x — числовой вектор, а коэффициент — группирующая переменная.

# Сравните раздачи MPG для автомобилей с
# 4,6 или 8 цилиндров
библиотека (см)
прикрепление (mtcars)

# создание ярлыков значений
цилиндров.f <- коэффициент (цил, уровни = c (4,6,8),
метки = c («4 цилиндр», «6 цилиндр», «8 цилиндр»))

# плотность графика
см. плотность. сравнить (mpg, cyl, xlab = «Miles Per Gallon»)
title (main = «Распределение MPG по автомобильным цилиндрам»)

# добавить легенду щелчком мыши
colfill <-c (2: (2 + length (levels (cyl .f))))
легенда (локатор (1), уровни (cyl.f), ​​fill = colfill)

нажмите для просмотра

Подсказка по графику — Как построить гистограмму, исходя из необработанных данных? Я хочу, чтобы Prism вычислила для меня частотное распределение.- FAQ 296


Как это сделать с призмой 7

Эта страница в справке Prism 7 объясняет.

Старые версии


Prism 5: см. Это пошаговое объяснение в справочной системе Prism 5.

Призма 4: обратитесь к разделу «Гистограммы из необработанных данных с использованием автоматического вычисления частоты» в этом обучающем примере.

Призма 3: Создайте таблицу, отформатированную следующим образом: X столбец = Нет (столбец графа), Y столбцов = один столбец значений.Введите исходные данные в первый столбец (ниже показана только часть таблицы для этого примера):

Щелкните «Анализировать» и выберите «Статистический анализ .. Частотное распределение (гистограмма)». В диалоговом окне «Параметры» установите флажок «Создать новый график результатов». Обратите внимание, что вы можете вручную установить ширину ячейки в этом диалоговом окне или разрешить Prism сделать это за вас. Когда анализ будет завершен, появится лист результатов, показывающий значения, вычисленные Prism для частотного распределения:

Щелкните вновь созданный лист графика, чтобы просмотреть линейный график этого распределения:

Самый быстрый способ преобразовать гистограмму в столбик — нажать «Изменить».. Тип графика », затем выберите« Тип графика: гистограмма ». На иллюстрации ниже мы уменьшили размер шрифта метки горизонтальной оси, чтобы разместить многочисленные метки центра ячеек:

Некоторым пользователям нравится накладывать линию, показывающую подобранное распределение Гаусса. Для этого вместо изменения типа графика оставьте его как график X-Y. Щелкните «Изменить .. символы и линии». Удалите соединительную линию, установите флажок «Символы» и измените форму символа на один из последних четырех вариантов.В результате вместо точечных символов образуются «шипы» или полосы. Увеличьте размер символа, что при желании приведет к расширению «полос». Вот выборы:

Обратите внимание, что этот подход с псевдополосковой диаграммой (все еще является графиком XY, насколько это касается Prism) приводит к более удобочитаемой маркировке центра бункера, поэтому вы можете использовать его, даже если вы не заинтересованы в наложении линии на графике. Дополнительным преимуществом является то, что вы можете редактировать диапазон оси X и интервалы деления, чтобы улучшить внешний вид и читаемость графика:

Теперь сгенерируйте подобранную линию распределения — начните с нажатия «Анализировать».. Кривые и регрессия .. Нелинейная регрессия (аппроксимация кривой) ». В диалоговом окне« Параметры: нелинейная регрессия »выберите« Гауссово распределение »из списка классических уравнений.

2.2 Гистограммы, многоугольники частот и графики временных рядов — вводная статистика

Для большей части работы, выполняемой в этой книге, вы будете использовать гистограмму для отображения данных. Одним из преимуществ гистограммы является то, что она может легко отображать большие наборы данных.Практическое правило — использовать гистограмму, когда набор данных состоит из 100 или более значений.

Гистограмма состоит из смежных (смежных) прямоугольников. Он имеет как горизонтальную ось, так и вертикальную ось. На горизонтальной оси отмечено то, что представляют данные (например, расстояние от вашего дома до школы). По вертикальной оси отложена частота или относительная частота (или процентная частота или вероятность). График будет иметь одинаковую форму с любой меткой. Гистограмма (как и стержневой график) может дать вам форму данных, центр и разброс данных.

Относительная частота равна частоте наблюдаемого значения данных, деленной на общее количество значений данных в выборке. (Помните, частота определяется как количество раз, когда появляется ответ.) Если:

  • f = частота
  • n = общее количество значений данных (или сумма отдельных частот), и
  • RF = относительная частота,

затем:

Например, если трое учеников в Mr.Класс английского языка Ахава из 40 студентов получил от 90% до 100%, тогда f = 3, n = 40 и RF = fnfn = 340340 = 0,075. 7,5% студентов получили 90–100%. 90–100% — это количественные показатели.

Чтобы построить гистограмму , сначала решите, сколько столбцов или интервалов , также называемых классами, представляют данные. Многие гистограммы для наглядности состоят из пяти-пятнадцати столбцов или классов. Количество полосок нужно выбрать.Выберите начальную точку для первого интервала, которая должна быть меньше наименьшего значения данных. Удобная начальная точка . — это меньшее значение с точностью до одного десятичного знака, чем значение с наибольшим количеством десятичных знаков. Например, если значение с наибольшим количеством десятичных знаков — 6,1, и это наименьшее значение, удобная отправная точка — 6,05 (6,1 — 0,05 = 6,05).

alexxlab

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *