Лекции УНСС Блогът на Петко Иванов

Лекции по Статистика при доц. Соня Чипева – УНСС

Университет: УНСС

Предмет: Статистика

Преподавател: доц. Соня Чипева

Коментар: Лекциите са доста подробни и са напълно достатъчни за подготовка

Подкрепи блогът: Тъй като поддръжката на сайта и оформяннето на подобни материали изискват доста време и ресурси ще съм благодарен ако разгледаш някои проморциолни продукти, със специално намаление за читателите.

Основни понятия в статистиката

Обекта на статистиката са масовите явления.

Предмет на статистиката са самите закономерности с които те се проявяват.

Статистически или съвкупностен подход е този, който се използва за изследването на масовите явления. Масовите явления не могат да се проявят чрез отделните случаи, но за да може да се прояви изцяло зависимостта е необходимо да изучим всички необходими случаи. Когато изучаваме масовите явления ние изучаваме съвкупност от определени еднородни единици. Статистиката е наука, която предоставя методология за изследването на масовите явления във всяка една човешка дейност.

Статистика – това е наука за събиране систематизиране и анализ на съвкупностни данни.

Статистическа единица – наричаме всеки един конкретен случаи чрез който се проявява дадено масово явление(човек, предмет, събитие и т.н.)

Съвкупността от статистически единици чрез, които едно масово явление може да се прояви или да бъде изучено представлява статистическа съвкупност. Или по просто казано Статистическата съвкупност е съвкупността от статистически единици. Статистическата съвкупност включва в себе си само тези определени статистически единици чрез които се проявява интересуващо ни явление. Това кои единици се включват се определя от т.нар. дефиниционен признак – това е един критерии, който може да включва няколко показателя и чрез него разпознаваме всички случаи които представляват статистическите единици. Всяка статистическа съвкупност зависи от изучаваното явление(т.е. явлението е на точно определено място и време). Има различни класификации статистически съвкупности:

  • Според обхвата на единиците в статистическата съвкупност :
    • Генерална съвкупност –включват се всички единици
    • Извадка – включват се само част от единиците на генералната съвкупност
  • От гледна точка на това дали единиците на съвкупността съществуват във всеки един произволно избран момент от времето или се появяват и съществуват определен период от време:
    • Периодни
    • Моментни

Ститистически признак – когато изучаваме дадено явление ние го изучаваме чрез неговите признаци.  Всяко явление има различни понятия и чрез признаците ние ги изучаваме и виждаме как се проявяват. Това се нарича оперализация. Признаците се разделят на 2 групи, според начина по който се измерват:

  • Метрирани признаци – разновидностите на признака може да бъдат индентифицирани числово(възраст, ръст и др.) Прави се разгриничаване от математическа гледна точка, но от гледна точка на математиката може да бъдат
    • Прекъснати – цели числа
    • Непрекъснати – могат да се детайлизират безкрайно
  • Категорийни признаци(не метрийни) – разновидностите на проявление на признака не могат да се дадат в числов вид(цвят на очите, местоживеене, пол и др). Те се делят на 3 групи
    • Алтернативни признаци – съществуват само 2 разновидности(пол)
    • Номинални признаци – имаме повече от 2 разновидности, но те само маркират различия без да могат да се съизмерват по между си(местоживеене)
    • Ординални признаци – имаме повече от 2 значения и те се изразяват словесно, а не числово но могат да се съизмерят макар че не в числов вид.

Статистически скали за измерване

Измерване в статистиката – идентифициране на отделните разновидности на един статистически признак. Измерването на статистическите признаци се осъществява с помощта на статистически скали

Статистическа скала наричаме съвкупността от всички възможни разновидности (значения), които може да приема един статистически признак.

Видове статистически скали:

  • Слаби скали
    • Дихотомна – скала, която има само 2 разновидности, на тази скала се измерват алтернативните признаци(да и не, използва се 0 и 1, за да може да използваме инструментите налични при метричните скали)
    • Номинална – скала с повече от 2 разновидности, които не са съизмерими помежду си(например местожителство)
    • Ординална – скала с повече от 2 разновидности, които могат да се съизмерват помежду си, но нямат конкретно числово изражение, ординалните скали имат 3 разновидности(степен на владеене на езика)
      • Полуподредена(степенна) скала – скала, която съдържа категории на съответни ординални признаци
      • Рангова скала – скала, която съдържа рангове на изучаваните статистически единици, подредени съобразно техните значения във възходяш или низходящ ред(ако имаме проектни приложения, те се оценяват от много експерти, като накрая се получава някакъв сбор от точки и ги подреждаме по този критерии)
      • Бална скала – съдържа балове(в числово изражение), които отразяват разновиностите на съответните статистически признаци
    • Силни скали
      • Интервална скала – числова скала, която не съдържа абсолютна нула(температурната скала) – деленията са точно определени и има мерна единица.
      • Пропорционална(относителна) скала – числовата скала, която съдържа абсолютна нула(възрастта, дохода на човек, печалба и т.н.)

 

Статистическо изследване

Статистическо изследване наричаме процеса на събиране, обобщаване и анализ на данни за проявлението на интересуващи ни масови явления и процеси с цел получаване на подходящи обобщаващи характеристики за описание на състоянието или развитието на тези явления.

Статистическото изследване може да се разглежда като един сложен технологичен процес на производство и предоставяне на статистическа информация за управленски, оптимизационни или други цели.

 Според обхвата:

  • Изчерпателни статистически изучавания – обхващат изучаването на всички единици в генералната съвкупност. Тези изследвания въпреки пълната и точна информация, която предоставят обикновено са много скъпи, изискват много време и ресурси като цяло.
  • Извадкови статистически изучавания – обхващат част от единиците в генералната съвкупност. Биват представителни и непредставителни. Статистическата методология за изводи и заключения изисква данните при извадковите изучавания да бъдат от представителни извадки. В противен случай не може да бъде гарантирана достоверността на получаваните резултати.

Според начина на изучаване на масовите явления:

  • Статистически изследвания в статика(изучават се неща, които не се променят)
  • Статистически изследвания в динамика(изучаване развитеито на явленията във времето)

Според продължителността:

  • Еднократни(провеждат се само един път)
  • Периодични(провеждат се повече от един път)

Според начина на организиране и провеждане:

  • Текуща статистическа отчетност – правно регламентирана от Закона за статистиката форма за наблюдение. Чрез нея се събира основно статистическа информация от социално икономическа сфера. Програмата и организацията на тези статистически наблюдения е относително постоянна във времето.
  • Специално организиране статистически изследвания – предназначени са за изучаване на масови явления и процеси, които не са обхванати от текущата статистическа отчетност. За всяко такова изследване се изготвя емпиричен модел, описващ цялостната технология на събирането, обработката и анализа на статистически данни. Разработва се конкретен организационен план и програма за провеждане на наблюдението и информацията се събира и регистрира съобразно този план.

Етапи на статистическото изследване:

  • Класически подход
    • Подготвителен етап
    • Наблюдение и регистрация на данните
    • Групировка и сводка на данните
    • Статистически анализ
  • Съвременен подход
    • Подготвителен етап(събира се възможно най-много вече известна информация за да може да се изберат най-добрите инструменти и да се подходи по най-ефективния начин. Тук се прави и т.нар. емпиричен модел – определя се ресурса, разписва се програмата и т.н.)
    • Пробно изследване(изследване на бюро) – проследява се как ще протече изследването и се отстраняват различни пропуски и проблеми
    • Същинско изследване –

Направления на статистическия анализ:

  • Ситуационно(описателно) изследване – описва състоянието или функциониране на дадено масово явление или процес. Използват се описателни и обобщаващи статистически характеристики на емпиричните разпределения.
  • Диагностично изследване – разкрива причините и факторите за състояние и изменението на масовите явления и процеси. Използавт се методи за статистическа проверка на хипотези и методи за иследване на връзки и зависимости.
  • Прогностично изследване – прогнозира състоянието и развитието на масовите явления в бъдещи периоди. Използват се методи за моделиране на основната тенденция, методи за изучаване на сезонни и циклични колебания и други методи за анализ на временни редове.
  • Оптимизационно изследване – разработване на различни варианти за състоянието и развитието на масови явления и избор на оптимален вариант при определени условия – по този начин се отсяват различните варианти за извършване на изследването и така се избира по подходящи методи, въпреки че не се елиминира напълно човешкия фактор.
  • Номографско(законоустановяващо) изследване – въз основа на доказване на същестувавщи статистически закономерности при конкретни емпирични данни, верифициране на тези закономерности за по-общи условия.

Подготовка за статистическото изследване – основни моменти при разработване на организационния план и програма:

  • Статистическите единици на наблюдение – определя се въз основа на характера на самите явления и зависят от това как са формулирани целите и задачите на изследването(определя се обекта и предмета на изследването)
  • Времето на наблядение – обвързано е с това какви единици се наблюдават, какъв е достъпа до тези единици и кой ще извършва вземането на съответните данни
  • Мястото на наблюдението
  • Органа на наблюдение
  • Източниците на информация и методиката на наблюдението – анкета, интервю, счетоводни или друг вид отчетни документи, пряко наблюдение и други
  • Начина на регистриране на първоначалната информация

Статистическо наблюдение – обхваща действията и операциите по събиране и регистриране на първоначалната статистическа информация за отделните единици на изследваната съвкупност. Неговата организация в голяма степен зависи от вида.

Регистрация на първичните статистически данни:

  • Първична статистическа таблица- таблица, в която се регистрират първичните статистически данни, получени от наблюдението. Тя може да се изготви на хартия или в електронен вид под формата на файл с данни.

Основни елементи на първичната статистическа таблица:

  • Заглавие – описва съдържанието на данните
  • Челна колона за идентифициране на всяка отделна наблюдавана статистическа единица. Във връзка с тайната на личните данни идентификацията на единиците се анонимизира.

 

Статистическа групировка и сводка

Статистическа групировка – целенасочено систематизиране, подреждане и обобщаване на статистически данни в качествено еднородни групи.

Цели на статистическата групировка

  • Да се получи обобщена количествена характеристика на изследваното явление
  • Да се разкрие вътрешната структура на явлението
  • Да се установят вътрешни закономерности за изследваното явление

Видове статистически групировки:

  • Според вида на признака
    • Категориен признак
    • По метриран признак
  • Според начина на оформяне на групите
    • Дискретни – такава групировка в която групите в които разпределяме единиците на изучаваната съвкупност съдържат само по едно значение на признака – прави се само когато признака е неметриран (номенклатура) или е метриран прекъснат признак
    • Интервални – групите в които разпределяме единиците съдържат по повече от едно значение на признака(например ако изследваме дохода взимаме интервали до 100лв, от 100-200 и т.н.)
  • Според броя на признаците
    • Едномерни
    • Двумерни(крос таблици)
    • Многомерни

 

Процедура на статистическо групиране

Съставяне на групите за групиране. Групите трябва:

  • Да отразяват вътрешната структура на явлението
  • Да осигуряват обхващането на всички единици в съвкупността
  • Да осигуряват едновременно разпределението на единиците

Отнасяне на единиците по групи

  • Разпределение на единиците по групите съобразно значенията им по съответния признак

Определяне и изчисляване на описателните характеристики на получено разпреселение

  • Абсолютна честота(fi)
  • Относителна честота(pi) – класически и коригирани

                   pi =                                                          pi ` =

  • Кумулативни честоти(ci) – абсолютни и относителни

                                  ci – ci-1 +fi

Особености при едномерните групировки. Техника за определяне групировката при интервалната групировка:

  • Целеви признаци – ширините на интервала в отледните групи и броя на групите се определят експертно, съобразно определени цели на групировка. Обикновено това са групировките с различна ширина на интервалите
  • Метод на Стърджес – само групировките с равни ширини на интервалите
  • Аритметичен метод – само за групировките с равни ширини на интервала
  • Най-често на практика се прилага аритметичния метод. При него предварително се определя броя на групите(k) и след това се изчислява ширината на интервала(h) с помощта на следната формула:

h = (Хмах – Хmin)/k

Графично представяне на резултатите:

  • Тази диаграма се прилага най-често при категорийни признаци
  • Полигон на едномерно емпирично разпределение – линейна диаграма, която представя съотвествието между значенията на статистическия признак и абсолютните или относителните честоти. Използва се за графично представяне на емпирично разпределение само по метриран признак.
  • Хистограма на едномерно емпирично разпределение – правоъгълна плоскостна диаграма, която представя съотвествието между значениеята на статистически признак и абсолютните или относителните честоти. Изпозва се за графично представяне на емпиричното разпределение само по метриран признак.

Същност на едномерни емпирични разпределения

Форма на представяне на едномерните емпирични разпределения

  • Статистически ред на разпределение. Емпиричното разпределение се представя в таблиен вид
  • Полигон на разпределението. Графично представяне на емпиричните едномерни разпределения по количествени признаци под формата на линейна графика
  • Хистограма

Видове едномерни емпирични разпределения

  • Според вида на признака, по който са получени
    • По категориен признак
    • По количествен признак
  • Според единиците, които обхващат
    • Разпределение на генерелната съвкупност
    • Разпределение на извадка
  • Според формата на полигона
    • Симетрично, асиметрично
    • Според броя на върховете – Едномодално, бимодално, полимодално

Видове едномерни емпирични разпределения

  • Симетрично разпределение(камбановидно)
  • Асиметрично разпределение(дясно и ляво асиметрично разпределение)
  • L-разределение и J-разпределение(крайни форми на разпределение)
  • U – разпределение

Обобщаващи статистически характеристики на еднометрични разпределения

  • Център на разпределението(център на тежеста- х) – или Е(x) – стойност на признака спрямо която сумата от отклонението на всички индивидуални значения на признака по-малко от тази стойност е равна на сумата от отклоненията на всички индивидуални значения на признака по-големи от нея
  • Центъра на разпределенеито показва къде е фиксирано разпределението от значения на признака спрямо началото на скалата на измерване
  • В статистика центъра на разпределение се изчисляа чрез средни величини – средна аритметична, средна хармонична, средна квадратична, средна кубична, медиана, мода и други.

Степен на разсейване – степента на отдалеченост на индивидуалните значения на признака от определена характерна стойност(обикновено от центъра на разпределение). Степента на разсейване показва в обобщен вид какви са отклоненията на индивидуалните значения на признака от определена стойност. В статистиката степента на разсейване се измерва с подходящи показатели за разсейване – размах, средно аридметично отклонение, средно квадратично(стандартно) отклонение.

Форма на разпределение – формата на емпирично разпределение се определя чрез сравнение на формата на полигона на разпределението спрямо полигона на симетричното разпредленетие

Симетрично разпределение – честотно разпределение, чиито рамена на полигона по отношение на перпендикуляра, построен през центъра на разпределение са огледално еднакви, т.е. ако прегънем кривата на полигона на разределението по перпендикуляра, построен през центъра му , то двете рамена ще съвпадат напълно

Сравяването на полигона на едно емпирично разпределение е полигона на симетрично се осъществява като центрове на двете разпределения съвпадат

 

Средни величини

Същност и видове средни величини

Средните величини са статистически показатели за измерване на центъра на емпиричните разпределения. Те разкриват общото, типичното, закономерното за изучаване съвкупност по отношенеи на изучавания признак.

Видове:

  • Според характера на осредняване на величините
    • Вариационни средни – изразяват средно равнище на признака за изследване статистическа съвкупност
    • Хронологични средни изразяват средно равнище на признака за определен период от време
  • Според обхвата на единиците
    • Средни на генерална съвкупност
    • Извакова средна
  • Според степента на обобщаване на данните
    • Средни на цяла съвкупност
    • Групови средни
  • Според участвието на индивидуалните значения на признака при изчисляване на показателя
    • Алгебрични средни – изчисляват се при участие на всички индивидуални значения на признака – предсавители – средна аритметична средна хармонична, средна квадратична, средна кубична и други
    • Неалгебрични среди – изчисляват се при участие само на определени индивидуални значения на признака – предсавители – медиана, мода квартили

Средна аритметична – сума от индивидуални значения на всички единици от съвкупността на изучавания признак разделена на боя на тези единици. Отбелязва се с  

Свойства на средната аритметична

  • Сумата от отклоненията на индивидуалните стойности от средната аритметична е равна на нула
  • Сумата от квадратите на отклоненията на индивидуалните стойности от средната аритметична е най-малката възможна величина

Техника за изчисление на средна аритметична

Непретеглена формула – когато средната аритметична се изчислява от първични данни прилагаме т.нар непретеглена формула. Тази формула се нарича още непретеглена средна или проста средна.

Претеглена форма – когато изходните данни са в групиран вид т.е. под формата на статистически ред на разределение, за пресмятана на средна аритметична се използва т.нар. претеглена формула, където значенията на признака преди да се осреднят се прегетлянт със съответните честоти.

Медиана

Медианата е значението на тази единица в съвкупността, която разделя съвкупността на две равни групи от единици при условие, че единиците са подредени предварително по изходящи значения на признака. При установяване на медианата участват индивидуалните значения на една или няколко единици от съвкупността съобразно вида на изходните данни. Бележи се с Me. Медияната може да бъде определена по отношение на метрираните и на ординалните неметрирани статистически признаци.

Мода – е най-често срещаното значение на признака, т.е. това значение, което има най-висока честота. Бележи се с Mo. Модата може да бъде определена по отношение на метрираните и на неметрираните стратегически прогнози. В едно емпирично разределение може да има повече от една мода. Техника за определяне на модата – Първични негрупирани данни – определят се значенията на изучавания статистически признак, които се срещат най-често.

Интервален статистически ред

  • Определяме модалната група – групата с най-ниска абсолютна честота
  • Определяме стойността на модата по формулата

Същност и измерителна статистическо разейване

Степен на разсейване – степента на отдалеченост на индивидуалните значения на признака от определена характерна стойност(обикновено от центъра на разпределение)

Измерители на статистическо разсейване:

  • Абсолютни измерители – измерват степента на разсейване в абсолютни единици в мерната единица в мерната единица на признака. Служат за представяне степента на разсейване в отделното емпирично разпределение. Представители размах, средно аритметично отклонение, средно квадратично отклонение
  • Относителни измерители измерители – измерват степента на разсейване в относителни единици. Служат за сравнение на степента на разсейване в две различни емпирични разпределения. Представители дисперсия, коефициенти на вариация.

Абсолютни показатели за разсейване

  • Размах (R) – числовият интервал в който се намира индивидуалните значения на признака
  • R = Xmin – Xmax
  • Средно аритметично отклонение(сигма)

Съобразно изходните данни, изчисляването на средното аритметично отклонение се осъществява чрез различни техники

  • Непретеглена формула- Прилага се за изчисляване на средното аритметично отклонение при изходни данни под формата на първична статистиеска таблица

Претеглена формула. Прилага се за изчисляване на средното аритметично отклонение когато изходните данни са групирани. В случай че изходните данни са под формата на интервален статистически ред, отново се прилага претеглената формула.

Техники за изчисляване на средно аритметично отклонение

  • Претеглена формула – прилага се за изчисляване на средното аритметично отклонение когато изходните данни са групирани.
  • В случай, че изходните данни са под формата на интервален статистически ред, отново се прилага претеглената формула, като предварително интервалния ред ред се трансформира в дискретен

Средно квадратично(стандартно отклонение – най-точният абсолютен измерител на степента на разсейване е средно кватратично стандартно отклонение

Техники за изчисляване на средно аритметично отклонение

  • Непретеглена формула. Прилага се за изчисляване на средното квадратично отклонение при изходни данни под формата на първична статистическа таблица

 където xi са значенията на признака

  • Претеглена формула. Прилага се за изчисляване на средното квадратично отклонение когато изходните данни са групирани

В случай, че изходните данни са под формата на интервален статистически ред, отново се прилага претеглената формула.

Дисперсия – дисперсията е основен относителен показател за степента на разсейване. Тя представлява квадрата на средното квадратично отклонение. Нейното предимство е, че се изчислява заедно с изчислението на стандартното откллонение, т.е. не изисква допълнителни изчислителни процедури.

При негрупирани изходни данни дисперсията се изчислява с помощта на непретеглена формула.

Когато изходните данни са групирани в дискретен или интервален ред за изчисляване на дисперсията се изолзва претеглена формула.

Коефициент на вариация – може да се изчисли въз основа на всеки от абсолютните показатели за разсейване. Формулата за изчисление на всички коефициенти на вариация е аналогична.

Коефициентът на вариация по стандартното отклонение е най-често прилагания относителен показател от тази група.

VR=

Асиметрия и екцес

Формата на емпиричното разпределение се определя чрез сравнение на формата на полигона на разпределението спрямо полигона на нормалното стандартизирано разпределение. Полигона на това разпределение е симетрична камбановидна крива с точно определена височина

Симетрично разпределение – честотно разпределение, чиито рамена на полигона по отношение на перпендикуляра, постоянен през центъра на разпределението, са огледално еднакви

Сравняването на полигона на едно емпирично разпределение с полигона на нормалното стандартизирано разпределение се осъществява като ценртовете на двете разпределения съвпадат

Измерители на формата на емпиичното разпледеление са показателите за асиметрия и екцес.

Коефициентът на асиметрия характеризира хоризонталните отклонения на дадено емпирично разпределение от симетричното разпределение:

  • Моментен коефициент на асеметрия – А
  • При негрупирани данни за изчисляване на u3 се използва непретеглена формула – формула
  • При групирани данни 3-я централен момент се изчислява по следната претеглева формула – формула

Интерпретация на моментния коефициент на асиметрия

При А=0 симетрично разпределение

При А>0 дясна асиметрия

При А<0 лява асиметрия

При – 0,5<=A<=0,5 умерена асиметрия

Коефициент на асиметерия на Пирсън

Yпирсън = 3(x-Me)/

Коефициент на асиметрия на Юл

Yюл = (x – Mo)/

Интерпретация на коефициентите на асиметрия на Пърсън и Юл

При y=0 симетрично разпределение

При y>0 дясна асиметрия

При y<0 лява асиметрия

При – 0,5<=y<=0,5 умерена асиметрия

Показатели за екцес

Коефициентът на екцес характеризира вертикалното отклонение на дадено емпирично разпределение от стандартно разределение

Е = µ/4

При негрупирани данни за изчисляване на  се използва непретеглена формула – формула

При групирани данни 4-я централен момент се изчислява по следната формула – формула

Стандартизиран коефициент на есцес – Es = E – 3

Интерпретация на коефициента на екцес

При Es = 0 стандартизирано

При Es > 0 връхна източеност

При Es < 0 приплеснато разпределение

 

Теоретични разпределения

Случайна величина

Случайна величина – може да приема различни числови стойности

  • Дискретна – ако приема само изолирани една от друга краен или безкраен брой стойности – цели числа
  • Индискретна – може да приема произволни стойности в определен интервал
  • Всяка числова стойност на случайната величина е сбъдване на определено събитие(вероятност – мярка на обективната възможност за настъпване на дадено събитие)
  • Възможните стойности на случайната величина и съответните им вероятности образуват теоретично разпределение
    • Разределението на дискретна случайна величина е дискретно(прекъснато)
    • Разпределението на индискретна случайна величина е индискретно(непрекъснато)
    • Теоретичните разпределения могат да бъдан едномерни, двумерни, многомерни и да имат различна форма

Класическа вероятност – числова стойност за шанса да се реализира едно събитие(А)

  • Изчислява се като отношение на благоприятните изходи(m) и всички възможно изходи(n) – P(A)=m/n
  • Според закона за големите числа, колкото е по-голям броят на изледваните единици, толкова по-малко наблюдаваните признаци се влияят от случайни причини и относителната честота се доближава до съответната вероятност
  • Статистическа вероятност – показва каква е вероятността даден признак да приеме определено значение
    • При достатъчно голям брой наблюдения относителните честоти възпроизвеждат тези вероятности
  • Функция на разпределение на вероятностите(интегрална функция на разпределението, функция на кумулативното разределение на вероятностите) вероятността случайната величана да приема стойноста по-малка от х
    • F(х)=P(X<x) X – случайна величина      х – неслучайна величина
    • Неотрицателна, ненамаляваща, определя се за всички стойности на Х

Закон за разпределението. Функция на плътността на вероятностите

  • Функция на плътността на вероятностите – задава вероятността случайната величина да заема стойност в даден интервал
  • Функцията на плъността на разпределението е пъво производна функция на разределението на вероятностите f(x)=dF(x)/dx
  • Ако се фиксира какъвто и да е интервал от а до б, вероятността случайната величина да има стойност, попадаща в този интервал е равна на интеграла в тази граница на плънстота на вероятността – формула
  • Функцията на плътността на вероятностите е неотрицателна и интегралът в границите
  • Между функцията на разделение на вероятностите и функцията на плътността на вреоятностите има зависимост
    • При дискретна случайна величина
    • При индискретна случайна величина

Законът за разпрледението на една случайна величина представлява съвместното разпределение на стойностите на признака Хi и вероятностите Pi

  • Представя се чрез таблица чрез хистограма на резпраделение или аналитично(чрез уравнение)
  • Сумата от всички величини е равна на 1

Математическо очакване на случайна величина

  • Математическо очакване – характеризира центъра на разпределението(средната стойност на случайната величина, изчислена от всички възможни нейни стойности, претеглени с техните вероятности)
    • Математическо очакване на дискретна случайна величина е сумата от произведенията на възможните и стойности и съответните им вероятности
    • Математическо очакване на индискретна случайна величина
    • Свойства на математическото очакване
      • Математическото очакване на сума от случайни величини е равно на сумата от техните математически очаквания
      • Математическо очакване на произведение от случайни величини е равно на произведението от техните математически очаквания
    • При определени условия относителните честоти възпроизвеждат с приближение вероятностите, за това при достатъчно голям брой случаи средната величина се доближава до математическото очакване

Дисперсия на случайна величина

  • Дисперсията на случайна величина измерва вариацията на възможните и стойности около математическо очакване
  • Дисперсия и средно квадратично отклонение на индискретна случайна величина
  • Математически свойства на дисперсията
    • Дисперсията на сума от независими случайна виличини е равна на сумата от техните дисперсии
    • Дисперсията на разлика от две случайни величини е равна на сумата от техните дисперсия
    • Ако X1, X2, X3… са еднакво разпределени независими случайни величини дисперсията на всяка от които е ^2 тогава
      • Дисперсията на тяхната сума е n^2
      • Дисперсията на техните средни аритметични е ^2/n

Математическо очакване и дисперия на случайна величина

  • Формулите за математическото очакване и дисперсията се модифицират при различни разпределения
  • Разликите между възможните стойности на случайните величини и математическото им очакване също могат да се раглеждат като случайни виличини с математическо очакване 0
  • Ако тези разлики се стандартизират (разделят на ), те ще се изразят като части (дялове) от (т.е. в нормирани(стандартизирани) отклонения)

Нормално разпределение

  • Когато една случайна величина има множество стойности и те са резултати от много и независими помежду си фактори, действащи еднакво и независимо един от друг, то тази случайна величина има нормално разпределение
    • Функция на плътността на вероятностите
  • Индисркретно разпределение
  • Определя се напълно от математическото очакване(средата) Е(X)=X и стандартното отклонение
    • Тъй като са възможни безброй много конкретни стойности на математическото очакване и на средно квадратично отлконение следователно са възможни и безброй много нормални разпределения
    • Математическото очакване определя центъра на разпределението
    • Средно квадратично отклонение определя формата на кривата – при по-малко стандартно отклонение кривата е по-стръмна, а при по-голяма по-полегата

Нормално разпределение

Кривата му е едномодална и напълно симетрична, има форма на разрез на камбана

  • Разположена е изцяло над абцисната ос
  • Асимптотично клони към абсцисната ос, но никога не я достага
  • Достига своя макимум в х =
  • Нормално разпределение представлява фамилия от разпределения, като всяко от тях се определя със съответна двойка µ и
  • Означава, че дадена случайна величина е с нормално разпределение с паратемти µ и ^2

Извадкови изучавания

  • Изучаването на масовите явления може да стане по два начина
    • Чрез изчерпателно изследване – в него са включени всички единии на съвкупността
    • Чрез извадкови изследвания – в тях са включени част от единици на съвкупността
  • Не винаги е целесъобразно да се провежда изчерпателно изследване
  • Извадката не гарантира представянето на генералната съвкупност с абсолютна тоност и за това направените изводи важат с определена точност
  • Ако от една генерална съвкупност направим не една, а повече извадки, между характеристиките на тези извадки има разлика
  • Стохастична грешка е разликата между характеристика на генералната съвкупност, получена от извадка и истнския параметър на тази характеристика на генералната съвкупност
    • Причина за нея е фактът, че съответната характеристика е получана от сравнително малък брой единици, а не от всички единици на генералната съвкупност
  • Систематичната грешка се получава в случай на преднамереност при определяне на единиците, които ще образуват извадката
  • При непредтставителни извадки се произвежда информация, чиято грешка не може да се планири и измерва

Представителна извадка

  • Надеждността на статистическите заключения се предопределя от представителността на извадката
  • Предтавителната извадка възпроизвежда коректно свойствата на генералната съвкупност, когато са спазени изискванията за обема и подбора на включените в нея единици
  • Обемът на извадката трябва да включва достатъчно на брой единици
  • С реализацията на случайния подбор се получава случайна извадка
    • Лотариен подбор – извършва се на принципа на лотарията – единиците на съвкупността се номерират и от тези номера се изтеглят на лотариен принцип тези, които ще формират извадката
      • Този подбор не е ефективен при голям обем на генералната съвкупност
    • Систематичен подбор – извършва се въз основа на подборна крачка
      • Подборната крачка се определя като отношение на обема на генералната съвкупност (N) и обема на извадката(n)
      • Първата единица на извадката се определя лотарийно от първите десет единици на генералната съвкупност
      • Този подбор не е подходящ, когато подреждането на единиците на генералната съвкупност обуславя проявлението на определена цикличност в значенията на признака
    • Случайна извадка се излъчва, когато на всяка единица от генералната съвкупност се осигури еднакъв шанс да попадне в извадката

Видове извадки

  • В зависимост от броя на единиците, които включват
    • Малки извадки до 30 единици
    • Големи извадки – над 30 единици
  • Видове представителни извадки
    • Проста случайна извадка – излъчва се когато единиците са равнопоставени по значенията на признака
    • Районирана извадка – когато са налице различия в условията, при които се намират единиците на генерална съвкупност
      • Гереналната съвкуност

 

Статистически изводи и заключения

Видове статистически оценки

Точкова оценка – конкретна числова стойност на параметъра, получена въз основа на данни от извадка. Точкова оценка може да се получи въз основа на всякакъв вид извадка. Тя е напълно достоверна за съответната извадка, но може да бъде използвана за изводи по отношение на генералната съвкупност само ако е получена въз основа на данни от представителна извадка

Интервална оценка – числов интервал, в който с определена вероятност и при определени условия се гарантира, че се намира действителната стойност на оценявания параметър. Тази оценка има вероятностен характер и никога не е 100% гарантирана. Винаги има риск за грешка, дори и минимален тази оценка може да се получи само въз основа на данни от представителна извадка.

Грешки на статистическите оценки на параметри.

Обща грешка на оценката на параметъра ϴ

d = ϴϴ

Компоненти на общата грешка

  • Систематична грешка – съзнателно, субективно изкривяване на информацията. Води до изместване на оценката, неизмерима априорно
  • Случайна грешка – несъзнателно изкривяване на информацията или допускане на неточности. При достатъчно голям брой единици, тази грешка се компенсира. Неизмерима априорно
  • Стохастична грешка – резултат от факта, че използваме информация само за част от единиците на съвкупността. При репрезентативните извадки тази грешка може да бъзе измерена и гарантирана с определена вероятност.

Точкови оценки на средна аритметична, стандартно отклонение/дисперсия и относителен дял

Средна аритметична – µ – точковата оценка на средна аритметично за дадена генерална съвкупност, изчислена въз основа на данни от една представителна извадка от тази съвкупност, е неизместена и ефективна оценка. Тази средна аритметична се нарича извадкова средна и се изчислява по формулата.

=

Стандартно отклонение/дисперсия/ – точковата оценка на дисперсията за дадена геренална съвкупност, изчислена въз основа на данни от една представителна извадка, е ефективна, но изместена оценка. Бесел доказва, че това изместване е постоянно и зависи само от обема на извадка. Той изчислява размера на това изместване като множител, с който трябва да се коригира формулата за дисперсията, а именно n/(n-1)

Връзката между дисперсията на генералната съвкупности и дисперсията, изчислена за една извадка е следната

=

Извадкова дисперсия

Извадково стандартно отклонение

Относителен дял – п – относителен дял като понятие в статистиката се използа за да се обозначи делът на единиците в една съвкупност, които имат определено значение по изучаван алтернативен статистически признак, спрямо общия брой единици. Неизместената и ефективна точкова оценка на относителния дял, изчислена въз основа на данни от представителна извадка, се получава по формулата p=f/n

Където f е броят на единиците, притежаващи едно от двете значения на изучаван алтернативен признак, а n е общият брой единици в извадката.

Дисперсията на единиците в генералната съвкупност по отношение на изуавания алтернативен статистически признак се изчислява по формулата

Неизместената точкова оценка на тази дисперсия е извадковата дисперсия, която се изчислява по формулата S^2=p/(1-p)

Стохастично разпределение – точковите оценки на всеки параметър на една статистическа съвкупност могат да получават различни стойности при изчисляването им въз основа на данни от различни извадки, дори обемът и моделът на извадките да остават един и същ. Това е породено от:

  • Пряката зависимост на стойността на точковата оценка от индивидуалните значения на единиците в конкретната извадка
  • Случайния подбор на единиците в представителните извадки, в следствие на което индивидуалните значения на единиците, попаднали в една конкретна извадка, представляват един набор от случайни значения

Следователно, точковите оценки на всеки параметър(средна аритметична, дисперсия, относителен дял) може да се разглежда като случайна величина която има конкретна реализация при всяко…

Статистическа оценка на параметри

Вероятностното разпределение на точковите оценки на даден параметър, разглеждани като случайна величина се нарича стохастично разпределение

Стохастично разпределение на средна аритметична – вероятностното разпределение на точковите оценки на средната аритметична(извадкови средни), получени въз основа на данните от всички възможни представители извадки с един и също обем и модел, излъчени от една генерална съвкупност

Следствие на ЦПТ – стохастичното разпределение на средната аритметична, соновано на извадки с достатъчно голям обем n излъчени от генерална съвкупност със средна µ и дисперсия ^2 е приблизително нормално със средна µ равна на средната на генералната съвкупност и деспресия

Средна стохастична грешка на средна аритметична и относителен дял

Нека разгледаме генералната съвкупност с N на брой единици, изучавани по даден статистически признак. Средната аритметична за този признак обозначаваме с µ, а степента на разсейване със  ^2. Ако излъчим всички възможни случайни извадки с обем n от тази генерална съвкупност, то за всяка точкова оценка х, на средната µ можем да предоставим индивидуална стохастична грешка епсилон по следния начин Еj=xj-µ

Тъй като извадковата средна представлява случайна величина, а средната на генералната съвкупност е константа, то стохастичната грешка Ej също може да се разглежда като случайна величина, която има същото вероятносто разпределение.

Гаус доказва, че при достатъчно голям обем на извадката, разпределението на стохастичните грешки е асимпотично нормално със средна нула и дисперсия равна на дисперсиата на стохастичното разпределение

Тази теорема е известна като закона на гаус за грешките – тъй като средната на грешките е равна на 0.

Вземайки предвид, че средната аритметична на стохастичние грешки е равна винаги на 0, то средната квадратична, представена като стандартно отклонение на стохастичното разпределение на средната е приета като мярка на средната стохастична грешка, наречена още стандартна грешка на средната аритметична

Следователно, стандартната грешка на средната аритметична може да бъде изразена чрез следната формула

µх = = /корен от n

Тази формула обаче е приложима само когато знаем стойността на стандартното отклонение в генералната съвкупност. На практика това обикновено не е възможно. Ето защо то бива заместено със съответното му извадкото стандартно отклонение Sn изчислено по коригираната формула на Бесел

Изведената формула въз основа на закона на гаус за грешките се изчислява на стандартната грешка на средната е валидна само при възрватен подбор, където вероятността на единиците за подаване в извадката остава непроменена

В случай че осъществяваме безвъзвратен подбор формулата за изчисляване на стандартната грешка на средната трябва да бъде коригирана с множител, който компенсира изменението във вероятността за попадане на единиците в извадката. Този множител се нарича множител за крайната стойнст.

Следователно, формулите за изчисляване на стандартната грешка на оценката на средната аритметична са:

  • При възвратен подбор – µх=Sx/корен от n
  • При безвъзвратен подбор

Същата формула с допълнителен множител.

Средната стохастична грешка на оценката на средната аритметична не е обвързана с вероятност, която да гарантира верността и. Тя има смисъл на средна величина

В основа на изложената процедура за изчисляване на стандартна грешка на средата, стандартната грешка на относителен дял може да бъде изчислена с помощта на следните формули

  • При възвратен подбор
  • При безвъзвратен подбор

Интервална оценка на средна аритметична и относителен дял.

Интервалната оценка е свързана с разределението на точковите оценки на оценявания параметър, т.е. със стохастичното разпределение

Въз основа на ЦПТ е доказано че стохастичното разпределение на средната аритметична е асимпотично нормално със средна равна на средната в генералната съвкупност и стандартно отклонение формула. Това позволява стохастично разпределение да бъде стандартизирано с помощта на следната формула.

 

Статистическа проверка на хипотези

Същност на статистическата проверка на хипотези

СПХ е методология за проверка на предварително издигната статистическа хипотеза. Това е едно от двете основни направления в статистическия анализ за изводи и заключение

Особености на СПХ

  • Направените изводи и заключения винаги имат вероятностен характер
  • Предварително може да се определи вероятността, с която гарантираме достоверността на направеното заключение и риска за грешка в изводите

Условия за приложение на СПХ

  • Информацията въз основа на която се прави проверката на хипотези трябва да бъде осигурена от представителна извадка
  • Трябва да се изпълни контретните изисквания на приложение на съответния статистически критерий

Видове СПХ

  • Класически СПХ
  • Последователен анализ

Статистическа хипотеза

Статистическа хипотеза е предположение отностно стойността на даден параметър или формата на емпиричното разпределение на генералната съвкупност

Видове статистически хипотези

  • Проста хиотеза- хипотеза, при която благоприятния изход а само един
  • Сложна хипотеза – хипотеза, при която благоприятните изходи са повече от един

Нулева хипотеза(H0) – нарича се още основна хипотеза тъй като това е предположението, чиято истинност се проверява, т.е. при прилагане на статистическата процедура се достига до заключение относно достоверността на предположението. Нулевата хипотеза винаги се формулира като проста хипотеза

Алтернативна хипотеза(Hi) – хипотеза която се противопоставя на твърдението в нулевата хипотеза. Тази хипотеза обикновено e съставна хипотеза. Според характера и възможностите на статистическия критерий, в нейното твърдение може да се включва всички възможни алтернативни изходи на твърдението в нулевата хипотеза или да се включват само част от тези алтернативни изходи.

Грешка от първи род – да отхвърлите H0, когато е вярна. Измерва се с вероятността това да се случи, която се нарича равнище на значимост

Грешка от втори род – да примем H0 не е вярна. Измерва се с вероятността за това. Вероятността да отхвърлим H0, когато тя не е вярна се нарича мощност на критерия.

Метод на СПХ

  • Методи на СПХ се определят съобразно това, дали познаваме стохастичното разпределение на статистическата харакеристика или не
  • Параметричен метод – прилага се когато познаваме стохастичното разределение на статистическата характеристика. Такива са t теста F – теста, z- теста
  • Непараметричен метод – прилага се когато не познаваме стохастичното разпределение на стандартизираната характеристика най-често прилагаме X – теста.

Статистически критерий(тест)

Чрез статистически критерии се извърша самата проверка на нулева хипотеза. Вида на теста зависи от вида на стохастичното разпределение на статистическата характеристика. Ако характеристиката има t – разпределение използваме t – теста, ако не ползваме стохастично разпределение на статистическата характеристика, използваме обикновенно X – теста= статистическия критерий има j

  • Статистическа характеристика
  • Равнище на значимост
  • Критична област

Статистическа характеристика

Статистическа характеристика представлява математическа функция на проверяваните параметри. Тя има два елемента – емпирична характеристика и теоретична характеристика

  • Емпиричната характеристика е математически израз в който участват оценките на проверяваните параметри, параметрите на стохастичното разпределение и някои специфични обобщаващи величини. Тя отразява комплексното действие на закономерните и случайните фактори, формиращи стойностите на проверяваните параметри
  • Теоретична характеристика е функцията на стохастичното разпределение на статистическата характеристика. Нейнаста стойност отразява само влиянието на случайните фактори, формиращи стойностите на проверяваните параметри

Сравняването на двете характеристики – емперичната и теоретичната, позволява да се разграничи действието на случайните от това на закономерните фактори. Въз основа на това сравнение се взима и конкретното решение на изхода от процедурата на СПХ.

Критична област

При процедура на СПХ областта от значение на емпиричната харастеристика разделя на 2 области:

  • Област на приемане на нулевата хипотеза – това е тази област от значения на емпиричната характеристика, за които се приема H0
  • Критична област(w) – това е областта от значения на емпиричната харакнеристика, за които нулевата хипотеза се отхвърля

Размерът на критичната област се измерва като относителен дял на значенията, които и принадлежат, спрямо всички възможни значения на емпиричната характеристика. Следователно като размер критичната област е равна точно на равнището на значимостта.

Двустранна ктирична област – областта от значения на емпирината характеристика за които нулевата хипозеса се отхвръля, се намират от двете страни на зоната за приемане на H0, като се разделят на две равни части. Тъй като общият размер на критичната зона е равна на alfa, то всяка от двете части при двустранна област ще бъде равна тоно на alfa/2.

Едностранна критична област – област от значение на емпиричната характеристика, за които нулевата хипотеза се отхвърля се намират от едната страна на зоната за приемане на H0. Според посоката на разположение едностранна критична област бива съответно дясностранна и лявостранна. И в двата случая едностранна критична зона е  равна на алфа.

Етап на процедура на СПХ

  • Дефиниране на нулевата H0 и алтернативната Hi хипотеза. Нулевата от хипотеза винаги се дефинира като проста хипотеза. Начина на дефиниране на алтернативната хипотеза зависи от чувствителността на използвания статистически критерий. Някои критерии позволяват различни варианти на дефиниция на H други не.
  • Фиксиране на равнище на значимост. Изследователя определя какво да бъде равнището на значимост според степента на отговорност на резултатите. Обикновено се работи с няколко равнища на значимост(α=0.05; α=0.01; α=0.001)
  • Определяне на статистическия метод за проверка. Вида на теста се избира според вида на стохастичното разпределение на емпиричната характеристика
  • Набиране на представителна информация. Осъществява се чрез извадково представително изучаване
  • Изчисляване на емпиричната характеристика на критерия. Въз основа на данните от извадката / извадките се изчислява стойност на Х с помощта на съответния математически израз
  • Определяне характера на критичната област(ако има необходимост). Вида на критинчната област може да бъде различен при някои от статистическите критерии(t – тест(при големи извадни(над 30)), z-тест(при малки извадки(под 30 единици)) При относителни дялове се използва 50 единици)
  • В тези случаи вида на критичната област зависи изключително начина на дифиниране на При някои статистически критерии критичната област остава една и съща по вид, тъй като….(слайда е отрязан)
  • Определяне на теоретичната характеристика. Теоретичната характеристика се определя от съответната статистическа таблица. Статистическите таблици са разработени за различните вероятностни разпределения, които са в основата на статистическите тестове. Те са разработени за практически нужди и съдържат стойностите на функцията на съответното разределение при допустими сотйности на неговите параметри.
  • Взимане на решение относно проверяваната хипотеза. Вземането на решение се осъществява въз основа на правило за вземане на решение, базирано на сравнението на емпиричната и теоретичната характеристика. В най-общия случай правилото за вземане на решение
    • При ϴ<= ϴ се приема нулева хипотеза H0 – Ако емперичната характеристика е по-малка от теоретичната то Н0 се потвърждава
    • При ϴ> ϴ се отхвърля нулева хипотеза Н0 – Ако емпиричната характеристика е по-голяма от теоретичната, то Н0 се отхвърля.

Във втория случай за практически цели се приема, че е вярна алтернативната хипотеза

  • Заключение от направената статистиеска проверка. Формулира се заключение, в което се упоменава равнището на значимост и (слайда е отрязан)

 

Статистическо изучаване на зависимости

Едно от най-важните направления на статистическия анализ е изследването на връзка и зависимости между масовите явления в различни области. Изучаването на връзки и зависимости между явленията дава възможност за разкриване на факторите и причините за състоянието и развитието на тези явления, както и за прогнозиране на тяхното състояние и развитие въз основа на контролиране на основните фактори.

Видове връзки и зависимост

  • Според своя характер
    • Причинно-следствени(каузални)
    • Връзки от по общ характер

Предмет на статистическите изследвания са причинно следствени връзки. При тях едно или няколко явления се явяват следствия от въздействеито на други едно или няколко явления. Първите се наричат резултативни явления, а вторите се наричат фактори или причини.

Тъй като в статистиката масовите явления се изучават посредством статистическите признаци, чиито значения се приемат като значения на случайни величини, често пъти когато говорим за зависимост между явленията използваме понятията статистически признаци или променливи, с които идентифицираме съответните явления. Например, вместо резултативно явление използваме понятието зависим признак или зависима променлива, а вместо факторни явления използваме само фактори.

  • По начина си на проявление и възможностите за изучаване
    • Функционални – при тези връзки поведението на резултативното явление може да бъде описано изцяло(100%) с помощта на фактори
    • Корелационни – при тези връзки поведението на резутативно явление не може да бъде описано изцяло(100%) с помощта на фактори

В социално-икономическата област типични са корелационният тип зависимост. Предмет на статистическите изучавания са изключително връзките и зависимостите от корелационен тип.

  • По начина на изучаване
    • Единични – между две явления
    • Множествени – между повече от две явления
    • Частно – множествени – между две явления при контролирано влияние на други едно или повече явления

При статистическите изследвания на връзки и зависимости приложението на статистическата методология трябва винаги да се предхожда от съдържателен анализ на зависимостите, т.е. дали от съдържателна гледна точка има логочески основания да се търси зависимост между определени явления или не.

В статистическата теория са разработени различни методи за анализ на корелационни зависимости. Приложението на едни или друг метод зависи от началните условия за провеждане на анализа. Основен критерий при определяне на подходящата методология за анализ на дадена зависимост е вида на статистическите признаци, респективно променливи, чрез които са представени изучаваните явления.

Дисперсионен анализ

Същност, видове и условия за приложение на дисперсионния анализ

Дисперсионният анализ(ДА) – е статистически метод за анализ на зависимости която резултативното явление е представено на силна скала, а факторите могат да бъдат категорийни променливи. Като процедура ДА е статистическа проверка на хипотези, при която се използва F-критерия на Фишер

Основна задача на ДА

  • Разpкрива връзки и зависимости
  • Провери адекватността на регресионните модели
  • Подбор на фактори при множествения PA

Видове дисперсионен анализ

  • Според броя на факторите – еднофакторен, двуфакторен, многофакторен
  • Според честотите в групите – с равни и с различни честоти
  • Според степента на осигурени условия на провеждането му – параметричен, непараметричен

Условия за приложение на еднофакторен дисперсионен анализ

  • Резултативното явление да бъде представено на силна скала
  • Информацията за анализа да е осигурена от представителни извадки
  • Значенията на зависимата променлива в групите по значенията на фактори да имат приблизително нормално разпределение.
  • Дисперсиите трябва да са равни.

Процедура на приложението на еднофакторен дисперсионен анализ

  • Дефиниране
  • Дефиниране на H0 и Hi
  • Фиксиране на равнище на значимост α
  • Определяне на статистически критерии – формула?

Величините ^2 и ^2 са две независими оценки на вариация на зависимата променлива

  • Изчисляване на емпиричната характеристика

Изчисляването на емпиричния F-критерий: преминава през следните етапи – формула

Вътрегрупова дисперсия – формула

Определяна на теоретичната характеристика

Теоретичната характеристика се определя от таблица въз основа на равнището на значимост α и две величини, наречени степени на свобода

Df1=k-1

Df1=n-k

Вземане на решение

  • При F<=F се потвърждава нулева хипотеза. Ако F епмерично е по-малко или равно на F теорентично се потвърждава нулевата хипотеза
  • При F>F се отхвърля нулева хипотеза. Ако F емпирично е по-голямо се отхвърля.

Прави се извод

 

Регресионен анализ

Регресионният анализ е статистически метод за анализ и моделиране на зависимости между масови явления, представени на силни статистически скали

Общ вид на регрисионния модел Y=f(Xj) + c =Y + ε Където Y=f(Xj) детерминирана част на модела, а ε – стохастична част на модела

Елементи на регресионния модел

  • Регресионно уравнение – някви уравнения
  • Резултативна(зависима) променлива(Y) и фактори(независими) променливи(Xj)
  • Параметри на модела(регресионни коефициенти)
  • Стохастичен компонент(остатъци) – ε

Задачи на регресионния анализ

  • Да обоснове проявлението на корелационна зависимост въз основа на емпиричните данни с помощта на корелограма или ДА(дисперсионен анализ)
  • Да установи формата на зависимостта – метод на свободната ръка
  • Да измери количествено зависимостта – МНМК(метод на най-малките квадрати) или ММП(метод на максималното правдоподобие )

Видове регресивни модели

  • Според броя на факторите
    • Еднофакторни
    • Многофакторни
  • Според формата на зависимост
    • Линейни
    • Нелинейни
      • Вътрешно линейни
      • Вътрешно нелинейни

Оценката на един регресионен модел включва оценка на параметрите на модела и оценка на неговата адекватност. Най-широко прилаганият мотед за оценка на параметрите на регресионния модел на Метода на най-малките квадрати. Този метод се прилага при линейните и вътрешно линейните регресионни модели.

Основна концепция на МНМК

Функцията, измерваща разликата между фактически(емпиричните) и получените от модела(теоретичните) значения на зависимата променлива, се минимизира по отношение на параметрите. – няква формула.

Целта при приложението на МНМК е да се намерят(оценят) стойностите на параметрите на модела, за които функцията на остатъците приема минимална стойност

Постигането на тази цел се осъществява чрез диференциране на функцията по отношение на всеки от паратемтрите и приравняване на всяка от получените производни на нула. Така получаваме по едно уравнение за всеки от параметрите на модела, който се обединява в система линейни уравнения по отношение на търсените параметри. Уравненията се наричан нормални уравнения, а системата, струкурирана от тях се нарича система на нормални уравнения.

Изисквания на приложение на МНМК

  • Моделът да бъде линеен по отношение на параметрите
  • Променливите в модела да са количествени величини
  • Остатъците да бъдат взаимно независими – cov(εb.εj) = 0 за всяко i=/f
  • Остатъците да имат асимптотично нормално разпределение със средна 0 и постоянна дисперсия(условие за хомоскедастицитет) – няква формула

Общ вид на еднофакторен линеен регресионен модел – Y = β0 + β1X1 +ε

Оценка на параметрите на регресионния модел

Регресионното уравнение на еднофакторния линеен регресионен модел има вида – Y=b0 + b1X1

Функцията на остатъците, която трябва да бъде минимизирана, в този случай – няква формула

Системата нормални уравнения след диференциране на функцията и опростяване на уравненията има следния вид – някви система

Изразите в системата, в които участват зависимата и факторната промелниви се изчисляват въз основа на емпиричната информация. След заместването им в системата нормални уравнения се преминава към система от 2 уравнения с две неизвестни, където неизвестните са търсените параметри. След решаване на системата се получават стойностите(оценките) на параметрите.

Статистическа значимост на регресионните коефициенти

Статистическата знаимост на всеки от регресионните коефициенти се доказва със СПХ е t-критерия

  • Hβ = 0 регресионният коефициент е статистиески незначим
  • Hβ =/ 0 регресионният коефициент е статистиески значим

Емпиричната характеристика се изчислява по следната формула Tem=β/µβ

Адекватност на регресионния модел е степента на достоверно представяне на изучаваната зависимост чрез модела въз основа на емпиричните данни.

Методи за оценка адекватността на регресионен модел

СПХ на адекватност на модела е F-критерий

H0^2 – Показва че модела е неадекватен

H1^2 – Регресионният модел е адекватен

Конкуриращи се модели

Предлага се за оценка на адекватност на два конкуриращи се модела- Анализа се провежда в два етапа

  • СПХ за адекватност на всеки от конкуриращите се модели
  • СПХ относно кой от конкуриращите се модели е по-адекватен

Стандартната грешка на модела Sy

Стандартната грешка на регресионния модел се използва като измерител на степента на адекватност на група модели

Моделът който е с най-малка стандартна грешка е с най-голяма степен на адекватност

 

Същност и видове корелационен анализ

Корелационният анализ е статистически метод и измерване силата на корелационната зависимост между две или повече масови явления. Това се осъществява чрез корелационни коефициенти

Според броя на участващите в зависимостта явления корелационните коефициенти биват:

  • Единични
  • Множествени – явленията са равнопоставени
  • Частно множествени – част от явленията третират част от други явления

Коефициент на Пирсън – основава се на оценения регресионен модел на зависимостта. Може да се използва за да се измерва силата на зависимост както при линейни зависимости така и при нелинейни зависимости. Също така може да се използва както за измерване силата на единични зависимости така и на множествени зависимости. Недостатъците – понеже е под корен може да приема само положителни стойности, т.е. не може да се определи посоката на зависимост.

Формула

Коефициентът на линейна корелация на Браве – коефициентът на Браве измерен достоверно силата на зависимост между две явления, само когато тя е линейна. Може да се изчислява преди да сме направили регресионен анализ. Освен че показва силата на зависимост показва и посоката на зависимост. Може да измерва сила само на единични зависимости. Достоверен е като числова стойност само ако връзката между явленията е линейна.

Скала на интерпретация на корелационните коефициенти

При 0<=0.3 корелационната зависимост се смята за слаба

При 0,3<=0.5 корелационната зависимост се смята за умерена

При 0,5<=0.7 корелационната зависимост се смята за средна

При 0,7<=0.9 корелационната зависимост се смята за силна

При 0,9<=1 корелационната зависимост се смята за много силна

 

Коефициент на детерминация – показва каква част от изменението на резултативната променлива се обяснява с факторите в регресиония модел. Обикновено се представя в проценти. Този коефициент се изменя в границите от 0% до 100%

Коефициент на индетерминация(коефициент на неопределеност) – показва каква част от изменението в Y се дължи на фактори и причини, които са извън изследвания модел. 

Статистическото изучаване на развитие

Същност и видове динамини редове – динамичния ред е статистическия ред който описва изменението на дадено масово явление в течение на времето. Видове динамични редове:

Според вида на съвкупността, въз основа на която се формира обема на явлението

  • Моментни динамични редове – статистически редове, формирани въз основа на моментни съвкупности. При тези динамични редове част от единиците на съвкупността въз основа на която се формира обема на явлението в даден момент, може да бъде единици на съвкупностите, които формират обема на явлението в следващите моменти на наблюдение
  • Периодни динамични редове – статистически редове, формирани въз основа на периодни съвкупности. При тези динамични редове единици на съвкупността, която формира обема на явлението в даден период от време, не могат да участват в съвкупностите, които формират обема на явлението в другите периоди на наблюдение.

Според характера на информацията

  • Първични динамични редове – чиито елементи отразяват обема на изучаваното явление
  • Производни динамични редове – чиито елементи отразяват стойността на показател, която е производна величина от обема на изучаваното явление

Според това дали явлението проявява постоянно изменение в развитието си

  • Стационарни динамични редове – които отразяват относително постоянно равнище в развитието на явлението
  • Нестационарни динамични редове – които отразяват постоянно изменение в развитието на явлението
    • Прогресивни динамични редове
    • Регресивни динамични редове

Аспекти на анализа на динамични редове

  • Описателен анализ – описва развитието на масовите явления във времето
  • Диагностичен анализ – разкрива причини и фактори за развитието на масови явления и процеси
  • Прогностичен анализ – предназначение е да прогнозира развитието на масови явления в бъдеще
  • Номографски(законоустановяващ) анализ – установява закономерности в развитието на масови явления въз основа на конкретни емпирични изучавания.

Елементарни покозатели за изучаване на развитието

  • Абсолютен обем(Y) – величината, с която се описва обема на изследваното явление в абсолютни мерни единици в последователни или периоди от време
  • Среден абсолютен обем(Y) – отразява средното равнище на обема на явлението за целия изучаван период

Средният абсолютен обем се изчислява с помощта на средна хронологична величина

Техники за изчисляване на средната хронологична величина – съществуват различни техники за изчисляване на средната хронологична величина съобразно вида на динамичния ред(моментен или периоден) и вида на изходните данни.

Средна хронологична при периоден динамичен ред

  • Непретеглена средна хронологична – прилага се когато елементите на динамичния ред се отнасят за равни периоди време
  • Претеглена средна хронологична – прилага се когато елементите на динамичния ред се отнасят за различни по дължина периоди от време

Средна хронологична при моментен динамичен ред

  • Непретеглена средна хронологична – прилага се когато обемът на явлението е наблюдаван в последователни моменти през равни периоди от време
  • Претеглена средна хронологична – прилага се когато периодите от време между последователните моменти, в които е наблюдаван обема на явлението са с различна дължина

Абсолютен прираст – абсолютното изменение в обема на явлението в течение на времето

  • При постоянна основа(база) – абсолютното изменение в обема на явлението за даден период от време спрямо базисния период, където първия наблюдават период е приет за основа
  • При верижна основа(база) – абсолютното изменение в обема на явлението за даден период от време спрямо предходния период

Среден абсолютен прираст – средното абсолютно изменение в обема на явлението за изучавания период от време

Темпове на изменение – относителното изменение в обема на явлението в течение на времето

  • При постоянна основа(база) – относителното изменение в обема на явлението за даден период от време спрямо базисния период, където първия наблюдаван период е приет за основа
  • При верижна основа(база) – абсолютното изменение в обема на явлението за даден период от време спрямо предходния период

Среден темп на изменение – средното относително изменение в обема на явлението за изуавания период от време. Средният темп на изменение се изчислява с помощта на средна геометрична величина: – формула

Среден темп на прираст – средният относителен прираст в абсолютния обем на явлението за изучавания период от време

Изучаване на основните компоненти на динамичния ред

Основна концепция на анализа – обемът на явлението се формира под въздействието на 4 фактора. Всяка група фактори формира част от общия обем на явлението представения отделен компонент

Основни компоненти на динамичния ред

  • Основна тенденция на развитие(Т) – тази част от общия обем на явлението, която се формира под въздействие на закономерни, трайнодействащи фактори и причини
  • Сезонна компонента(S) – тази част от общия обем на явлението която се формира под въздействието на причини и фактори, чието действие е свързано с промяна на сезоните
  • Циклична компонента(C) – тази част от общия обем на явлението, която се формира под въздействие на причини и фактори създаващи циклични колебания около основната тенденция
  • Стохастична(случайна) компонента(Е) – тази част от общия обем на явлението, която се формира под въздействието на случайно действащи причини и фактори

Връзка между основните компоненти в динамичния ред

  • Адитивна връзка – общия обем на явлението се формира като сума от основните компоненнти Y= T + S + C + E
  • Мултипликативна връзка – общият обем на явлението се фомира като произведение от основните компоненти Y = T*S*C + E

Основна тенденция(Тренд)

  • Основната тенденция в динамичния ред отразява основната трайна посока на изменение на изучаваното явление. Формира се под влиянието на закономерни трайнодейсващи причини и фактори, чието въздействие остава непроменено през целия изследван период
  • При стационарните динамични редове – основната тенденция остава постоянна величина в течение на времето и по стойност е равна на средния обем на изучаваното явление т.е. T=Y
  • При нестационарните динамични редове основната тенденция е монотонно растащя или монотонно намаляваща функция на времето

Статистически метод на изучаване на основната тенденция

  • Основна цел на ститистическия анализ – да се изрази въздействието на трайните закономерни фактори върху развитието на изучаваното явление и да се измери количеството тренда като се елиминира вездействията на всички останали фактори. Количествено изразяване на основата тенденция чрез елиминиране на осезаемата тенденция чрез елиминиране на останалите компоненти от общия обем на явление се нарича изглаждане на динамичния ред, а получаваните стойности изгладени сотйности Y
  • Графичен метод – постояване на плавна крива, която покрива максимално добре пречупената крива, съединяваща емпиричните точки
  • Метод на верижни средни – изглаждането на динамичния ред се постига чрез последователно осредняване на група от елементи на метода
    • Недостатъци
      • Загуба на информация за определен брой елементи на динамичния ред
      • Невъзможност за екстраполационална прогноза
    • Предимства
      • Лесно изчислителна процедура
    • Аналитичен метод – основната тенденция се изразява като аналитична функция на времето Y = f(t)
      • Функцията се нарича трендови модел
        • Y = α+βt
        • Y = α+βt+γt^2
        • Y = αt^β
        • Y = αβ
      • Методи за оценка на трендови модели
        • МНМК
        • Метод на Раф-Нютон
        • Итеративни методи

Сезонни колебания – сезонните колебания са последователно редуващи се положителни и отрицателни промени

Статистически методи на изучаване на сезонност

Насоки на анализа на сезонност

  • Да се устнови чистота, въздействащи на сезонните фактори и да се измери количеството. При този анализ се установяват т.нар

Методи за установяване на чистото въздействие на сезонните фактори

  • Метод на простите средни. Прилага се при стационарни динамични редове
  • Метод на коригираните средни. Прилага се при нестандартни динамични редове с праволинейна тенденция на развитие
  • Метод на отношенията на фактическите към изгладените стойности. Прилага се при нестационарни динамични редове без разлика каква е основната тенденция. Този метод е универсален метод за анализ на чистото въздействие на сезонните фактори

 

Напиши коментар