Грешки на извадката - Теория на статистиката
извадкови грешки
Между индекси на пробата и на търсените параметри (параметри) на общия брой на населението, обикновено, има някои разлики, които се наричат извадкови грешки. Често срещана грешка е селективни характеристики на двата вида грешки: грешки на вземане на проби и грешки, за представителност.
регистрация грешки, присъщи на всяко статистическо наблюдение и външния им вид могат да бъдат причинени от невниманието на регистратора неточни изчисления, несъвършена апаратура и т.н.
представителност грешки, уникални за селективно наблюдение и поради самата си природа, защото без значение колко внимателно и не правилно извършва подбор на единици и средния относителен изпълнението на проба винаги ще бъде в известна степен различни от тези в общата популация.
Разграничаване между систематични и случайни грешки на представителност. Систематични грешки на представителност - тя не функционира, които възникват в резултат на неспазване на условията за вземане на проби, включени в извадката, не предоставят равни възможности за всяка единица от населението са взети проби. Произволни марж грешка - това е грешка, които възникват поради факта, че извадката не точно възпроизвеждане на характеристиките на населението С оглед на прекъснат характер на изследването (средно, фракция и дисперсия Ал.).
При спазване на принципа на случайния подбор на размера на грешката за вземане на проби зависи главно от размера на пробата. Колкото по-голям броят на пробите, при равни други условия, по-малката грешка на извадката. Когато голям брой проби ясно проявява закона на големи количества, съгласно който: с вероятност произволно близо до един, може да се твърди, че за достатъчно голям размер на пробата и ограничен дисперсия на характеристиките на пробата (среден дял) ще бъде произволно малко различни от тези на основни характеристики ,
грешка Размери вземане на проби е също директно свързани със степента на изменение на изследваната черта и степента на промяна, както е споменато по-горе, характеризиращ се с дисперсия статистика размер (разсейване) по-малък е дисперсия, по-малките грешката на пробата, по-надеждни статистически заключения. Поради това, на практика, дисперсията се идентифицира с вземане на проби грешка.
Тъй като параметър на населението е желаната стойност и не е известно, не е необходимо да се насочва към специфичен грешка и средната стойност на всички възможни проби.
Ако населението на избрани няколко комплекта образци, всеки от получените проби ще даде различен определена стойност грешка.
ефективната стойност на / и се изчислява от всички възможни стойности на специфичните грешки () ще бъде:
където * и - пробата средства; х - обща авария; )] - броя на пробите големина є1 =
Стандартното отклонение на проба означава с обща средна средна грешка се нарича вземане на проби.
Зависимост на грешка за вземане на проби от размера и степента на характеристика вариант се изразява във формулата средната грешка за вземане на проби / ф.
Квадратната средна грешка (дисперсия селективна среда) е пряко пропорционална сто вариацията и обратно пропорционална на броя на проба п:
където - дисперсията характеристика на населението.
Следователно, средната грешка в общия формата, дадена от:
По този начин идентифицирането на стандартното отклонение проба, може да бъде настроен на средна грешка за вземане на проби, стойността на който, както следва от формулата, толкова по-голяма е промяната на случайната променлива и по-малки, по-голям размер на пробата.
Поради това, с увеличаване на обема на пробата среден размер на грешката се намалява. Например, ако имате нужда да се намали средната грешка за вземане на проби на два пъти, размерът на извадката трябва да се увеличи до четири пъти, ако е необходимо, за да се намали грешка за вземане на проби на три пъти, а след това размерът на извадката трябва да се увеличи до девет пъти, и така нататък. Г.
В практически изчисления използва две формули средна грешка за вземане на проби за средната и за съотношение.
средната формула грешка е в селективна изследването на средни стойности:
При изучаването на относителните показатели (частни атрибути) формула средната грешка е:
където R - споделят характеристика на населението.
Прилагането на по-горните формули означава грешка означава, че дисперсията и общото известен обща част. В действителност обаче, тези цифри не са известни и не могат да бъдат изчислени, поради липса на данни за цялата популация. Ето защо е необходимо да се замени вариацията на населението и общото дела на други близки до тях, ценности.
В математически статистически доказано, че тези стойности могат да бъдат промяна на пробата (V) и фракцията на вземане на проби (w).
С оглед на горното формулата означава грешка може да се запише по следния начин:
Тези формули дават възможност да се определи средна грешка при взимане на проби. Заявленията проста случайна повторно взимане на проби на практика е ограничен. На първо място, но не е практично, а понякога и невъзможно да се възстанови разглеждане на едни и същи единици. Използвайте вместо повторно вземане на проби без селекция замяна също е продиктувано от изискването да увеличи точността и надеждността на извадката. Ето защо, на практика най-често се използва метод за подбор на случаен принцип на вземане на проби без замяна. По този избор метод агрегат единица, избрана в пробата, допълнително избор не участва. Единици, избрани от населението като цяло, намален с броя на предварително избраните елементи. Следователно, поради промени в броя на населението след всеки избор и подбор вероятности за единици, които остават във формулата е въведена корекция фактор средната грешка за вземане на проби
където N - брой на населението; п - номер на пробата. За достатъчно големи стойности на N може да се пренебрегне в знаменателя на устройството. след това
Следователно, формулата за средните грешки за вземане на проби за вземане на проби без замяна среда за селекция и съотношение съответно имат формата:
От п е винаги по-малък от M, допълнителният фактор е винаги по-малко от единство. Ето защо, абсолютната стойност на грешката при извадка с nonrepetitive избор винаги ще бъде по-малко от най-повтаря.
Ако размерът на извадката е достатъчно голям, а след това стойността на 1 ^ е в близост до единство, и следователно могат да бъдат пренебрегвани. Тогава средната грешка за вземане на проби без случаен избор заместване се определя по формулата на самостоятелно произволно взимане на проби.
Изчислено за нашия пример, средната грешка за добива и делът на обекти с добив от 25 т / ха или повече.
Средната грешка за вземане на проби
а) Средният добив от ечемик
Средният добив на ечемик в популацията х -T ^ = 25,1 ± 0,12 т / ха, т.е. в интервала от 24.98 до 25.22 кг / ха.
Съотношение порции с добив 25 DT / ха или повече в общата популация стр
= Т ^ г = 0,80 ± 0,07, т.е. Тя е в границите на 73-87%.
Средната грешка на пробата показва възможните характеристики огъване на проба от характеристиките на населението. Въпреки това, по време на наблюдението на пробата учените често задачата не само за изчисляване на средната грешка, но определянето на границата на възможни грешки за вземане на проби. Знаейки, средната грешка, можете да се дефинират границите, за който стойността ще дойдат на вземане на проби грешка. Въпреки това, твърдението, че тези отклонения не надвишават предварително определена стойност, не може с абсолютна сигурност, но само с определена степен на вероятност. ниво на вероятност, че е прието, когато се определя в рамките на възможното, които съдържат стойности на параметрите на населението се нарича вероятността за нивото на доверие.
Ниво на сигурност - е доста висока и такива, които на практика предполага да се случи във всеки един случай, вероятността, гарантиращ надеждна статистически заключения. Ние го означаваме с T и вероятността да надхвърли това ниво - a.Itak, = 1 - RVeroyatnostanazyvayut ниво на значимост (същественост), което е характерно за относителния брой на погрешни заключения в общия брой на констатациите и дефинира като разликата между един и ниво на доверие от това, което е прието.
Ниво на сигурност поставя изследователя въз основа на степента на отговорност и естеството на проблемите, за да бъде решен. Статистическите изследвания в областта на икономиката често прието ниво на доверие veroyatnostiG = 0.95; Р = 0,99 (съответно ниво на значимост а = 0.05, а = 0,01) по-малко г = 0.999. Например, нивото на доверие е R = 0,99 означава, че прогнозите в грешката в 99 от общо 100 случая няма да надвишава зададената стойност и само в един случай от общо 100 може да достигне изчислената стойност или да я надвишава.
Вземане на проби грешка изчислява с определена степен на надеждност вероятност се нарича пределната грешка Ep проба.
Помислете как граничната стойност набор от възможни грешки за вземане на проби. Стойността свързани с ЕР и нормализирана отклонение, което се определя като съотношението на ограничаване ЕП грешка за вземане на проби на средната грешка и:
За удобство случайна променлива изчислението на отклонение от средната си стойност обикновено се изразява в единици на стандартното отклонение. изразяване
нарича стандартното отклонение. В статистическата литература и призова коефициент на доверие, или коефициент кратност средна грешка за вземане на проби.
Така, средната стандартна проба отклонение може да бъде определена по формулата:
От израза 1 може да намери евентуално ограничаване на вземане на проби грешка
Заместването в своето значение, ние даваме формула за ограничаване на грешката за вземане на проби за средното и делът на повторение без с случаен подбор:
Следователно Максималната грешка за вземане на проби, зависи от големината на средната грешка и нормализира отклонение и е кратно на средното ± извадкови грешки.
Средна и пределна грешка за вземане на проби - име ценности и са изразени в същите единици като средноаритметичната стойност и стандартното отклонение.
Нормализирано отклонение оперативно свързан с вероятност. За да намерите znacheniyisostavleny специални маси (Suppl.2), които можете да намерите стойността на дадено ниво на доверие и вероятностни стойности за известен и.
Тук са стойностите и и съответния вероятността за проби с chislennostyup> 30, който най-често се използва в практическите изчисления:
Следователно, когато U = 1, вероятността за отклонение на характеристиките на проба от общата единична средна стойност за грешка на пробата е 0.6827. Това означава, че средно на всеки 1000 проби до 683 дават общи характеристики, които ще се различават от обобщените общите характеристики на не повече от една стойност на средната грешка. Когато п = 2 вероятността е 0.9545. в Това означава, че с всеки 1000 проби 954 ще генерализирана характеристики, които се различават от обобщените общите характеристики не повече от два пъти средната грешка за вземане на проби, и т.н.
Въпреки това, поради факта, че, като правило, се извършва само една проба, тогава ние казваме, че, например, с вероятност от 0.9545 е възможно да се гарантира, че пределната грешка не надвишава грешка средната извадка два пъти.
Математически, това е доказано, че отношението на грешката при извадка за средна грешка обикновено не надвишава ± 3d при достатъчно голям брой п, независимо от факта, че грешката при вземане на проби може да придобие някаква стойност. С други думи може да се каже, че има достатъчно висока преценка вероятности (р = 0.9973) ограничения за вземане на проби грешка обикновено не надвишава три грешки средни вземане на проби. Ето защо, на стойност Ep = 3г може да се приема като граница на възможни грешки за вземане на проби.
Ние дефинираме за нашия пример, границата на грешка за вземане на проби за средния добив и делът на обекти с добив от 25 т / ха или повече. Вероятност ниво на доверие, равна приемам P = 0,9545. Съгласно таблицата (прил 0.2) намерите стойности U = 2. средна грешка за вземане на проби за добива и съотношението на обекти с добив 25 DT / ха и повече са открити по-рано и съответно са: D
Ограничаване грешка на средната добив ечемик:
Така, разликата между средния добив на селективен и общ среден не е повече от 0,24 кг / ха. Границите на средния добив на населението: х = ± там
= 25.1 + 0.24, т.е. от 24,86 до 25,34 т / ха.
Грешка ограничи делът на обекти с добив от 25 т / ха или повече:
Следователно, максималната грешка при определяне на съотношението на региони с добив 25 DT / ха и повече надвишава 14%, т.е. частта от споменатите части се получава в общата популация варира: R = A> ± ЕР = 0.80 ± 0.14 , т.е. 66 до 94%.