Доверителни интервали и техните приложения, науката данни

Вземането на проба от населението, ние се получи момент за оценка на даден параметър на интереси, и ние изчисляваме стандартната грешка, за да определите точността на прогнозата.

Въпреки това, в повечето случаи като стандартната грешка не е приемливо. Много по-полезно да се комбинира тази мярка с точност оценките на интервал за параметрите на населението.

Това може да стане с помощта на знания за теоретичните вероятностно разпределение на статистиката примерни (опция), за да се изчисли на доверителния интервал (CI -. Доверителен интервал CI - доверителен интервал) за параметъра.

Обикновено интервал оценките на достоверност се простира в двете посоки определена стойност, множествена стандартна грешка (този параметър); две стойности (доверителни граници), определя интервала, обикновено разделени със запетая и затворени в скоби.

В статистиката, доверителен интервал (CI) е вид интервал оценка на параметър население. Това е наблюдавано интервал (т.е. той се изчислява от наблюденията), по принцип различен от проба до проба, който често включва стойността на ненаблюдавано параметър от интерес, ако експериментът се повтаря. Колко често наблюдавания интервал съдържа параметъра се определя от нивото на доверие или коефициентът на доверие. По-конкретно, по смисъла на термина "ниво на доверие» е, че ако CI са изградени в много отделни анализи на данните от повторени (и вероятно различни) експерименти, делът на тези интервали, които съдържат истинската стойност на параметъра ще съответстват на дадените ниво на доверие. Докато двустранно доверителни граници образуват доверителен интервал, техните едностранни колеги са посочени по-ниски / горните граници на достоверност (или граници).

интервал на доверие показва, които ще се настанят обхвата на наблюдение проба (анкета). Ако харчим 100 подобни изследвания в подобни проби от едно общо население (например, на 100 проби от 1000 души във всеки град с население от 5 милиона души), а след това ниво на доверие 95%, 95 от 100 резултати попадат в доверителния интервал (например, от 28% до 32% в истинския си стойност от 30%). Например, вярно броя на жителите на пушачите е 30%. Ако изберем 100 пъти подред за 1000 и тези проби задават въпроса "Пушите ли?", В 95 от тези 100 проби при 2% степен на увереност интервал стойност от 28% на 32%.

Доверителни интервали и техните приложения, науката данни

Формули за изграждане на доверителни интервали с практически примери могат да бъдат намерени, например, тук.

Тълкуване на доверителни интервали

При тълкуването на доверителния интервал ние се интересуваме от следните въпроси:

Как широк доверителен интервал?

широк интервал на доверие, показва, че оценката е неточна; тесни точки на точна оценка.
Ширината на доверителния интервал, зависи от размера на стандартната грешка, която от своя страна зависи от обема на пробата в анализа на числова променлива от променливостта на данните дава по-широки доверителни интервали от изучаването на многобройните данни настроите няколко променливи.

Има ли някакви CI стойности са от особен интерес?

Можете да проверите дали мечката вероятно стойност за населението в рамките на доверителен интервал. Ако е така, резултатите са в съответствие с вероятната стойност. Ако не, тогава е малко (за доверителен интервал възможност на 95% около 5%), което има стойност на параметъра. (Източник)