biserial корелация

biserial корелация

26.30 Да предположим сега, че ние имаме една маса е дихотомията на определени качествени фактори и класирането на двете числова стойност, или също от атрибути, които могат да бъдат както поръча и неподреден.

Таблица 26.7 показва вида на материала под въпрос. Той е класифициран в 1426 от престъпниците, те са били алкохолици или не, както и нататък. естеството на престъплението, за което те са били затворени.

Таблица 26.7 (вж. Сканиране) 1426 престъпници, класифицирани от престъпност и към алкохолизъм.

(Данни Goriyga цитираната К. Pearson, 1909)

Въпреки, че колоните на таблицата са в произволен ред (ние ги имаме в низходящ ред по отношение на престъпността с интелигентност, но този ред е доста относителна), ние можем, обаче, да получите прогноза за приема, че предмет на двуизмерен разпределение е нормално. В действителност, когато такова разпределение както линейна регресия и, както е отбелязано в 26.21, е инвариантна по отношение на пермутация статистика секции. Ние се обръщаме, следователно, към оценката на

Ще разгледаме всяка колона на таблица 26.7 като напречно сечение. И т.н. Нека означаваме броя на наблюденията в напречното сечение, средното и дисперсията в този раздел; средната стойност и дисперсията стойности у. Да предположим, че всички измервания са направени на по стойността на е

дихотомия точка; без ограничение на общността, като инвариант във връзка с промени в произхода. След това се изчислява отношението корелация между стойността на е

Но за двумерен нормалното разпределение (вж. 16.23)

така че чрез замяна в уравнението, за да получите

Решаването това отношение, за да намерите оценка

Тази прогноза се нарича biserial коефициент поради приликата му с коефициент на корелация. В съответствие с нашата споразумение, съгласно което букви се използват за статистически данни, стойността на извадка от този коефициент е обозначена

С помощта на уравнението (26,70) е възможно, тъй като стойностите, принадлежащи към това може да се оцени чрез вземане на проби. От поемането на бивариантен нормално разпределение източник, степента, в съответствие с която дихотомия изработен (в нашия пример - алкохол) може да бъде представена от някои изпълнения имат нормално разпределение, и че всяко напречно сечение е дихотомия двумерен нормално разпределение. По този начин, връзката може да се определи като се използват нормални неразделна масите. Например, Таблица 26.7 честоти алкохолици и nonalcoholics, в "изгаряне" колона, равни на 50 и 43. Следователно, относителната честота

е алкохолици и нормално отклонение, съответстващо на тази честота, е в съответствие с таблицата, 0,0944, която е стойността, определена за този раздел.

За данните в таблица 26.7 са по отношение на честотата, оценка на отношения и ценности:

Сега, (26.70), получаваме

които могат да бъдат взети, според нашите предположения за оценка на коефициента на корелация.

26.31 Като tetrachoric коефициент коефициент biserial разпределение на пробата, не е известен. Pearson (1917) намери асимтотична израз за вариацията проба, но не е известно колко голяма трябва да е, че този израз може да се използва.

Не можеш да очакваш, или могат да бъдат много ефективни за оценка, защото те използват твърде малко информация за променливи. Струва си да припомним също, че поемането на бивариантен нормален източник на разпространение (въпреки че това не винаги е било направено очевидно) е от решаващо значение за двата метода. Без поемането на нормалността не е известна като цяло тази оценка.

26.32 Ако таблицата за класификация група зададени някои изпълнения (за разлика от класификацията на разстройства като в таблица 26.7), вместо да бъде оценена директно Всъщност, сега сме

е налична допълнителна информация, която ви позволява да се изчисли дисперсията на броя на неговите варианти и средната стойност за всяка от частите на дихотомията по отношение на у. Тъй като регресия на х към у е линейна, след това ние имаме (вж. (26,12))

В 26.27, трябва да се намери

където общият брой индивиди, носещи една функция в клас ( "по-високи" стойности за броя на индивиди с друга функция. Стойността е нормално разпределение точка противопоставяне на у.

От (26.71), че средно всяка част дихотомия ще лежат на линията на регресия (26,71). Така част дихотомия съдържащ "по-висока" стойност у (означен имат

Поради това, както и прогноза за съотношението може да се

където х стойности на "по-високи" наблюдения у и през масата, съответно, проба разсейването на х през масата. Знаменател (26,73), съгласно (26,72) има формата

Ако получи оценка на ординатата показват, плътността на нормалното разпределение в точка след като на за

Приблизителна оценка, дадена от това уравнение, ние сме идентифицирали индексът сочи към името си: нарича "коефициент biserial

Последното равенство обикновено написани в по-симетрична форма. защото

Обозначаващ разликата е равен на съотношението да намерите различен вид (26.74):

Пример 26.13 (на Pearson, 1909)

Таблица 26.8 съдържа разпределението на възрастта на кандидата (общо 6156 души), които са издържали и не издържали приемните изпити в университета в Лондон в две по-големи възрастови групи са дадени средната оценка възраст.

Таблица 26.8 (вж. Сканиране)

Използването на индекса 1 за успешни кандидати, ние имаме

За всички кандидати заедно

Уравнение (26.72) дава и ние откриваме Следователно от (26.74)

Очакваното съотношение между възраст и успех е ниска.

26.33 Както в случая на поемане на първоначалния нормалност е решаващо в разпределението на изходния biserial фактор е неизвестен, но Soper (1914) получава израз за нейната стандартна грешка при нормална

и то показа, че по-добро приближение до (26,76) е

По-късно подробно проучване е проведено коефициент Maritz (1953) и Tate (1955), което показва, че асимптотично нормално със средна и дисперсията се разпределя в нормални проби (26.76). В допълнение, те считат максималната оценка вероятност за когато biserial данни. Оказа се, както може да се очаква, че в продължение на фиксирани стойности на минималната вариация когато дихотомия е направена в средата на интервал dihotomiziruemoy Ако променливата е ефективна оценка на коефициента но ако ефективността клони към нула. Tate също табличен Soper формула (26,76), за да се види. Упражнения 26.10-26.12.