Някои прости методи за манипулиране на данни

Без съмнение, XXI век може да се нарече път на науката и информация. Това е много време, но възрастта информация увеличава риска от манипулиране на данни, за да заблудят хората.

Нека поговорим за това как да се лъже с помощта на статистически данни и факти, и погледнете как да не попадат за измами с подхранка и просто псевдо-наука. Така че, тук е най-простият и най-ефективните методи за представяне на данните е доста безобидни, така че самозалъгване.

Неправилно вземане на проби

Да речем, че искате да извършват своите изследвания на световно ниво и, следователно, за да изберете хора от всички краища на света. Да кажем, че имате списък на всички хора на планетата и случайно сте се измъкнем от него 10 души, които да отговорят на вашите въпроси. Ще ви изследвания, за да има поне някакъв смисъл? Едва ли. Основната грешка е, че макар и да изберете хората, на случаен принцип, броят им бе твърде малки, за да учат имали поне някаква стойност. Тя може да бъде много лесно, че всички 10 души, които четете или, напротив, нито един от анкетираните никога не взима книги в ръка. В този случай, в резултат на научните изследвания може да се заключи, че всички хора са постоянно четене, или че никой от хората не се интересуват от четене. Не е най-информативен проучването, не е тя?

Някои прости методи за манипулиране на данни

Според статистиката, 100% от посетителите на библиотеки, за да чете книги.

То може да бъде интересно:

Някои прости методи за манипулиране на данни
3 от психологически експерименти, които се обясни много

Въпреки това, дори и да вземе проба от 10 милиона души, тя все още нямаше да се гарантира точни резултати. Да кажем, преди няколко години, вие сте проведено някои проучвания и проучване само 10 милиона на различни учени от цял ​​свят. Правилно да се използва тази извадка? От една страна, това е наистина голям, но, от друга страна, това е най-много, нито е предубеден проба. Преценете как човечеството обича да чете за това как много учени да четат - това е като да се съди за това какъв процент се занимава с физически труд, интервюиране изключително водопроводчици.

Вземете средната стойност

Представете си, че искате да получите за компанията Х и се интересувате от средната заплата в дружеството. Вие се интересувате от доклад констатация, ще знаете, че тя е $ 100 000 на година, но какво точно означава това? Може би това е колко ще бъдат изплатени веднага след работа? Не. Може би след определен период на работа в тази фирма, най-вероятно ще получи тази сума? Съвсем. И така, какво означава това? В действителност, от практическа гледна точка, абсолютно нищо, ако изследването е по-точно за това, което средната стойност под въпрос.

Изразът "средната температура в болницата" поема ироничен оттенък е така, защото на средноаритметичната температурата на пациентите може да се каже, че всички те са здрави.

Фактът, че има три средни: средна аритметична, медиана и режим. В случай на средната аритметична съберете всички стойности и да си поделят сумата от броя на мандатите. Медиана означава, че половината от стойността е под тази стойност, а другата половина по-горе. Мода просто описва най-често срещаната стойност в комплекта.

Сега нека да се разбере защо изразът от средната заплата над средната аритметична е безсмислена. Да кажем, че в компанията работят главен изпълнителен директор със заплата от $ 10 милиона, 5 мениджъри с една заплата от $ 300 000 и 20 работници със заплата от 75 хиляди долара. Средноаритметичната стойност се получава, както следва: (до 10 000 000 х 5 + 300 000 + х 20 75 000) / (1 + 5 + 20) = 500 000 долара. Въпреки факта, че най-често срещаните заплата (и най-вероятно, ще го получите точно), равна на 75 000, средната работна заплата на дружеството е в размер на 500 000, въпреки че в действителност той не получи един.

Вижте също:

Някои прости методи за манипулиране на данни
Как да започнете да се съмнява във всичко и любов наука

В този случай, ако наистина искате да се направи оценка на финансовите си възможности в компанията, най-разумно да се търси за научни изследвания, където е медианата и дори модата, но в никакъв случай не средноаритметичната стойност на всички заплати. Да, най-вероятно, тази цифра изглежда впечатляващо, но светска средна или режим ще се отрази действителността и да бъде в състояние да ви даде насоки при избора на истинска работа.

готино графики

Представете си следната ситуация: вие държите има графика, показваща приходите Роман Абрамович през последната година, а вие искате да представите на доходите на компанията ви, така че да изглежда по-привлекателен, отколкото доходи известния милиардер.

На пръв поглед това изглежда невъзможна задача, но тя всъщност е доста проста. Достатъчно е да се промени мащаба на графиката по оста Y. С други думи, ако стойността на вертикалата на графиката приходи Абрамович са десетки милиони долари правят техните равни десетки долара. Това ще се постигне желания ефект.

Въпреки това, има по-лесен начин: премахване на скалата от Y-оста на всички. Това ще ви позволи да се направи графика с такъв експлозивен растеж, с това, което желаете.

Графика - това е забавно, но често напълно uninformative.

Изберете подходящата изследвания

Както би било фантастично да звучи, но с помощта на статистически данни лесно може да се докаже, че монетата пада опашки в 100% от случаите. В допълнение, това може да се постигне дори с експертни независими лабораторни данни (познатата формулировка?). Същността на експеримента е следната: нека лабораторията просто уреждане монета 5 пъти. Като се има предвид, че всеки път, когато тя попада орел, можете да се заключи, че орелът попада в 100% от случаите. Каква е уловката? Фактът, че вие ​​всъщност наемат няколко десетки лаборатории, всяка от които е бил един и същ: хвърля монета 5 пъти. След това трябва само да изберете лабораторията, която ще хвърли монета, колкото е необходимо.

Ако мислите, че в реалния живот, такива трикове не са приложими, припомнят различните надписи върху продукти в стила на "паста за зъби е станал 25% по-ефективно от преди", или "нов прах премахва петна с 30% по-добра, отколкото при конвенционалния прах." В този случай, обикновено има бележка "се оказа от независима лаборатория." Вие се чувствате, когато щипки за обувки?

Трикове с визуализация

Представете си, че Фирма А служител печели $ 100 на ден, а рота само 50. Ако сте фирма и собствениците и искате да привлечете нови служители, което искате да се максимизира използването на факта, че работниците си да печелят два пъти повече, отколкото служители конкурент. Можете просто да се направи графика, на която в графата "заплата в дружество А" е 2 пъти по-висока, отколкото колона Б. компанията

Но може да се визуализацията още по-грандиозно. Фокус One: Y ос на графиката не започва от 0, и, например, $ 30. По този начин, визуална разлика е, не че на 2 пъти, а през цялото 3.5. Без съмнение, можете да започнете да се изгради и $ 40 - до 6 пъти разликата ще изглежда още по-значително.

В допълнение, това е възможно да се направи торбите с знака за долар за тях, тъй като олицетворение на пари, и на разликата между заплатите на използването им. От една страна, компанията A 2 съответства на торбата за $ 50 и рота само 1. Но пак, това не е достатъчно ефективно. Нека по-добре да се направи чанта, която отразява заплата в компания A, два пъти повече, отколкото съответния торбата за компания Б.

Илюстрация от книгата "Как да лежи със статистика, използвайки"

Номерът е, че вместо да се увеличава площта на чанта 2 пъти (ако става дума за двуизмерен образ на чантата), ние увеличаваме всяка страна 2 пъти. Така визуално разликата получена от 4-кратно. Разбира се, ако ние искаме да направим триизмерна версия на нашия пример, разликата ще бъде в размер до 8 пъти.

Сложни причинно-следствени връзки

Да предположим, училищен психолог, определен да разгледа връзката между пушенето и успеха на студентите. А психолог изучаване на съответните данни става по следния начин: сред добрите ученици на децата никой не пуши, докато пушенето сред по-ниска успеваемост всичко. Означава ли това, че пушенето влияе отрицателно върху напредъка обучение? Не е факта.

Вижте също:

Някои прости методи за манипулиране на данни
По-добре обяснено: Как да се изчисли средната температура в болницата

Фактът, че ние не сме измислили каква е причината, а това - на разследването. От една страна, пушенето може да бъде причина за лошото представяне на учениците. Но от друга страна, той може лесно да бъде това, което избутва лошото представяне на учениците да станат пушачи.

В този случай ние се занимаваме с корелация (връзка между две променливи), но корелацията - не причинно-следствена връзка. На първо място, това не винаги е ясно каква е причината и следствието, и второ, съответствието между всяка от стойностите не винаги е и изобщо има практическо значение.

Каноничността пример за фалшив корелация

грешки

Много е важно да се обърне внимание на грешка в изследването. Представете си, че искате да измерите поле, чиято дължина е 100 метра (но не знаете). Всяка твоя стъпка е равна на около 1 метър, но на 100 метра, като може и да се объркат до три метра. С други думи, измерване на полето, може да се заключи, че тя е равна на дължината и 97, и 99, а дори и 103 метра. В този случай, грешката е равна на 3%.

Нека разгледаме един пример, в пренебрегването на изучаването на изчисления за грешка може да доведе до абсурдни резултати. Добре известен тест за измерване на Stanford-Binet IQ е грешката в резултатите от измерването на 3%.

Сега си представете, че детето има резултат от 97 точки, а детето B - 103. Като се има предвид, че 100 точки - това вторично (или "нормално") се получава, че в резултат на детето А под средното, и детето B - над средното ниво. Все пак, ако си спомним, че грешката при измерване на 3% може лесно да се случи, че е наистина едно дете A резултат от 103 точки, а на дете В, а напротив, 97. Следователно, за да се каже, че детето по-умни и Б, въз основа на IQ-тест (което по принцип е абсурдно), - не най-добрата идея.

заключение

Ние разглеждат само най-често срещаните техники за манипулиране на данни с помощта на статистически данни. Все пак, ако искате да продължите да проучи тази тема, аз препоръчвам книгата "Как да се лъже с помощта на статистически данни."

Основното нещо - не оставяйте познания за теоретичните самолета. Следващия път, когато се вгледате в друго проучване или доклад (особено, когато тя ще се съсредоточи върху работата, извършена от президента за последните четири години), се опитват да разрешат въпроса по-скептични и да разберете какво е под въпрос, и какво означават резултатите.