База данни пълнота и надеждност

бази данни: пълнота и надеждност

# 9; типичен нареди структурата на информация е база данни. Такава база на различни теми са били създадени през епохата преди компютър, но това позволи на компютъризацията направи качествен скок в тази посока: в допълнение към собствената си база данни (т.е. съхранение), данни започнаха да се развива усилено на навигационната система, т.е. намиране на подходяща информация в огромна база масив. Всичко това, съчетано с повишена нужда от такива информационни системи за извличане е довело до появата на пазара разнообразие от алтернативни бази данни с предложения за повече или по-малко интересен теми (интересни за купувача, разбира се).

# 9; Изправени пред необходимостта да имаме под ръка на база данни по всяка тема, купувачът често е озадачен от някои (или който и да е) на база данни е по-добре да се купи от този или онзи база данни е различен от другия, за добро или за лошо. В този случай, основните параметри на сравняваните бази данни, са следните: пълнотата на база (т.е. наличието на цялата информация по този въпрос), качеството на подкрепата за навигация (т.е. лекота и прецизност на намирането на информация в базата данни) и ефективността на актуализиране (т.е. скоростта на попълване на свеж база данни). Ако последните две параметри на всеки потребител може да бъде оценена от паспортните данни и демо версия на базата данни, а след това по отношение на пълнотата съдени много по-трудно (добре, ако купувачът не знае дузина други обекти или документи, които трябва да присъстват в основата на този въпрос, и може да се уверете, че колко от тях се намира в тази конкретна база данни), най-често единственият източник на информация по отношение на пълнотата на разработчик на условно предсрочно освобождаване на база данни. Въпреки това, съществуват обективни методи за оценка на пълнотата на базата данни, както и истинската работа е посветена на един от тези методи.

1. Изчисляване на двете бази

# 9; първоначалното изчисление на тези постулати.

# 9; 2. Всеки документ има набор от идентификатори еднозначно го определят (например датата на документа е създаден, създателят на референтния документ номер, източник на информация за документа, и т.н.), т.е. по какъвто и наличността на база данни на този документ може да бъде инсталиран набор от своята идентичност (в конкретния случай - за всеки отделен идентификатор, ако идентификаторът - уникален).

# 9; 3. Всеки документ има същите идентификатори в различните бази данни.

# 9; 4. Всеки набор база данни от документи в самостоятелен вид, независимо от другите бази данни, т.е. никой от базата данни не е основен доставчик на информация за други данни.

# 9; В рамките на тези разпоредби могат да бъдат допълнително твърдят така.

# 9; Нека обективно съществуват N документи по темата. DB конкурентни разработчици искат тези документи с различна ефективност, в резултат на което DB1 база данни съдържа

# 9, можете да се вземе решение да се получи достатъчно, за да се използва само четири уравнения от седемте, и на четири крака:

С други думи, това е възможно да се получи 35 комплекта решения. Не всички от тях са равни, и ето защо. Относителната точността на определянето на дискретна случайна променлива е обратно пропорционална на корен квадратен от тази стойност (в съответствие с формули (6)), и по формулата за изчисление с умножение и деление на случайни променливи на относителните грешки се обобщи, както е показано на изразяване (7). Ако приемем, че всички п Аз. като правило, повече от всеки от п IJ на. и те, от своя страна, значително повече от п ijk. от това следва, че използването на п ijk в изчисленията трябва да се избягва, доколкото е възможно, т.е. да не се използва най-новите (седма) уравнение на снимачната площадка (10). Тогава броят на комбинациите е сведена до уравнения

15 Тези уравнения могат да бъдат разделени в 4 групи, всяка от които разтвори се получават чрез циклична пермутация на индексите:

1. Има три вида системи:

2. Има шест вида системи:

3. Има три вида системи:

нерешим система, защото уравнения са линейно зависими:

4. Има три вида системи:

# 9; Така, 12 набор от получените разтвори и формули частично повтарят в тези комплекти:

# 9, изчисляване на средната стойност, дисперсията и стандартното отклонение на всеки от тези количества формули честота на повторение, трябва да се отчита чрез въвеждане на подходящи тегловни коефициенти. В най-простия случай, изчисляването на средните стойности с формули:

# 9; отклонение и стандартно отклонение за 1М се изчислява чрез формули (21) и (22), съответно:

Подобни формули могат да се напишат за другите три променливи (тук ние не го правим само от съображения за едно място за спестяване).

# 9; Въпреки неудобството от горните формули, всички тези изчисления се извършват бързо и лесно в компютър изпълнение с използване на таблица (в това изследване се използва електронна таблица Excel5.0).

# 9; Интересното е, че информацията за присъствие на трите бази, и има възможност да се търси в "кухнята" на всеки един от разработчиците на бази данни. Факт е, че ако първоначалните данни за изчисляване, представени в малко по-различна форма:

- на броя на документите, които се намират само в BD1;

- на броя на документите, които се намират само в SN2;

- на броя на документите, които се намират само в DB3;

-броят на документите, достъпно само на BD1 и Sn2;

-броят на документите, достъпно само на DB1 и DB3;

-броят на документите, достъпно само на DB2 и DB3;

-на броя на документите на разположение и в трите бази,

става възможно да се идентифицират и нечестно поведение на предприемача, "източване" на документи от чужд база в неговата, и обратната ситуация - наличието на мощен източник на информация, която е на разположение само на един от разработчиците, и най-накрая, наличието на "набор джентълменско" на документи трябва да бъдат представени в всяка база данни, отнасящи се до посочено темата.

# 9; Връзката между номера м и п са очевидни:

3. Модел на експеримента

# 9; следния модел Експериментът се провежда за проверка на качеството на методологията за изчисление. Да предположим, че съществува обективна N0 набор от документи (например, подзаконови актове, уреждащи научни изследвания и развитие). Да предположим също, че разработчиците к предлагат на своите бази данни по този въпрос, всеки аз ти разработчик търси своята база тези наредби с определен вероятност ai0. в резултат на своята база данни съдържа ni0 = N ai0 документи съответните теми. Ако всички числа ni0 на. nij0. отговаря точно зададени N0 и ai0 (I = 1. к), след това се замества с тези номера във формулите, получени в предишните раздели, автоматично ще възстанови тези стойности N0 и ai0. които се поведе в модела.

# 9; Сега леко се променят условията на модел експеримент. Тъй като всеки от първоначалните количества Ni. Ню Джърси. всъщност изложени на случая и техните средноквадратична разпръсне определят чрез формули (5), и в съответствие с теорията на вероятност 80% от действителното отклонение от истинската стойност на Ni ni0 не превишава D Ni. 95% от отклонението е по-малко от 2 D Ni и само 0,3% от отклонението е по-голяма от 3 D Ni. Затова ние променяме модела, както следва: всички на оригиналния ( "идеалната"), стойността на x0 (... X0 = N10 N20 N120) се заменя със

където D = x0 -srednekvadratichnaya грешка,

и е т - случайни числа с равномерно разпределение в интервала от нула до един,

# 9; A - Фактор на мащабиране за определяне на амплитудата на случайно излагане (A = 0. 4).

# 9; Замествайки тези променени начални стойности в нашите изчислителните формули, ние естествено се получи резултат, до известна степен в близост до "идеален", но все пак се различава от него. За да се оцени точността на реконструкция на параметрите n0 и ai0 модел експеримент от този тип могат да бъдат повторени няколко пъти, като всеки път се използва генератор на случайни числа различна набор от входни данни. Това беше направено за два модела:

За да се опита мащаб отклонения начални стойности във всяка серия от експерименти, в Таблици 2 и 3 показват някои от резултатите (всички серии от експерименти се състои от 60 за всяка стойност на амплитудата A).

Таблица 2. Изходни номера за модел експеримент с две бази
(N1 = 300, n2 = 200, N12 = 100)

# 9; В тази таблица, втората колона поставя тук необходимите количества, третият - средната стойност на поредица от 60 експерименти, стойността на всяка стойност в четвъртата колона - прогнозната грешка на единично измерване, през последните две колони - максималната и минималната стойност на желаната стойност, които се появяват в серия.

# 9; види, че дори в случай на А = 3 (вероятността от максималното отклонение А по такъв теория възлиза на 0,3%) за измерване резултатите са много добри. четвърто номера на колоната, съответстващи на средна грешка на всеки блок за изчисляване определят допустимото разсейване много припокриващи всяко отклонение от средните стойности (третата колона) на "теоретичната". За втората серия от измервания (за к = 2) Изчисляване на единицата за грешка близките съответства на максималните и минималните отклонения от средната стойност на изчислените стойности (и вероятност теорията определят като краен отклонение е 5%). Средните стойности, получени от тази серия съвпадат с теоретичния точност фракции от процента. Само в третата серия от експерименти със силно преувеличени разпространение стойност (вероятност на такава ситуация се оценява на 0.3%) възникне изпълнения където реконструирани стойност с повече от 20% различен от вярно (въпреки че средните стойности за серия все още много близо до истинското).

# 9; Експеримент с три бази данни връщат резултати, резюме на което е дадено в Таблица 5.

Средно за Series

Грешката на всеки модел%

Максималната стойност в поредица

Максималната стойност в поредица

# 9; Всички изводите от модела на двете бази е валидно дори и в силно форма. Ето защо, ние решихме за разширяване на експеримента към още по-голямо "люлка" на изходните данни. Случайно такова натрупване е почти не може да се случи, но базата данни на придобиване - процесът не е чисто случаен и не може да се изключи възможността за използване на имплицитните съдържание на чужди бази данни и частен достъп до богата като основен източник на информация (например, да подаде емитент мощни документи); В допълнение, неизбежно и влияние на не-нула "набор джентълменско" на документи, необходими във всички бази данни (за повече подробности, този фактор ще бъде обсъдено по-долу). Четвъртата серия от експерименти показват, че в този случай, максималното отклонение на реконструирания стойност от точните стойности се вписват в 15-25%.

# 9; В този набор от експерименти, които не разкри твърде забележима особеност: по-ниска е стойността на едно аз. толкова по-голяма е реконструиран разпръсна стойност на този параметър. Ако сега се върнем към данните в Таблица 5 в продължение на две бази, тогава няма да се види същата тенденция.

4. Три база и "набор джентълменско"

# 9; споменато по-горе, че в допълнение към придобиване чисто статистическа база данни механизми, има редица документи, които са "Индикатори" теми в базата данни. Например, едва ли някой се осмелява да се обадите на правна информация база данни име "Федерална законодателство в България", ако в тази база данни ще липсва документ, като Конституцията на Руската федерация. Или, ако базата данни "неорганични материали" няма да има информация за простите химически елементи (не връзките, а именно елементи). От гледна точка на целите на тази работа за съществуването на "набор джентълменско" задължителните документи, добавя още един непознат за нашия четири и резервиране на системата (10) - (16) намалява. Но тя започва да играе важна роля е последното от тези уравнения, защото тя е там, за да се постигне максимален ефект от новата въздействието на неизвестна величина. И уравненията са базирани на тази непозната сега изглежда малко по-различно:

# 9, затова на тези системи, можете да получите 18 частични решения (като се вземат предвид само част от общата система от уравнения (24) - (30)). Без да задръствате текста на формулите за изчисляване на средната, дисперсията и средна квадрат грешка, просто да кажа, че всички тези изчисления се извършват от една и съща процедура. като в раздел 3 на тази статия, те също са проектирани под формата на електронни таблици Excel5.0.

# 9; формулите за изчисление на този раздел е малко по-сложни, отколкото в раздел 3, така че е интересно да се види колко добре сближаване и стабилност на решения, като вземат предвид "набор джентълменско" на документи, които отново се създаде модел експеримент, описан в следващия раздел.

5. Модел на експеримента-2

# 9; Предпоставки на експеримента модел са както следва. Обективно, има набор от n0 документи по дадена тема, и Y0 документи от този брой са публично достъпни и задължителни за всяка база данни претендира да обслужва тази конкретна тема. По този начин, всеки един от разработчиците к има в своята база данни Y0 тези документи и други документи, както и преди, се търсят и се състои от основа с вероятност от i0. така, че неговата база данни съдържа ni0 = Y0 + на I0 документи (N0 -Y0). случайни фактори, които вземаме предвид, по същия начин, както бе направено в раздел 3, т.е. суровото ( "идеален") стойност x0 (x0 = N10, N20, N120.) се заменя с х = x0 + D x0 (е-w) А. където D = x0 -srednekvadratichnaya грешка, # 9; и е т - случайни числа с равномерно разпределение в интервала от нула до един, А - мащабиране фактор за определяне на амплитудата на случайно излагане (А = 0. 3).

# 9; Тъй като минималният брой бази данни в този случай не може да бъде по-малко от три (две бази, получени три уравнения с четири неизвестни, и системата от уравнения се получава недостатъчно), в този раздел изследва само един модел със следната входните данни: N0 = 1050, Y0 = 50, 10 = 0,3, 20 = 0.5 и 30 = 0.7. Всяка партида от експерименти са включени 100 модела за фиксирана стойност на А. Таблица мащаб фактор 6 показва необработените данни от първата серия от експерименти.

Таблица 6. Първоначално номер на модел експеримент с три бази
(Точните стойности са: 1 = 350, n2 = 550, n3 = 750, N12 = 200, N13 = 260, N23 = 400, n123 = 155)

# 9; Анализ на данните в Таблица 7, можем да се направят следните изводи:

# 9; 1. В 80% от случаите (А = 1), точността на определяне на неизвестни количества е доста висока: грешка определяне ефективността средни 1.5-3%, дори максималното отклонение в серия от експерименти, 100 подредени в 6-10%; стойност "комплект доброволно" документи Y определят по-точно (средноквадратична грешка е 15%, но максималното отклонение в серия достигна 30-40%), обаче, точността на определяне на общия брой на документи N е почти не са засегнати, грешка на 1,5% -ен средно от 4-5% при максималното провисване - доста задоволително.

# 9; 2. И увеличение до 1,5 увеличава грешката на всички стойности, въпреки че средните стойности са в непосредствена близост до "идеал". Най-чувствителните отговори на растежа на статистическата разпространението на всички едно и също количество Y. Имайте предвид, че и в двете серии, всички без изключение, изчисленията са верни, не провали като деление на нула не е (въпреки че понякога се появява в знаменателя на необичайно малък размер, както е видно от асиметрията на максималното отклонение N в посока на големи и малки стойности).

# 9; 3. И увеличение на до два подчертано влоши условията за изчисляване: средните стойности на неизвестните величини имат значително по-различни от "идеал", имаше повреди при изчисляването се появи необичайно голямо Nmax. и отрицателна стойност (в таблицата са отстранени), грешка RMS е нараснал до 30-50%.

# 9; 4. Последната серия (А = 3) показват, че този вариант (и вероятността от своя спонтанен реализация не трябва да надвишава 0,3%) прави обезсмисля изчисление: 40% в тази серия от експерименти дава никакви резултати, формулата за изчисление не работят.

# 9; Този резултат ни дава възможност да се заключи, че даде разумни резултати, статистически разпространението на първоначалните данни има малък ефект върху крайните резултати за базата данни, за да бъдат независими и една и съща технология завършат изчисленията на алгоритъма; Въпреки това, всяка база данни корелация или някоя изключителност на всяка база, необходима за да повлияе на точността на изчисленията и най-вероятно в един от формулата за изчисление би довело до абсурд. Очевидно е, че в такива ситуации правят някои и много конкретни заключения, първо трябва да се моделира някои прости възможности.