Как matriksnet новини форум за уебмастъри

Потребителят въпрос за сайта на търсачката, уточнява нейно искане и възпроизвеждане на данни, задачата е да се изготви искане за най-добрите най-важните документи. Документи, които отговарят на заявката в индекса - милиарди, а дори и след първата им филтриране - милиони. Тези милиони, трябва по някакъв начин да организират. За помощ при съставянето на класацията формула идва машинно обучение, а именно - Matriksnet, патентован алгоритъм градиент повишаване Yandex.

. Matriksnet - градиент повишаване на дървото на решенията, която поддържа всички основни режима: класификация, multiklassifikatsii, регресия, класиране и т.н. Има по-сложни режими - комбинация от горните. Нашият отдел е разработването на нови начини за нуждите на съответните ведомства, както и вътрешни потребители Yandex сега е също така да добавяте свои собствени режими.

Matriksnet може да работи с липсващи стойности - ако не е посочена стойност на фактор, това няма да бъде проблем. В допълнение, Matriksneta обучение може да се стартира на клъстера - разпределена алгоритъм. Това е важно, защото в търсенето на проба обучение в момента е с размер, че те просто не се вписват в главната памет на сървъра, поради което трябва да се направи, разпределени обучение.

Matriksneta използвате в Yandex

Кой е в публичното пространство има няколко алгоритми на градиент стимулиране, така че аз ще ви кажа какво е различен от тях Matriksnet. Важна особеност е, че тя почти не се нуждае от избор на варианти за него. Защо?

Когато той пише Matriksnet, тя е тествана на набор от различни проби за обучение (сдружения), така че да се даде на всички по-добро качество, така че новите набори от данни, ние също така да получите добро качество. Matriksnet лесен за употреба, не само защото почти не се нуждае от избор на параметри, но и защото това Yandex има инфраструктура да тече обучение буквално с едно кликване (повече за това по-долу). Matriksnet печели върху качеството на други алгоритми на градиент повишаване на дървета в режим на регресия решения.

Как matriksnet новини форум за уебмастъри

В Matriksneta силно оптимизиран за обучение. Това е важно за всички задачи, Yandex, но най-вече за търсене. Въпреки, че имаме голям обучение и вземане на проби, не можем да си позволим да учи формула месец, тъй като качеството ще пострада. Ето защо, се прилагат всички видове на оптимизация, както и алгоритмично на ниско ниво, както и оптимизиране на натоварването на мрежата. Прилагане на формула Matriksneta zaoptimizirovano твърде много (за 1 сек. В един поток от формула може да се прилага до 100,000 документи).

Gradient повишаване на дървото на решенията

Дървета на решения - това е такава структура от данни - двоично дърво - когато всички възли на данни, с изключение на листа, е даден дял на някои от факторите или номер и в листни върхове са числа. Това е начинът, по дървото може да бъде приложена към документа:

Как matriksnet новини форум за уебмастъри

Gradient стимулиране - по-прости модели е сумата, (в този случай, дървета на решения), всяка от които се подобрява в резултат на предходната комбинация.

Matriksnet - това не е произволно дървета на решения, както и така наречените «забравил решения дърветата", където има дял от едно и също на всяко ниво от основанията и същ номер. Такъв метод за изграждане на дървото има набор от функции:

• получаване на много прости модели, които са устойчиви на преквалифицират
• разделяне на пространството с hyperplane, което означава, че за да се изчисли стойността на листа, е необходимо да се изчисли стойността на всички дялове, което означава, че няма значение в какъв ред да го направя
• узаконяване. Необходимо е да се гарантира липсата на листа, които почти никога не се случва обекти, така че трябва да излезе с най-различни нередовности да санкционира такива ситуации

Образованието на клъстер

Има няколко начина, като градиент повишаване на решения по дърветата, успоредни на няколко сървъра:

1. въз основа на
2. документи

Ако паралели обучение на основание (при различни признаци са на няколко сървъра), а след това количеството на информацията, която трябва да бъде изпратено по мрежата, ще бъде пряко пропорционално на броя на документите. Тъй като броят на документите, ние имаме много голям и нарастващ, Ние не можем да си го позволят, и е успоредна на обучението в съответствие с документите.

Затруднения при обучението на всички градиент повишаване на дървото на решенията е да се избере на дървовидна структура, т.е. набор от атрибути, на които ще бъдат следващата ни дърво. Изборът се осъществява по два начина:

1. Режим на майстор-роб, когато има един главен възел и набор от Slaves, всяка от които разглежда някои статистически данни за характеристиките и го изпраща на капитана, който ги обобщава и да изберете най-добрият показател
2. всички радиус режим където няма специален майстор и всеки възел се отчитат всички статистически данни и агрегати по себе си

Всеки един от тези подходи има сериозни недостатъци. Капитанът на режим майстор-роб става пречка в мрежата, всички режим радиус е много трафик, защото всеки възел трябва да получат много информация. Например, XGBoost работи във всички режим радиус, така че не е добър паралел. В Matriksnete двете от тези проблеми се решават по следния начин: при избора на друго дърво за всяка функция е случайно избрана възел, който декларира, виртуална майстор, всички останали роби вече комуникира с този възел. Той се обобщават данните, което трябва, тази функция изчислява и изпраща резултата на капитана.