Как работи "МА"

Преди няколко години направих шега ", Avtopoeta". Когато казвам "аз правя" Avtopoeta "" трябва да се разбира, че много различни прекрасни хора, които участват в този процес. На първо място, това е Юра Zelenkov нашия лингвист чиито евристичен аз се използва за изграждане на фонетичното транскрипцията. Имаше и други партньори, например, при работа с невронни мрежи ми помогна Иля Edronkin, нашият експерт по технология за гласово. Но след това, за простота, аз ще кажа от свое име.

Следваща Аз ще говоря за автоматично генериране на поетични текстове, подчертавайки три аспекта на влиянието на текста на читателя - това е смисъла, структурата и стила. Това разлагане е доста произволно и може да бъде, че не е съвършен, но аз го избрах, защото ми се струва, удобен за изграждане на по-нататъшно изложение в такива условия.

Добрата новина за човечеството - е, че генерирането на висококачествени не-изродени "сетива" (например, истории, скриптове или разкази) все още остава съдбата на човека. Сега светът е интензивна научна и техническа работа в задачата на текст машина "разбиране". Вече има много значителен напредък - например за машинен превод, - но все още предстои да се разбере текста (или, да речем, за да отговори на въпроси, свързани с текста) човек все пак успява по-добре, отколкото на компютър (за разлика от, да речем, на играта на отидете или класификация на изображението ).

Така че аз няма да говоря днес за формиране на чувство, но се покаже няколко трика - те ви позволяват да генерира автоматично текст, който може да създаде у читателя фалшиво чувство за смисленост. От друга страна, защо не? В нашата система от тема и текст-читател да изпитат смисъла на обекта може само читател - толкова безсмислен, че той се чувства еднакво реално.

Ние ще се разбере структурата на - тази част от поезията просто формализира. На първо място, ние очакваме, че стиха се състои от поредица от линии, които са групирани в строфи. Второ, някои от ритмични условия трябва да бъдат изпълнени, за тези редове. В сричкови, ритмически, сричкови-тоник и други стихове, тези условия са формулирани по различен начин, но някак си всичко се свежда до оценка на барабаните и продължителността на всяка сричка. На трето място, това може да отнеме известно фонетично съгласуваност между различните линии - е, например, може да бъде рима или алитерация.

По този начин, ако можем да (и ние знаем как да) се изгради фонетична транскрипция на някой ред от текста, той остава чисто техническа задача - да напише алгоритъм, който определя дали два низа са подходящи за всеки друг. Ние трябва да се изгради фонетична транскрипция, брой срички и определя продължителността на всеки един от тях, за да се установи съответствие с желаната линия на метър, за да се провери за наличие на две линии кръст рима. Ако имаме много текстови низове, ние можем да ги филтрираме автоматично и да се създаде набор от случайни договорени условия за поетичен структура.

търсения

Поради спецификата на тяхната работа, учих много потока от заявки за търсене на "Яндекс" - естествено, безлична, без да бъде обвързана с конкретен потребител. В деня, хората се питат "Яндекс" около три сто милиона заявки и около половината от тях - уникален, това е, не се повтаря един на друг.

На заявките за търсене, можете да се съберат много забавно: те отразяват интересите и стремежите на народа, а освен това тя е бездънна добре на текстови материали. По това време, лингвисти Yandex направи няколко доклада за езика, които хората използват в заявки за търсене. Този език е опростена, както и неговите неписани правила не винаги съответстват на руската граматика.

правила често са причинени от обратна връзка: ако търсенето за дълго време не намери за необходимо за дадена заявка, хората да спрат да го попитам и да започнат да задават различни. Постепенно се развива определен колективен навик, един вид жаргон. Показват чудовищни ​​конструкции от рода на "гледате онлайн безплатно в добро качество без регистрация, без SMS». Но в редки, нискочестотна заявки са все още видими истински човешки живот:

  • [Това обеси в апартамента да се оженят]
  • [Tadadadadam хокей мелодия]
  • [Порно nokii 320x240]
  • [Червени гащи на полилея да обичат мнения]
  • [Никога не съм мислил, че това световно първенство, не спечелим].

структурни експерименти

През седмицата няколко търсене дръжки милиарди запитвания. Сред тях можем да намерим линията във всеки желан размер: хорея, ямбичен линия, и така нататък. Първата "поезията", която е генерирала Avtopoet бяха бели - Сложих филтъра с оглед на метър, но не изисква присъствието на рима:

поговорки, камертони
посмъртно медальони
усмихнати меланхоличен
Президентът символика.

Тогава "Avtopoet" Научих рима линия. Аз дойдох с най-простия алгоритъм - реши да сравни краят на фонетични транскрипции на заявки от последната подчерта сричка. Ако се сложи край на една и съща, можем да предположим, че рима линии. Ние просто трябва да се уверите, че ние не се римуват дума със себе си. Изненадващо, толкова проста евристичен е доста работа (въпреки че тя може да бъде отслабена). Ето един прост рима:

купувам обувки в Москва
Искам да ви видя снимки
Game Bad Pig
Гледайте филми тенденции.

На този етап, сложих "Avtopoeta" във вътрешната социална мрежа "Яндекс". Изкъпани идея: нека да го научи да генерира хайку, прахове, торти, depressyashki. Резултатите от тези на нашите експерименти могат да бъдат намерени в yandex.ru/autopoet.

материали за експерименти

Внезапният интерес към "Avtopoetu" от страна на публиката ни накара да продължи да експериментира с различни подходи и текстови масиви. Колеги от различни услуги, "Яндекс" ни дават възможност да си текстови данни, така че да можем да ги в рима. Например, имаше рима имената на спирките на базата "Yandeks.Transport" приложения:

Младежки център България
Строителната индустрия завод
футболна академия
Стари Автошкола Market.

Възпроизведохме класиката и забавлението с римувани цифри:

905 13 16
850 60
5700819
18650.

Структурните характеристики формализират достатъчно прости. Много по-трудно да се определи стила на текста и да го управлявате. Достатъчно е да се чете човек е вероятно да бъде в състояние да разграничи едно стихотворение от поемата на Пушкин Бродски, дори и ако той никога не е чел тези работи, в частност. Но как да се формализира принципите, върху които има такава идентификация?

Ярък пример за голям успех в тази област - Prisma приложение. който е широко обсъждан през последните години. Тя позволява на бутон с едно докосване да стилизирам изображението по-долу от известен художник. Изтънчеността се крие във факта, че снимките, използвани за лечение на не класически филтри и подход невронна мрежа. През последните години той активно се развива. Подобни алгоритми са се появили преди повече от година, но като ударът даден продукт е Prisma, така че аз го давам като пример.

Как става това? Изключително опростяване, можем да кажем, че някои математически модел (Ан) е бил обучен да играят определен стил на художника. Много е важно, че не се прави, за да се следва определена художник, и това е обучен.

Ние приемаме този модел и да я покаже много картини на Мондриан - и тя започва да копира стила му. Ако вземем една и съща мрежа и ще покаже нея Мунк, тя се научава да имитира Мунк. Ние не се нуждаем, за да обясни каква е спецификата на стила на един художник от Мунк различен от Мондриан. Ние просто показват различни снимки на невронната мрежа, докато тя не се възползва от съществено значение.

но тя свети зората и изведнъж запали
нейната зора все още пуши
на плочите в морето над луната рекичка
в простора на водите, но никой твърде скоро
в прохладата на дървета и жив плет hladnoy на
тяхната горички ясновидец не заплени
всичко само отзивчив радост в лоното

мен
изобщо
така че в съня
все по-близо

и аз
Никога не казвам
Не мога да видя къде

къде е копнеж
Аз ще умре през нощта
А на сутринта, въпреки че

на палубата в области, където не шиша
празник на камъка, като че ли в яслите
Тръгнах по пътеката през простора
с огромна челюст, гърлото твърдейки
вода изгаря без шум
Но тъй като за миг всяка война
там, за да играя и да се обвиняваме
в голям хотел в другите къщи
от вечната жена някога е бил
в празен залив, като че ли на верандата
и че всичко, което се допира до земята
имаше само две земи в съня

Можете да опитате автоматично да открие в трудовете на някои поети сме обучени невронни мрежи предвижда тези пасажи. Разбира се, като цяло, текстът напомня shizofaziyny глупости, но ние вече говорихме за смисъла. Необходимо е да се направи оценка на стилистично компонент.

Структура и стил

Така че, ние имаме структурата и има стил. Нека да ги направят заедно. Както вероятно сте забелязали, мрежата не се е научил да се римуват по своя собствена линия, въпреки че поетичен измерение държи доста добре. Тя е лесно да се помогне чрез добавяне на евристични методи, за които вече са описани по-рано. И попита за генериране на текст в стила на Пушкин:

и изглежда притеснен твърде неочакван
сплотяване изречението
всички сетива на ваш постоянен
готино певец и крадец

Не ти не знаеш ли, не зададе
но той беше преодоляна душа
не го прочетете и вие няма да напусне
дебелина на моменти е извор

с които сме загубили с вас
където полетата увити липи
и викаме за тях е претърпял
в западната част на светлините запали

Това беше голямо дръзновение
като лебед в поле изчерпан

Достатъчно ли е за едно произведение на изкуството структура на съответствието и стил? За музика - всичко личи, че е достатъчно. А за текста?

Според нашите тестове, така че е твърде рано да се сериозно се тревожи за професията, както и компютърни специалисти имат работа за вършене. Сега автоматични текстове са изчезнали през структурата, семантиката - но образите вече е достатъчно висока, за да се гарантира, че докато четете можете да се опитате да излезе с някакъв смисъл, дори и да не е така. Сега си представете, че в една или две години ще бъде "Prisma за текстове", както и всеки студент, като напишете няколко изречения, може да натиснете няколко бутона, за да ги лекува "от Чехов," или "под Лермонтов".

С една дума, Yandex-transleyt технически работи дори по-лошо от Google-transleyta, както и съдържанието на двете не са сравними с речника. Yandex-transleyt може да помогне да се разбере най-честата смисъла на статията на уебсайт на чужд език. Yandeks.Slovari помогна на "Властелинът на пръстените", "Властелинът на пръстените". Закриване на услугата - е болката на хиляди професионални преводачи и лингвисти десетки хиляди ентусиасти. И без значение, посочени transleyt и други ресурси за служителите Yandex, реалността е, че адекватна замяна не е налична. Просто не съществува никъде.

Какво добро е обща услуга, която дори и идиоми преведени буквално? "Дъжд котки и кучета", какво, нали?
Речниците се превеждат правилно.