[go: up one dir, main page]

RU2775591C2 - Method and system for detecting abnormal crowdsourcing label - Google Patents

Method and system for detecting abnormal crowdsourcing label Download PDF

Info

Publication number
RU2775591C2
RU2775591C2 RU2019126515A RU2019126515A RU2775591C2 RU 2775591 C2 RU2775591 C2 RU 2775591C2 RU 2019126515 A RU2019126515 A RU 2019126515A RU 2019126515 A RU2019126515 A RU 2019126515A RU 2775591 C2 RU2775591 C2 RU 2775591C2
Authority
RU
Russia
Prior art keywords
users
labels
crowdsourced
browsing history
tags
Prior art date
Application number
RU2019126515A
Other languages
Russian (ru)
Other versions
RU2019126515A (en
RU2019126515A3 (en
Inventor
Алексей Васильевич Тощаков
Анастасия Леонидовна Посадская
Александр Владимирович Анисимов
Евгения Владимировна Аглинская
Original Assignee
Общество С Ограниченной Ответственностью «Яндекс»
Filing date
Publication date
Application filed by Общество С Ограниченной Ответственностью «Яндекс» filed Critical Общество С Ограниченной Ответственностью «Яндекс»
Priority to RU2019126515A priority Critical patent/RU2775591C2/en
Priority to US16/868,363 priority patent/US11086948B2/en
Publication of RU2019126515A publication Critical patent/RU2019126515A/en
Publication of RU2019126515A3 publication Critical patent/RU2019126515A3/ru
Application granted granted Critical
Publication of RU2775591C2 publication Critical patent/RU2775591C2/en

Links

Images

Abstract

FIELD: abnormal crowdsourcing label detection systems.
SUBSTANCE: invention relates to the field of defining an abnormal crowdsourcing label, in particular to methods and systems for detecting the source of an abnormal crowdsourcing label. The effect of the proposed technical solution is achieved by the fact that the claimed method provides for the possibility of analyzing part of the set of crowdsourcing labels; identifying an anomalous subset of crowdsourced labels; getting browsing history; dividing browsing history into groups; forming a set of web resources based on the analysis of groups and matching the web resource with the source of the external triggering event.
EFFECT: optimization of network traffic and reduction of load on network servers.
23 cl, 16 dwg, 2 tbl

Description

Область техники, к которой относится изобретениеThe technical field to which the invention belongs

Настоящая технология относится в целом к способам и системам для определения аномальной краудсорсинговой метки и, в частности, к способам и системам для обнаружения источника аномальной краудсорсинговой метки.The present technology relates generally to methods and systems for detecting an anomalous crowdsourcing tag, and more particularly to methods and systems for detecting the source of an anomalous crowdsourcing tag.

Уровень техникиState of the art

Упрощение пользования сетью Интернет обеспечило пользователям доступ к различным прикладным веб-сервисам, использующим цифровые платформы. Такие прикладные веб-сервисы могут иметь отношение к публикациям (например, к музыке, книгам, фильмам и т.д.), к услугам (например, к авиакомпаниям, отелям, ресторанам и т.д.), к товарам (например, к электронному оборудованию, автомобилям, кухонной утвари и т.д.) и т.п. Некоторые прикладные веб-сервисы обеспечивают пользователям возможности для публикации контента, соответствующего этим прикладным веб-сервисам, в виде рейтингов, меток, положительных отзывов, отрицательных отзывов, комментариев, голосов и т.п. Например, в прикладном веб-сервисе видеоконтента пользователи могут формировать «метки» для различных фильмов, доступных для загрузки или потоковой передачи с сервиса.The simplification of the use of the Internet has provided users with access to various web application services using digital platforms. Such web application services may be related to publications (for example, music, books, films, etc.), services (for example, airlines, hotels, restaurants, etc.), goods (for example, electronic equipment, automobiles, kitchen utensils, etc.), etc. Some web application services provide users with the ability to post content corresponding to those web application services in the form of ratings, tags, upvotes, downvotes, comments, votes, and the like. For example, in a video content application web service, users can generate "labels" for the various movies available for download or streaming from the service.

Поставщики услуг в таких прикладных веб-сервисах могут ранжировать цифровые элементы, по меньшей мере частично, на основе меток, сформированных пользователями. В некоторых случаях часть меток, сформированных пользователями, может содержать злонамеренные, ложные, вводящие в заблуждение или ошибочные метки. Некоторые из злонамеренных меток могут быть сформированы ботами. Другие метки могут быть сформированы пользователями, нанятыми для таких целей (т.е. получающими вознаграждение).Service providers in such web application services may rank digital items at least in part based on labels generated by users. In some cases, some of the labels generated by users may contain malicious, false, misleading, or erroneous labels. Some of the malicious labels can be generated by bots. Other labels may be generated by users hired for such purposes (ie, rewarded).

Тем не менее, некоторые метки могут не быть злонамеренными, но при этом являться «аномальными» или «ошибочными». В общем случае появление таких меток инициируется внешним событием. Например, возможна ситуация, когда некий блогер опубликовал скандальный отзыв о фильме, ставший вирусным, и пользователи становятся склонными помечать фильм на основе такого скандального отзыва без просмотра самого фильма. However, some labels may not be malicious, but may still be "anomalous" or "erroneous". In general, the appearance of such labels is triggered by an external event. For example, it's possible that a blogger posted a bad review about a movie that went viral, and users tend to tag the movie based on that bad review without actually watching the movie.

Существует несколько компьютерных способов обнаружения и фильтрации злонамеренных меток. Например, в патенте US 9479516 B2 описаны различные способы различения злонамеренного отправления данных (например, рейтингов, комментариев, отзывов и т.д.) и допустимого отправления данных, например, сообщений от реальных пользователей приложения. Эти способы могут быть использованы для формирования промежуточных сигналов, которые могут указывать на злонамеренное отправление данных. Один или несколько промежуточных сигналов могут автоматически объединяться с целью формирования заключения об обнаружении злонамеренности в отправленных данных. Описаны различные варианты действий (например, в автоматическом или в ручном режиме) после обнаружения злонамеренности в отправленных данных, например, злонамеренно отправленные данные могут игнорироваться или в отношении лица либо учетной записи, связанной со злонамеренно отправленными данными, могут быть применены штрафные санкции. При этом описания должны толковаться расширительно, охватывая другие сервисы, принимающие рейтинги и/или комментарии пользователей.There are several computerized ways to detect and filter malicious labels. For example, US Pat. No. 9,479,516 B2 describes various ways to distinguish between malicious data submission (eg, ratings, comments, reviews, etc.) and legitimate data submission, eg, messages from real users of an application. These methods can be used to generate intermediate signals that may indicate maliciously sending data. One or more intermediate signals can be automatically combined to form a conclusion about the detection of malicious intent in the sent data. Various options are described (for example, automatically or manually) after malicious intent is detected in the submitted data, for example, maliciously submitted data may be ignored, or penalties may be applied to the person or account associated with the maliciously submitted data. In this case, the descriptions should be interpreted broadly, covering other services that accept ratings and / or user comments.

В патенте US 10089660 B2 описано несколько источников отзывов для одного и того же продукта или сервиса (например, для отелей, ресторанов, клиник, парикмахерских и т.д.), используемых для формирования достоверной оценки. Такая оценка позволяет четко определять отели с признаками манипулирования отзывами, замалчивания и подделки и обеспечивать пользователю полное понимание отзывов о продукте или организации. При расчете оценки используется информация трех видов: пространственная, временная и сетевая (основе графа). Информация смешивается для формирования представительного набора признаков, обеспечивающего надежное формирование достоверной оценки. Изобретение самостоятельно адаптируется к новым отзывам и веб-сайтам. Для обеспечения надежности и достоверности оценки изобретение также предусматривает механизм проверки с использованием краудсорсинга путем формирования фальсифицированных отзывов.US Pat. No. 1,0089,660 B2 describes multiple review sources for the same product or service (eg, hotels, restaurants, clinics, hairdressers, etc.) used to generate a valid rating. This rating allows you to clearly identify hotels with signs of review manipulation, silence, and forgery, and provides the user with a complete understanding of product or organization reviews. When calculating the score, three types of information are used: spatial, temporal and network (graph-based). The information is mixed to form a representative set of features that ensures the reliable formation of a reliable estimate. The invention self-adapts to new reviews and websites. To ensure the reliability and validity of the assessment, the invention also provides a crowdsourced verification mechanism by generating falsified reviews.

Раскрытие изобретенияDisclosure of invention

Разработанные варианты реализации настоящей технологии основаны на понимании разработчиками по меньшей мере одной технической проблемы, связанной с известными решениями. The developed embodiments of the present technology are based on the understanding by the developers of at least one technical problem associated with known solutions.

Например, несмотря на то, что известные решения обладают определенными достоинствами и способствуют обнаружению и фильтрации злонамеренных меток, соответствующих различным прикладным веб-сервисам, они все же имеют некоторые недостатки. Например, несмотря на известность подходов к обнаружению и фильтрации злонамеренных меток, обнаружение и фильтрация аномальных меток и обнаружение в реальном времени веб-источника, побуждающего пользователей формировать ошибочные метки, по-прежнему остаются актуальными.For example, although known solutions have certain advantages and contribute to the detection and filtering of malicious labels corresponding to various application web services, they still have some disadvantages. For example, while malicious label detection and filtering approaches are well-known, anomalous label detection and filtering and real-time detection of a web source that encourages users to generate false labels are still relevant.

Настоящая технология разработана после того, как разработчики путем наблюдения определили, что веб-источник может порождать флешмоб, вызывающий появление ошибочных меток, инициируемых или находящихся под влиянием этого веб-источника. С точки зрения сервера, которому приходится обрабатывать множество операций ошибочной разметки, такой флешмоб может приводить к значительному расходованию ресурсов.This technology was developed after the developers determined through observation that a web source can generate a flash mob that causes the appearance of erroneous labels initiated or influenced by this web source. From the point of view of a server that has to process a lot of erroneous markup operations, such a flash mob can lead to a significant waste of resources.

При разработке настоящей технологии разработчики обратили внимание на то, что все больше прикладных веб-сервисов, доступных с использованием браузерного приложения, обслуживаются сервисами веб-аналитики (такими как Google Analytics™, Yandex.Metrica™ и т.п.). Вкратце, эти сервисы веб-аналитики способны собирать и хранить данные, связанные с браузерным приложением. When developing this technology, the developers paid attention to the fact that more and more application web services available using a browser application are served by web analytics services (such as Google Analytics ™, Yandex.Metrica ™, etc.). In short, these web analytics services are capable of collecting and storing data related to a browser application.

Безотносительно какой-либо конкретной теории, варианты осуществления настоящей технологии разработаны на основе предположения, что оценка истории просмотра/навигации пользователей, формирующих метки, позволяет более достоверно определять случаи, когда метка является или будет являться ошибочной.Without wishing to be bound by any particular theory, embodiments of the present technology are developed on the assumption that scoring the browsing/navigation history of tag-forming users more reliably determines when a tag is or will be in error.

Согласно первому аспекту настоящей технологии реализован способ определения аномальной краудсорсинговой метки для цифрового элемента, доступного на цифровой платформе. Аномальная краудсорсинговая метка представляет собой метку из множества краудсорсинговых меток, назначенных для цифрового элемента множеством пользователей. Множество краудсорсинговых меток связано с типичным распределением меток в нем, а аномальная краудсорсинговая метка инициирована внешним инициирующим событием, ссылающимся на цифровой элемент, но не связанным с этим цифровым элементом. Способ выполняется сервером, хранящим журнал просмотра веб-страниц, связанный с по меньшей мере некоторыми пользователями из множества пользователей, и включает в себя: анализ части множества краудсорсинговых меток, собранных в течение некоторого периода времени; определение аномального подмножества краудсорсинговых меток, потенциально инициируемых появлением внешнего инициирующего события в течение этого периода времени; получение из журнала просмотра веб-страниц истории просмотра, связанной с подмножеством из множества пользователей, формирующих часть множества краудсорсинговых меток; разделение истории просмотра, связанной с подмножеством из множества пользователей, на первую группу истории просмотра, связанную с аномальным подмножеством краудсорсинговых меток, и вторую группу истории просмотра, связанную с оставшимися метками из части множества краудсорсинговых меток; формирование дельта-набора веб-ресурсов на основе анализа первой группы истории просмотра и второй группы истории просмотра на предмет различий в веб-ресурсах, посещенных соответствующим подмножеством из множества пользователей, при этом дельта-набор содержит по меньшей мере один веб-ресурс из первого набора истории поиска, связанный с аномальным характером посещений; и сопоставление этого по меньшей мере одного веб-ресурса с источником внешнего инициирующего события.According to the first aspect of the present technology, a method for determining an abnormal crowdsourcing label for a digital item available on a digital platform is implemented. The abnormal crowdsourced tag is a tag from a plurality of crowdsourced tags assigned to a digital item by multiple users. A set of crowdsourced tags is associated with a typical distribution of tags within it, and an anomalous crowdsourced tag is triggered by an external triggering event that references a digital element, but is not associated with this digital element. The method is performed by a server storing a web browsing log associated with at least some users of the plurality of users, and includes: parsing a portion of the plurality of crowdsourced tags collected over a period of time; determining an anomalous subset of crowdsourced tags potentially triggered by the occurrence of an external trigger event during that time period; obtaining from the web browsing log a browsing history associated with a subset of the plurality of users forming part of the plurality of crowdsourced tags; dividing a browsing history associated with a subset of the plurality of users into a first browsing history group associated with the abnormal subset of crowdsourced tags and a second browsing history group associated with the remaining tags of a portion of the crowdsourced tags set; generating a delta set of web resources based on the analysis of the first group of browsing history and the second group of browsing history for differences in web resources visited by the corresponding subset of the set of users, while the delta set contains at least one web resource from the first set search history associated with the anomalous nature of visits; and associating the at least one web resource with the source of the external trigger.

В некоторых вариантах осуществления изобретения способ дополнительно включает в себя определение пользователей из множества пользователей, обращавшихся к этому по меньшей мере одному веб-ресурсу в течение упомянутого периода времени.In some embodiments of the invention, the method further includes determining the users of the plurality of users accessing the at least one web resource during said time period.

В некоторых вариантах осуществления изобретения способ дополнительно включает в себя удаление по меньшей мере некоторых меток из множества меток, сформированных пользователями, обращавшимися к этому по меньшей мере одному веб-ресурсу в течение упомянутого периода времени.In some embodiments of the invention, the method further includes deleting at least some of the labels from the plurality of labels generated by users accessing the at least one web resource during said period of time.

В некоторых вариантах осуществления изобретения способ дополнительно включает в себя назначение уменьшающего весового коэффициента для по меньшей мере некоторых меток, сформированных пользователями, обращавшимися к этому по меньшей мере одному веб-ресурсу в течение упомянутого периода времени.In some embodiments of the invention, the method further includes assigning a decreasing weight to at least some of the labels generated by users accessing the at least one web resource during said period of time.

В некоторых вариантах осуществления изобретения способ в будущем периоде времени после рассматриваемого периода времени дополнительно включает в себя: определение подмножества пользователей из множества будущих пользователей, отправляющих метки в будущем периоде времени, которые обращались к этому по меньшей мере одному веб-ресурсу до будущего периода времени; и удаление меток, сформированных подмножеством пользователей из множества будущих пользователей или назначение уменьшающего весового коэффициента для меток, сформированных этим подмножеством пользователей из множества будущих пользователей.In some embodiments of the invention, the method in the future time period after the considered time period further includes: determining a subset of users from the set of future label-sending users in the future time period who accessed the at least one web resource before the future time period; and removing labels generated by a subset of users from the set of future users or assigning a decreasing weight to labels generated by this subset of users from the set of future users.

В некоторых вариантах осуществления способа определение аномального подмножества включает в себя анализ пиковых тенденций среди всех соседних меток в фактическом распределении меток в части множества краудсорсинговых меток на основе пиковых тенденций, не соответствующих типичному распределению меток, определяющих это аномальное подмножество.In some embodiments of the method, determining the anomalous subset includes analyzing peak trends among all neighboring labels in the actual label distribution in a portion of the set of crowdsourced labels based on peak trends that do not match the typical label distribution defining the anomalous subset.

В некоторых вариантах осуществления способа пиковые тенденции, не соответствующие типичному распределению меток, основаны на одном наборе из двух соседних меток, связанных с аномальным пиком, и/или на двух наборах следующих друг за другом соседних меток, связанных с аномальным пиком.In some method embodiments, peak trends not corresponding to a typical label distribution are based on one set of two adjacent labels associated with an abnormal peak and/or two sets of consecutive labels associated with an abnormal peak.

В некоторых вариантах осуществления способа один набор из двух соседних меток содержит метку низкого уровня или метку высокого уровня.In some embodiments of the method, one set of two adjacent labels contains a low level label or a high level label.

В некоторых вариантах осуществления способа два набора следующих друг за другом соседних меток содержат метки низкого уровня или метки высокого уровня.In some embodiments of the method, two sets of successive adjacent labels contain low-level labels or high-level labels.

В некоторых вариантах осуществления способа он дополнительно включает в себя определение аномального характера посещений.In some embodiments of the method, it further includes determining the anomalous nature of the visits.

В некоторых вариантах осуществления способа определение аномального характера посещений включает в себя: расчет первой доли пользователей, связанных с первой группой истории просмотра и обращавшихся к по меньшей мере одному веб-ресурсу; расчет второй доли пользователей, связанных со второй группой истории просмотра и обращавшихся к этому по меньшей мере одному веб-ресурсу; определение того, что этот по меньшей мере один веб-ресурс связан с аномальным характером посещений, если первая доля больше второй доли.In some embodiments of the method, determining the anomalous nature of visits includes: calculating a first proportion of users associated with a first group of browsing history who accessed at least one web resource; calculating a second proportion of users associated with the second browsing history group and accessing the at least one web resource; determining that the at least one web resource is associated with abnormal visit patterns if the first fraction is greater than the second fraction.

В некоторых вариантах осуществления изобретения способ дополнительно включает в себя сравнение первой доли и второй доли с использованием Z-статистики.In some embodiments, the method further includes comparing the first beat and the second beat using a Z-statistic.

В некоторых вариантах осуществления способа, если Z-статистика указывает на статистически значимое различие, то этот по меньшей мере один веб-ресурс определяется в качестве источника внешнего инициирующего события.In some embodiments of the method, if the Z-statistic indicates a statistically significant difference, then that at least one web resource is determined to be the source of the external trigger.

В некоторых вариантах осуществления способа он дополнительно включает в себя упорядочение по меньшей мере одного веб-ресурса в ранжированном списке с использованием доли множества пользователей, просмотревших конкретный веб-ресурс из числа этого по меньшей мере одного веб-ресурса.In some embodiments of the method, it further includes ordering the at least one web resource in a ranked list using the proportion of the plurality of users who have viewed a particular web resource from among the at least one web resource.

В некоторых вариантах осуществления изобретения способ дополнительно включает в себя выбор подмножества, являющегося источником внешнего инициирующего события, из числа этого по меньшей мере одного веб-ресурса с использованием в качестве порога отсечения абсолютного количества пользователей во множестве пользователей, просмотревших этот веб-ресурс.In some embodiments, the method further includes selecting an external trigger source subset from the at least one web resource, using the absolute number of users in the set of users who have viewed the web resource as a cutoff.

В некоторых вариантах осуществления способа по меньшей мере один веб-ресурс содержит множество веб-ресурсов, каждый из которых содержит соответствующую версию внешнего инициирующего события.In some embodiments of the method, at least one web resource contains a plurality of web resources, each of which contains a corresponding version of the external trigger.

В некоторых вариантах осуществления способа цифровой элемент содержит контент, а внешнее инициирующее событие представляет собой цифровой элемент отзыва, содержащий отзыв о контенте этого цифрового элемента.In some embodiments of the method, the digital element contains content, and the external trigger is a feedback digital element containing feedback about the content of that digital element.

В некоторых вариантах осуществления способа цифровой элемент отзыва формируется объектом, отличным от источника цифрового элемента.In some embodiments of the method, the digital feedback element is generated by an entity other than the source of the digital element.

В некоторых вариантах осуществления изобретения способ в некоторый будущий момент времени дополнительно включает в себя анализ истории просмотра пользователя на предмет наличия источника внешнего инициирующего события и выполнение корректирующего действия в случае наличия такого источника внешнего инициирующего события.In some embodiments of the invention, the method at some future point in time further includes analyzing the user's browsing history for the presence of an external trigger source and taking corrective action if such an external trigger source is present.

В некоторых вариантах осуществления изобретения способ дополнительно включает в себя выполняемый в случае наличия источника внешнего инициирующего события анализ краудсорсинговой метки, сформированной пользователем, с целью проверки того, что источник внешнего инициирующего события представляет собой фактический источник внешнего инициирующего события.In some embodiments, the method further includes, if there is an external trigger source, parsing the crowdsourced label generated by the user to verify that the external trigger source is the actual source of the external trigger.

В некоторых вариантах осуществления способа источник внешнего инициирующего события представляет собой множество источников внешнего инициирующего события, а способ дополнительно включает в себя выбор N источников с наибольшим рангом из множества источников и обучение алгоритма машинного обучения (MLA, Machine Learning Algorithm) с использованием N источников с наибольшим рангом для предсказания источника внешнего инициирующего события с наибольшим рангом.In some embodiments of the method, the external trigger source is a plurality of external trigger sources, and the method further includes selecting the N sources with the highest rank from the plurality of sources and training a Machine Learning Algorithm (MLA) using the N sources with the highest rank to predict the source of the external trigger with the highest rank.

В некоторых вариантах осуществления способа аномальный характер посещений соответствует по меньшей мере одному ресурсу, отсутствующему во второй истории просмотра.In some embodiments of the method, the anomalous pattern of visits corresponds to at least one resource not present in the second browsing history.

Согласно второму аспекту настоящей технологии реализована система для определения аномальной краудсорсинговой метки для цифрового элемента, доступного на цифровой платформе. Аномальная краудсорсинговая метка представляет собой метку из множества краудсорсинговых меток, назначенных для этого цифрового элемента множеством пользователей. Множество краудсорсинговых меток связано с типичным распределением меток в нем, а аномальная краудсорсинговая метка инициирована внешним инициирующим событием, ссылающимся на цифровой элемент, но не связанным с этим цифровым элементом. Система содержит: сервер, хранящий журнал просмотра веб-страниц, связанный с по меньшей мере некоторыми пользователями из множества пользователей, машиночитаемый физический носитель информации, содержащий команды, и процессор, который при выполнении команд способен: анализировать часть множества краудсорсинговых меток, собранных в течение некоторого периода времени; определять аномальное подмножество краудсорсинговых меток, потенциально инициируемых появлением внешнего инициирующего события в течение этого периода времени; получать из журнала просмотра веб-страниц историю просмотра, связанную с подмножеством из множества пользователей, формирующих часть множества краудсорсинговых меток; разделять историю просмотра, связанную с подмножеством из множества пользователей, на первую группу истории просмотра, связанную с аномальным подмножеством краудсорсинговых меток, и вторую группу истории просмотра, связанную с оставшимися метками из части множества краудсорсинговых меток; формировать дельта-набор веб-ресурсов на основе анализа первой группы истории просмотра и второй группы истории просмотра на предмет различий в веб-ресурсах, посещенных соответствующим подмножеством из множества пользователей, при этом дельта-набор содержит по меньшей мере один веб-ресурс из первого набора истории поиска, связанный с аномальным характером посещений; и сопоставлять этот по меньшей мере один веб-ресурс с источником внешнего инициирующего события.According to the second aspect of the present technology, a system is implemented for determining an abnormal crowdsourcing label for a digital item available on a digital platform. The abnormal crowdsourced tag is a tag from a plurality of crowdsourced tags assigned to this digital item by multiple users. A set of crowdsourced tags is associated with a typical distribution of tags within it, and an anomalous crowdsourced tag is triggered by an external triggering event that references a digital element, but is not associated with this digital element. The system comprises: a server storing a web browsing log associated with at least some users of a plurality of users, a machine-readable physical storage medium containing instructions, and a processor that, when executing the instructions, is capable of: parsing a portion of a plurality of crowdsourced tags collected over a period of time; determine an anomalous subset of crowdsourced tags potentially triggered by the occurrence of an external trigger event during that time period; obtain from the web browsing history a browsing history associated with a subset of the plurality of users forming part of the plurality of crowdsourced tags; separating a browsing history associated with a subset of the plurality of users into a first browsing history group associated with the abnormal subset of the crowdsourced tags and a second browsing history group associated with the remaining tags of a portion of the crowdsourced tags set; generate a delta set of web resources based on the analysis of the first group of browsing history and the second group of browsing history for differences in web resources visited by the corresponding subset of the set of users, while the delta set contains at least one web resource from the first set search history associated with the anomalous nature of visits; and map that at least one web resource to the source of the external trigger.

В контексте настоящего описания термин «сервер» означает компьютерную программу, выполняемую соответствующими аппаратными средствами и способную принимать запросы (например, от электронных устройств) через сеть и выполнять эти запросы или инициировать их выполнение. Аппаратные средства могут представлять собой один физический компьютер или одну компьютерную систему, что не существенно для настоящей технологии. В настоящем контексте выражение «по меньшей мере один сервер» не означает, что каждая задача (например, принятая команда или запрос) или некоторая определенная задача принимается, выполняется или запускается тем же сервером (т.е. одними и теми же программными и/или аппаратными средствами). Это выражение означает, что любое количество программных средств или аппаратных средств может принимать, отправлять, выполнять или инициировать выполнение любой задачи или запроса либо результатов любых задач или запросов. Все эти программные и аппаратные средства могут представлять собой один сервер или несколько серверов, причем оба эти случая подразумеваются в выражении «по меньшей мере один сервер».As used herein, the term "server" means a computer program executing in appropriate hardware and capable of receiving requests (eg, from electronic devices) over a network and executing or initiating those requests. The hardware may be one physical computer or one computer system, which is not essential to the present technology. In the present context, the expression "at least one server" does not mean that every task (for example, a received command or request) or some specific task is received, executed or started by the same server (i.e. the same software and / or hardware). This expression means that any number of software or hardware can receive, send, execute or initiate the execution of any task or request or the results of any tasks or requests. All of these software and hardware may be a single server or multiple servers, both of which are meant by the expression "at least one server".

В контексте настоящего описания термин «клиентское устройство» означает любое компьютерное аппаратное средство, способное выполнять программы, подходящие для решения поставленной задачи. В контексте настоящего описания термин «клиентское устройство» в общем случае связан с пользователем клиентского устройства. Таким образом, некоторые (не имеющие ограничительного характера) примеры клиентских устройств включают в себя персональные компьютеры (настольные, ноутбуки, нетбуки и т.п.), смартфоны и планшеты, а также сетевое оборудование, такое как маршрутизаторы, коммутаторы и шлюзы. Следует отметить, что в данном контексте устройство, функционирующее как клиентское устройство, также может функционировать как сервер для других клиентских устройств. Использование выражения «клиентское устройство» не исключает использования нескольких клиентских устройств для приема, отправки, выполнения или инициирования выполнения любой задачи или запроса либо результатов любых задач или запросов либо шагов любого описанного здесь способа.In the context of the present description, the term "client device" means any computer hardware capable of executing programs suitable for solving the task. In the context of the present description, the term "client device" is generally associated with the user of the client device. Thus, some (non-limiting) examples of client devices include personal computers (desktops, laptops, netbooks, and the like), smartphones and tablets, and network equipment such as routers, switches, and gateways. It should be noted that in this context, a device functioning as a client device may also function as a server for other client devices. The use of the term "client device" does not preclude the use of multiple client devices to receive, send, perform or initiate the execution of any task or request, or the results of any tasks or requests or steps of any method described herein.

В контексте настоящего описания, если явно не указано другое, числительные «первый», «второй», «третий» и т.д. используются лишь для указания различия между существительными, к которым они относятся, но не для описания каких-либо определенных взаимосвязей между этими существительными. Например, должно быть понятно, что использование терминов «первый сервер» и «третий сервер» не подразумевает какого-либо определенного порядка, типа, хронологии, иерархии или классификации, в данном случае, серверов, а также что их использование (само по себе) не подразумевает обязательного наличия «второго сервера» в любой ситуации. Кроме того, как встречается в настоящем описании в другом контексте, ссылка на «первый» элемент и «второй» элемент не исключает того, что эти два элемента в действительности могут быть одним и тем же элементом. Таким образом, например, в некоторых случаях «первый» сервер и «второй» сервер могут представлять собой одно и то же программное и/или аппаратное средство, а в других случаях° - разные программные и/или аппаратные средства.In the context of the present description, unless explicitly stated otherwise, the numerals "first", "second", "third", etc. are used only to indicate the difference between the nouns they refer to, but not to describe any specific relationship between these nouns. For example, it should be clear that the use of the terms "first server" and "third server" does not imply any particular order, type, chronology, hierarchy, or classification of, in this case, servers, and that their use (by itself) does not imply the mandatory presence of a "second server" in every situation. In addition, as occurs herein in another context, reference to a "first" element and a "second" element does not exclude that the two elements may in fact be the same element. Thus, for example, in some cases the "first" server and the "second" server may be the same software and/or hardware, and in other cases° different software and/or hardware.

В контексте настоящего описания выражение «информация» включает в себя информацию любого рода или вида, допускающую хранение в базе данных. Таким образом, информация включает в себя аудиовизуальные произведения (изображения, фильмы, звукозаписи, презентации и т.д.), данные (данные о местоположении, числовые данные и т.д.), текст (мнения, комментарии, вопросы, сообщения и т.д.), документы, электронные таблицы и т.д., но не ограничивается ими.In the context of the present description, the expression "information" includes information of any kind or kind that can be stored in a database. Thus, information includes audiovisual works (images, films, sound recordings, presentations, etc.), data (location data, numerical data, etc.), text (opinions, comments, questions, messages, etc.). .d.), but not limited to documents, spreadsheets, etc.

В контексте настоящего описания выражение «документ» должно толковаться расширительно с целью включения любого машиночитаемого или машинохранимого рабочего продукта. Документ может содержать сообщение электронной почты, веб-сайт, файл, сочетание файлов, один или несколько файлов со встроенными ссылками на другие файлы, сообщение в группе новостей, блог, рекламное объявление в сети Интернет и т.д. В контексте сети Интернет общий документ представляет собой веб-страницу. Веб-страницы часто содержат текстовую информацию и могут содержать встроенную информацию (такую как метаданные, изображения, гиперссылки и т.д.) и/или встроенные команды (такие как команды Javascript и т.д.). Станица может соответствовать документу или части документа. Таким образом, слова «страница» и «документ» в некоторых случаях могут использоваться как синонимы. В других случаях страница может соответствовать части документа, например, подчиненному документу. Страница также может соответствовать нескольким документам. In the context of the present description, the expression "document" should be interpreted broadly to include any machine-readable or machine-storable work product. A document may contain an email message, a website, a file, a combination of files, one or more files with embedded links to other files, a newsgroup post, a blog, an Internet advertisement, and so on. In the context of the Internet, a common document is a web page. Web pages often contain textual information and may contain embedded information (such as metadata, images, hyperlinks, etc.) and/or embedded commands (such as Javascript commands, etc.). A page can correspond to a document or part of a document. Thus, the words "page" and "document" in some cases can be used interchangeably. In other cases, a page may correspond to a part of a document, such as a subdocument. A page can also correspond to multiple documents.

В контексте настоящего описания, если явно не указано другое, термин «база данных» означает любой структурированный набор данных, независимо от его конкретной структуры, программного обеспечения для управления базой данных или компьютерных аппаратных средства для хранения этих данных, их применения или обеспечения их использования иным способом. База данных может располагаться в тех же аппаратных средствах, где реализован процесс, обеспечивающий хранение или использование информации, хранящейся в базе данных, либо база данных может располагаться в отдельных аппаратных средствах, таких как специализированный сервер или множество серверов.In the context of this description, unless expressly stated otherwise, the term "database" means any structured collection of data, regardless of its specific structure, database management software or computer hardware for storing this data, using it or making it available to others. way. The database may reside on the same hardware as the process for storing or using the information stored in the database, or the database may reside on separate hardware such as a dedicated server or multiple servers.

Каждый вариант осуществления настоящей технологии относится к по меньшей мере одной из вышеупомянутых целей и/или аспектов, но не обязательно ко всем ним. Должно быть понятно, что некоторые аспекты настоящей технологии, связанные с попыткой достижения вышеупомянутой цели, могут не соответствовать этой цели и/или могут соответствовать другим целям, явным образом здесь не упомянутым.Each embodiment of the present technology relates to at least one of the above objectives and/or aspects, but not necessarily all of them. It should be understood that some aspects of the present technology, associated with an attempt to achieve the above goal, may not meet this goal and/or may meet other goals not explicitly mentioned here.

Дополнительные и/или альтернативные признаки, аспекты и преимущества вариантов осуществления настоящей технологии содержатся в дальнейшем описании, в приложенных чертежах и в формуле изобретения.Additional and/or alternative features, aspects and advantages of embodiments of the present technology are contained in the following description, in the accompanying drawings and in the claims.

Краткое описание чертежейBrief description of the drawings

Дальнейшее описание приведено для лучшего понимания настоящей технологии, а также других аспектов и их признаков, и должно использоваться совместно с приложенными чертежами.The following description is provided for a better understanding of the present technology, as well as other aspects and their features, and should be used in conjunction with the attached drawings.

На фиг. 1 представлены различные компоненты и признаки клиентского устройства, реализованного согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера. In FIG. 1 depicts various components and features of a client device implemented in accordance with various non-limiting embodiments of the present technology.

На фиг. 2 представлена схема системы, реализованной согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера.In FIG. 2 is a diagram of a system implemented in accordance with various non-limiting embodiments of the present technology.

На фиг. 3 представлены прикладные веб-сервисы, обеспечиваемые поставщиком услуг и реализованные в системе, представленной на фиг. 2, согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера.In FIG. 3 shows web application services provided by a service provider and implemented in the system shown in FIG. 2 according to various non-limiting embodiments of the present technology.

На фиг. 4 представлена блок-схема, содержащая компоненты, модули, соединения и взаимодействия для примера прикладного сервиса согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера.In FIG. 4 is a block diagram containing components, modules, connections, and interactions for an example application service according to various non-limiting embodiments of the present technology.

На фиг. 5 представлен пример типичного распределения меток, соответствующего краудсорсинговым меткам и нескольким пользователям, отправившим эти краудсорсинговые метки, согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера.In FIG. 5 shows an example of a typical label distribution corresponding to crowdsourced labels and multiple users who sent those crowdsourced labels, according to various non-limiting embodiments of the present technology.

На фиг. 6-7 представлены примеры фактического распределения меток, где краудсорсинговые метки содержат аномальные краудсорсинговые метки, согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера.In FIG. 6-7 show examples of actual label distribution where crowdsourced labels contain abnormal crowdsourced labels according to various non-limiting embodiments of the present technology.

На фиг. 8 представлена подробная высокоуровневая функциональная блок-схема процессора аномальных краудсорсинговых меток согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера. In FIG. 8 is a detailed high-level functional block diagram of an abnormal crowdsourcing tag processor according to various non-limiting embodiments of the present technology.

На фиг. 9 представлена подробная высокоуровневая функциональная блок-схема начального анализатора меток согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера.In FIG. 9 is a detailed high-level functional block diagram of an initial label parser according to various non-limiting embodiments of the present technology.

На фиг. 10 представлена подробная высокоуровневая функциональная блок-схема анализатора истории просмотра согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера.In FIG. 10 is a detailed high-level functional block diagram of a browsing history analyzer according to various non-limiting embodiments of the present technology.

На фиг. 11 представлена структура данных истории просмотра, хранящихся на сервере отслеживания, согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера.In FIG. 11 shows the structure of browsing history data stored in a tracking server according to various non-limiting embodiments of the present technology.

На фиг. 12 представлена первая группа истории просмотра, связанная с пользователями, формирующими аномальные краудсорсинговые метки, согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера.In FIG. 12 shows a first browsing history group associated with users generating abnormal crowdsourced tags according to various non-limiting embodiments of the present technology.

На фиг. 13 представлена вторая группа истории просмотра, связанная с оставшимися пользователями, соответствующими части множества краудсорсинговых меток, согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера.In FIG. 13 shows a second browsing history group associated with remaining users corresponding to a portion of a plurality of crowdsourced tags, according to various non-limiting embodiments of the present technology.

На фиг. 14 представлен дельта-набор, содержащий по меньшей мере один веб-ресурс из первого набора истории просмотра, связанного с аномальным характером посещений, согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера.In FIG. 14 is a delta set containing at least one web resource from a first set of browsing history associated with anomalous browsing patterns, according to various non-limiting embodiments of the present technology.

На фиг. 15 представлен ранжированный список, сформированный процессором аномальных краудсорсинговых меток и содержащий набор универсальных указателей ресурсов (URL, Uniform Resource Locator), согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера.In FIG. 15 is a ranked list generated by the anomalous crowdsourcing label processor and containing a set of Uniform Resource Locators (URLs) according to various non-limiting embodiments of the present technology.

На фиг. 16 представлена блок-схема способа обнаружения внешнего инициирующего события согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера.In FIG. 16 is a flowchart of a method for detecting an external trigger according to various non-limiting embodiments of the present technology.

Осуществление изобретенияImplementation of the invention

Представленные здесь примеры и условный язык предназначены для обеспечения лучшего понимания принципов настоящей технологии, а не для ограничения ее объема до таких специально приведенных примеров и условий. Очевидно, что специалисты в данной области техники способны разработать различные способы и устройства, которые явно не описаны и не показаны, но реализуют принципы настоящей технологии в пределах ее существа и объема.The examples and conventions presented here are intended to provide a better understanding of the principles of the present technology, and not to limit its scope to such specifically given examples and conditions. It is obvious that specialists in the art are able to develop various methods and devices that are not explicitly described or shown, but implement the principles of the present technology within its essence and scope.

Кроме того, чтобы способствовать лучшему пониманию, последующее описание может содержать упрощенные варианты реализации настоящей технологии. Специалистам в данной области должно быть понятно, что различные варианты осуществления настоящей технологии могут быть значительно сложнее.In addition, to facilitate a better understanding, the following description may include simplified implementations of the present technology. Those skilled in the art will appreciate that various embodiments of the present technology can be significantly more complex.

В некоторых случаях приводятся полезные примеры модификаций настоящей технологии. Они способствуют пониманию, но также не определяют объем или границы настоящей технологии. Представленный перечень модификаций не является исчерпывающим и специалист в данной области может разработать другие модификации в пределах объема настоящей технологии. Кроме того, если в некоторых случаях модификации не описаны, это не означает, что они невозможны и/или что описание содержит единственно возможный вариант реализации того или иного элемента настоящей технологии.In some cases, useful examples of modifications to the present technology are provided. They contribute to understanding, but also do not define the scope or boundaries of the present technology. The presented list of modifications is not exhaustive and the person skilled in the art can develop other modifications within the scope of this technology. In addition, if modifications are not described in some cases, this does not mean that they are impossible and / or that the description contains the only possible implementation of one or another element of the present technology.

Более того, описание принципов, аспектов и вариантов реализации настоящей технологии, а также их конкретные примеры предназначены для охвата их структурных и функциональных эквивалентов, независимо от того, известны они в настоящее время или будут разработаны в будущем. Например, специалистам в данной области техники должно быть очевидно, что любые описанные здесь структурные схемы соответствуют концептуальным представлениям иллюстративных принципиальных схем, реализующих принципы настоящей технологии. Также должно быть очевидно, что любые блок-схемы, схемы процессов, диаграммы изменения состояния, псевдокоды и т.п. соответствуют различным процессам, которые могут быть представлены на машиночитаемом физическом носителе информации и могут выполняться компьютером или процессором, независимо от того, показан такой компьютер или процессор явно или нет.Moreover, the description of principles, aspects, and embodiments of the present technology, as well as specific examples thereof, is intended to cover their structural and functional equivalents, whether they are currently known or will be developed in the future. For example, it should be apparent to those skilled in the art that any structural diagrams described herein correspond to conceptual representations of illustrative circuit diagrams that implement the principles of the present technology. It should also be obvious that any flowcharts, process diagrams, state transition diagrams, pseudocodes, etc. correspond to various processes that may be represented on a computer-readable physical storage medium and may be executed by a computer or processor, whether such computer or processor is explicitly shown or not.

Функции различных элементов, показанных на чертежах, включая любой функциональный блок, обозначенный как «процессор» или «графический процессор», могут быть реализованы с использованием специализированных аппаратных средств, а также с использованием аппаратных средств, способных выполнять соответствующее программное обеспечение. Если используется процессор, эти функции могут выполняться одним выделенным процессором, одним совместно используемым процессором или множеством отдельных процессоров, некоторые из которых могут использоваться совместно. В некоторых вариантах осуществления настоящей технологии процессор может представлять собой процессор общего назначения, такой как центральный процессор (CPU), или специализированный процессор, такой как графический процессор (GPU). Кроме того, явное использование термина «процессор» или «контроллер» не должно трактоваться как указание исключительно на аппаратные средства, способные выполнять программное обеспечение, и может подразумевать, помимо прочего, аппаратные средства цифрового сигнального процессора (DSP), сетевой процессор, специализированную интегральную схему (ASIC), программируемую вентильную матрицу (FPGA), постоянное запоминающее устройство (ПЗУ) для хранения программного обеспечения, оперативное запоминающее устройство (ОЗУ) и энергонезависимое запоминающее устройство (ЗУ). Также могут подразумеваться другие аппаратные средства, общего назначения и/или заказные.The functions of the various elements shown in the drawings, including any functional unit labeled "processor" or "graphics processing unit", may be implemented using dedicated hardware as well as using hardware capable of executing the associated software. If a processor is used, these functions may be performed by a single dedicated processor, a single shared processor, or multiple individual processors, some of which may be shared. In some embodiments of the present technology, the processor may be a general purpose processor such as a central processing unit (CPU) or a specialized processor such as a graphics processing unit (GPU). In addition, explicit use of the term "processor" or "controller" should not be construed as referring solely to the hardware capable of executing the software and may refer to, but is not limited to, digital signal processor (DSP) hardware, network processor, ASIC (ASIC), Field Programmable Gate Array (FPGA), Read Only Memory (ROM) for storing software, Random Access Memory (RAM) and Non-Volatile Memory (ROM). Other general purpose and/or custom hardware may also be contemplated.

Программные модули или просто модули, реализация которых предполагается в виде программных средств, могут быть представлены здесь как любое сочетание элементов блок-схемы или других элементов, указывающих на выполнение шагов процесса и/или содержащих текстовое описание. Такие модули могут выполняться аппаратными средствами, показанными явно или подразумеваемыми.Software modules, or simply modules that are intended to be implemented in software, may be represented here as any combination of flowchart elements or other elements indicating the steps of a process and/or containing a textual description. Such modules may be implemented in hardware, as shown or implied.

Далее с учетом изложенных выше принципов рассмотрены некоторые не имеющие ограничительного характера примеры, иллюстрирующие различные варианты реализации аспектов настоящей технологии.In the following, in light of the principles set forth above, some non-limiting examples are provided to illustrate various embodiments of aspects of the present technology.

На фиг. 1 представлены различные компоненты и признаки клиентского устройства 100, реализованного согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера. Как показано, клиентское устройство 100 использует процессор 102, графический процессор 104, твердотельный накопитель 106, память 108, дисплей 110 и сетевой модуль 112. Должно быть понятно, что могут присутствовать и другие элементы, не показанные для простоты и удобства трактовки. In FIG. 1 depicts various components and features of a client device 100 implemented in accordance with various non-limiting embodiments of the present technology. As shown, the client device 100 uses a processor 102, a graphics processor 104, a solid state drive 106, a memory 108, a display 110, and a network module 112. It should be understood that other elements may be present not shown for simplicity and ease of interpretation.

Связь между различными компонентами клиентского устройства 100 может обеспечиваться через одну или несколько внутренних и/или внешних шин (не показаны), таких как шина PCI, универсальная последовательная шина, шина FireWire стандарта IEEE 1394, шина SCSI, шина Serial-ATA и т.д., с которыми различные аппаратные компоненты соединены электронными средствами. Communication between the various components of client device 100 may be via one or more internal and/or external buses (not shown), such as a PCI bus, Universal Serial Bus, IEEE 1394 FireWire bus, SCSI bus, Serial-ATA bus, etc. . to which various hardware components are connected electronically.

Согласно вариантам осуществления настоящей технологии, твердотельный накопитель 106 хранит программные команды, пригодные для загрузки в память 108 и исполнения процессором 102 и/или графический процессор 104. Программные команды могут, например, входить в состав библиотеки или приложения. Например, память 108 может быть реализована в виде машиночитаемого носителя информации, включая ПЗУ, жесткие диски (HDD), твердотельные накопители (SSD) и карты флэш-памяти. In accordance with embodiments of the present technology, the solid state drive 106 stores software instructions suitable for loading into memory 108 and execution by processor 102 and/or graphics processor 104. The software instructions may, for example, be included in a library or application. For example, memory 108 may be implemented as a computer-readable storage medium, including ROM, hard disk drives (HDDs), solid state drives (SSDs), and flash memory cards.

Клиентское устройство 100 может представлять собой сервер, настольный компьютер, планшет, смартфон, карманный персональный компьютер или любое устройство, которое может быть сконфигурировано для реализации настоящей технологии, как должно быть понятно специалисту в данной области. Client device 100 may be a server, desktop computer, tablet, smartphone, personal digital assistant, or any device that can be configured to implement the present technology, as one of skill in the art would understand.

На фиг. 2 представлена система 200, реализованная согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера. Как показано, система 200 содержит множество 202 пользователей, связанных с множеством 210 клиентских устройств. На фиг. 2 представлены первый пользователь 204, второй пользователь 206 и третий пользователь 208, соответственно связанные с первым клиентским устройством 214, вторым клиентским устройством 216 и третьим клиентским устройством 218. В некоторых вариантах осуществления настоящей технологии первое клиентское устройство 214 может быть реализовано подобно клиентскому устройству 100, второе клиентское устройство 216 может быть реализовано в виде ноутбука, а третье клиентское устройство 218 может быть реализовано в виде смартфона. Следует отметить, что связь множества 202 пользователей с множеством 210 клиентских устройств не означает необходимости предлагать или предполагать какой-либо режим работы, например, вход в систему, регистрацию и т.п.In FIG. 2 depicts system 200 implemented in accordance with various non-limiting embodiments of the present technology. As shown, system 200 includes a plurality of 202 users associated with a plurality of 210 client devices. In FIG. 2 shows a first user 204, a second user 206, and a third user 208, respectively associated with the first client device 214, the second client device 216, and the third client device 218. In some embodiments of the present technology, the first client device 214 may be implemented similar to the client device 100, the second client device 216 may be implemented as a laptop, and the third client device 218 may be implemented as a smartphone. It should be noted that the association of the plurality of users 202 with the plurality of client devices 210 is not intended to suggest or imply any mode of operation, such as logging in, registering, or the like.

Множество 210 клиентских устройств соединено с сетью 220 связи соответствующими линиями 222 связи. Должно быть понятно, что сеть 220 связи может быть реализована с использованием любых подходящих технологий, таких как сеть Интернет, глобальная сеть связи, локальная сеть связи, частная сеть связи и т.п.A plurality of 210 client devices are connected to the communication network 220 by respective communication lines 222 . It should be understood that communication network 220 may be implemented using any suitable technology such as the Internet, wide area network, local area network, private network, and the like.

На реализацию линии 222 связи не накладывается каких-либо особых ограничений, она зависит от реализации первого клиентского устройства 214, второго клиентского устройства 216 и третьего клиентского устройства 218. В качестве примера, не имеющего ограничительного характера, в тех вариантах реализации настоящей технологии, где первое клиентское устройство 214 и/или второе клиентское устройство 216 и/или третье клиентское устройство 218 реализовано в виде беспроводного устройства связи (такого как смартфон), линия 222 связи может быть реализована в виде беспроводной линии связи (такой как канал сети связи 3G, канал сети связи 4G, Wireless Fidelity или сокращенно WiFi®, Bluetooth® и т.п.). В тех примерах, где первое клиентское устройство 214 и/или второе клиентское устройство 216 и/или третье клиентское устройство 218 реализовано в виде ноутбука, линия 222 связи может быть как беспроводной (такой как Wireless Fidelity или кратко WiFi®, Bluetooth® и т.п.), так и проводной (такой как соединение на основе Ethernet).The implementation of link 222 is not particularly limited, but depends on the implementation of the first client device 214, the second client device 216, and the third client device 218. By way of non-limiting example, in those embodiments of the present technology where the first client device 214 and/or second client device 216 and/or third client device 218 is implemented as a wireless communication device (such as a smartphone), communication link 222 may be implemented as a wireless communication link (such as 3G network link, network link 4G, Wireless Fidelity or WiFi ® , Bluetooth ® for short, etc.). In those instances where the first client device 214 and/or the second client device 216 and/or the third client device 218 is implemented as a laptop, the communication link 222 can be either wireless (such as Wireless Fidelity or WiFi® , Bluetooth® for short , etc.) etc.), or wired (such as an Ethernet-based connection).

Также должно быть понятно, что варианты реализации первого клиентского устройства 214, второго клиентского устройства 216, третьего клиентского устройства 218, сети 220 связи и лини 222 связи приведены лишь для иллюстрации. Специалистам в данной области должны быть очевидными и другие конкретные детали реализации первого клиентского устройства 214, второго клиентского устройства 216, третьего клиентского устройства 218, сети 220 связи и лини 222 связи. Представленные выше примеры никак не ограничивают объем настоящей технологии.It should also be understood that the implementations of the first client device 214, the second client device 216, the third client device 218, the communication network 220, and the communication line 222 are for illustration only. Other specific implementation details of the first client device 214, the second client device 216, the third client device 218, the communications network 220, and the communications link 222 should be apparent to those skilled in the art. The above examples do not limit the scope of the present technology in any way.

Сеть 220 связи также соединена с множеством 224 серверов. На фиг. 2 представлены первый сервер 226 приложений, второй сервер 228 приложений, третий сервер 230 приложений и сервер 232 отслеживания. Первый сервер 226 приложений, второй сервер 228 приложений, третий сервер 230 приложений и сервер 232 отслеживания могут быть реализованы в виде традиционных компьютерных серверов. В некоторых вариантах осуществления настоящей технологии первый сервер 226 приложений, второй сервер 228 приложений, третий сервер 230 приложений и сервер 232 отслеживания могут быть реализованы в виде сервера Dell™ PowerEdge™, работающего под управлением операционной системы Microsoft™ Windows Server™. Например, множество серверов может содержать машиночитаемый физический носитель информации, включая ПЗУ и/или ОЗУ, и одно или несколько устройств постоянного хранения, таких как жесткие диски (HDD), твердотельные накопители (SSD) и карты флэш-памяти.The communications network 220 is also connected to a plurality of 224 servers. In FIG. 2 shows a first application server 226, a second application server 228, a third application server 230, and a tracking server 232. The first application server 226, the second application server 228, the third application server 230, and the tracking server 232 may be implemented as conventional computer servers. In some embodiments of the present technology, the first application server 226, the second application server 228, the third application server 230, and the tracking server 232 may be implemented as a Dell™ PowerEdge™ server running a Microsoft™ Windows Server™ operating system. For example, a plurality of servers may include a computer-readable physical storage medium, including ROM and/or RAM, and one or more persistent storage devices such as hard disk drives (HDDs), solid state drives (SSDs), and flash memory cards.

Очевидно, что первый сервер 226 приложений, второй сервер 228 приложений, третий сервер 230 приложений и сервер 232 отслеживания могут быть реализованы с использованием любых других подходящих аппаратных средств и/или прикладного программного обеспечения и/или встроенного программного обеспечения либо их сочетания. Кроме того, первый сервер 226 приложений, второй сервер 228 приложений, третий сервер 230 приложений и сервер 232 отслеживания могут быть реализованы в виде различных аппаратных или программных средств. Obviously, the first application server 226, the second application server 228, the third application server 230, and the tracking server 232 may be implemented using any other suitable hardware and/or application software and/or firmware, or combinations thereof. In addition, the first application server 226, the second application server 228, the third application server 230, and the tracking server 232 may be implemented in various hardware or software.

В представленном не имеющем ограничительного характера варианте осуществления настоящей технологии первый сервер 226 приложений, второй сервер 228 приложений, третий сервер 230 приложений и сервер 232 отслеживания представляют собой отдельные серверы. В альтернативных не имеющих ограничительного характера вариантах осуществления настоящей технологии функции каждого сервера из числа первого сервера 226 приложений, второго сервера 228 приложений, третьего сервера 230 приложений и сервера 232 отслеживания могут быть реализованы в одном сервере или могут быть распределены и реализованы в нескольких серверах (не показаны).In the illustrated non-limiting embodiment of the present technology, the first application server 226, the second application server 228, the third application server 230, and the tracking server 232 are separate servers. In alternative non-limiting embodiments of the present technology, the functions of each server among the first application server 226, the second application server 228, the third application server 230, and the tracking server 232 may be implemented in a single server or may be distributed and implemented in multiple servers (not shown).

На фиг. 3 представлены прикладные веб-сервисы, предоставляемые поставщиком 304 прикладных веб-сервисов и реализованные в системе, представленной на фиг. 2, согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера. Поставщик 304 прикладных веб-сервисов может предоставлять множество сервисов, называемых прикладными веб-сервисами или прикладными сервисами, множеству 202 пользователей в сети Интернет. В качестве примеров поставщиков сервисов можно привести онлайн-сервисы Yandex™, Google™, Yahoo™ и т.п.In FIG. 3 shows the web application services provided by the web application service provider 304 and implemented in the system shown in FIG. 2 according to various non-limiting embodiments of the present technology. The web application service provider 304 may provide a variety of services, referred to as web application services or application services, to a plurality 202 of users on the Internet. Examples of service providers include online services Yandex™, Google™, Yahoo™, etc.

В общем случае пользователь, такой как пользователь 204, может зарегистрировать учетную запись 302 пользователя у поставщика 304 прикладных веб-сервисов с использованием своего первого клиентского устройства 214 и осуществлять доступ к множеству сервисов, таких как прикладные сервисы 306 социальных медиа, размещенные на первом сервере 226 приложений, мультимедийные прикладные сервисы 308, размещенные на втором сервере 228 приложений, и другие прикладные сервисы 310, размещенные на третьем сервере 230 приложений, с использованием браузерного приложения (путем обращения к веб-сайту, связанному с сервисом) или самостоятельного приложения, которое может выполняться в первом клиентском устройстве 214.In general, a user, such as user 204, may register a user account 302 with a web application service provider 304 using their first client device 214 and access a plurality of services, such as social media application services 306 hosted on the first server 226 applications, multimedia application services 308 hosted on the second application server 228, and other application services 310 hosted on the third application server 230 using a browser application (by accessing a website associated with the service) or a standalone application that can be executed in the first client device 214.

Предполагается, что прикладные сервисы 306 социальных медиа могут включать в себя различные платформы социальных медиа, такие как онлайн-сервисы Facebook™, Twitter™, Instagram™ и т.п.It is contemplated that the social media application services 306 may include various social media platforms such as the online services Facebook™, Twitter™, Instagram™, and the like.

Мультимедийные прикладные сервисы 308 могут включать в себя различные мультимедийные платформы, такие как онлайн-сервис Youtube™, а другие прикладные сервисы 310 могут включать в себя любые другие доступные прикладные веб-сервисы, такие как онлайн-сервисы Amazon™, IMDb™, Playstore™, App Store™ и т.д.The multimedia application services 308 may include various multimedia platforms such as the Youtube™ online service, and the other application services 310 may include any other available web application services such as Amazon™, IMDb™, Playstore™ online services. , App Store™, etc.

Поставщик 304 прикладных веб-сервисов, а также прикладные сервисы 306 социальных медиа, мультимедийные прикладные сервисы 308 и другие прикладные сервисы 310 могут быть связаны с сервером 232 отслеживания. В других вариантах осуществления изобретения первый пользователь 204 может быть зарегистрирован в сервисе электронной почты (не показан), который может быть связан с поставщиком 304 прикладных веб-сервисов, способным автоматически создавать учетную запись 302 пользователя и связывать ее с прикладными сервисами 306 социальных медиа, мультимедийными прикладными сервисами 308 и другими прикладными сервисами 310. В других не имеющих ограничительного характера вариантах осуществления изобретения первый пользователь 204 может быть зарегистрирован в сервисе электронной почты и его учетные записи могут быть вручную связаны с прикладными сервисами 306 социальных медиа, мультимедийными прикладными сервисами 308 и другими прикладными сервисами 310 (которые могут быть связаны с другим поставщиком сервисов), а серверу 232 отслеживания может быть разрешено отслеживать его действия. Единая учетная запись 302 пользователя обычно используется с помощью приложения единой регистрации, такого как Yandex.Passport™ и т.п.Web application service provider 304 as well as social media application services 306, multimedia application services 308, and other application services 310 may be associated with the tracking server 232. In other embodiments of the invention, the first user 204 may be registered with an email service (not shown), which may be associated with a web application service provider 304 capable of automatically creating a user account 302 and associating it with social media application services 306, multimedia application services 308 and other application services 310. In other non-limiting embodiments of the invention, the first user 204 may be registered with an email service and their accounts may be manually associated with social media application services 306, multimedia application services 308, and other application services. services 310 (which may be associated with another service provider), and the tracking server 232 may be allowed to track its activities. A single user account 302 is typically used with a single sign-on application such as Yandex.Passport™ and the like.

Поставщик 304 прикладных веб-сервисов может управлять сервером 232 отслеживания, который способен отслеживать действия каждого пользователя (например, из множества 202 пользователей), связанного с множеством сервисов. Тем не менее, в других вариантах осуществления изобретения функции сервера 232 отслеживания могут быть реализованы непосредственно на по меньшей мере одном сервере из множества 224 серверов, таком как первый сервер 226 приложений, второй сервер 228 приложений или третий сервер 230 приложений, или непосредственно в каждом устройстве из множества 210 клиентских устройств, таком как первое клиентское устройство 214, второе клиентское устройство 216 и третье клиентское устройство 218. The web application service provider 304 may manage a tracking server 232 that is capable of tracking the activities of each user (eg, of a plurality of 202 users) associated with a plurality of services. However, in other embodiments of the invention, the functions of the tracking server 232 may be implemented directly on at least one server of the plurality of servers 224, such as the first application server 226, the second application server 228, or the third application server 230, or directly on each device. from a plurality of 210 client devices, such as a first client device 214, a second client device 216, and a third client device 218.

Таким образом, сервер 232 отслеживания может получать каждое действие пользователя, выполненное пользователем, таким как пользователь 204, в прикладном сервисе, таком как прикладные сервисы 306 социальных медиа, мультимедийные прикладные сервисы 308 и другие прикладные сервисы 310, на его первом клиентском устройстве 214 (или на другом клиентском устройстве, которое может использовать первый пользователь 204), и может вести журнал действий пользователей. На способ ведения сервером 232 отслеживания журнала действий пользователей, который хорошо известен в данной области техники, не накладывается каких-либо ограничений. Например, каждое действие пользователя или пользовательское событие, полученное сервером 232 отслеживания непосредственно от клиентского устройства 204 либо от первого сервера 226 приложений, от второго сервера 228 приложений или от третьего сервера 230 приложений, может быть связано с IP-адресом, идентификатором устройства, отметкой времени, содержащей дату, время и часовой пояс, состоянием, контентом и оценкой, связанной с состоянием. В по меньшей мере некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии сервер 232 отслеживания может анонимизировать идентификатор пользователя для защиты персональных данных соответствующего пользователя, например, первого пользователя 204.Thus, the tracking server 232 may receive each user action performed by a user, such as user 204, on an application service, such as social media application services 306, multimedia application services 308, and other application services 310, on its first client device 214 (or on another client device that the first user 204 can use) and can log user activities. There are no restrictions on the manner in which the tracking server 232 maintains a user activity log, which is well known in the art. For example, each user action or user event received by the tracking server 232 directly from the client device 204, either from the first application server 226, from the second application server 228, or from the third application server 230, can be associated with an IP address, device ID, timestamp A that contains the date, time, and time zone, the state, the content, and the score associated with the state. In at least some non-limiting embodiments of the present technology, the tracking server 232 may anonymize the user ID to protect the identity of the respective user, such as the first user 204.

Согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера, множество 202 пользователей может обращаться к различным прикладным сервисам, таким как прикладные сервисы 306 социальных медиа, мультимедийные прикладные сервисы 308 и другие прикладные сервисы 310, и в по меньшей мере одном прикладном сервисе может оставлять отзывы или публиковать контент, соответствующий цифровому элементу 402 (описан ниже), связанному с по меньшей мере одним прикладным сервисом, в виде рейтингов, меток, положительных отзывов, отрицательных отзывов, комментариев, голосов и т.п. According to various non-limiting embodiments of the present technology, a plurality of users 202 may access various application services, such as social media application services 306, multimedia application services 308, and other application services 310, and in at least one application service may leave reviews or post content corresponding to digital element 402 (described below) associated with at least one application service in the form of ratings, tags, upvotes, downvotes, comments, votes, and the like.

Предполагается, что цифровой элемент 402 (описан ниже) может соответствовать любому цифровому документу или ресурсу, например, такому как музыка, книги, фильмы, бронирование авиабилетов, бронирование номеров в гостиницах, рестораны, программное обеспечение и т.п., доступному на цифровой платформе, такой как онлайн-сервисы Facebook™, Twitter™, Instagram™, Youtube™, Amazon™, IMDb™, Playstore™, App Store™ и т.п. В не имеющем ограничительного характера примере, соответствующем прикладному веб-сервису видеоконтента, пользователи могут формировать «метки» для различных фильмов, доступных для загрузки или потоковой передачи с сервиса.It is contemplated that digital element 402 (described below) may correspond to any digital document or resource, such as music, books, movies, airline reservations, hotel reservations, restaurants, software, etc., available on a digital platform, for example. such as Facebook™, Twitter™, Instagram™, Youtube™, Amazon™, IMDb™, Playstore™, App Store™, etc. online services. In a non-limiting example corresponding to a video content application web service, users can generate "labels" for the various movies available for download or streaming from the service.

По меньшей мере один сервер из множества 224 серверов может быть способным присваивать ранг цифровому элементу 402 (описан ниже), по меньшей мере частично, на основе меток, соответствующих цифровому элементу 402 (описан ниже) и сделанных множеством 202 пользователей. В некоторых случаях часть меток, сделанных множеством 202 пользователей, содержит «аномальные» или «ошибочные» метки. В общем случае согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера, такие метки инициируются внешним событием. Например, возможна ситуация, когда некий блогер опубликовал скандальный отзыв о фильме, ставший вирусным, а пользователи становятся склонными помечать этот фильм на основе такого скандального отзыва без просмотра самого фильма.At least one server of the plurality of 224 servers may be able to rank the numeric element 402 (described below) based at least in part on the labels corresponding to the numeric element 402 (described below) made by the plurality 202 of users. In some cases, a portion of the labels made by multiple 202 users contain "abnormal" or "erroneous" labels. In general, according to various non-limiting embodiments of the present technology, such labels are triggered by an external event. For example, it could be that a blogger posted a bad review about a movie that went viral, and users tend to tag the movie based on that bad review without actually watching the movie.

В связи с этим для эффективного функционирования системы 200 важно обнаруживать источник внешнего инициирующего события и метки, сделанные под влиянием этого источника внешнего инициирующего события. На фиг. 4 представлена блок-схема примера компонентов, модулей, соединений и взаимодействий для примера прикладного сервиса согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера. В этом примере представлено множество 202 пользователей, связанных с множеством 210 клиентских устройств, осуществляющих доступ к цифровому элементу 402 других прикладных сервисов 310.Therefore, it is important for the efficient operation of the system 200 to detect the source of the external trigger and the marks made under the influence of this external trigger. In FIG. 4 is a block diagram of example components, modules, connections, and interactions for an example application service according to various non-limiting embodiments of the present technology. In this example, there are a plurality of 202 users associated with a plurality of 210 client devices accessing a digital element 402 of other application services 310.

Множество 202 пользователей может обращаться к цифровому элементу 402 с использованием соответствующих клиентских устройств 210 через интерфейс, связанный с другими прикладными сервисами 310. Интерфейс может, например, представлять собой веб-страницу, которую пользователь может просматривать с помощью веб-браузера (например, браузера для настольных компьютеров или мобильного браузера). В другом примере интерфейс может представлять собой мобильное приложение, которое по умолчанию выполняется в по меньшей мере одном устройстве из множества 210 клиентских устройств. Должно быть понятно, что информация, связанная с цифровым элементом 402, может храниться на третьем сервере 230 приложений.A plurality of 202 users may access the digital element 402 using their respective client devices 210 via an interface associated with other application services 310. The interface may, for example, be a web page that the user may view using a web browser (eg, a browser for desktop or mobile browser). In another example, the interface may be a mobile application that runs on at least one of the plurality of 210 client devices by default. It should be understood that the information associated with the digital element 402 may be stored on the third application server 230.

Множество 202 пользователей также может отправлять для соответствующего цифрового элемента 402 обзоры, отзывы, рейтинги, комментарии, метки и т.п. В некоторых не имеющих ограничительного характера примерах, поясняющих различные случаи, множество 202 пользователей может формировать рейтинги или комментарии, соответствующие фильмам, телевизионным программам, домашнему видео, видеоиграм, потоковому контенту и т.п., в онлайн-сервисе IMDB™ или формировать рейтинги или комментарии, соответствующие различным продуктам (например, электронному оборудованию, программному обеспечению, видеоиграм, одежде, мебели, продуктам питания, игрушкам, ювелирным изделиям и т.д.) в онлайн-сервисе Amazon™ и т.п.Multiple users 202 may also submit reviews, testimonials, ratings, comments, tags, and the like for the corresponding digital item 402. In some non-limiting examples illustrating various cases, a plurality of 202 users may generate ratings or comments corresponding to movies, television programs, home videos, video games, streaming content, etc. in the IMDB™ online service, or generate ratings or comments related to various products (such as electronic equipment, software, video games, clothing, furniture, food, toys, jewelry, etc.) on the Amazon™ online service, etc.

Должно быть понятно, что в некоторых вариантах осуществления изобретения информация, связанная с цифровым элементом 402, может храниться на третьем сервере 230 приложений. Такая информация может содержать цифровой контент (например, видеоматериал, документ, музыку и т.п.), связанный с цифровым элементом 402. Кроме того, любые обзоры, отзывы, рейтинги, комментарии, метки и т.п., сформированные множеством 202 пользователей для соответствующего цифрового элемента 402, также могут храниться на втором сервере 228 приложений.It should be understood that in some embodiments of the invention, information associated with the digital element 402 may be stored on the third application server 230. Such information may include digital content (eg, video, document, music, etc.) associated with digital element 402. In addition, any reviews, reviews, ratings, comments, tags, etc. generated by multiple 202 users for the corresponding digital element 402 may also be stored on the second application server 228.

На фиг. 5 представлен соответствующий различным не имеющим ограничительного характера вариантам осуществления настоящей технологии не имеющий ограничительного характера пример типичного распределения 500 меток, соответствующего краудсорсинговым меткам 502 и указание на количество 504 краудсорсинговых меток 502, отправленных по меньшей мере некоторыми пользователями из множества 202 пользователей. Предполагается, что типичное распределение 500 меток является лишь примером, представляющим распределение без какого-либо отклонения в распределении меток. Иными словами, типичное распределение 500 меток не содержит или содержит очень малое количество меток, сформированных «пользователями, связанными с флешмобом». In FIG. 5 is a non-limiting example of a typical label distribution 500 corresponding to crowdsourced labels 502, corresponding to various non-limiting embodiments of the present technology, and an indication of the number 504 of crowdsourced labels 502 submitted by at least some of the user set 202. It is assumed that the typical label distribution 500 is just an example representing a distribution without any variation in the label distribution. In other words, a typical distribution of 500 tags contains no or very few tags generated by "users associated with the flash mob".

Краудсорсинговые метки 502 также могут представлять собой некоторые числа, выбранные из заранее заданного диапазона. Например, пользовательский рейтинг может соответствовать значению от одной до пяти звезд из пяти звезд или первому числу (целому или десятичному) в диапазоне, ограниченном вторым максимальным целым числом. Например, каждый шаг (например, одно целое число) пользовательского рейтинга может быть обозначено каким-либо значком, например, звездой. В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии часть множества 202 пользователей может отправлять краудсорсинговые метки 502 для цифрового элемента 402 и на основе количества 504 краудсорсинговых меток 502 может составляться (например, путем усреднения) рейтинг, соответствующий цифровому элементу 402, с целью формирования общего пользовательского рейтинга. Например, число (целое или десятичное) может быть выбрано в заранее заданном диапазоне (например, 3,5 звезды из 5 звезд). The crowdsourced tags 502 may also be some numbers selected from a predetermined range. For example, a user rating may correspond to a value from one to five stars out of five stars, or the first number (integer or decimal) in a range delimited by the second maximum integer. For example, each step (eg, one integer) of a user rating may be represented by an icon, such as a star. In some non-limiting embodiments of the present technology, a subset of user set 202 may crowdsource tags 502 for digital element 402, and based on the number 504 of crowdsourced tags 502, a rating corresponding to digital element 402 may be compiled (e.g., by averaging) to form an overall user rating. For example, a number (integer or decimal) may be selected within a predetermined range (eg, 3.5 stars out of 5 stars).

На фиг. 6-7 представлены не имеющие ограничительного характера примеры фактических распределений 600 и 700 меток, основанных на предположении, что во время флешмоба фактическое распределение меток может отличаться от типичного распределения меток либо одной краудсорсинговой меткой, имеющей аномально большое значение, т.е. одиночным пиком, либо двумя соседними краудсорсинговыми метками, имеющими аномально большие значения, т.е. групповым пиком. На фиг. 6 представлен первый случай, где краудсорсинговые метки 502 содержат одну аномальную краудсорсинговую метку 606, а их количество 604 указывает на то, что краудсорсинговые метки 502 отправлены по меньшей мере некоторыми пользователями из множества 202 пользователей. На фиг. 7 представлен второй случай, где краудсорсинговые метки 502 содержат набор из двух аномальных краудсорсинговых меток 706, а их количество 704 указывает на то, что краудсорсинговые метки 502 отправлены по меньшей мере некоторыми пользователями из множества 202 пользователей.In FIG. 6-7 are non-limiting examples of actual tag distributions 600 and 700 based on the assumption that during a flash mob, the actual tag distribution may differ from the typical tag distribution, either by a single crowdsourced tag having an anomalously high value, i. a single peak, or two adjacent crowdsourced labels that have abnormally large values, i.e. group peak. In FIG. 6 shows the first case where the crowdsourced tags 502 contain one anomalous crowdsourced tag 606 and their number 604 indicates that the crowdsourced tags 502 are submitted by at least some of the user set 202. In FIG. 7 shows a second case where the crowdsourced tags 502 contain a set of two anomalous crowdsourced tags 706, and their number 704 indicates that the crowdsourced tags 502 are submitted by at least some of the user set 202.

Предполагается, что на аномальные краудсорсинговые метки 606 и 706 мог повлиять источник внешнего инициирующего события. Например, возможна ситуация, когда некий блогер опубликовал скандальный отзыв о фильме, ставший вирусным. По меньшей мере некоторые пользователи из множества 202 пользователей становятся склонными помечать фильм на основе такого скандального отзыва без просмотра самого фильма. Аналогичным образом на основе видеоматериала, соответствующего продукту или услуге (например, электронному оборудованию, гостинице, ресторанам и т.п.) и ставшего вирусным на платформе социальных медиа, по меньшей мере некоторые пользователи из множества 202 пользователей начинают формировать метки без фактического пользования продуктом или услугой. Такое аномальное или ошибочное краудсорсинговое назначение меток может порождать флешмобы. Как показано на фиг. 4, другие прикладные сервисы 310 могут также использовать процессор 404 аномальных краудсорсинговых меток. Процессор 404 аномальных краудсорсинговых меток может получать, анализировать и обрабатывать краудсорсинговые метки 502, сформированные множеством 202 пользователей. Таким образом процессор 404 аномальных краудсорсинговых меток определяет аномальное подмножество среди краудсорсинговых меток, в частности, аномальные краудсорсинговые метки 606 или 706. На основе данных 1100 истории просмотра (описаны ниже), связанных с частью пользователей 202, формирующих часть краудсорсинговых меток 502 (например, метки 608 или 708) или все краудсорсинговые метки 502, процессор 404 аномальных краудсорсинговых меток формирует дельта-набор 1400 (описан ниже), содержащий по меньшей мере один веб-ресурс, представляющий собой источник внешнего инициирующего события. It is hypothesized that the anomalous crowdsourcing tags 606 and 706 may have been affected by the source of an external trigger. For example, a situation is possible when a certain blogger published a scandalous review about a movie that became viral. At least some users out of the plurality of 202 users become inclined to tag a movie based on such a scandalous review without actually seeing the movie. Likewise, based on a video corresponding to a product or service (e.g., electronic equipment, hotel, restaurants, etc.) that has gone viral on a social media platform, at least some of the user set of 202 begin to generate tags without actually using the product, or service. Such anomalous or erroneous crowdsourced tagging can generate flash mobs. As shown in FIG. 4, other application services 310 may also use the abnormal crowdsourcing label processor 404. The abnormal crowdsourced tag processor 404 may receive, parse, and process the crowdsourced tags 502 generated by the plurality of 202 users. Thus, the anomalous crowdsourced tag processor 404 determines an anomalous subset among the crowdsourced tags, specifically the anomalous crowdsourced tags 606 or 706. 608 or 708) or all of the crowdsourced tags 502, the abnormal crowdsourced tag processor 404 generates a delta set 1400 (described below) containing at least one web resource that is the source of the external trigger.

Согласно различным не имеющим ограничительного характера вариантам осуществления настоящей технологии, дельта-набор 1400 содержит по меньшей мере один веб-ресурс, связанный с аномальным характером просмотра (т.е. с аномальным характером посещений). According to various non-limiting embodiments of the present technology, the delta set 1400 contains at least one web resource associated with abnormal browsing patterns (ie, abnormal browsing patterns).

В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии аномальный характер посещений может указывать на по меньшей мере один ресурс, отсутствующий во второй истории просмотра. В качестве альтернативы, аномальный характер посещений может указывать на то, что количество посещений по меньшей мере одного ресурса, присутствующего в первой истории просмотра, непропорционально превышает количество посещений во второй истории просмотра. Следует отметить, что точное значение для «непропорционального превышения» может быть определено для конкретного варианта реализации не имеющих ограничительного характера вариантов осуществления настоящей технологии и может быть задано на основе экспериментальных результатов не имеющих ограничительного характера вариантов осуществления настоящей технологии. Например, непропорциональное превышение может соответствовать десятикратному превышению. Следует отметить, что чем меньше это значение, тем меньший порог следует рассматривать для возможного источника внешнего инициирующего события. In some non-limiting embodiments of the present technology, the anomalous pattern of visits may indicate at least one resource not present in the second browsing history. Alternatively, an anomalous pattern of visits may indicate that the number of visits to at least one resource present in the first browsing history is disproportionately greater than the number of visits in the second browsing history. It should be noted that the exact value for "out of proportion" may be determined for a particular implementation of non-limiting embodiments of the present technology and may be set based on experimental results of non-limiting embodiments of the present technology. For example, a disproportionate excess may correspond to a tenfold excess. It should be noted that the smaller this value, the smaller the threshold should be considered for a possible source of an external triggering event.

На фиг. 8 представлена подробная высокоуровневая функциональная блок-схема процессора 404 аномальных краудсорсинговых меток согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера. Как показано, процессор 404 аномальных краудсорсинговых меток использует начальный анализатор 802 меток, анализатор 804 истории просмотра и конечный анализатор 806 меток. Должно быть понятно, что могут присутствовать и другие элементы, не показанные для простоты.In FIG. 8 is a detailed high-level functional block diagram of an abnormal crowdsourcing tag processor 404 according to various non-limiting embodiments of the present technology. As shown, the anomalous crowdsourcing label processor 404 uses an initial label parser 802, a browsing history parser 804, and an end label parser 806. It should be understood that other elements not shown for simplicity may be present.

Согласно по меньшей мере одному не имеющему ограничительного характера варианту осуществления настоящей технологии, процессор 404 аномальных краудсорсинговых меток получает краудсорсинговые метки 502, назначенные для цифрового элемента 402 по меньшей мере некоторыми пользователями из множества 202 пользователей. В некоторых вариантах осуществления изобретения краудсорсинговые метки 502 могут храниться на третьем сервере 230 приложений, а процессор 404 аномальных краудсорсинговых меток получает краудсорсинговые метки 502 от третьего сервера 230 приложений. В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии другие прикладные сервисы 310 могут предоставлять краудсорсинговые метки 502 непосредственно процессору 404 аномальных краудсорсинговых меток до сохранения их на третьем сервере 230 приложений. Затем процессор 404 аномальных краудсорсинговых меток предоставляет краудсорсинговые метки 502 начальному анализатору 802 меток. According to at least one non-limiting embodiment of the present technology, the abnormal crowdsourced label processor 404 receives crowdsourced labels 502 assigned to the digital item 402 by at least some of the user set 202. In some embodiments, the crowdsourced tags 502 may be stored on the third application server 230 and the abnormal crowdsourced tag processor 404 receives the crowdsourced tags 502 from the third application server 230. In some non-limiting embodiments of the present technology, other application services 310 may provide the crowdsourced tags 502 directly to the abnormal crowdsourced tag processor 404 prior to storing them on the third application server 230. The abnormal crowdsourced label processor 404 then provides the crowdsourced labels 502 to the initial label parser 802 .

Начальный анализатор 802 меток может анализировать пиковые тенденции среди краудсорсинговых меток 502 с целью выбора аномального подмножества среди краудсорсинговых меток, такого как аномальные краудсорсинговые метки 606 или 706. На фиг. 9 представлена подробная высокоуровневая функциональная блок-схема начального анализатора 802 меток согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера. Как показано, начальный анализатор 802 меток использует анализатор 902 пиковых тенденций и селектор 904 аномального подмножества. Должно быть понятно, что могут присутствовать и другие элементы, не показанные для простоты.Initial label analyzer 802 may analyze peak trends among crowdsourced labels 502 to select an anomalous subset among crowdsourced labels, such as abnormal crowdsourced labels 606 or 706. FIG. 9 is a detailed high-level functional block diagram of an initial label analyzer 802 according to various non-limiting embodiments of the present technology. As shown, the initial label analyzer 802 uses a peak trend analyzer 902 and an outlier subset selector 904. It should be understood that other elements not shown for simplicity may be present.

Анализатор 902 пиковых тенденций получает краудсорсинговые метки 502 и может анализировать часть множества краудсорсинговых меток 502 (например, метки 608 или 708) в фактическом распределении меток (например, в фактическом распределении 600 или 700 меток) или все краудсорсинговые метки 502 за некоторый период времени с целью обнаружения пиков концентрации меток в фактическом распределении меток по отношению к соседним меткам. В некоторых вариантах осуществления изобретения часть краудсорсинговых меток 502 (например, метки 608 или 708) в фактическом распределении меток (таком как фактические распределения 600 или 700 меток) может быть связана с метками низкого уровня или с метками высокого уровня.The peak trend analyzer 902 receives the crowdsourced labels 502 and may analyze a portion of the set of crowdsourced labels 502 (eg, labels 608 or 708) in the actual label distribution (eg, in the actual label distribution 600 or 700) or all of the crowdsourced labels 502 over a period of time to detection of peaks in the concentration of labels in the actual distribution of labels in relation to neighboring labels. In some embodiments, a portion of the crowdsourced labels 502 (eg, labels 608 or 708) in an actual label allocation (such as actual label allocations 600 or 700) may be associated with low level labels or with high level labels.

Соответственно, анализатор 902 пиковых тенденций может применять оканчивающееся в текущий момент времени скользящее временное окно для меток, отправленных в течение заранее заданного периода времени T. Заранее заданный период времени T может основываться на насыщении концентрации меток, отправленных за этот период времени. В качестве не имеющего ограничительного характера примера можно рассмотреть случаи, когда в течение суток отправлено 10 меток и 10000 меток. В первом случае значение заранее заданного периода времени T может быть задано в сутках, что обеспечивает большее скользящее временное окно по сравнению со скользящим окном во втором случае, когда значение заранее заданного периода времени T может быть задано в часах.Accordingly, peak trend analyzer 902 may apply a currently ending sliding time window to labels sent during a predetermined time period T. The predetermined time period T may be based on saturation of the concentration of labels sent during that time period. As a non-limiting example, consider the cases where 10 tags and 10,000 tags are sent during the day. In the first case, the value of the predetermined time period T may be given in days, which provides a larger sliding time window compared to the sliding window in the second case, where the value of the predetermined time period T may be given in hours.

В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии для обнаружения таких пиков анализатор 902 пиковых тенденций может быть реализован в виде классификатора, такого как бинарный классификатор, способный формировать прогноз «да» или «нет». Анализатор 902 пиковых тенденций может быть обучен с использованием двух целей - одиночного пика и группового пика. В частности, с этими двумя целями связаны две метрики:In some non-limiting embodiments of the present technology to detect such peaks, the peak trend analyzer 902 may be implemented as a classifier, such as a binary classifier, capable of generating a yes or no prediction. Peak trend analyzer 902 can be trained using two targets, a single peak and a group peak. In particular, two metrics are associated with these two goals:

- концентрация в одной метке, такой как аномальная краудсорсинговая метка 606, с пиковым характером с обеих сторон;- concentration in one label, such as the abnormal crowdsourcing label 606, with a peak character on both sides;

- концентрация в нескольких метках, таких как аномальные краудсорсинговые метки 706, с пиковым характером с обеих сторон.- concentration in multiple tags, such as anomalous 706 crowdsourcing tags, with a peak character on both sides.

В некоторых вариантах осуществления изобретения для расчета этих двух признаков (показателя одиночного пика и показателя группового пика) анализатор 902 пиковых тенденций может рассчитывать разность значений (DIV, Difference In Values) концентраций меток для двух соседних меток из числа краудсорсинговых меток 502. Затем анализатор 902 пиковых тенденций нормализует разности DIV и ранжирует нормализованные разности DIV. Затем анализатор 902 пиковых тенденций выбирает наибольшую нормализованную разность DIV в качестве первого признака, т.е. показателя одиночного пика или (при наличии) выбирает две наибольшие нормализованные разности DIV, связанные со следующим друг за другом соседними метками, в качестве второго признака, т.е. показателя группового пика.In some embodiments of the invention, in order to calculate these two features (single peak score and group peak score), peak trend analyzer 902 may calculate a difference in values (DIV, Difference In Values) of label concentrations for two adjacent labels from among crowdsourced labels 502. Then, peak trend analyzer 902 trends normalizes the DIV differences and ranks the normalized DIV differences. Peak trend analyzer 902 then selects the largest normalized difference DIV as the first feature, i. e. single peak score or (if available) selects the two largest normalized DIVs associated with successive adjacent labels as the second feature, i.e. group peak index.

Приведенную ниже таблицу 1 можно рассматривать в качестве не имеющего ограничительного характера примера распределения меток в диапазоне 1-5 без «флешмоба».Table 1 below can be seen as a non-limiting example of label distribution in the range 1-5 without the flash mob.

Таблица 1Table 1

МеткаLabel 1one 22 33 4four 55 Доля каждой метки Share of each label 15%fifteen% 20%twenty% 25%25% 22%22% 14%fourteen% Разность DIV DIV difference 5%5% 5%5% 3%3% 8%eight% Нормализованная разность DIV Normalized difference DIV 27,77%27.77% 27,77%27.77% 16,67%16.67% 44,44%44.44%

Таблица 1 содержит метки, долю каждой метки (в процентах), разности DIV (в процентах) и нормализованные разности DIV (в процентах). Анализатор 902 пиковых тенденций может рассчитывать разности DIV путем определения разности для каждой соседней метки. Затем анализатор 902 пиковых тенденций рассчитывает нормализованные разности DIV в диапазоне 100%. На основе того, что нормализованные разности DIV являются «обычными» по отношению друг к другу, а конкретная нормализованная разность DIV оказывается «аномально большой» по отношению к другим нормализованным разностям DIV, анализатор 902 пиковых тенденций способен определять, что распределение меток представляет собой типичное распределение меток или фактическое распределение меток с «флешмобом». В данном случае распределение определяется как типичное распределение меток (т.е. без «флешмоба»). Table 1 contains the labels, the proportion of each label (in percent), the DIV differences (in percent), and the normalized DIV differences (in percent). Peak trend analyzer 902 may calculate DIV differences by determining the difference for each adjacent label. Peak trend analyzer 902 then calculates normalized DIV differences over the 100% range. On the basis that the normalized DIV differences are "normal" with respect to each other, and that a particular normalized DIV difference is "abnormally large" with respect to other normalized DIV differences, the peak trend analyzer 902 is able to determine that the label distribution is a typical distribution. tags or the actual distribution of tags with a "flash mob". In this case, the distribution is defined as a typical distribution of labels (i.e. without the "flash mob").

Приведенную ниже таблицу 2 можно рассматривать в качестве другого не имеющего ограничительного характера примера распределения меток в диапазоне 1-5 с «флешмобом».Table 2 below can be seen as another non-limiting example of the distribution of tags in the range 1-5 with a "flash mob".

Таблица 2table 2

МеткаLabel 1one 22 33 4four 55 Доля каждой метки Share of each label 60%60% 30%thirty% 5%5% 3%3% 2%2% Разность DIV DIV difference 30%thirty% 25%25% 2%2% 1%one% Нормализованная разность DIV Normalized difference DIV 51,72%51.72% 43,10%43.10% 3,48%3.48% 1,72%1.72%

Таблица 2 содержит метки, долю каждой метки (в процентах), разности DIV (в процентах) и нормализованные разности DIV (в процентах). Анализатор 902 пиковых тенденций может рассчитывать разности DIV путем определения разности для каждой соседней метки. Затем анализатор 902 пиковых тенденций рассчитывает нормализованные разности DIV в диапазоне 100%. В этом примере имеется пара нормализованных разностей DIV, аномально превышающих другие нормализованные разности DIV. Поэтому анализатор 902 пиковых тенденций также может выбирать наибольшую нормализованную разность DIV в качестве первого признака (например, 51,72% в этом случае) и две наибольшие нормализованные разницы DIV в качестве второго признака (например, 51,72% и 43,10% в этом случае). Table 2 contains the labels, the proportion of each label (in percent), the DIV differences (in percent), and the normalized DIV differences (in percent). Peak trend analyzer 902 may calculate DIV differences by determining the difference for each adjacent label. Peak trend analyzer 902 then calculates normalized DIV differences over the 100% range. In this example, there is a pair of normalized DIV differences that are anomalously larger than other normalized DIV differences. Therefore, peak trend analyzer 902 may also select the largest normalized DIV difference as the first feature (e.g., 51.72% in this case) and the two largest normalized DIV differences as the second feature (e.g., 51.72% and 43.10% in this case).

Следует отметить, что точное значение для «аномального превышения» может быть определено для конкретного варианта реализации не имеющих ограничительного характера вариантов осуществления настоящей технологии и оно может быть задано на основе экспериментальных результатов не имеющих ограничительного характера вариантов осуществления настоящей технологии. Например, аномальное превышение может соответствовать десятикратному превышению.It should be noted that the exact value for "abnormal excess" can be determined for a particular implementation of non-restrictive embodiments of the present technology, and it can be set based on experimental results of non-restrictive embodiments of the present technology. For example, an abnormal excess may correspond to a tenfold excess.

На основе пиковых тенденций, проанализированных анализатором 902 пиковых тенденций в части множества краудсорсинговых меток 502 (например, среди меток 608 или 708) или среди всех краудсорсинговых меток 502, селектор 904 аномального подмножества определяет подмножества краудсорсинговых меток, не соответствующих типичному распределению меток (например, типичному распределению 500 меток).Based on the peak trends analyzed by the peak trend analyzer 902 for a set of crowdsourced tags 502 (e.g., among tags 608 or 708) or among all crowdsourced tags 502, an abnormal subset selector 904 determines subsets of crowdsourced tags that do not correspond to a typical distribution of tags (e.g., a typical distribution of 500 tags).

В зависимости от варианта реализации, несоответствие подмножеств краудсорсинговых меток типичному распределению меток может основываться на одном наборе из двух соседних меток, связанных с аномальным пиком концентрации меток (показатель одиночного пика) или на двух наборах следующих друг за другом соседних меток, связанных с аномальным пиком концентрации меток (показатель группового пика). Кроме того, показатель одиночного пика или показатель группового пика обычно связан с меткой низкого уровня или с меткой высокого уровня, а два набора из двух соседних меток содержат метки низкого уровня или метки высокого уровня. Если в качестве примера используется диапазон 1-10, то метка низкого уровня может соответствовать 1 или 2, а метка высокого уровня может соответствовать 9 или 10. Тем не менее, точное определение метки низкого уровня и высокого уровня может быть выбрано оператором анализатора 902 пиковых тенденций. В общем случае выбор меток низкого уровня или высокого уровня основывается на предположении, что связанные с «флешмобом» метки обычно либо крайне положительные, либо крайне отрицательные. Depending on the implementation, the mismatch of crowdsourced label subsets to a typical label distribution may be based on one set of two adjacent labels associated with an abnormal label concentration peak (single peak index) or two sets of consecutive adjacent labels associated with an abnormal concentration peak. labels (group peak index). In addition, a single peak score or a group peak score is typically associated with a low-level mark or a high-level mark, and two sets of two adjacent marks contain low-level marks or high-level marks. If the range 1-10 is used as an example, then the low label may correspond to 1 or 2, and the high label may correspond to 9 or 10. However, the exact definition of the low and high labels can be chosen by the operator of the peak trend analyzer 902 . In general, the choice of low-level or high-level labels is based on the assumption that flashmob-related labels are usually either highly positive or highly negative.

Аномальное подмножество краудсорсинговых меток 502, определенное селектором 904 аномального подмножества, предоставляется анализатору 804 истории просмотра для дальнейшей обработки (см. фиг. 8). Анализатор 804 истории просмотра может анализировать данные 1100 истории просмотра (описаны ниже), связанные с частью пользователей 202, формирующих часть множества краудсорсинговых меток 502 (например, метки 608 или 708) или все краудсорсинговые метки 502, и может формировать дельта-набор 1400 (описан ниже), содержащий по меньшей мере один веб-ресурс, представляющий собой источник внешнего инициирующего события.The anomalous subset of crowdsourced tags 502 determined by the anomalous subset selector 904 is provided to the browsing history analyzer 804 for further processing (see FIG. 8). Browsing history analyzer 804 may parse browsing history data 1100 (described below) associated with a subset of users 202 forming part of a set of crowdsourced tags 502 (e.g., tags 608 or 708) or all crowdsourced tags 502 and can generate a delta set 1400 (described below) containing at least one web resource that is the source of the external trigger.

На фиг. 10 представлена подробная высокоуровневая функциональная блок-схема анализатора 804 истории просмотра согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера. Как показано, анализатор 804 истории просмотра использует получатель 1002 истории просмотра, синтаксический анализатор 1004 истории просмотра и формирователь 1006 дельта-набора. Должно быть понятно, что могут присутствовать и другие элементы, не показанные для простоты и удобства трактовки.In FIG. 10 is a detailed high-level functional block diagram of a browsing history analyzer 804 according to various non-limiting embodiments of the present technology. As shown, the browsing history parser 804 uses a browsing history receiver 1002, a browsing history parser 1004, and a delta set builder 1006. It should be understood that there may be other elements not shown for simplicity and ease of interpretation.

Получатель 1002 истории просмотра способен получать данные 1100 истории просмотра (описаны ниже), связанные с частью пользователей 202, формирующих часть множества краудсорсинговых меток 502 (например, метки 608 или 708) или все краудсорсинговые метки 502, из журнала просмотра веб-страниц, связанного с множеством 202 пользователей и хранящегося на сервере 232 отслеживания. На способ ведения сервером 232 отслеживания журнала действий пользователей, который хорошо известен в данной области техники, не накладывается каких-либо ограничений. Например, каждое действие пользователя или пользовательское событие, полученное сервером 232 отслеживания непосредственно от множества 210 клиентских устройств либо от первого сервера 226 приложений, второго сервера 228 приложений или третьего сервера 230 приложений, может быть связано с IP-адресом, с идентификатором устройства, с отметкой времени, содержащей дату, время и часовой пояс, с состоянием, с контентом и т.п.Browsing history receiver 1002 is capable of receiving browsing history data 1100 (described below) associated with a portion of users 202 that form part of a plurality of crowdsourced tags 502 (e.g., tags 608 or 708) or all crowdsourced tags 502 from a web browsing history associated with many 202 users and stored on the server 232 tracking. There are no restrictions on the manner in which the tracking server 232 maintains a user activity log, which is well known in the art. For example, each user action or user event received by the tracking server 232 directly from the plurality of client devices 210 or from the first application server 226, the second application server 228, or the third application server 230 may be associated with an IP address, with a device ID, with a mark time containing date, time and time zone, with state, with content, etc.

На фиг. 11 представлен не имеющий ограничительного характера пример данных 1100 истории просмотра, связанных с частью пользователей 202, формирующих часть множества краудсорсинговых меток 502 (например, метки 608 или 708) или все краудсорсинговые метки 502 в виде индекса, хранящегося на сервере 232 отслеживания. Данные 1100 истории просмотра состоят из набора 1102 URL-адресов и соответствующего времени 1104 обращения для каждого URL-адреса из набора 1102 URL-адресов. Набор 1102 URL-адресов может быть отсортирован в хронологическом порядке на основе соответствующего времени 1104 обращения. Несмотря на то, что данные 1100 истории просмотра показаны как содержащие лишь набор 1102 URL-адресов и время 1104 обращения, объем изобретения этим не ограничивается и они могут также содержать другую информацию, такую как IP-адрес, идентификатор устройства, отметка времени, содержащая дату, время и часовой пояс, состояние и т.п.In FIG. 11 is a non-limiting example of browsing history data 1100 associated with a portion of users 202 forming part of a set of crowdsourced tags 502 (eg, tags 608 or 708) or all crowdsourced tags 502 as an index stored on tracking server 232. Browsing history data 1100 consists of a set of 1102 URLs and a corresponding access time 1104 for each URL in the set 1102 of URLs. The set 1102 of URLs may be sorted chronologically based on the corresponding time 1104 accessed. Although the browsing history data 1100 is shown as containing only a set of 1102 URLs and the time 1104 accessed, the scope of the invention is not limited to this and may also contain other information such as an IP address, a device ID, a timestamp containing a date , time and time zone, status, etc.

Предполагается, что набор 1102 URL-адресов представляет собой лишь не имеющие ограничительного характера примеры на основе действий пользователей, совершенных в различных прикладных сервисах, таких как прикладные сервисы 306 социальных медиа, размещенные на первом сервере 226 приложений, мультимедийные прикладные сервисы 308, размещенные на втором сервере 228 приложений, и другие прикладные сервисы 310, размещенные на третьем сервере 230 приложений.It is assumed that the URL set 1102 is only a non-limiting example based on user actions taken in various application services, such as social media application services 306 hosted on the first application server 226, multimedia application services 308 hosted on the second application server 228; and other application services 310 hosted on the third application server 230.

Затем получатель 1002 истории просмотра предоставляет данные 1100 истории просмотра синтаксическому анализатору 1004 истории просмотра для дальнейшей обработки. Синтаксический анализатор 1004 истории просмотра способен разделять данные 1100 истории просмотра на первую группу 1200 истории просмотра (описана ниже), связанную с пользователями, формирующими аномальные краудсорсинговые метки (например, аномальные краудсорсинговые метки 606 или 706), и вторую группу 1300 истории просмотра (описана ниже), связанную с оставшимися пользователями, соответствующими части множества краудсорсинговых меток 502.The browser history receiver 1002 then provides the browsing history data 1100 to the browsing history parser 1004 for further processing. The browsing history parser 1004 is capable of dividing the browsing history data 1100 into a first browsing history group 1200 (described below) associated with users generating abnormal crowdsourcing tags (e.g., abnormal crowdsourcing tags 606 or 706) and a second browsing history group 1300 (described below). ) associated with the remaining users corresponding to part of the set of crowdsourced tags 502.

На фиг. 12 представлена первая группа 1200 истории просмотра, связанная с пользователями, формирующими аномальные краудсорсинговые метки (например, аномальные краудсорсинговые метки 606 или 706), согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера. Первая группа 1200 истории просмотра состоит из набора 1202 URL-адресов, представляющего собой подмножество набора 1102 URL-адресов, и соответствующего времени 1204 обращения для каждого URL-адреса из набора 1202 URL-адресов. Набор 1202 URL-адресов отсортирован в хронологическом порядке на основе соответствующего времени 1204 обращения.In FIG. 12 shows a first browsing history group 1200 associated with users generating abnormal crowdsourced tags (eg, abnormal crowdsourced tags 606 or 706) according to various non-limiting embodiments of the present technology. The first browsing history group 1200 consists of a URL set 1202 that is a subset of the URL set 1102 and a corresponding access time 1204 for each URL in the URL set 1202 . The set 1202 of URLs is sorted chronologically based on the corresponding access time 1204 .

На фиг. 13 представлена вторая группа 1300 истории просмотра, связанная с оставшимися пользователями, соответствующими части множества краудсорсинговых меток 502, согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера. Вторая группа 1300 истории просмотра состоит из набора 1302 URL-адресов, представляющего собой подмножество набора 1102 URL-адресов, и соответствующего времени 1304 обращения для каждого URL-адреса из набора 1302 URL-адресов. Набор 1302 URL-адресов отсортирован в хронологическом порядке на основе соответствующего времени 1304 обращения.In FIG. 13 shows a second browsing history group 1300 associated with remaining users corresponding to a portion of a plurality of crowdsourced tags 502, according to various non-limiting embodiments of the present technology. The second browsing history group 1300 consists of a URL set 1302 that is a subset of the URL set 1102 and a corresponding access time 1304 for each URL in the URL set 1302. The set 1302 of URLs is sorted chronologically based on the corresponding access time 1304 .

Затем синтаксический анализатор 1004 истории просмотра предоставляет первую группу 1200 истории просмотра и вторую группу 1300 истории просмотра формирователю 1006 дельта-набора для дальнейшей обработки. Формирователь 1006 дельта-набора способен анализировать первую группу 1200 истории просмотра и вторую группу 1300 истории просмотра и формировать дельта-набор 1400 (описан ниже). Дельта-набор 1400 формируется на основе различия веб-ресурсов, связанных с первой группой 1200 истории просмотра и со второй группой 1300 истории просмотра (наборов 1202 и 1302 URL-адресов), посещенных частью пользователей 202, формирующих часть множества краудсорсинговых меток 502 (например, метки 608 или 708) или все краудсорсинговые метки 502.The browsing history parser 1004 then provides the first browsing history group 1200 and the second browsing history group 1300 to the delta set builder 1006 for further processing. The delta set generator 1006 is capable of parsing the first browsing history group 1200 and the second browsing history group 1300 and generating a delta set 1400 (described below). The delta set 1400 is generated based on the difference between the web resources associated with the first browsing history group 1200 and the second browsing history group 1300 (URL sets 1202 and 1302) visited by a portion of the users 202 forming part of the set of crowdsourced tags 502 (e.g., labels 608 or 708) or all crowdsourced labels 502.

На фиг. 14 представлен дельта-набор 1400, сформированный синтаксическим анализатором 1004 истории просмотра и содержащий по меньшей мере один веб-ресурс из первого набора истории просмотра, связанного с аномальным характером посещений, согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера. Дельта-набор 1400 состоит из набора 1402 URL-адресов, представляющего собой подмножество набора 1102 URL-адресов, и соответствующего времени 1404 обращения для каждого URL-адреса из набора 1402 URL-адресов. Набор 1402 URL-адресов отсортирован в хронологическом порядке на основе соответствующего времени 1404 обращения. In FIG. 14 shows a delta set 1400 generated by the browsing history parser 1004 and containing at least one web resource from the first anomalous browsing history set according to various non-limiting embodiments of the present technology. The delta set 1400 consists of a set 1402 of URLs, which is a subset of the set 1102 of URLs, and a corresponding hit time 1404 for each URL in the set 1402 of URLs. The set 1402 of URLs is sorted chronologically based on the corresponding access time 1404 .

В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии набор 1402 URL-адресов также содержит подмножество 1406 URL-адресов и подмножество 1408 URL-адресов. Подмножество 1406 URL-адресов может быть связано с веб-ресурсом из первой группы 1200 истории просмотра, отсутствующим во второй группе 1300 истории просмотра, и содержать по меньший мере один веб-ресурс, соответствующий источнику внешнего инициирующего события (например, www.aaaa.com или www.cccc.com или им обоим). В некоторых вариантах осуществления изобретения подмножество 1408 URL-адресов может быть связано с веб-ресурсами, присутствующими в первой группе 1200 истории просмотра и во второй группе 1300 истории просмотра (например, с www.llll.com или www.mmmm.com или с ими обоими). Тем не менее, доля пользователей, связанных с первой группой 1200 истории просмотра и обращавшихся к подмножеству 1408 URL-адресов, больше доли пользователей, связанных со второй группой 1300 истории просмотра и обращавшихся к подмножеству 1408 URL-адресов. In some non-limiting embodiments of the present technology, URL set 1402 also contains a URL subset 1406 and a URL subset 1408. The URL subset 1406 may be associated with a web resource from the first browsing history group 1200 not present in the second browsing history group 1300, and contain at least one web resource corresponding to the source of the external trigger (eg, www.aaaa.com or www.cccc.com or both). In some embodiments, the URL subset 1408 may be associated with web resources present in the first browsing history group 1200 and in the second browsing history group 1300 (for example, from or to www.llll.com or www.mmmm.com both). However, the proportion of users associated with the first browsing history group 1200 and accessing the subset 1408 of URLs is greater than the proportion of users associated with the second browsing history group 1300 accessing the subset 1408 of URLs.

Предполагается, что по меньшей мере один веб-ресурс, например, подмножество 1406 или 1408 URL-адресов, может содержать множество веб-ресурсов, каждый из которых содержит соответствующую версию внешнего инициирующего события (например, блоги, сообщения в социальных медиа, новости и т.п.), а каждое внешнее инициирующее событие может представлять собой отзыв об этом контенте цифрового элемента 402. Кроме того, отзыв, связанный с цифровым элементом 402, может быть сформирован объектом, отличным от цифрового элемента 402. Такие объекты могут представлять собой блогеров, обозревателей, спамеров или любых случайных пользователей, не связанных с цифровым элементом 402.It is contemplated that at least one web resource, such as a subset of URLs 1406 or 1408, may contain a plurality of web resources, each containing a corresponding version of an external trigger (eg, blogs, social media posts, news, etc.). .p.), and each external trigger may be a feedback about that content of the digital element 402. In addition, the feedback associated with the digital element 402 may be generated by an entity other than the digital element 402. Such entities may be bloggers, browsers, spammers, or any random users not associated with digital element 402.

В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии формирователь 1006 дельта-набора также анализирует набор 1102 URL-адресов, связанный с данными 1100 истории просмотра. Для каждого URL-адреса из набора 1102 URL-адресов формирователь 1006 дельта-набора может рассчитывать количество пользователей, осуществлявших доступ по этому адресу. Кроме того, с использованием Z-статистики, указывающей на статистически значимое различие количества пользователей, связанных с первой группой 1200 истории просмотра и осуществляющих доступ по URL-адресу из набора 1102 URL-адресов, и количества пользователей, связанных со второй группой 1300 истории просмотра и осуществляющих доступ по тому же URL-адресу из набора 1102 URL-адресов, формирователь 1006 дельта-набора может определять URL-адреса (например, www.gggg.com или www.kkkk.com) как соответствующие по меньшей мере одному веб-ресурсу, представляющему собой источник внешнего инициирующего события, и сохранять их в дельта-наборе 1400 в качестве подмножества 1408 URL-адресов.In some non-limiting embodiments of the present technology, the delta set generator 1006 also parses the URL set 1102 associated with browsing history data 1100. For each URL in the URL set 1102, the delta set builder 1006 can calculate the number of users accessing that address. In addition, using Z-statistics indicating a statistically significant difference in the number of users associated with the first browsing history group 1200 accessing a URL from the URL set 1102 and the number of users associated with the second browsing history group 1300 and accessing the same URL from a set of 1102 URLs, the delta set builder 1006 may determine the URLs (eg, www.gggg.com or www.kkkk.com) as corresponding to at least one web resource, representing the source of the external triggering event, and store them in the delta set 1400 as a subset 1408 of URLs.

Анализатор 804 истории просмотра предоставляет дельта-набор 1400 конечному анализатору 806 меток для дальнейшей обработки (см. фиг. 8). Конечный анализатор 806 меток может определять пользователей из множества 202 пользователей, обращавшихся к по меньшей мере одному веб-ресурсу в течение заранее заданного периода времени T. В некоторых вариантах осуществления изобретения конечный анализатор 806 меток может удалять некоторые метки или по меньшей мере назначать уменьшающий весовой коэффициент для некоторых краудсорсинговых меток 502, сформированных пользователями из множества 202 пользователей, обращавшимися к этому по меньшей мере одному веб-ресурсу в течение заранее заданного периода времени T. Таким образом, конечный анализатор 806 меток способствует повышению достоверности краудсорсинговых меток 502 процессором 404 аномальных краудсорсинговых меток.Browsing history analyzer 804 provides delta set 1400 to final label parser 806 for further processing (see FIG. 8). End label parser 806 may determine users from a set of 202 users accessing at least one web resource during a predetermined time period T. In some embodiments, end label parser 806 may remove some labels or at least assign a decreasing weight for some crowdsourced labels 502 generated by users from a set of 202 users accessing this at least one web resource during a predetermined period of time T. Thus, the final label parser 806 contributes to the credibility of the crowdsourced labels 502 by the anomalous crowdsourced label processor 404.

В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии процессор 404 аномальных краудсорсинговых меток может обмениваться данными с третьим сервером 230 приложений и с сервером 232 отслеживания с целью определения подмножества из множества 202 пользователей, которые уже обращались к по меньшей мере одному веб-ресурсу, но не формировали соответствующую метку для цифрового элемента 402 (см. фиг. 4). Метки, сформированные такими пользователями в будущем, с высокой вероятностью будут необъективными. Поэтому процессор 404 аномальных краудсорсинговых меток также может удалять такие метки или по меньшей мере назначать уменьшающий весовой коэффициент для таких меток в будущем.In some non-limiting embodiments of the present technology, the anomalous crowdsourcing tag processor 404 may communicate with the third application server 230 and with the tracking server 232 to determine a subset of the set of 202 users who have already accessed at least one web resource, but did not generate a corresponding label for the digital element 402 (see Fig. 4). Labels generated by such users in the future are highly likely to be biased. Therefore, the anomalous crowdsourcing label processor 404 may also remove such labels, or at least assign a decreasing weight to such labels in the future.

В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии процессор 404 аномальных краудсорсинговых меток также может обмениваться данными с третьим сервером 230 приложений и с сервером 232 отслеживания, чтобы отслеживать историю просмотра будущего пользователя, обращающегося к по меньшей мере одному веб-ресурсу в будущем, и выполнять корректирующее действие при наличии источника внешнего инициирующего события. Такое корректирующее действие может включать в себя удаление любых меток, формируемых будущими пользователями, или по меньшей мере назначение уменьшающего весового коэффициента для любых меток, формируемых будущими пользователями в будущем. Кроме того, в некоторых вариантах осуществления изобретения процессор 404 аномальных краудсорсинговых меток в случае наличия источника внешнего инициирующего события может анализировать краудсорсинговую метку, формируемую будущим пользователем, с целью проверки того, что источник внешнего инициирующего события представляет собой фактический источник внешнего инициирующего события.In some non-limiting embodiments of the present technology, the anomalous crowdsourcing tag processor 404 may also communicate with the third application server 230 and tracking server 232 to track the browsing history of a future user accessing at least one web resource in the future, and take corrective action when there is an external trigger source. Such corrective action may include removing any labels generated by future users, or at least assigning a decreasing weight to any labels generated by future users in the future. In addition, in some embodiments, the abnormal crowdsourced label processor 404, if there is an external trigger source, can analyze the crowdsourced label generated by the future user to verify that the external trigger source is the actual source of the external trigger.

В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии, где по меньшей мере один веб-ресурс содержит множество веб-ресурсов, определенных в качестве возможных источников внешнего инициирующего события, процессор 404 аномальных краудсорсинговых меток может упорядочивать по меньшей мере один веб-ресурс в ранжированном списке 1500 (описан ниже) с использованием доли множества 202 пользователей, просмотревших веб-ресурс из числа по меньшей мере одного веб-ресурса.In some non-limiting embodiments of the present technology, where at least one web resource contains a plurality of web resources identified as possible sources of an external trigger, the abnormal crowdsourcing label processor 404 may order the at least one web resource in a ranked list 1500 (described below) using the proportion of the plurality 202 of users who viewed the web resource from at least one web resource.

На фиг. 15 представлен ранжированный список 1500, сформированный процессором 404 аномальных краудсорсинговых меток и содержащий набор 1502 URL-адресов, связанных с по меньшей мере одним веб-ресурсом, и долю 1504 пользователей из множества 202 пользователей, просмотревших конкретный веб-ресурс из числа этого по меньшей мере одного веб-ресурса. Например, URL-адрес www.iiii.com просмотрели 50 пользователей, URL-адрес www.ffff.com просмотрели 45 пользователей и т.д. Кроме того, процессор 404 аномальных краудсорсинговых меток может выбирать подмножество (например, подмножество 1506) из по меньшей мере одного веб-ресурса с использованием абсолютного значения доли 1504 пользователей в качестве порога отсечения для низкочастотного подмножества (например, подмножества 1508), просмотренного долей 1504 пользователей. In FIG. 15 shows a ranked list 1500 generated by the anomalous crowdsourcing tag processor 404 and containing a set 1502 of URLs associated with at least one web resource and the proportion 1504 of users out of a set of 202 users who have viewed a particular web resource of at least one. one web resource. For example, the URL www.iiii.com has been viewed by 50 users, the URL www.ffff.com has been viewed by 45 users, and so on. In addition, the abnormal crowdsourcing label processor 404 can select a subset (eg, subset 1506) of at least one web resource using the absolute value of the user share 1504 as a cutoff threshold for the low-frequency subset (eg, subset 1508) viewed by the user share 1504 .

В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии процессор 404 аномальных краудсорсинговых меток также может использовать алгоритм машинного обучения (MLA), обученный предсказанию источника внешнего инициирующего события с наибольшим рангом на основе N источников с наибольшим рангом из множества источников внешнего инициирующего события.In some non-limiting embodiments of the present technology, the anomalous crowdsourcing label processor 404 may also use a machine learning (MLA) algorithm trained to predict the highest ranking external trigger source based on the highest ranking N sources of the multiple external trigger sources.

Предполагается, что несмотря на то, что процессор 404 аномальных краудсорсинговых меток показан в виде отдельного модуля, согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера, функции процессора 404 аномальных краудсорсинговых меток могут быть реализованы в каком-либо одном сервере или во всех серверах из числа первого сервера 226 приложений, второго сервера 228 приложений, третьего сервера 230 приложений и сервера 232 отслеживания.It is contemplated that although the abnormal crowdsourcing label processor 404 is shown as a separate module, according to various non-limiting embodiments of the present technology, the functions of the abnormal crowdsource label processor 404 may be implemented in any one server or all servers. of the first application server 226, the second application server 228, the third application server 230, and the tracking server 232.

На фиг. 16 представлена блок-схема способа 1600 обнаружения внешнего инициирующего события согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера.In FIG. 16 is a flow diagram of a method 1600 for detecting an external trigger in accordance with various non-limiting embodiments of the present technology.

В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии способ 1600 может выполняться для одного сервиса, например, из числа других прикладных сервисов 310. В другом варианте осуществления изобретения способ 1600 может выполняться для множества сервисов, таких как прикладные сервисы 306 социальных медиа, мультимедийные прикладные сервисы 308 и другие прикладные сервисы 310. Способ 1600 выполняется в соответствии с не имеющими ограничительного характера вариантами осуществления настоящей технологии. Способ 1600 может выполняться третьим сервером 230 приложений и начинаться с шага 1602.In some non-limiting embodiments of the present technology, method 1600 may be performed on a single service, such as among other application services 310. In another embodiment, method 1600 may be performed on multiple services, such as social media application services 306, multimedia application services 308 and other application services 310. Method 1600 is performed in accordance with non-limiting embodiments of the present technology. Method 1600 may be performed by third application server 230 and begin at step 1602.

Шаг 1602: анализ части множества краудсорсинговых меток.Step 1602: parsing a portion of the set of crowdsourced tags.

На шаге 1602 анализатор 902 пиковых тенденций получает краудсорсинговые метки 502 и анализирует часть множества краудсорсинговых меток 502 или все краудсорсинговые метки 502 за некоторый период времени.In step 1602, the peak trend analyzer 902 receives the crowdsourced labels 502 and analyzes a portion of the set of crowdsourced labels 502 or all of the crowdsourced labels 502 over a period of time.

Шаг 1604: определение аномального подмножества краудсорсинговых меток.Step 1604: Determining an anomalous subset of crowdsourced tags.

На шаге 1604 селектор 904 аномального подмножества определяет аномальное подмножество краудсорсинговых меток на основе пиковых тенденций, проанализированных анализатором 902 пиковых тенденций в части множества краудсорсинговых меток 502 или во всех краудсорсинговых метках 502.In step 1604, the anomalous subset selector 904 determines an anomalous subset of crowdsourced tags based on the peak trends analyzed by the peak trend analyzer 902 in part of the set of crowdsourced tags 502 or across all crowdsourced tags 502.

Шаг 1606: получение истории просмотра из журнала просмотра веб-страниц.Step 1606: Get browsing history from web browsing history.

На шаге 1606 получатель 1002 истории просмотра получает данные 1100 истории просмотра, связанные с частью пользователей 202, формирующих часть множества краудсорсинговых меток 502 или все краудсорсинговые метки 502, из журнала просмотра веб-страниц, связанного с множеством 202 пользователей и хранящегося на сервере 232 отслеживания.At step 1606, the browsing history receiver 1002 obtains the browsing history data 1100 associated with a portion of the users 202 forming part of the crowdsourced tag set 502 or all of the crowdsourced tags 502 from the web browsing history associated with the user set 202 and stored on the tracking server 232.

Шаг 1608: разделение истории просмотра на первую группу истории просмотра и вторую группу истории просмотра.Step 1608: Dividing the browsing history into a first browsing history group and a second browsing history group.

На шаге 1608 синтаксический анализатор 1004 истории просмотра разделяет данные 1100 истории просмотра на первую группу 1200 истории просмотра, связанную с пользователями, формирующими аномальные краудсорсинговые метки, и вторую группу 1300 истории просмотра, связанную с оставшимися пользователями, соответствующими части множества краудсорсинговых меток 502.In step 1608, the browsing history parser 1004 separates the browsing history data 1100 into a first browsing history group 1200 associated with users generating abnormal crowdsourced tags and a second browsing history group 1300 associated with the remaining users corresponding to part of the set of crowdsourced tags 502.

Шаг 1610: формирование дельта-набора веб-ресурсов.Step 1610: Generate a delta web resource set.

На шаге 1610 формирователь 1006 дельта-набора анализирует первую группу 1200 истории просмотра и вторую группу 1300 истории просмотра с целью формирования дельта-набора 1400. Дельта-набор 1400 формируется на основе различия веб-ресурсов, связанных с первой группой 1200 истории просмотра и со второй группой 1300 истории просмотра и посещенных частью пользователей 202, формирующих часть множества краудсорсинговых меток 502 или все краудсорсинговые метки 502. Дельта-набор содержит по меньшей мере один веб-ресурс из первого набора истории поиска, связанный с аномальным характером посещений и с источником внешнего инициирующего события.In step 1610, the delta set builder 1006 analyzes the first browsing history group 1200 and the second browsing history group 1300 to generate a delta set 1400. The delta set 1400 is generated based on the difference between the web resources associated with the first browsing history group 1200 and the second browsing history group 1300 and visited by some of the users 202 forming part of the set of crowdsourced tags 502 or all of the crowdsourced tags 502. The delta set contains at least one web resource from the first set of search history associated with the anomalous nature of the visits and with the source of the external triggering event .

Специалистам в данной области техники должно быть очевидно, что по меньшей некоторые варианты осуществления настоящей технологии преследуют цель расширения арсенала технических решений определенной технической проблемы, а именно, снижения затрат вычислительных ресурсов на различных серверах путем сокращения действий с аномальными метками, выполняемых через сеть связи, в результате чего предполагается оптимизация сетевого трафика и уменьшение нагрузки на сетевые серверы. Очевидно, что не все упомянутые в данном описании технические эффекты должны присутствовать в каждом варианте реализации настоящей технологии. Например, возможны варианты реализации настоящей технологии, когда пользователь не получает некоторые из этих технических эффектов, или другие варианты реализации, когда пользователь получает другие технические эффекты либо технический эффект отсутствует.It should be apparent to those skilled in the art that at least some embodiments of the present technology are intended to expand the arsenal of technical solutions to a particular technical problem, namely, to reduce the cost of computing resources on various servers by reducing the actions with anomalous labels performed through a communication network, in resulting in optimization of network traffic and reduction of load on network servers. It is obvious that not all the technical effects mentioned in this description should be present in every embodiment of the present technology. For example, there may be implementations of the present technology when the user does not receive some of these technical effects, or other implementations when the user receives other technical effects or there is no technical effect.

Для специалиста в данной области могут быть очевидными возможные изменения и усовершенствования описанных выше вариантов осуществления настоящей технологии. Предшествующее описание приведено лишь в качестве примера, а не для ограничения объема изобретения. Объем охраны настоящей технологии определяется исключительно объемом приложенной формулы изобретения. For a person skilled in the art, possible changes and improvements in the above-described embodiments of the present technology may be obvious. The foregoing description is given by way of example only and is not intended to limit the scope of the invention. The scope of protection of this technology is determined solely by the scope of the appended claims.

Несмотря на то, что описанные выше варианты реализации приведены со ссылкой на конкретные шаги, выполняемые в определенном порядке, должно быть понятно, что эти шаги могут быть объединены, разделены или что их порядок может быть изменен без выхода за границы настоящей технологии. Соответственно, порядок и группировка шагов не носят ограничительного характера для настоящей технологии.Although the embodiments described above are given with reference to specific steps performed in a specific order, it should be understood that these steps can be combined, separated, or that their order can be changed without departing from the boundaries of the present technology. Accordingly, the order and grouping of steps is not limiting to the present technology.

Claims (45)

1. Способ обнаружения внешнего инициирующего события, вызвавшего появление аномальной краудсорсинговой метки для цифрового элемента, доступного на цифровой платформе, при этом аномальная краудсорсинговая метка представляет собой метку из множества краудсорсинговых меток, назначенных для цифрового элемента множеством пользователей, множество краудсорсинговых меток связано с типичным распределением меток в нем, а аномальная краудсорсинговая метка инициирована внешним инициирующим событием, ссылающимся на цифровой элемент, но не связанным с этим цифровым элементом, выполняемый сервером, хранящим журнал просмотра веб-страниц, связанный с по меньшей мере некоторыми пользователями из множества пользователей, и включающий в себя:1. A method for detecting an external triggering event that caused the appearance of an abnormal crowdsourcing label for a digital element available on a digital platform, wherein the abnormal crowdsourcing label is a label from a plurality of crowdsourcing labels assigned to a digital element by a plurality of users, a plurality of crowdsourcing labels is associated with a typical distribution of labels in it, and the anomalous crowdsourced label is triggered by an external triggering event that refers to, but is not associated with, a digital item, executed by a server that stores a web browsing log associated with at least some users from a plurality of users, and includes : - анализ части множества краудсорсинговых меток, собранных в течение некоторого периода времени;- analysis of a part of the set of crowdsourced tags collected over a period of time; - определение аномального подмножества краудсорсинговых меток, потенциально инициируемых появлением внешнего инициирующего события в течение этого периода времени;- identifying an anomalous subset of crowdsourced tags potentially triggered by the occurrence of an external trigger event during that time period; - получение из журнала просмотра веб-страниц истории просмотра, связанной с подмножеством из множества пользователей, формирующих эту часть множества краудсорсинговых меток;- obtaining from the web browsing log a browsing history associated with a subset of the plurality of users forming this part of the plurality of crowdsourced tags; - разделение истории просмотра, связанной с подмножеством из множества пользователей, на первую группу истории просмотра, связанную с аномальным подмножеством краудсорсинговых меток, и вторую группу истории просмотра, связанную с оставшимися метками из части множества краудсорсинговых меток; separating the browsing history associated with a subset of the plurality of users into a first browsing history group associated with the abnormal subset of crowdsourced tags and a second browsing history group associated with the remaining tags of a portion of the crowdsourced tags set; - формирование набора веб-ресурсов на основе анализа первой группы истории просмотра и второй группы истории просмотра на предмет различий в веб-ресурсах, посещенных соответствующим подмножеством из множества пользователей, при этом упомянутый набор веб-ресурсов содержит по меньшей мере один веб-ресурс из первого набора истории поиска, связанный с аномальным характером посещений; и- forming a set of web resources based on the analysis of the first group of browsing history and the second group of browsing history for differences in web resources visited by the corresponding subset of the plurality of users, while said set of web resources contains at least one web resource from the first a set of search history associated with the anomalous nature of visits; and - сопоставление этого по меньшей мере одного веб-ресурса с источником внешнего инициирующего события. - mapping this at least one web resource to the source of the external triggering event. 2. Способ по п. 1, отличающийся тем, что он дополнительно включает в себя определение пользователей из множества пользователей, обращавшихся к упомянутому по меньшей мере одному веб-ресурсу в течение упомянутого периода времени. 2. The method according to claim. 1, characterized in that it further includes determining users from a plurality of users accessing said at least one web resource during said period of time. 3. Способ по п. 2, отличающийся тем, что он дополнительно включает в себя удаление по меньшей мере некоторых меток из множества меток от пользователей, обращавшихся к упомянутому по меньшей мере одному веб-ресурсу в течение упомянутого периода времени. 3. The method of claim 2, further comprising removing at least some of the labels from the plurality of labels from users who have accessed said at least one web resource during said period of time. 4. Способ по п. 2, отличающийся тем, что он дополнительно включает в себя назначение уменьшающего весового коэффициента для по меньшей мере некоторых меток из множества меток от пользователей, обращавшихся к упомянутому по меньшей мере одному веб-ресурсу в течение упомянутого периода времени. 4. The method of claim 2, further comprising assigning a decreasing weight to at least some of the labels from the plurality of labels from users accessing said at least one web resource during said period of time. 5. Способ по п. 1, отличающийся тем, что он в будущем периоде времени после упомянутого периода времени дополнительно включает в себя:5. The method according to p. 1, characterized in that it in the future period of time after the said period of time additionally includes: - определение подмножества пользователей из множества будущих пользователей, отправляющих метки в будущем периоде времени, обращавшихся к упомянутому по меньшей мере одному веб-ресурсу до будущего периода времени;- determining a subset of users from a plurality of future users sending tags in a future time period, accessing said at least one web resource before a future time period; - удаление меток от подмножества пользователей из множества будущих пользователей или назначение уменьшающего весового коэффициента для меток, сформированных подмножеством пользователей из множества будущих пользователей.- removing labels from a subset of users from a set of future users or assigning a decreasing weight to labels generated by a subset of users from a set of future users. 6. Способ по п. 1, отличающийся тем, что определение аномального подмножества включает в себя анализ пиковых тенденций среди всех соседних меток в фактическом распределении меток в части множества краудсорсинговых меток на основе пиковых тенденций, не соответствующих типичному распределению меток, определяющих аномальное подмножество. 6. The method according to claim 1, characterized in that the determination of the abnormal subset includes the analysis of peak trends among all neighboring labels in the actual distribution of labels in the part of the set of crowdsourced labels based on peak trends that do not correspond to the typical distribution of labels that define the abnormal subset. 7. Способ по п. 6, отличающийся тем, что пиковые тенденции, не соответствующие типичному распределению меток, основаны на одном наборе из двух соседних меток, связанных с аномальным пиком, и/или на двух наборах следующих друг за другом соседних меток, связанных с аномальным пиком.7. The method according to claim 6, characterized in that peak trends not corresponding to a typical label distribution are based on one set of two adjacent labels associated with an abnormal peak and/or on two sets of successive adjacent labels associated with abnormal peak. 8. Способ по п. 7, отличающийся тем, что один набор из двух соседних меток содержит метку низкого уровня или метку высокого уровня. 8. The method according to claim 7, wherein one set of two adjacent labels contains a low level label or a high level label. 9. Способ по п. 7, отличающийся тем, что два набора следующих друг за другом соседних меток содержат метки низкого уровня или метки высокого уровня. 9. The method according to claim 7, characterized in that the two sets of successive adjacent labels contain low-level labels or high-level labels. 10. Способ по п. 1, отличающийся тем, что он дополнительно включает в себя определение аномального характера посещений. 10. The method of claim. 1, characterized in that it further includes determining the anomalous nature of the visits. 11. Способ по п. 10, отличающийся тем, что определение аномального характера посещений включает в себя:11. The method according to claim 10, characterized in that the determination of the anomalous nature of the visits includes: - расчет первой доли пользователей, связанных с первой группой истории просмотра и обращавшихся к упомянутому по меньшей мере одному веб-ресурсу;- calculating the first proportion of users associated with the first browsing history group and accessing the at least one web resource; - расчет второй доли пользователей, связанных со второй группой истории просмотра и обращавшихся к упомянутому по меньшей мере одному веб-ресурсу; и- calculating the second proportion of users associated with the second browsing history group and accessing the at least one web resource; and - определение того, что упомянутый по меньшей мере один веб-ресурс связан с аномальным характером посещений, если первая доля больше второй доли.- determining that said at least one web resource is associated with an abnormal pattern of visits if the first share is greater than the second share. 12. Способ по п. 11, отличающийся тем, что он дополнительно включает в себя сравнение первой доли и второй доли с использованием Z-статистики. 12. The method of claim 11, further comprising comparing the first beat and the second beat using a Z-statistic. 13. Способ по п. 12, отличающийся тем, что если Z-статистика указывает на статистически значимое различие, то упомянутый по меньшей мере один веб-ресурс определяется в качестве источника внешнего инициирующего события.13. The method of claim 12, wherein if the Z-statistic indicates a statistically significant difference, then said at least one web resource is determined to be the source of the external trigger. 14. Способ по п. 13, отличающийся тем, что он дополнительно включает в себя упорядочение упомянутого по меньшей мере одного веб-ресурса в ранжированном списке с использованием доли множества пользователей, просмотревших конкретный веб-ресурс из числа упомянутого по меньшей мере одного веб-ресурса.14. The method according to claim 13, characterized in that it further includes ordering said at least one web resource in a ranked list using the proportion of a plurality of users who have viewed a particular web resource from among said at least one web resource . 15. Способ по п. 14, отличающийся тем, что он дополнительно включает в себя выбор подмножества, являющегося источником внешнего инициирующего события, из числа упомянутого по меньшей мере одного веб-ресурса с использованием в качестве порога отсечения абсолютного количества пользователей во множестве пользователей, просмотревших конкретный веб-ресурс из числа упомянутого по меньшей мере одного веб-ресурса. 15. The method according to claim 14, characterized in that it further includes selecting a subset that is the source of an external triggering event from among said at least one web resource, using as a cutoff threshold the absolute number of users in the set of users who viewed a specific web resource from among the mentioned at least one web resource. 16. Способ по п. 1, отличающийся тем, что по меньшей мере один веб-ресурс содержит множество веб-ресурсов, каждый из которых содержит соответствующую версию внешнего инициирующего события. 16. The method of claim. 1, characterized in that at least one web resource contains a plurality of web resources, each of which contains a corresponding version of the external trigger. 17. Способ по п. 1, отличающийся тем, что цифровой элемент содержит контент, а внешнее инициирующее событие представляет собой цифровой элемент отзыва, содержащий отзыв о контенте этого цифрового элемента. 17. The method of claim 1, wherein the digital element contains content and the external trigger is a feedback digital element containing feedback about the content of the digital element. 18. Способ по п. 17, отличающийся тем, что цифровой элемент отзыва формируется объектом, отличным от источника цифрового элемента. 18. The method of claim 17, wherein the digital recall element is generated by an object other than the source of the digital element. 19. Способ по п. 1, отличающийся тем, что он в будущий момент времени дополнительно включает в себя анализ истории просмотра пользователя на предмет наличия источника внешнего инициирующего события и выполнение корректирующего действия в случае наличия источника внешнего инициирующего события. 19. The method of claim. 1, characterized in that at a future point in time it further includes analyzing the user's browsing history for the presence of a source of an external triggering event and performing a corrective action if there is a source of an external triggering event. 20. Способ по п. 19, отличающийся тем, что он дополнительно включает в себя выполняемый в случае наличия источника внешнего инициирующего события анализ краудсорсинговой метки, сформированной пользователем, с целью проверки того, что этот источник внешнего инициирующего события представляет собой фактический источник внешнего инициирующего события. 20. The method of claim 19, further comprising, if there is an external trigger source, parsing the crowdsourced label generated by the user to verify that the external trigger source is the actual source of the external trigger . 21. Способ по п. 1, отличающийся тем, что источник внешнего инициирующего события представляет собой множество источников внешнего инициирующего события, а способ дополнительно включает в себя:21. The method of claim 1, wherein the external trigger source is a plurality of external trigger sources, and the method further includes: - выбор N источников с наибольшим рангом из множества источников и- selection of N sources with the highest rank from the set of sources and - обучение алгоритма машинного обучения с использованием N источников с наибольшим рангом для предсказания источника внешнего инициирующего события с наибольшим рангом. - training the machine learning algorithm using the N sources with the highest rank to predict the source of the external initiating event with the highest rank. 22. Способ по п. 1, отличающийся тем, что аномальный характер посещений соответствует по меньшей мере одному ресурсу, отсутствующему во второй истории просмотра.22. The method of claim. 1, characterized in that the anomalous pattern of visits corresponds to at least one resource that is not present in the second browsing history. 23. Система обнаружения внешнего инициирующего события, вызвавшего появление аномальной краудсорсинговой метки для цифрового элемента, доступного на цифровой платформе, при этом аномальная краудсорсинговая метка представляет собой метку из множества краудсорсинговых меток, назначенных для цифрового элемента множеством пользователей, множество краудсорсинговых меток связано с типичным распределением меток в нем, а аномальная краудсорсинговая метка инициирована внешним инициирующим событием, ссылающимся на цифровой элемент, но не связанным с этим цифровым элементом, при этом система содержит: 23. A system for detecting an external triggering event that caused the appearance of an abnormal crowdsourcing label for a digital element available on a digital platform, while the abnormal crowdsourcing label is a label from a set of crowdsourcing labels assigned to a digital element by many users, a set of crowdsourcing labels is associated with a typical distribution of labels in it, and the anomalous crowdsourced label is triggered by an external triggering event that refers to a digital element, but is not associated with this digital element, while the system contains: - сервер, хранящий журнал просмотра веб-страниц, связанный с по меньшей мере некоторыми пользователями из множества пользователей;- a server that stores a web browsing log associated with at least some of the users of the plurality of users; - машиночитаемый физический носитель информации, содержащий команды;- a machine-readable physical storage medium containing instructions; - процессор, выполненный с возможностью выполнения следующих действий при исполнении команд:- a processor configured to perform the following actions when executing instructions: - анализ части множества краудсорсинговых меток, собранных в течение некоторого периода времени;- analysis of a part of the set of crowdsourced tags collected over a period of time; - определение аномального подмножества краудсорсинговых меток, потенциально инициируемых появлением внешнего инициирующего события в течение этого периода времени;- determination of an anomalous subset of crowdsourced tags potentially triggered by the occurrence of an external trigger event during this time period; - получение из журнала просмотра веб-страниц истории просмотра, связанной с подмножеством из множества пользователей, формирующих эту часть множества краудсорсинговых меток;- obtaining from the web browsing log a browsing history associated with a subset of the plurality of users forming this part of the plurality of crowdsourced tags; - разделение истории просмотра, связанной с подмножеством из множества пользователей, на первую группу истории просмотра, связанную с аномальным подмножеством краудсорсинговых меток, и вторую группу истории просмотра, связанную с оставшимися метками из этой части множества краудсорсинговых меток; - separating the browsing history associated with a subset of the plurality of users into a first browsing history group associated with the abnormal subset of crowdsourced tags and a second browsing history group associated with the remaining tags from that part of the crowdsourced tags set; - формирование набора веб-ресурсов на основе анализа первой группы истории просмотра и второй группы истории просмотра на предмет различий в веб-ресурсах, посещенных соответствующим подмножеством из множества пользователей, при этом упомянутый набор веб-ресурсов содержит по меньшей мере один веб-ресурс из первого набора истории поиска, связанный с аномальным характером посещений; и- forming a set of web resources based on the analysis of the first group of browsing history and the second group of browsing history for differences in web resources visited by the corresponding subset of the plurality of users, while said set of web resources contains at least one web resource from the first a set of search history associated with the anomalous nature of visits; and - сопоставление этого по меньшей мере одного веб-ресурса с источником внешнего инициирующего события. - mapping this at least one web resource to the source of the external triggering event.
RU2019126515A 2019-08-22 2019-08-22 Method and system for detecting abnormal crowdsourcing label RU2775591C2 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
RU2019126515A RU2775591C2 (en) 2019-08-22 Method and system for detecting abnormal crowdsourcing label
US16/868,363 US11086948B2 (en) 2019-08-22 2020-05-06 Method and system for determining abnormal crowd-sourced label

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2019126515A RU2775591C2 (en) 2019-08-22 Method and system for detecting abnormal crowdsourcing label

Publications (3)

Publication Number Publication Date
RU2019126515A RU2019126515A (en) 2021-02-24
RU2019126515A3 RU2019126515A3 (en) 2021-11-23
RU2775591C2 true RU2775591C2 (en) 2022-07-05

Family

ID=

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7519562B1 (en) * 2005-03-31 2009-04-14 Amazon Technologies, Inc. Automatic identification of unreliable user ratings
US9479516B2 (en) * 2013-02-11 2016-10-25 Google Inc. Automatic detection of fraudulent ratings/comments related to an application store
US20180357683A1 (en) * 2017-06-08 2018-12-13 International Business Machines Corporation Rating data management

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7519562B1 (en) * 2005-03-31 2009-04-14 Amazon Technologies, Inc. Automatic identification of unreliable user ratings
US9479516B2 (en) * 2013-02-11 2016-10-25 Google Inc. Automatic detection of fraudulent ratings/comments related to an application store
US20180357683A1 (en) * 2017-06-08 2018-12-13 International Business Machines Corporation Rating data management

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
BRYAN HOOI et al.: "BIRDNEST: Bayesian Inference for Ratings-Fraud Detection", 2016, [найдено: 23.11.2021] Найдено в: "https://epubs.siam.org/doi/abs/10.1137/1.9781611974348.56". ГОНЧАРОВ И. В. и др.: "Моделирование процессов информационно-психологического воздействия в социальных сетях", 2018, [найдено: 23.11.2021] Найдено в: "https://journals.vsu.ru/sait/article/view/1215/1273". *

Similar Documents

Publication Publication Date Title
JP6167493B2 (en) Method, computer program, storage medium and system for managing information
US9614862B2 (en) System and method for webpage analysis
US9300755B2 (en) System and method for determining information reliability
US8788925B1 (en) Authorized syndicated descriptions of linked web content displayed with links in user-generated content
US10212170B1 (en) User authentication using client-side browse history
US8898272B1 (en) Identifying information in resource locators
US10902067B2 (en) Systems and methods for predicting revenue for web-based content
US11275748B2 (en) Influence score of a social media domain
US9230030B2 (en) Method and system for mining websites
CN102855256B (en) For determining the method, apparatus and equipment of Website Evaluation information
RU2658878C1 (en) Method and server for web-resource classification
US20210081475A1 (en) System and method for integrating content into webpages
Dongo et al. A qualitative and quantitative comparison between Web scraping and API methods for Twitter credibility analysis
JP2013522731A (en) Customizable semantic search by user role
WO2014180130A1 (en) Method and system for recommending contents
CN107341245A (en) Data processing method, device and server
US9712520B1 (en) User authentication using client-side browse history
US20140331142A1 (en) Method and system for recommending contents
CN105868290B (en) Method and device for displaying search results
Zhi et al. Claimverif: a real-time claim verification system using the web and fact databases
CN102663052A (en) Method and device for providing search results of search engine
US9646104B1 (en) User tracking based on client-side browse history
US11086948B2 (en) Method and system for determining abnormal crowd-sourced label
CN107526748B (en) A method and device for identifying user click behavior
CN110929129B (en) Information detection method, equipment and machine-readable storage medium