RU2775591C2 - Method and system for detecting abnormal crowdsourcing label - Google Patents
Method and system for detecting abnormal crowdsourcing label Download PDFInfo
- Publication number
- RU2775591C2 RU2775591C2 RU2019126515A RU2019126515A RU2775591C2 RU 2775591 C2 RU2775591 C2 RU 2775591C2 RU 2019126515 A RU2019126515 A RU 2019126515A RU 2019126515 A RU2019126515 A RU 2019126515A RU 2775591 C2 RU2775591 C2 RU 2775591C2
- Authority
- RU
- Russia
- Prior art keywords
- users
- labels
- crowdsourced
- browsing history
- tags
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 55
- 230000002547 anomalous effect Effects 0.000 claims abstract description 53
- 238000004458 analytical method Methods 0.000 claims abstract description 8
- 238000009826 distribution Methods 0.000 claims description 33
- 230000009471 action Effects 0.000 claims description 10
- 230000001960 triggered effect Effects 0.000 claims description 10
- 230000003247 decreasing effect Effects 0.000 claims description 7
- 238000010801 machine learning Methods 0.000 claims description 3
- 230000000977 initiatory effect Effects 0.000 claims description 2
- 238000012549 training Methods 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims 2
- 230000000694 effects Effects 0.000 abstract description 11
- 238000001514 detection method Methods 0.000 abstract description 6
- 238000005457 optimization Methods 0.000 abstract description 2
- 230000009467 reduction Effects 0.000 abstract description 2
- 239000000126 substance Substances 0.000 abstract 1
- 238000005516 engineering process Methods 0.000 description 89
- 238000012552 review Methods 0.000 description 16
- 238000004891 communication Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 14
- 238000012545 processing Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 239000007787 solid Substances 0.000 description 4
- 230000003612 virological effect Effects 0.000 description 4
- 238000001914 filtration Methods 0.000 description 3
- 241000854350 Enicospilus group Species 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000011897 real-time detection Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Abstract
Description
Область техники, к которой относится изобретениеThe technical field to which the invention belongs
Настоящая технология относится в целом к способам и системам для определения аномальной краудсорсинговой метки и, в частности, к способам и системам для обнаружения источника аномальной краудсорсинговой метки.The present technology relates generally to methods and systems for detecting an anomalous crowdsourcing tag, and more particularly to methods and systems for detecting the source of an anomalous crowdsourcing tag.
Уровень техникиState of the art
Упрощение пользования сетью Интернет обеспечило пользователям доступ к различным прикладным веб-сервисам, использующим цифровые платформы. Такие прикладные веб-сервисы могут иметь отношение к публикациям (например, к музыке, книгам, фильмам и т.д.), к услугам (например, к авиакомпаниям, отелям, ресторанам и т.д.), к товарам (например, к электронному оборудованию, автомобилям, кухонной утвари и т.д.) и т.п. Некоторые прикладные веб-сервисы обеспечивают пользователям возможности для публикации контента, соответствующего этим прикладным веб-сервисам, в виде рейтингов, меток, положительных отзывов, отрицательных отзывов, комментариев, голосов и т.п. Например, в прикладном веб-сервисе видеоконтента пользователи могут формировать «метки» для различных фильмов, доступных для загрузки или потоковой передачи с сервиса.The simplification of the use of the Internet has provided users with access to various web application services using digital platforms. Such web application services may be related to publications (for example, music, books, films, etc.), services (for example, airlines, hotels, restaurants, etc.), goods (for example, electronic equipment, automobiles, kitchen utensils, etc.), etc. Some web application services provide users with the ability to post content corresponding to those web application services in the form of ratings, tags, upvotes, downvotes, comments, votes, and the like. For example, in a video content application web service, users can generate "labels" for the various movies available for download or streaming from the service.
Поставщики услуг в таких прикладных веб-сервисах могут ранжировать цифровые элементы, по меньшей мере частично, на основе меток, сформированных пользователями. В некоторых случаях часть меток, сформированных пользователями, может содержать злонамеренные, ложные, вводящие в заблуждение или ошибочные метки. Некоторые из злонамеренных меток могут быть сформированы ботами. Другие метки могут быть сформированы пользователями, нанятыми для таких целей (т.е. получающими вознаграждение).Service providers in such web application services may rank digital items at least in part based on labels generated by users. In some cases, some of the labels generated by users may contain malicious, false, misleading, or erroneous labels. Some of the malicious labels can be generated by bots. Other labels may be generated by users hired for such purposes (ie, rewarded).
Тем не менее, некоторые метки могут не быть злонамеренными, но при этом являться «аномальными» или «ошибочными». В общем случае появление таких меток инициируется внешним событием. Например, возможна ситуация, когда некий блогер опубликовал скандальный отзыв о фильме, ставший вирусным, и пользователи становятся склонными помечать фильм на основе такого скандального отзыва без просмотра самого фильма. However, some labels may not be malicious, but may still be "anomalous" or "erroneous". In general, the appearance of such labels is triggered by an external event. For example, it's possible that a blogger posted a bad review about a movie that went viral, and users tend to tag the movie based on that bad review without actually watching the movie.
Существует несколько компьютерных способов обнаружения и фильтрации злонамеренных меток. Например, в патенте US 9479516 B2 описаны различные способы различения злонамеренного отправления данных (например, рейтингов, комментариев, отзывов и т.д.) и допустимого отправления данных, например, сообщений от реальных пользователей приложения. Эти способы могут быть использованы для формирования промежуточных сигналов, которые могут указывать на злонамеренное отправление данных. Один или несколько промежуточных сигналов могут автоматически объединяться с целью формирования заключения об обнаружении злонамеренности в отправленных данных. Описаны различные варианты действий (например, в автоматическом или в ручном режиме) после обнаружения злонамеренности в отправленных данных, например, злонамеренно отправленные данные могут игнорироваться или в отношении лица либо учетной записи, связанной со злонамеренно отправленными данными, могут быть применены штрафные санкции. При этом описания должны толковаться расширительно, охватывая другие сервисы, принимающие рейтинги и/или комментарии пользователей.There are several computerized ways to detect and filter malicious labels. For example, US Pat. No. 9,479,516 B2 describes various ways to distinguish between malicious data submission (eg, ratings, comments, reviews, etc.) and legitimate data submission, eg, messages from real users of an application. These methods can be used to generate intermediate signals that may indicate maliciously sending data. One or more intermediate signals can be automatically combined to form a conclusion about the detection of malicious intent in the sent data. Various options are described (for example, automatically or manually) after malicious intent is detected in the submitted data, for example, maliciously submitted data may be ignored, or penalties may be applied to the person or account associated with the maliciously submitted data. In this case, the descriptions should be interpreted broadly, covering other services that accept ratings and / or user comments.
В патенте US 10089660 B2 описано несколько источников отзывов для одного и того же продукта или сервиса (например, для отелей, ресторанов, клиник, парикмахерских и т.д.), используемых для формирования достоверной оценки. Такая оценка позволяет четко определять отели с признаками манипулирования отзывами, замалчивания и подделки и обеспечивать пользователю полное понимание отзывов о продукте или организации. При расчете оценки используется информация трех видов: пространственная, временная и сетевая (основе графа). Информация смешивается для формирования представительного набора признаков, обеспечивающего надежное формирование достоверной оценки. Изобретение самостоятельно адаптируется к новым отзывам и веб-сайтам. Для обеспечения надежности и достоверности оценки изобретение также предусматривает механизм проверки с использованием краудсорсинга путем формирования фальсифицированных отзывов.US Pat. No. 1,0089,660 B2 describes multiple review sources for the same product or service (eg, hotels, restaurants, clinics, hairdressers, etc.) used to generate a valid rating. This rating allows you to clearly identify hotels with signs of review manipulation, silence, and forgery, and provides the user with a complete understanding of product or organization reviews. When calculating the score, three types of information are used: spatial, temporal and network (graph-based). The information is mixed to form a representative set of features that ensures the reliable formation of a reliable estimate. The invention self-adapts to new reviews and websites. To ensure the reliability and validity of the assessment, the invention also provides a crowdsourced verification mechanism by generating falsified reviews.
Раскрытие изобретенияDisclosure of invention
Разработанные варианты реализации настоящей технологии основаны на понимании разработчиками по меньшей мере одной технической проблемы, связанной с известными решениями. The developed embodiments of the present technology are based on the understanding by the developers of at least one technical problem associated with known solutions.
Например, несмотря на то, что известные решения обладают определенными достоинствами и способствуют обнаружению и фильтрации злонамеренных меток, соответствующих различным прикладным веб-сервисам, они все же имеют некоторые недостатки. Например, несмотря на известность подходов к обнаружению и фильтрации злонамеренных меток, обнаружение и фильтрация аномальных меток и обнаружение в реальном времени веб-источника, побуждающего пользователей формировать ошибочные метки, по-прежнему остаются актуальными.For example, although known solutions have certain advantages and contribute to the detection and filtering of malicious labels corresponding to various application web services, they still have some disadvantages. For example, while malicious label detection and filtering approaches are well-known, anomalous label detection and filtering and real-time detection of a web source that encourages users to generate false labels are still relevant.
Настоящая технология разработана после того, как разработчики путем наблюдения определили, что веб-источник может порождать флешмоб, вызывающий появление ошибочных меток, инициируемых или находящихся под влиянием этого веб-источника. С точки зрения сервера, которому приходится обрабатывать множество операций ошибочной разметки, такой флешмоб может приводить к значительному расходованию ресурсов.This technology was developed after the developers determined through observation that a web source can generate a flash mob that causes the appearance of erroneous labels initiated or influenced by this web source. From the point of view of a server that has to process a lot of erroneous markup operations, such a flash mob can lead to a significant waste of resources.
При разработке настоящей технологии разработчики обратили внимание на то, что все больше прикладных веб-сервисов, доступных с использованием браузерного приложения, обслуживаются сервисами веб-аналитики (такими как Google Analytics™, Yandex.Metrica™ и т.п.). Вкратце, эти сервисы веб-аналитики способны собирать и хранить данные, связанные с браузерным приложением. When developing this technology, the developers paid attention to the fact that more and more application web services available using a browser application are served by web analytics services (such as Google Analytics ™, Yandex.Metrica ™, etc.). In short, these web analytics services are capable of collecting and storing data related to a browser application.
Безотносительно какой-либо конкретной теории, варианты осуществления настоящей технологии разработаны на основе предположения, что оценка истории просмотра/навигации пользователей, формирующих метки, позволяет более достоверно определять случаи, когда метка является или будет являться ошибочной.Without wishing to be bound by any particular theory, embodiments of the present technology are developed on the assumption that scoring the browsing/navigation history of tag-forming users more reliably determines when a tag is or will be in error.
Согласно первому аспекту настоящей технологии реализован способ определения аномальной краудсорсинговой метки для цифрового элемента, доступного на цифровой платформе. Аномальная краудсорсинговая метка представляет собой метку из множества краудсорсинговых меток, назначенных для цифрового элемента множеством пользователей. Множество краудсорсинговых меток связано с типичным распределением меток в нем, а аномальная краудсорсинговая метка инициирована внешним инициирующим событием, ссылающимся на цифровой элемент, но не связанным с этим цифровым элементом. Способ выполняется сервером, хранящим журнал просмотра веб-страниц, связанный с по меньшей мере некоторыми пользователями из множества пользователей, и включает в себя: анализ части множества краудсорсинговых меток, собранных в течение некоторого периода времени; определение аномального подмножества краудсорсинговых меток, потенциально инициируемых появлением внешнего инициирующего события в течение этого периода времени; получение из журнала просмотра веб-страниц истории просмотра, связанной с подмножеством из множества пользователей, формирующих часть множества краудсорсинговых меток; разделение истории просмотра, связанной с подмножеством из множества пользователей, на первую группу истории просмотра, связанную с аномальным подмножеством краудсорсинговых меток, и вторую группу истории просмотра, связанную с оставшимися метками из части множества краудсорсинговых меток; формирование дельта-набора веб-ресурсов на основе анализа первой группы истории просмотра и второй группы истории просмотра на предмет различий в веб-ресурсах, посещенных соответствующим подмножеством из множества пользователей, при этом дельта-набор содержит по меньшей мере один веб-ресурс из первого набора истории поиска, связанный с аномальным характером посещений; и сопоставление этого по меньшей мере одного веб-ресурса с источником внешнего инициирующего события.According to the first aspect of the present technology, a method for determining an abnormal crowdsourcing label for a digital item available on a digital platform is implemented. The abnormal crowdsourced tag is a tag from a plurality of crowdsourced tags assigned to a digital item by multiple users. A set of crowdsourced tags is associated with a typical distribution of tags within it, and an anomalous crowdsourced tag is triggered by an external triggering event that references a digital element, but is not associated with this digital element. The method is performed by a server storing a web browsing log associated with at least some users of the plurality of users, and includes: parsing a portion of the plurality of crowdsourced tags collected over a period of time; determining an anomalous subset of crowdsourced tags potentially triggered by the occurrence of an external trigger event during that time period; obtaining from the web browsing log a browsing history associated with a subset of the plurality of users forming part of the plurality of crowdsourced tags; dividing a browsing history associated with a subset of the plurality of users into a first browsing history group associated with the abnormal subset of crowdsourced tags and a second browsing history group associated with the remaining tags of a portion of the crowdsourced tags set; generating a delta set of web resources based on the analysis of the first group of browsing history and the second group of browsing history for differences in web resources visited by the corresponding subset of the set of users, while the delta set contains at least one web resource from the first set search history associated with the anomalous nature of visits; and associating the at least one web resource with the source of the external trigger.
В некоторых вариантах осуществления изобретения способ дополнительно включает в себя определение пользователей из множества пользователей, обращавшихся к этому по меньшей мере одному веб-ресурсу в течение упомянутого периода времени.In some embodiments of the invention, the method further includes determining the users of the plurality of users accessing the at least one web resource during said time period.
В некоторых вариантах осуществления изобретения способ дополнительно включает в себя удаление по меньшей мере некоторых меток из множества меток, сформированных пользователями, обращавшимися к этому по меньшей мере одному веб-ресурсу в течение упомянутого периода времени.In some embodiments of the invention, the method further includes deleting at least some of the labels from the plurality of labels generated by users accessing the at least one web resource during said period of time.
В некоторых вариантах осуществления изобретения способ дополнительно включает в себя назначение уменьшающего весового коэффициента для по меньшей мере некоторых меток, сформированных пользователями, обращавшимися к этому по меньшей мере одному веб-ресурсу в течение упомянутого периода времени.In some embodiments of the invention, the method further includes assigning a decreasing weight to at least some of the labels generated by users accessing the at least one web resource during said period of time.
В некоторых вариантах осуществления изобретения способ в будущем периоде времени после рассматриваемого периода времени дополнительно включает в себя: определение подмножества пользователей из множества будущих пользователей, отправляющих метки в будущем периоде времени, которые обращались к этому по меньшей мере одному веб-ресурсу до будущего периода времени; и удаление меток, сформированных подмножеством пользователей из множества будущих пользователей или назначение уменьшающего весового коэффициента для меток, сформированных этим подмножеством пользователей из множества будущих пользователей.In some embodiments of the invention, the method in the future time period after the considered time period further includes: determining a subset of users from the set of future label-sending users in the future time period who accessed the at least one web resource before the future time period; and removing labels generated by a subset of users from the set of future users or assigning a decreasing weight to labels generated by this subset of users from the set of future users.
В некоторых вариантах осуществления способа определение аномального подмножества включает в себя анализ пиковых тенденций среди всех соседних меток в фактическом распределении меток в части множества краудсорсинговых меток на основе пиковых тенденций, не соответствующих типичному распределению меток, определяющих это аномальное подмножество.In some embodiments of the method, determining the anomalous subset includes analyzing peak trends among all neighboring labels in the actual label distribution in a portion of the set of crowdsourced labels based on peak trends that do not match the typical label distribution defining the anomalous subset.
В некоторых вариантах осуществления способа пиковые тенденции, не соответствующие типичному распределению меток, основаны на одном наборе из двух соседних меток, связанных с аномальным пиком, и/или на двух наборах следующих друг за другом соседних меток, связанных с аномальным пиком.In some method embodiments, peak trends not corresponding to a typical label distribution are based on one set of two adjacent labels associated with an abnormal peak and/or two sets of consecutive labels associated with an abnormal peak.
В некоторых вариантах осуществления способа один набор из двух соседних меток содержит метку низкого уровня или метку высокого уровня.In some embodiments of the method, one set of two adjacent labels contains a low level label or a high level label.
В некоторых вариантах осуществления способа два набора следующих друг за другом соседних меток содержат метки низкого уровня или метки высокого уровня.In some embodiments of the method, two sets of successive adjacent labels contain low-level labels or high-level labels.
В некоторых вариантах осуществления способа он дополнительно включает в себя определение аномального характера посещений.In some embodiments of the method, it further includes determining the anomalous nature of the visits.
В некоторых вариантах осуществления способа определение аномального характера посещений включает в себя: расчет первой доли пользователей, связанных с первой группой истории просмотра и обращавшихся к по меньшей мере одному веб-ресурсу; расчет второй доли пользователей, связанных со второй группой истории просмотра и обращавшихся к этому по меньшей мере одному веб-ресурсу; определение того, что этот по меньшей мере один веб-ресурс связан с аномальным характером посещений, если первая доля больше второй доли.In some embodiments of the method, determining the anomalous nature of visits includes: calculating a first proportion of users associated with a first group of browsing history who accessed at least one web resource; calculating a second proportion of users associated with the second browsing history group and accessing the at least one web resource; determining that the at least one web resource is associated with abnormal visit patterns if the first fraction is greater than the second fraction.
В некоторых вариантах осуществления изобретения способ дополнительно включает в себя сравнение первой доли и второй доли с использованием Z-статистики.In some embodiments, the method further includes comparing the first beat and the second beat using a Z-statistic.
В некоторых вариантах осуществления способа, если Z-статистика указывает на статистически значимое различие, то этот по меньшей мере один веб-ресурс определяется в качестве источника внешнего инициирующего события.In some embodiments of the method, if the Z-statistic indicates a statistically significant difference, then that at least one web resource is determined to be the source of the external trigger.
В некоторых вариантах осуществления способа он дополнительно включает в себя упорядочение по меньшей мере одного веб-ресурса в ранжированном списке с использованием доли множества пользователей, просмотревших конкретный веб-ресурс из числа этого по меньшей мере одного веб-ресурса.In some embodiments of the method, it further includes ordering the at least one web resource in a ranked list using the proportion of the plurality of users who have viewed a particular web resource from among the at least one web resource.
В некоторых вариантах осуществления изобретения способ дополнительно включает в себя выбор подмножества, являющегося источником внешнего инициирующего события, из числа этого по меньшей мере одного веб-ресурса с использованием в качестве порога отсечения абсолютного количества пользователей во множестве пользователей, просмотревших этот веб-ресурс.In some embodiments, the method further includes selecting an external trigger source subset from the at least one web resource, using the absolute number of users in the set of users who have viewed the web resource as a cutoff.
В некоторых вариантах осуществления способа по меньшей мере один веб-ресурс содержит множество веб-ресурсов, каждый из которых содержит соответствующую версию внешнего инициирующего события.In some embodiments of the method, at least one web resource contains a plurality of web resources, each of which contains a corresponding version of the external trigger.
В некоторых вариантах осуществления способа цифровой элемент содержит контент, а внешнее инициирующее событие представляет собой цифровой элемент отзыва, содержащий отзыв о контенте этого цифрового элемента.In some embodiments of the method, the digital element contains content, and the external trigger is a feedback digital element containing feedback about the content of that digital element.
В некоторых вариантах осуществления способа цифровой элемент отзыва формируется объектом, отличным от источника цифрового элемента.In some embodiments of the method, the digital feedback element is generated by an entity other than the source of the digital element.
В некоторых вариантах осуществления изобретения способ в некоторый будущий момент времени дополнительно включает в себя анализ истории просмотра пользователя на предмет наличия источника внешнего инициирующего события и выполнение корректирующего действия в случае наличия такого источника внешнего инициирующего события.In some embodiments of the invention, the method at some future point in time further includes analyzing the user's browsing history for the presence of an external trigger source and taking corrective action if such an external trigger source is present.
В некоторых вариантах осуществления изобретения способ дополнительно включает в себя выполняемый в случае наличия источника внешнего инициирующего события анализ краудсорсинговой метки, сформированной пользователем, с целью проверки того, что источник внешнего инициирующего события представляет собой фактический источник внешнего инициирующего события.In some embodiments, the method further includes, if there is an external trigger source, parsing the crowdsourced label generated by the user to verify that the external trigger source is the actual source of the external trigger.
В некоторых вариантах осуществления способа источник внешнего инициирующего события представляет собой множество источников внешнего инициирующего события, а способ дополнительно включает в себя выбор N источников с наибольшим рангом из множества источников и обучение алгоритма машинного обучения (MLA, Machine Learning Algorithm) с использованием N источников с наибольшим рангом для предсказания источника внешнего инициирующего события с наибольшим рангом.In some embodiments of the method, the external trigger source is a plurality of external trigger sources, and the method further includes selecting the N sources with the highest rank from the plurality of sources and training a Machine Learning Algorithm (MLA) using the N sources with the highest rank to predict the source of the external trigger with the highest rank.
В некоторых вариантах осуществления способа аномальный характер посещений соответствует по меньшей мере одному ресурсу, отсутствующему во второй истории просмотра.In some embodiments of the method, the anomalous pattern of visits corresponds to at least one resource not present in the second browsing history.
Согласно второму аспекту настоящей технологии реализована система для определения аномальной краудсорсинговой метки для цифрового элемента, доступного на цифровой платформе. Аномальная краудсорсинговая метка представляет собой метку из множества краудсорсинговых меток, назначенных для этого цифрового элемента множеством пользователей. Множество краудсорсинговых меток связано с типичным распределением меток в нем, а аномальная краудсорсинговая метка инициирована внешним инициирующим событием, ссылающимся на цифровой элемент, но не связанным с этим цифровым элементом. Система содержит: сервер, хранящий журнал просмотра веб-страниц, связанный с по меньшей мере некоторыми пользователями из множества пользователей, машиночитаемый физический носитель информации, содержащий команды, и процессор, который при выполнении команд способен: анализировать часть множества краудсорсинговых меток, собранных в течение некоторого периода времени; определять аномальное подмножество краудсорсинговых меток, потенциально инициируемых появлением внешнего инициирующего события в течение этого периода времени; получать из журнала просмотра веб-страниц историю просмотра, связанную с подмножеством из множества пользователей, формирующих часть множества краудсорсинговых меток; разделять историю просмотра, связанную с подмножеством из множества пользователей, на первую группу истории просмотра, связанную с аномальным подмножеством краудсорсинговых меток, и вторую группу истории просмотра, связанную с оставшимися метками из части множества краудсорсинговых меток; формировать дельта-набор веб-ресурсов на основе анализа первой группы истории просмотра и второй группы истории просмотра на предмет различий в веб-ресурсах, посещенных соответствующим подмножеством из множества пользователей, при этом дельта-набор содержит по меньшей мере один веб-ресурс из первого набора истории поиска, связанный с аномальным характером посещений; и сопоставлять этот по меньшей мере один веб-ресурс с источником внешнего инициирующего события.According to the second aspect of the present technology, a system is implemented for determining an abnormal crowdsourcing label for a digital item available on a digital platform. The abnormal crowdsourced tag is a tag from a plurality of crowdsourced tags assigned to this digital item by multiple users. A set of crowdsourced tags is associated with a typical distribution of tags within it, and an anomalous crowdsourced tag is triggered by an external triggering event that references a digital element, but is not associated with this digital element. The system comprises: a server storing a web browsing log associated with at least some users of a plurality of users, a machine-readable physical storage medium containing instructions, and a processor that, when executing the instructions, is capable of: parsing a portion of a plurality of crowdsourced tags collected over a period of time; determine an anomalous subset of crowdsourced tags potentially triggered by the occurrence of an external trigger event during that time period; obtain from the web browsing history a browsing history associated with a subset of the plurality of users forming part of the plurality of crowdsourced tags; separating a browsing history associated with a subset of the plurality of users into a first browsing history group associated with the abnormal subset of the crowdsourced tags and a second browsing history group associated with the remaining tags of a portion of the crowdsourced tags set; generate a delta set of web resources based on the analysis of the first group of browsing history and the second group of browsing history for differences in web resources visited by the corresponding subset of the set of users, while the delta set contains at least one web resource from the first set search history associated with the anomalous nature of visits; and map that at least one web resource to the source of the external trigger.
В контексте настоящего описания термин «сервер» означает компьютерную программу, выполняемую соответствующими аппаратными средствами и способную принимать запросы (например, от электронных устройств) через сеть и выполнять эти запросы или инициировать их выполнение. Аппаратные средства могут представлять собой один физический компьютер или одну компьютерную систему, что не существенно для настоящей технологии. В настоящем контексте выражение «по меньшей мере один сервер» не означает, что каждая задача (например, принятая команда или запрос) или некоторая определенная задача принимается, выполняется или запускается тем же сервером (т.е. одними и теми же программными и/или аппаратными средствами). Это выражение означает, что любое количество программных средств или аппаратных средств может принимать, отправлять, выполнять или инициировать выполнение любой задачи или запроса либо результатов любых задач или запросов. Все эти программные и аппаратные средства могут представлять собой один сервер или несколько серверов, причем оба эти случая подразумеваются в выражении «по меньшей мере один сервер».As used herein, the term "server" means a computer program executing in appropriate hardware and capable of receiving requests (eg, from electronic devices) over a network and executing or initiating those requests. The hardware may be one physical computer or one computer system, which is not essential to the present technology. In the present context, the expression "at least one server" does not mean that every task (for example, a received command or request) or some specific task is received, executed or started by the same server (i.e. the same software and / or hardware). This expression means that any number of software or hardware can receive, send, execute or initiate the execution of any task or request or the results of any tasks or requests. All of these software and hardware may be a single server or multiple servers, both of which are meant by the expression "at least one server".
В контексте настоящего описания термин «клиентское устройство» означает любое компьютерное аппаратное средство, способное выполнять программы, подходящие для решения поставленной задачи. В контексте настоящего описания термин «клиентское устройство» в общем случае связан с пользователем клиентского устройства. Таким образом, некоторые (не имеющие ограничительного характера) примеры клиентских устройств включают в себя персональные компьютеры (настольные, ноутбуки, нетбуки и т.п.), смартфоны и планшеты, а также сетевое оборудование, такое как маршрутизаторы, коммутаторы и шлюзы. Следует отметить, что в данном контексте устройство, функционирующее как клиентское устройство, также может функционировать как сервер для других клиентских устройств. Использование выражения «клиентское устройство» не исключает использования нескольких клиентских устройств для приема, отправки, выполнения или инициирования выполнения любой задачи или запроса либо результатов любых задач или запросов либо шагов любого описанного здесь способа.In the context of the present description, the term "client device" means any computer hardware capable of executing programs suitable for solving the task. In the context of the present description, the term "client device" is generally associated with the user of the client device. Thus, some (non-limiting) examples of client devices include personal computers (desktops, laptops, netbooks, and the like), smartphones and tablets, and network equipment such as routers, switches, and gateways. It should be noted that in this context, a device functioning as a client device may also function as a server for other client devices. The use of the term "client device" does not preclude the use of multiple client devices to receive, send, perform or initiate the execution of any task or request, or the results of any tasks or requests or steps of any method described herein.
В контексте настоящего описания, если явно не указано другое, числительные «первый», «второй», «третий» и т.д. используются лишь для указания различия между существительными, к которым они относятся, но не для описания каких-либо определенных взаимосвязей между этими существительными. Например, должно быть понятно, что использование терминов «первый сервер» и «третий сервер» не подразумевает какого-либо определенного порядка, типа, хронологии, иерархии или классификации, в данном случае, серверов, а также что их использование (само по себе) не подразумевает обязательного наличия «второго сервера» в любой ситуации. Кроме того, как встречается в настоящем описании в другом контексте, ссылка на «первый» элемент и «второй» элемент не исключает того, что эти два элемента в действительности могут быть одним и тем же элементом. Таким образом, например, в некоторых случаях «первый» сервер и «второй» сервер могут представлять собой одно и то же программное и/или аппаратное средство, а в других случаях° - разные программные и/или аппаратные средства.In the context of the present description, unless explicitly stated otherwise, the numerals "first", "second", "third", etc. are used only to indicate the difference between the nouns they refer to, but not to describe any specific relationship between these nouns. For example, it should be clear that the use of the terms "first server" and "third server" does not imply any particular order, type, chronology, hierarchy, or classification of, in this case, servers, and that their use (by itself) does not imply the mandatory presence of a "second server" in every situation. In addition, as occurs herein in another context, reference to a "first" element and a "second" element does not exclude that the two elements may in fact be the same element. Thus, for example, in some cases the "first" server and the "second" server may be the same software and/or hardware, and in other cases° different software and/or hardware.
В контексте настоящего описания выражение «информация» включает в себя информацию любого рода или вида, допускающую хранение в базе данных. Таким образом, информация включает в себя аудиовизуальные произведения (изображения, фильмы, звукозаписи, презентации и т.д.), данные (данные о местоположении, числовые данные и т.д.), текст (мнения, комментарии, вопросы, сообщения и т.д.), документы, электронные таблицы и т.д., но не ограничивается ими.In the context of the present description, the expression "information" includes information of any kind or kind that can be stored in a database. Thus, information includes audiovisual works (images, films, sound recordings, presentations, etc.), data (location data, numerical data, etc.), text (opinions, comments, questions, messages, etc.). .d.), but not limited to documents, spreadsheets, etc.
В контексте настоящего описания выражение «документ» должно толковаться расширительно с целью включения любого машиночитаемого или машинохранимого рабочего продукта. Документ может содержать сообщение электронной почты, веб-сайт, файл, сочетание файлов, один или несколько файлов со встроенными ссылками на другие файлы, сообщение в группе новостей, блог, рекламное объявление в сети Интернет и т.д. В контексте сети Интернет общий документ представляет собой веб-страницу. Веб-страницы часто содержат текстовую информацию и могут содержать встроенную информацию (такую как метаданные, изображения, гиперссылки и т.д.) и/или встроенные команды (такие как команды Javascript и т.д.). Станица может соответствовать документу или части документа. Таким образом, слова «страница» и «документ» в некоторых случаях могут использоваться как синонимы. В других случаях страница может соответствовать части документа, например, подчиненному документу. Страница также может соответствовать нескольким документам. In the context of the present description, the expression "document" should be interpreted broadly to include any machine-readable or machine-storable work product. A document may contain an email message, a website, a file, a combination of files, one or more files with embedded links to other files, a newsgroup post, a blog, an Internet advertisement, and so on. In the context of the Internet, a common document is a web page. Web pages often contain textual information and may contain embedded information (such as metadata, images, hyperlinks, etc.) and/or embedded commands (such as Javascript commands, etc.). A page can correspond to a document or part of a document. Thus, the words "page" and "document" in some cases can be used interchangeably. In other cases, a page may correspond to a part of a document, such as a subdocument. A page can also correspond to multiple documents.
В контексте настоящего описания, если явно не указано другое, термин «база данных» означает любой структурированный набор данных, независимо от его конкретной структуры, программного обеспечения для управления базой данных или компьютерных аппаратных средства для хранения этих данных, их применения или обеспечения их использования иным способом. База данных может располагаться в тех же аппаратных средствах, где реализован процесс, обеспечивающий хранение или использование информации, хранящейся в базе данных, либо база данных может располагаться в отдельных аппаратных средствах, таких как специализированный сервер или множество серверов.In the context of this description, unless expressly stated otherwise, the term "database" means any structured collection of data, regardless of its specific structure, database management software or computer hardware for storing this data, using it or making it available to others. way. The database may reside on the same hardware as the process for storing or using the information stored in the database, or the database may reside on separate hardware such as a dedicated server or multiple servers.
Каждый вариант осуществления настоящей технологии относится к по меньшей мере одной из вышеупомянутых целей и/или аспектов, но не обязательно ко всем ним. Должно быть понятно, что некоторые аспекты настоящей технологии, связанные с попыткой достижения вышеупомянутой цели, могут не соответствовать этой цели и/или могут соответствовать другим целям, явным образом здесь не упомянутым.Each embodiment of the present technology relates to at least one of the above objectives and/or aspects, but not necessarily all of them. It should be understood that some aspects of the present technology, associated with an attempt to achieve the above goal, may not meet this goal and/or may meet other goals not explicitly mentioned here.
Дополнительные и/или альтернативные признаки, аспекты и преимущества вариантов осуществления настоящей технологии содержатся в дальнейшем описании, в приложенных чертежах и в формуле изобретения.Additional and/or alternative features, aspects and advantages of embodiments of the present technology are contained in the following description, in the accompanying drawings and in the claims.
Краткое описание чертежейBrief description of the drawings
Дальнейшее описание приведено для лучшего понимания настоящей технологии, а также других аспектов и их признаков, и должно использоваться совместно с приложенными чертежами.The following description is provided for a better understanding of the present technology, as well as other aspects and their features, and should be used in conjunction with the attached drawings.
На фиг. 1 представлены различные компоненты и признаки клиентского устройства, реализованного согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера. In FIG. 1 depicts various components and features of a client device implemented in accordance with various non-limiting embodiments of the present technology.
На фиг. 2 представлена схема системы, реализованной согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера.In FIG. 2 is a diagram of a system implemented in accordance with various non-limiting embodiments of the present technology.
На фиг. 3 представлены прикладные веб-сервисы, обеспечиваемые поставщиком услуг и реализованные в системе, представленной на фиг. 2, согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера.In FIG. 3 shows web application services provided by a service provider and implemented in the system shown in FIG. 2 according to various non-limiting embodiments of the present technology.
На фиг. 4 представлена блок-схема, содержащая компоненты, модули, соединения и взаимодействия для примера прикладного сервиса согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера.In FIG. 4 is a block diagram containing components, modules, connections, and interactions for an example application service according to various non-limiting embodiments of the present technology.
На фиг. 5 представлен пример типичного распределения меток, соответствующего краудсорсинговым меткам и нескольким пользователям, отправившим эти краудсорсинговые метки, согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера.In FIG. 5 shows an example of a typical label distribution corresponding to crowdsourced labels and multiple users who sent those crowdsourced labels, according to various non-limiting embodiments of the present technology.
На фиг. 6-7 представлены примеры фактического распределения меток, где краудсорсинговые метки содержат аномальные краудсорсинговые метки, согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера.In FIG. 6-7 show examples of actual label distribution where crowdsourced labels contain abnormal crowdsourced labels according to various non-limiting embodiments of the present technology.
На фиг. 8 представлена подробная высокоуровневая функциональная блок-схема процессора аномальных краудсорсинговых меток согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера. In FIG. 8 is a detailed high-level functional block diagram of an abnormal crowdsourcing tag processor according to various non-limiting embodiments of the present technology.
На фиг. 9 представлена подробная высокоуровневая функциональная блок-схема начального анализатора меток согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера.In FIG. 9 is a detailed high-level functional block diagram of an initial label parser according to various non-limiting embodiments of the present technology.
На фиг. 10 представлена подробная высокоуровневая функциональная блок-схема анализатора истории просмотра согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера.In FIG. 10 is a detailed high-level functional block diagram of a browsing history analyzer according to various non-limiting embodiments of the present technology.
На фиг. 11 представлена структура данных истории просмотра, хранящихся на сервере отслеживания, согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера.In FIG. 11 shows the structure of browsing history data stored in a tracking server according to various non-limiting embodiments of the present technology.
На фиг. 12 представлена первая группа истории просмотра, связанная с пользователями, формирующими аномальные краудсорсинговые метки, согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера.In FIG. 12 shows a first browsing history group associated with users generating abnormal crowdsourced tags according to various non-limiting embodiments of the present technology.
На фиг. 13 представлена вторая группа истории просмотра, связанная с оставшимися пользователями, соответствующими части множества краудсорсинговых меток, согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера.In FIG. 13 shows a second browsing history group associated with remaining users corresponding to a portion of a plurality of crowdsourced tags, according to various non-limiting embodiments of the present technology.
На фиг. 14 представлен дельта-набор, содержащий по меньшей мере один веб-ресурс из первого набора истории просмотра, связанного с аномальным характером посещений, согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера.In FIG. 14 is a delta set containing at least one web resource from a first set of browsing history associated with anomalous browsing patterns, according to various non-limiting embodiments of the present technology.
На фиг. 15 представлен ранжированный список, сформированный процессором аномальных краудсорсинговых меток и содержащий набор универсальных указателей ресурсов (URL, Uniform Resource Locator), согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера.In FIG. 15 is a ranked list generated by the anomalous crowdsourcing label processor and containing a set of Uniform Resource Locators (URLs) according to various non-limiting embodiments of the present technology.
На фиг. 16 представлена блок-схема способа обнаружения внешнего инициирующего события согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера.In FIG. 16 is a flowchart of a method for detecting an external trigger according to various non-limiting embodiments of the present technology.
Осуществление изобретенияImplementation of the invention
Представленные здесь примеры и условный язык предназначены для обеспечения лучшего понимания принципов настоящей технологии, а не для ограничения ее объема до таких специально приведенных примеров и условий. Очевидно, что специалисты в данной области техники способны разработать различные способы и устройства, которые явно не описаны и не показаны, но реализуют принципы настоящей технологии в пределах ее существа и объема.The examples and conventions presented here are intended to provide a better understanding of the principles of the present technology, and not to limit its scope to such specifically given examples and conditions. It is obvious that specialists in the art are able to develop various methods and devices that are not explicitly described or shown, but implement the principles of the present technology within its essence and scope.
Кроме того, чтобы способствовать лучшему пониманию, последующее описание может содержать упрощенные варианты реализации настоящей технологии. Специалистам в данной области должно быть понятно, что различные варианты осуществления настоящей технологии могут быть значительно сложнее.In addition, to facilitate a better understanding, the following description may include simplified implementations of the present technology. Those skilled in the art will appreciate that various embodiments of the present technology can be significantly more complex.
В некоторых случаях приводятся полезные примеры модификаций настоящей технологии. Они способствуют пониманию, но также не определяют объем или границы настоящей технологии. Представленный перечень модификаций не является исчерпывающим и специалист в данной области может разработать другие модификации в пределах объема настоящей технологии. Кроме того, если в некоторых случаях модификации не описаны, это не означает, что они невозможны и/или что описание содержит единственно возможный вариант реализации того или иного элемента настоящей технологии.In some cases, useful examples of modifications to the present technology are provided. They contribute to understanding, but also do not define the scope or boundaries of the present technology. The presented list of modifications is not exhaustive and the person skilled in the art can develop other modifications within the scope of this technology. In addition, if modifications are not described in some cases, this does not mean that they are impossible and / or that the description contains the only possible implementation of one or another element of the present technology.
Более того, описание принципов, аспектов и вариантов реализации настоящей технологии, а также их конкретные примеры предназначены для охвата их структурных и функциональных эквивалентов, независимо от того, известны они в настоящее время или будут разработаны в будущем. Например, специалистам в данной области техники должно быть очевидно, что любые описанные здесь структурные схемы соответствуют концептуальным представлениям иллюстративных принципиальных схем, реализующих принципы настоящей технологии. Также должно быть очевидно, что любые блок-схемы, схемы процессов, диаграммы изменения состояния, псевдокоды и т.п. соответствуют различным процессам, которые могут быть представлены на машиночитаемом физическом носителе информации и могут выполняться компьютером или процессором, независимо от того, показан такой компьютер или процессор явно или нет.Moreover, the description of principles, aspects, and embodiments of the present technology, as well as specific examples thereof, is intended to cover their structural and functional equivalents, whether they are currently known or will be developed in the future. For example, it should be apparent to those skilled in the art that any structural diagrams described herein correspond to conceptual representations of illustrative circuit diagrams that implement the principles of the present technology. It should also be obvious that any flowcharts, process diagrams, state transition diagrams, pseudocodes, etc. correspond to various processes that may be represented on a computer-readable physical storage medium and may be executed by a computer or processor, whether such computer or processor is explicitly shown or not.
Функции различных элементов, показанных на чертежах, включая любой функциональный блок, обозначенный как «процессор» или «графический процессор», могут быть реализованы с использованием специализированных аппаратных средств, а также с использованием аппаратных средств, способных выполнять соответствующее программное обеспечение. Если используется процессор, эти функции могут выполняться одним выделенным процессором, одним совместно используемым процессором или множеством отдельных процессоров, некоторые из которых могут использоваться совместно. В некоторых вариантах осуществления настоящей технологии процессор может представлять собой процессор общего назначения, такой как центральный процессор (CPU), или специализированный процессор, такой как графический процессор (GPU). Кроме того, явное использование термина «процессор» или «контроллер» не должно трактоваться как указание исключительно на аппаратные средства, способные выполнять программное обеспечение, и может подразумевать, помимо прочего, аппаратные средства цифрового сигнального процессора (DSP), сетевой процессор, специализированную интегральную схему (ASIC), программируемую вентильную матрицу (FPGA), постоянное запоминающее устройство (ПЗУ) для хранения программного обеспечения, оперативное запоминающее устройство (ОЗУ) и энергонезависимое запоминающее устройство (ЗУ). Также могут подразумеваться другие аппаратные средства, общего назначения и/или заказные.The functions of the various elements shown in the drawings, including any functional unit labeled "processor" or "graphics processing unit", may be implemented using dedicated hardware as well as using hardware capable of executing the associated software. If a processor is used, these functions may be performed by a single dedicated processor, a single shared processor, or multiple individual processors, some of which may be shared. In some embodiments of the present technology, the processor may be a general purpose processor such as a central processing unit (CPU) or a specialized processor such as a graphics processing unit (GPU). In addition, explicit use of the term "processor" or "controller" should not be construed as referring solely to the hardware capable of executing the software and may refer to, but is not limited to, digital signal processor (DSP) hardware, network processor, ASIC (ASIC), Field Programmable Gate Array (FPGA), Read Only Memory (ROM) for storing software, Random Access Memory (RAM) and Non-Volatile Memory (ROM). Other general purpose and/or custom hardware may also be contemplated.
Программные модули или просто модули, реализация которых предполагается в виде программных средств, могут быть представлены здесь как любое сочетание элементов блок-схемы или других элементов, указывающих на выполнение шагов процесса и/или содержащих текстовое описание. Такие модули могут выполняться аппаратными средствами, показанными явно или подразумеваемыми.Software modules, or simply modules that are intended to be implemented in software, may be represented here as any combination of flowchart elements or other elements indicating the steps of a process and/or containing a textual description. Such modules may be implemented in hardware, as shown or implied.
Далее с учетом изложенных выше принципов рассмотрены некоторые не имеющие ограничительного характера примеры, иллюстрирующие различные варианты реализации аспектов настоящей технологии.In the following, in light of the principles set forth above, some non-limiting examples are provided to illustrate various embodiments of aspects of the present technology.
На фиг. 1 представлены различные компоненты и признаки клиентского устройства 100, реализованного согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера. Как показано, клиентское устройство 100 использует процессор 102, графический процессор 104, твердотельный накопитель 106, память 108, дисплей 110 и сетевой модуль 112. Должно быть понятно, что могут присутствовать и другие элементы, не показанные для простоты и удобства трактовки. In FIG. 1 depicts various components and features of a
Связь между различными компонентами клиентского устройства 100 может обеспечиваться через одну или несколько внутренних и/или внешних шин (не показаны), таких как шина PCI, универсальная последовательная шина, шина FireWire стандарта IEEE 1394, шина SCSI, шина Serial-ATA и т.д., с которыми различные аппаратные компоненты соединены электронными средствами. Communication between the various components of
Согласно вариантам осуществления настоящей технологии, твердотельный накопитель 106 хранит программные команды, пригодные для загрузки в память 108 и исполнения процессором 102 и/или графический процессор 104. Программные команды могут, например, входить в состав библиотеки или приложения. Например, память 108 может быть реализована в виде машиночитаемого носителя информации, включая ПЗУ, жесткие диски (HDD), твердотельные накопители (SSD) и карты флэш-памяти. In accordance with embodiments of the present technology, the
Клиентское устройство 100 может представлять собой сервер, настольный компьютер, планшет, смартфон, карманный персональный компьютер или любое устройство, которое может быть сконфигурировано для реализации настоящей технологии, как должно быть понятно специалисту в данной области.
На фиг. 2 представлена система 200, реализованная согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера. Как показано, система 200 содержит множество 202 пользователей, связанных с множеством 210 клиентских устройств. На фиг. 2 представлены первый пользователь 204, второй пользователь 206 и третий пользователь 208, соответственно связанные с первым клиентским устройством 214, вторым клиентским устройством 216 и третьим клиентским устройством 218. В некоторых вариантах осуществления настоящей технологии первое клиентское устройство 214 может быть реализовано подобно клиентскому устройству 100, второе клиентское устройство 216 может быть реализовано в виде ноутбука, а третье клиентское устройство 218 может быть реализовано в виде смартфона. Следует отметить, что связь множества 202 пользователей с множеством 210 клиентских устройств не означает необходимости предлагать или предполагать какой-либо режим работы, например, вход в систему, регистрацию и т.п.In FIG. 2 depicts
Множество 210 клиентских устройств соединено с сетью 220 связи соответствующими линиями 222 связи. Должно быть понятно, что сеть 220 связи может быть реализована с использованием любых подходящих технологий, таких как сеть Интернет, глобальная сеть связи, локальная сеть связи, частная сеть связи и т.п.A plurality of 210 client devices are connected to the
На реализацию линии 222 связи не накладывается каких-либо особых ограничений, она зависит от реализации первого клиентского устройства 214, второго клиентского устройства 216 и третьего клиентского устройства 218. В качестве примера, не имеющего ограничительного характера, в тех вариантах реализации настоящей технологии, где первое клиентское устройство 214 и/или второе клиентское устройство 216 и/или третье клиентское устройство 218 реализовано в виде беспроводного устройства связи (такого как смартфон), линия 222 связи может быть реализована в виде беспроводной линии связи (такой как канал сети связи 3G, канал сети связи 4G, Wireless Fidelity или сокращенно WiFi®, Bluetooth® и т.п.). В тех примерах, где первое клиентское устройство 214 и/или второе клиентское устройство 216 и/или третье клиентское устройство 218 реализовано в виде ноутбука, линия 222 связи может быть как беспроводной (такой как Wireless Fidelity или кратко WiFi®, Bluetooth® и т.п.), так и проводной (такой как соединение на основе Ethernet).The implementation of
Также должно быть понятно, что варианты реализации первого клиентского устройства 214, второго клиентского устройства 216, третьего клиентского устройства 218, сети 220 связи и лини 222 связи приведены лишь для иллюстрации. Специалистам в данной области должны быть очевидными и другие конкретные детали реализации первого клиентского устройства 214, второго клиентского устройства 216, третьего клиентского устройства 218, сети 220 связи и лини 222 связи. Представленные выше примеры никак не ограничивают объем настоящей технологии.It should also be understood that the implementations of the
Сеть 220 связи также соединена с множеством 224 серверов. На фиг. 2 представлены первый сервер 226 приложений, второй сервер 228 приложений, третий сервер 230 приложений и сервер 232 отслеживания. Первый сервер 226 приложений, второй сервер 228 приложений, третий сервер 230 приложений и сервер 232 отслеживания могут быть реализованы в виде традиционных компьютерных серверов. В некоторых вариантах осуществления настоящей технологии первый сервер 226 приложений, второй сервер 228 приложений, третий сервер 230 приложений и сервер 232 отслеживания могут быть реализованы в виде сервера Dell™ PowerEdge™, работающего под управлением операционной системы Microsoft™ Windows Server™. Например, множество серверов может содержать машиночитаемый физический носитель информации, включая ПЗУ и/или ОЗУ, и одно или несколько устройств постоянного хранения, таких как жесткие диски (HDD), твердотельные накопители (SSD) и карты флэш-памяти.The
Очевидно, что первый сервер 226 приложений, второй сервер 228 приложений, третий сервер 230 приложений и сервер 232 отслеживания могут быть реализованы с использованием любых других подходящих аппаратных средств и/или прикладного программного обеспечения и/или встроенного программного обеспечения либо их сочетания. Кроме того, первый сервер 226 приложений, второй сервер 228 приложений, третий сервер 230 приложений и сервер 232 отслеживания могут быть реализованы в виде различных аппаратных или программных средств. Obviously, the
В представленном не имеющем ограничительного характера варианте осуществления настоящей технологии первый сервер 226 приложений, второй сервер 228 приложений, третий сервер 230 приложений и сервер 232 отслеживания представляют собой отдельные серверы. В альтернативных не имеющих ограничительного характера вариантах осуществления настоящей технологии функции каждого сервера из числа первого сервера 226 приложений, второго сервера 228 приложений, третьего сервера 230 приложений и сервера 232 отслеживания могут быть реализованы в одном сервере или могут быть распределены и реализованы в нескольких серверах (не показаны).In the illustrated non-limiting embodiment of the present technology, the
На фиг. 3 представлены прикладные веб-сервисы, предоставляемые поставщиком 304 прикладных веб-сервисов и реализованные в системе, представленной на фиг. 2, согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера. Поставщик 304 прикладных веб-сервисов может предоставлять множество сервисов, называемых прикладными веб-сервисами или прикладными сервисами, множеству 202 пользователей в сети Интернет. В качестве примеров поставщиков сервисов можно привести онлайн-сервисы Yandex™, Google™, Yahoo™ и т.п.In FIG. 3 shows the web application services provided by the web
В общем случае пользователь, такой как пользователь 204, может зарегистрировать учетную запись 302 пользователя у поставщика 304 прикладных веб-сервисов с использованием своего первого клиентского устройства 214 и осуществлять доступ к множеству сервисов, таких как прикладные сервисы 306 социальных медиа, размещенные на первом сервере 226 приложений, мультимедийные прикладные сервисы 308, размещенные на втором сервере 228 приложений, и другие прикладные сервисы 310, размещенные на третьем сервере 230 приложений, с использованием браузерного приложения (путем обращения к веб-сайту, связанному с сервисом) или самостоятельного приложения, которое может выполняться в первом клиентском устройстве 214.In general, a user, such as
Предполагается, что прикладные сервисы 306 социальных медиа могут включать в себя различные платформы социальных медиа, такие как онлайн-сервисы Facebook™, Twitter™, Instagram™ и т.п.It is contemplated that the social
Мультимедийные прикладные сервисы 308 могут включать в себя различные мультимедийные платформы, такие как онлайн-сервис Youtube™, а другие прикладные сервисы 310 могут включать в себя любые другие доступные прикладные веб-сервисы, такие как онлайн-сервисы Amazon™, IMDb™, Playstore™, App Store™ и т.д.The
Поставщик 304 прикладных веб-сервисов, а также прикладные сервисы 306 социальных медиа, мультимедийные прикладные сервисы 308 и другие прикладные сервисы 310 могут быть связаны с сервером 232 отслеживания. В других вариантах осуществления изобретения первый пользователь 204 может быть зарегистрирован в сервисе электронной почты (не показан), который может быть связан с поставщиком 304 прикладных веб-сервисов, способным автоматически создавать учетную запись 302 пользователя и связывать ее с прикладными сервисами 306 социальных медиа, мультимедийными прикладными сервисами 308 и другими прикладными сервисами 310. В других не имеющих ограничительного характера вариантах осуществления изобретения первый пользователь 204 может быть зарегистрирован в сервисе электронной почты и его учетные записи могут быть вручную связаны с прикладными сервисами 306 социальных медиа, мультимедийными прикладными сервисами 308 и другими прикладными сервисами 310 (которые могут быть связаны с другим поставщиком сервисов), а серверу 232 отслеживания может быть разрешено отслеживать его действия. Единая учетная запись 302 пользователя обычно используется с помощью приложения единой регистрации, такого как Yandex.Passport™ и т.п.Web
Поставщик 304 прикладных веб-сервисов может управлять сервером 232 отслеживания, который способен отслеживать действия каждого пользователя (например, из множества 202 пользователей), связанного с множеством сервисов. Тем не менее, в других вариантах осуществления изобретения функции сервера 232 отслеживания могут быть реализованы непосредственно на по меньшей мере одном сервере из множества 224 серверов, таком как первый сервер 226 приложений, второй сервер 228 приложений или третий сервер 230 приложений, или непосредственно в каждом устройстве из множества 210 клиентских устройств, таком как первое клиентское устройство 214, второе клиентское устройство 216 и третье клиентское устройство 218. The web
Таким образом, сервер 232 отслеживания может получать каждое действие пользователя, выполненное пользователем, таким как пользователь 204, в прикладном сервисе, таком как прикладные сервисы 306 социальных медиа, мультимедийные прикладные сервисы 308 и другие прикладные сервисы 310, на его первом клиентском устройстве 214 (или на другом клиентском устройстве, которое может использовать первый пользователь 204), и может вести журнал действий пользователей. На способ ведения сервером 232 отслеживания журнала действий пользователей, который хорошо известен в данной области техники, не накладывается каких-либо ограничений. Например, каждое действие пользователя или пользовательское событие, полученное сервером 232 отслеживания непосредственно от клиентского устройства 204 либо от первого сервера 226 приложений, от второго сервера 228 приложений или от третьего сервера 230 приложений, может быть связано с IP-адресом, идентификатором устройства, отметкой времени, содержащей дату, время и часовой пояс, состоянием, контентом и оценкой, связанной с состоянием. В по меньшей мере некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии сервер 232 отслеживания может анонимизировать идентификатор пользователя для защиты персональных данных соответствующего пользователя, например, первого пользователя 204.Thus, the tracking
Согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера, множество 202 пользователей может обращаться к различным прикладным сервисам, таким как прикладные сервисы 306 социальных медиа, мультимедийные прикладные сервисы 308 и другие прикладные сервисы 310, и в по меньшей мере одном прикладном сервисе может оставлять отзывы или публиковать контент, соответствующий цифровому элементу 402 (описан ниже), связанному с по меньшей мере одним прикладным сервисом, в виде рейтингов, меток, положительных отзывов, отрицательных отзывов, комментариев, голосов и т.п. According to various non-limiting embodiments of the present technology, a plurality of
Предполагается, что цифровой элемент 402 (описан ниже) может соответствовать любому цифровому документу или ресурсу, например, такому как музыка, книги, фильмы, бронирование авиабилетов, бронирование номеров в гостиницах, рестораны, программное обеспечение и т.п., доступному на цифровой платформе, такой как онлайн-сервисы Facebook™, Twitter™, Instagram™, Youtube™, Amazon™, IMDb™, Playstore™, App Store™ и т.п. В не имеющем ограничительного характера примере, соответствующем прикладному веб-сервису видеоконтента, пользователи могут формировать «метки» для различных фильмов, доступных для загрузки или потоковой передачи с сервиса.It is contemplated that digital element 402 (described below) may correspond to any digital document or resource, such as music, books, movies, airline reservations, hotel reservations, restaurants, software, etc., available on a digital platform, for example. such as Facebook™, Twitter™, Instagram™, Youtube™, Amazon™, IMDb™, Playstore™, App Store™, etc. online services. In a non-limiting example corresponding to a video content application web service, users can generate "labels" for the various movies available for download or streaming from the service.
По меньшей мере один сервер из множества 224 серверов может быть способным присваивать ранг цифровому элементу 402 (описан ниже), по меньшей мере частично, на основе меток, соответствующих цифровому элементу 402 (описан ниже) и сделанных множеством 202 пользователей. В некоторых случаях часть меток, сделанных множеством 202 пользователей, содержит «аномальные» или «ошибочные» метки. В общем случае согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера, такие метки инициируются внешним событием. Например, возможна ситуация, когда некий блогер опубликовал скандальный отзыв о фильме, ставший вирусным, а пользователи становятся склонными помечать этот фильм на основе такого скандального отзыва без просмотра самого фильма.At least one server of the plurality of 224 servers may be able to rank the numeric element 402 (described below) based at least in part on the labels corresponding to the numeric element 402 (described below) made by the
В связи с этим для эффективного функционирования системы 200 важно обнаруживать источник внешнего инициирующего события и метки, сделанные под влиянием этого источника внешнего инициирующего события. На фиг. 4 представлена блок-схема примера компонентов, модулей, соединений и взаимодействий для примера прикладного сервиса согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера. В этом примере представлено множество 202 пользователей, связанных с множеством 210 клиентских устройств, осуществляющих доступ к цифровому элементу 402 других прикладных сервисов 310.Therefore, it is important for the efficient operation of the
Множество 202 пользователей может обращаться к цифровому элементу 402 с использованием соответствующих клиентских устройств 210 через интерфейс, связанный с другими прикладными сервисами 310. Интерфейс может, например, представлять собой веб-страницу, которую пользователь может просматривать с помощью веб-браузера (например, браузера для настольных компьютеров или мобильного браузера). В другом примере интерфейс может представлять собой мобильное приложение, которое по умолчанию выполняется в по меньшей мере одном устройстве из множества 210 клиентских устройств. Должно быть понятно, что информация, связанная с цифровым элементом 402, может храниться на третьем сервере 230 приложений.A plurality of 202 users may access the
Множество 202 пользователей также может отправлять для соответствующего цифрового элемента 402 обзоры, отзывы, рейтинги, комментарии, метки и т.п. В некоторых не имеющих ограничительного характера примерах, поясняющих различные случаи, множество 202 пользователей может формировать рейтинги или комментарии, соответствующие фильмам, телевизионным программам, домашнему видео, видеоиграм, потоковому контенту и т.п., в онлайн-сервисе IMDB™ или формировать рейтинги или комментарии, соответствующие различным продуктам (например, электронному оборудованию, программному обеспечению, видеоиграм, одежде, мебели, продуктам питания, игрушкам, ювелирным изделиям и т.д.) в онлайн-сервисе Amazon™ и т.п.
Должно быть понятно, что в некоторых вариантах осуществления изобретения информация, связанная с цифровым элементом 402, может храниться на третьем сервере 230 приложений. Такая информация может содержать цифровой контент (например, видеоматериал, документ, музыку и т.п.), связанный с цифровым элементом 402. Кроме того, любые обзоры, отзывы, рейтинги, комментарии, метки и т.п., сформированные множеством 202 пользователей для соответствующего цифрового элемента 402, также могут храниться на втором сервере 228 приложений.It should be understood that in some embodiments of the invention, information associated with the
На фиг. 5 представлен соответствующий различным не имеющим ограничительного характера вариантам осуществления настоящей технологии не имеющий ограничительного характера пример типичного распределения 500 меток, соответствующего краудсорсинговым меткам 502 и указание на количество 504 краудсорсинговых меток 502, отправленных по меньшей мере некоторыми пользователями из множества 202 пользователей. Предполагается, что типичное распределение 500 меток является лишь примером, представляющим распределение без какого-либо отклонения в распределении меток. Иными словами, типичное распределение 500 меток не содержит или содержит очень малое количество меток, сформированных «пользователями, связанными с флешмобом». In FIG. 5 is a non-limiting example of a
Краудсорсинговые метки 502 также могут представлять собой некоторые числа, выбранные из заранее заданного диапазона. Например, пользовательский рейтинг может соответствовать значению от одной до пяти звезд из пяти звезд или первому числу (целому или десятичному) в диапазоне, ограниченном вторым максимальным целым числом. Например, каждый шаг (например, одно целое число) пользовательского рейтинга может быть обозначено каким-либо значком, например, звездой. В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии часть множества 202 пользователей может отправлять краудсорсинговые метки 502 для цифрового элемента 402 и на основе количества 504 краудсорсинговых меток 502 может составляться (например, путем усреднения) рейтинг, соответствующий цифровому элементу 402, с целью формирования общего пользовательского рейтинга. Например, число (целое или десятичное) может быть выбрано в заранее заданном диапазоне (например, 3,5 звезды из 5 звезд). The
На фиг. 6-7 представлены не имеющие ограничительного характера примеры фактических распределений 600 и 700 меток, основанных на предположении, что во время флешмоба фактическое распределение меток может отличаться от типичного распределения меток либо одной краудсорсинговой меткой, имеющей аномально большое значение, т.е. одиночным пиком, либо двумя соседними краудсорсинговыми метками, имеющими аномально большие значения, т.е. групповым пиком. На фиг. 6 представлен первый случай, где краудсорсинговые метки 502 содержат одну аномальную краудсорсинговую метку 606, а их количество 604 указывает на то, что краудсорсинговые метки 502 отправлены по меньшей мере некоторыми пользователями из множества 202 пользователей. На фиг. 7 представлен второй случай, где краудсорсинговые метки 502 содержат набор из двух аномальных краудсорсинговых меток 706, а их количество 704 указывает на то, что краудсорсинговые метки 502 отправлены по меньшей мере некоторыми пользователями из множества 202 пользователей.In FIG. 6-7 are non-limiting examples of
Предполагается, что на аномальные краудсорсинговые метки 606 и 706 мог повлиять источник внешнего инициирующего события. Например, возможна ситуация, когда некий блогер опубликовал скандальный отзыв о фильме, ставший вирусным. По меньшей мере некоторые пользователи из множества 202 пользователей становятся склонными помечать фильм на основе такого скандального отзыва без просмотра самого фильма. Аналогичным образом на основе видеоматериала, соответствующего продукту или услуге (например, электронному оборудованию, гостинице, ресторанам и т.п.) и ставшего вирусным на платформе социальных медиа, по меньшей мере некоторые пользователи из множества 202 пользователей начинают формировать метки без фактического пользования продуктом или услугой. Такое аномальное или ошибочное краудсорсинговое назначение меток может порождать флешмобы. Как показано на фиг. 4, другие прикладные сервисы 310 могут также использовать процессор 404 аномальных краудсорсинговых меток. Процессор 404 аномальных краудсорсинговых меток может получать, анализировать и обрабатывать краудсорсинговые метки 502, сформированные множеством 202 пользователей. Таким образом процессор 404 аномальных краудсорсинговых меток определяет аномальное подмножество среди краудсорсинговых меток, в частности, аномальные краудсорсинговые метки 606 или 706. На основе данных 1100 истории просмотра (описаны ниже), связанных с частью пользователей 202, формирующих часть краудсорсинговых меток 502 (например, метки 608 или 708) или все краудсорсинговые метки 502, процессор 404 аномальных краудсорсинговых меток формирует дельта-набор 1400 (описан ниже), содержащий по меньшей мере один веб-ресурс, представляющий собой источник внешнего инициирующего события. It is hypothesized that the anomalous crowdsourcing tags 606 and 706 may have been affected by the source of an external trigger. For example, a situation is possible when a certain blogger published a scandalous review about a movie that became viral. At least some users out of the plurality of 202 users become inclined to tag a movie based on such a scandalous review without actually seeing the movie. Likewise, based on a video corresponding to a product or service (e.g., electronic equipment, hotel, restaurants, etc.) that has gone viral on a social media platform, at least some of the user set of 202 begin to generate tags without actually using the product, or service. Such anomalous or erroneous crowdsourced tagging can generate flash mobs. As shown in FIG. 4,
Согласно различным не имеющим ограничительного характера вариантам осуществления настоящей технологии, дельта-набор 1400 содержит по меньшей мере один веб-ресурс, связанный с аномальным характером просмотра (т.е. с аномальным характером посещений). According to various non-limiting embodiments of the present technology, the delta set 1400 contains at least one web resource associated with abnormal browsing patterns (ie, abnormal browsing patterns).
В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии аномальный характер посещений может указывать на по меньшей мере один ресурс, отсутствующий во второй истории просмотра. В качестве альтернативы, аномальный характер посещений может указывать на то, что количество посещений по меньшей мере одного ресурса, присутствующего в первой истории просмотра, непропорционально превышает количество посещений во второй истории просмотра. Следует отметить, что точное значение для «непропорционального превышения» может быть определено для конкретного варианта реализации не имеющих ограничительного характера вариантов осуществления настоящей технологии и может быть задано на основе экспериментальных результатов не имеющих ограничительного характера вариантов осуществления настоящей технологии. Например, непропорциональное превышение может соответствовать десятикратному превышению. Следует отметить, что чем меньше это значение, тем меньший порог следует рассматривать для возможного источника внешнего инициирующего события. In some non-limiting embodiments of the present technology, the anomalous pattern of visits may indicate at least one resource not present in the second browsing history. Alternatively, an anomalous pattern of visits may indicate that the number of visits to at least one resource present in the first browsing history is disproportionately greater than the number of visits in the second browsing history. It should be noted that the exact value for "out of proportion" may be determined for a particular implementation of non-limiting embodiments of the present technology and may be set based on experimental results of non-limiting embodiments of the present technology. For example, a disproportionate excess may correspond to a tenfold excess. It should be noted that the smaller this value, the smaller the threshold should be considered for a possible source of an external triggering event.
На фиг. 8 представлена подробная высокоуровневая функциональная блок-схема процессора 404 аномальных краудсорсинговых меток согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера. Как показано, процессор 404 аномальных краудсорсинговых меток использует начальный анализатор 802 меток, анализатор 804 истории просмотра и конечный анализатор 806 меток. Должно быть понятно, что могут присутствовать и другие элементы, не показанные для простоты.In FIG. 8 is a detailed high-level functional block diagram of an abnormal
Согласно по меньшей мере одному не имеющему ограничительного характера варианту осуществления настоящей технологии, процессор 404 аномальных краудсорсинговых меток получает краудсорсинговые метки 502, назначенные для цифрового элемента 402 по меньшей мере некоторыми пользователями из множества 202 пользователей. В некоторых вариантах осуществления изобретения краудсорсинговые метки 502 могут храниться на третьем сервере 230 приложений, а процессор 404 аномальных краудсорсинговых меток получает краудсорсинговые метки 502 от третьего сервера 230 приложений. В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии другие прикладные сервисы 310 могут предоставлять краудсорсинговые метки 502 непосредственно процессору 404 аномальных краудсорсинговых меток до сохранения их на третьем сервере 230 приложений. Затем процессор 404 аномальных краудсорсинговых меток предоставляет краудсорсинговые метки 502 начальному анализатору 802 меток. According to at least one non-limiting embodiment of the present technology, the abnormal
Начальный анализатор 802 меток может анализировать пиковые тенденции среди краудсорсинговых меток 502 с целью выбора аномального подмножества среди краудсорсинговых меток, такого как аномальные краудсорсинговые метки 606 или 706. На фиг. 9 представлена подробная высокоуровневая функциональная блок-схема начального анализатора 802 меток согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера. Как показано, начальный анализатор 802 меток использует анализатор 902 пиковых тенденций и селектор 904 аномального подмножества. Должно быть понятно, что могут присутствовать и другие элементы, не показанные для простоты.
Анализатор 902 пиковых тенденций получает краудсорсинговые метки 502 и может анализировать часть множества краудсорсинговых меток 502 (например, метки 608 или 708) в фактическом распределении меток (например, в фактическом распределении 600 или 700 меток) или все краудсорсинговые метки 502 за некоторый период времени с целью обнаружения пиков концентрации меток в фактическом распределении меток по отношению к соседним меткам. В некоторых вариантах осуществления изобретения часть краудсорсинговых меток 502 (например, метки 608 или 708) в фактическом распределении меток (таком как фактические распределения 600 или 700 меток) может быть связана с метками низкого уровня или с метками высокого уровня.The
Соответственно, анализатор 902 пиковых тенденций может применять оканчивающееся в текущий момент времени скользящее временное окно для меток, отправленных в течение заранее заданного периода времени T. Заранее заданный период времени T может основываться на насыщении концентрации меток, отправленных за этот период времени. В качестве не имеющего ограничительного характера примера можно рассмотреть случаи, когда в течение суток отправлено 10 меток и 10000 меток. В первом случае значение заранее заданного периода времени T может быть задано в сутках, что обеспечивает большее скользящее временное окно по сравнению со скользящим окном во втором случае, когда значение заранее заданного периода времени T может быть задано в часах.Accordingly,
В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии для обнаружения таких пиков анализатор 902 пиковых тенденций может быть реализован в виде классификатора, такого как бинарный классификатор, способный формировать прогноз «да» или «нет». Анализатор 902 пиковых тенденций может быть обучен с использованием двух целей - одиночного пика и группового пика. В частности, с этими двумя целями связаны две метрики:In some non-limiting embodiments of the present technology to detect such peaks, the
- концентрация в одной метке, такой как аномальная краудсорсинговая метка 606, с пиковым характером с обеих сторон;- concentration in one label, such as the
- концентрация в нескольких метках, таких как аномальные краудсорсинговые метки 706, с пиковым характером с обеих сторон.- concentration in multiple tags, such as anomalous 706 crowdsourcing tags, with a peak character on both sides.
В некоторых вариантах осуществления изобретения для расчета этих двух признаков (показателя одиночного пика и показателя группового пика) анализатор 902 пиковых тенденций может рассчитывать разность значений (DIV, Difference In Values) концентраций меток для двух соседних меток из числа краудсорсинговых меток 502. Затем анализатор 902 пиковых тенденций нормализует разности DIV и ранжирует нормализованные разности DIV. Затем анализатор 902 пиковых тенденций выбирает наибольшую нормализованную разность DIV в качестве первого признака, т.е. показателя одиночного пика или (при наличии) выбирает две наибольшие нормализованные разности DIV, связанные со следующим друг за другом соседними метками, в качестве второго признака, т.е. показателя группового пика.In some embodiments of the invention, in order to calculate these two features (single peak score and group peak score),
Приведенную ниже таблицу 1 можно рассматривать в качестве не имеющего ограничительного характера примера распределения меток в диапазоне 1-5 без «флешмоба».Table 1 below can be seen as a non-limiting example of label distribution in the range 1-5 without the flash mob.
Таблица 1Table 1
Таблица 1 содержит метки, долю каждой метки (в процентах), разности DIV (в процентах) и нормализованные разности DIV (в процентах). Анализатор 902 пиковых тенденций может рассчитывать разности DIV путем определения разности для каждой соседней метки. Затем анализатор 902 пиковых тенденций рассчитывает нормализованные разности DIV в диапазоне 100%. На основе того, что нормализованные разности DIV являются «обычными» по отношению друг к другу, а конкретная нормализованная разность DIV оказывается «аномально большой» по отношению к другим нормализованным разностям DIV, анализатор 902 пиковых тенденций способен определять, что распределение меток представляет собой типичное распределение меток или фактическое распределение меток с «флешмобом». В данном случае распределение определяется как типичное распределение меток (т.е. без «флешмоба»). Table 1 contains the labels, the proportion of each label (in percent), the DIV differences (in percent), and the normalized DIV differences (in percent).
Приведенную ниже таблицу 2 можно рассматривать в качестве другого не имеющего ограничительного характера примера распределения меток в диапазоне 1-5 с «флешмобом».Table 2 below can be seen as another non-limiting example of the distribution of tags in the range 1-5 with a "flash mob".
Таблица 2table 2
Таблица 2 содержит метки, долю каждой метки (в процентах), разности DIV (в процентах) и нормализованные разности DIV (в процентах). Анализатор 902 пиковых тенденций может рассчитывать разности DIV путем определения разности для каждой соседней метки. Затем анализатор 902 пиковых тенденций рассчитывает нормализованные разности DIV в диапазоне 100%. В этом примере имеется пара нормализованных разностей DIV, аномально превышающих другие нормализованные разности DIV. Поэтому анализатор 902 пиковых тенденций также может выбирать наибольшую нормализованную разность DIV в качестве первого признака (например, 51,72% в этом случае) и две наибольшие нормализованные разницы DIV в качестве второго признака (например, 51,72% и 43,10% в этом случае). Table 2 contains the labels, the proportion of each label (in percent), the DIV differences (in percent), and the normalized DIV differences (in percent).
Следует отметить, что точное значение для «аномального превышения» может быть определено для конкретного варианта реализации не имеющих ограничительного характера вариантов осуществления настоящей технологии и оно может быть задано на основе экспериментальных результатов не имеющих ограничительного характера вариантов осуществления настоящей технологии. Например, аномальное превышение может соответствовать десятикратному превышению.It should be noted that the exact value for "abnormal excess" can be determined for a particular implementation of non-restrictive embodiments of the present technology, and it can be set based on experimental results of non-restrictive embodiments of the present technology. For example, an abnormal excess may correspond to a tenfold excess.
На основе пиковых тенденций, проанализированных анализатором 902 пиковых тенденций в части множества краудсорсинговых меток 502 (например, среди меток 608 или 708) или среди всех краудсорсинговых меток 502, селектор 904 аномального подмножества определяет подмножества краудсорсинговых меток, не соответствующих типичному распределению меток (например, типичному распределению 500 меток).Based on the peak trends analyzed by the
В зависимости от варианта реализации, несоответствие подмножеств краудсорсинговых меток типичному распределению меток может основываться на одном наборе из двух соседних меток, связанных с аномальным пиком концентрации меток (показатель одиночного пика) или на двух наборах следующих друг за другом соседних меток, связанных с аномальным пиком концентрации меток (показатель группового пика). Кроме того, показатель одиночного пика или показатель группового пика обычно связан с меткой низкого уровня или с меткой высокого уровня, а два набора из двух соседних меток содержат метки низкого уровня или метки высокого уровня. Если в качестве примера используется диапазон 1-10, то метка низкого уровня может соответствовать 1 или 2, а метка высокого уровня может соответствовать 9 или 10. Тем не менее, точное определение метки низкого уровня и высокого уровня может быть выбрано оператором анализатора 902 пиковых тенденций. В общем случае выбор меток низкого уровня или высокого уровня основывается на предположении, что связанные с «флешмобом» метки обычно либо крайне положительные, либо крайне отрицательные. Depending on the implementation, the mismatch of crowdsourced label subsets to a typical label distribution may be based on one set of two adjacent labels associated with an abnormal label concentration peak (single peak index) or two sets of consecutive adjacent labels associated with an abnormal concentration peak. labels (group peak index). In addition, a single peak score or a group peak score is typically associated with a low-level mark or a high-level mark, and two sets of two adjacent marks contain low-level marks or high-level marks. If the range 1-10 is used as an example, then the low label may correspond to 1 or 2, and the high label may correspond to 9 or 10. However, the exact definition of the low and high labels can be chosen by the operator of the
Аномальное подмножество краудсорсинговых меток 502, определенное селектором 904 аномального подмножества, предоставляется анализатору 804 истории просмотра для дальнейшей обработки (см. фиг. 8). Анализатор 804 истории просмотра может анализировать данные 1100 истории просмотра (описаны ниже), связанные с частью пользователей 202, формирующих часть множества краудсорсинговых меток 502 (например, метки 608 или 708) или все краудсорсинговые метки 502, и может формировать дельта-набор 1400 (описан ниже), содержащий по меньшей мере один веб-ресурс, представляющий собой источник внешнего инициирующего события.The anomalous subset of
На фиг. 10 представлена подробная высокоуровневая функциональная блок-схема анализатора 804 истории просмотра согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера. Как показано, анализатор 804 истории просмотра использует получатель 1002 истории просмотра, синтаксический анализатор 1004 истории просмотра и формирователь 1006 дельта-набора. Должно быть понятно, что могут присутствовать и другие элементы, не показанные для простоты и удобства трактовки.In FIG. 10 is a detailed high-level functional block diagram of a
Получатель 1002 истории просмотра способен получать данные 1100 истории просмотра (описаны ниже), связанные с частью пользователей 202, формирующих часть множества краудсорсинговых меток 502 (например, метки 608 или 708) или все краудсорсинговые метки 502, из журнала просмотра веб-страниц, связанного с множеством 202 пользователей и хранящегося на сервере 232 отслеживания. На способ ведения сервером 232 отслеживания журнала действий пользователей, который хорошо известен в данной области техники, не накладывается каких-либо ограничений. Например, каждое действие пользователя или пользовательское событие, полученное сервером 232 отслеживания непосредственно от множества 210 клиентских устройств либо от первого сервера 226 приложений, второго сервера 228 приложений или третьего сервера 230 приложений, может быть связано с IP-адресом, с идентификатором устройства, с отметкой времени, содержащей дату, время и часовой пояс, с состоянием, с контентом и т.п.
На фиг. 11 представлен не имеющий ограничительного характера пример данных 1100 истории просмотра, связанных с частью пользователей 202, формирующих часть множества краудсорсинговых меток 502 (например, метки 608 или 708) или все краудсорсинговые метки 502 в виде индекса, хранящегося на сервере 232 отслеживания. Данные 1100 истории просмотра состоят из набора 1102 URL-адресов и соответствующего времени 1104 обращения для каждого URL-адреса из набора 1102 URL-адресов. Набор 1102 URL-адресов может быть отсортирован в хронологическом порядке на основе соответствующего времени 1104 обращения. Несмотря на то, что данные 1100 истории просмотра показаны как содержащие лишь набор 1102 URL-адресов и время 1104 обращения, объем изобретения этим не ограничивается и они могут также содержать другую информацию, такую как IP-адрес, идентификатор устройства, отметка времени, содержащая дату, время и часовой пояс, состояние и т.п.In FIG. 11 is a non-limiting example of browsing history data 1100 associated with a portion of
Предполагается, что набор 1102 URL-адресов представляет собой лишь не имеющие ограничительного характера примеры на основе действий пользователей, совершенных в различных прикладных сервисах, таких как прикладные сервисы 306 социальных медиа, размещенные на первом сервере 226 приложений, мультимедийные прикладные сервисы 308, размещенные на втором сервере 228 приложений, и другие прикладные сервисы 310, размещенные на третьем сервере 230 приложений.It is assumed that the URL set 1102 is only a non-limiting example based on user actions taken in various application services, such as social
Затем получатель 1002 истории просмотра предоставляет данные 1100 истории просмотра синтаксическому анализатору 1004 истории просмотра для дальнейшей обработки. Синтаксический анализатор 1004 истории просмотра способен разделять данные 1100 истории просмотра на первую группу 1200 истории просмотра (описана ниже), связанную с пользователями, формирующими аномальные краудсорсинговые метки (например, аномальные краудсорсинговые метки 606 или 706), и вторую группу 1300 истории просмотра (описана ниже), связанную с оставшимися пользователями, соответствующими части множества краудсорсинговых меток 502.The
На фиг. 12 представлена первая группа 1200 истории просмотра, связанная с пользователями, формирующими аномальные краудсорсинговые метки (например, аномальные краудсорсинговые метки 606 или 706), согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера. Первая группа 1200 истории просмотра состоит из набора 1202 URL-адресов, представляющего собой подмножество набора 1102 URL-адресов, и соответствующего времени 1204 обращения для каждого URL-адреса из набора 1202 URL-адресов. Набор 1202 URL-адресов отсортирован в хронологическом порядке на основе соответствующего времени 1204 обращения.In FIG. 12 shows a first browsing history group 1200 associated with users generating abnormal crowdsourced tags (eg, abnormal
На фиг. 13 представлена вторая группа 1300 истории просмотра, связанная с оставшимися пользователями, соответствующими части множества краудсорсинговых меток 502, согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера. Вторая группа 1300 истории просмотра состоит из набора 1302 URL-адресов, представляющего собой подмножество набора 1102 URL-адресов, и соответствующего времени 1304 обращения для каждого URL-адреса из набора 1302 URL-адресов. Набор 1302 URL-адресов отсортирован в хронологическом порядке на основе соответствующего времени 1304 обращения.In FIG. 13 shows a second browsing history group 1300 associated with remaining users corresponding to a portion of a plurality of
Затем синтаксический анализатор 1004 истории просмотра предоставляет первую группу 1200 истории просмотра и вторую группу 1300 истории просмотра формирователю 1006 дельта-набора для дальнейшей обработки. Формирователь 1006 дельта-набора способен анализировать первую группу 1200 истории просмотра и вторую группу 1300 истории просмотра и формировать дельта-набор 1400 (описан ниже). Дельта-набор 1400 формируется на основе различия веб-ресурсов, связанных с первой группой 1200 истории просмотра и со второй группой 1300 истории просмотра (наборов 1202 и 1302 URL-адресов), посещенных частью пользователей 202, формирующих часть множества краудсорсинговых меток 502 (например, метки 608 или 708) или все краудсорсинговые метки 502.The
На фиг. 14 представлен дельта-набор 1400, сформированный синтаксическим анализатором 1004 истории просмотра и содержащий по меньшей мере один веб-ресурс из первого набора истории просмотра, связанного с аномальным характером посещений, согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера. Дельта-набор 1400 состоит из набора 1402 URL-адресов, представляющего собой подмножество набора 1102 URL-адресов, и соответствующего времени 1404 обращения для каждого URL-адреса из набора 1402 URL-адресов. Набор 1402 URL-адресов отсортирован в хронологическом порядке на основе соответствующего времени 1404 обращения. In FIG. 14 shows a delta set 1400 generated by the
В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии набор 1402 URL-адресов также содержит подмножество 1406 URL-адресов и подмножество 1408 URL-адресов. Подмножество 1406 URL-адресов может быть связано с веб-ресурсом из первой группы 1200 истории просмотра, отсутствующим во второй группе 1300 истории просмотра, и содержать по меньший мере один веб-ресурс, соответствующий источнику внешнего инициирующего события (например, www.aaaa.com или www.cccc.com или им обоим). В некоторых вариантах осуществления изобретения подмножество 1408 URL-адресов может быть связано с веб-ресурсами, присутствующими в первой группе 1200 истории просмотра и во второй группе 1300 истории просмотра (например, с www.llll.com или www.mmmm.com или с ими обоими). Тем не менее, доля пользователей, связанных с первой группой 1200 истории просмотра и обращавшихся к подмножеству 1408 URL-адресов, больше доли пользователей, связанных со второй группой 1300 истории просмотра и обращавшихся к подмножеству 1408 URL-адресов. In some non-limiting embodiments of the present technology, URL set 1402 also contains a
Предполагается, что по меньшей мере один веб-ресурс, например, подмножество 1406 или 1408 URL-адресов, может содержать множество веб-ресурсов, каждый из которых содержит соответствующую версию внешнего инициирующего события (например, блоги, сообщения в социальных медиа, новости и т.п.), а каждое внешнее инициирующее событие может представлять собой отзыв об этом контенте цифрового элемента 402. Кроме того, отзыв, связанный с цифровым элементом 402, может быть сформирован объектом, отличным от цифрового элемента 402. Такие объекты могут представлять собой блогеров, обозревателей, спамеров или любых случайных пользователей, не связанных с цифровым элементом 402.It is contemplated that at least one web resource, such as a subset of
В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии формирователь 1006 дельта-набора также анализирует набор 1102 URL-адресов, связанный с данными 1100 истории просмотра. Для каждого URL-адреса из набора 1102 URL-адресов формирователь 1006 дельта-набора может рассчитывать количество пользователей, осуществлявших доступ по этому адресу. Кроме того, с использованием Z-статистики, указывающей на статистически значимое различие количества пользователей, связанных с первой группой 1200 истории просмотра и осуществляющих доступ по URL-адресу из набора 1102 URL-адресов, и количества пользователей, связанных со второй группой 1300 истории просмотра и осуществляющих доступ по тому же URL-адресу из набора 1102 URL-адресов, формирователь 1006 дельта-набора может определять URL-адреса (например, www.gggg.com или www.kkkk.com) как соответствующие по меньшей мере одному веб-ресурсу, представляющему собой источник внешнего инициирующего события, и сохранять их в дельта-наборе 1400 в качестве подмножества 1408 URL-адресов.In some non-limiting embodiments of the present technology, the delta set
Анализатор 804 истории просмотра предоставляет дельта-набор 1400 конечному анализатору 806 меток для дальнейшей обработки (см. фиг. 8). Конечный анализатор 806 меток может определять пользователей из множества 202 пользователей, обращавшихся к по меньшей мере одному веб-ресурсу в течение заранее заданного периода времени T. В некоторых вариантах осуществления изобретения конечный анализатор 806 меток может удалять некоторые метки или по меньшей мере назначать уменьшающий весовой коэффициент для некоторых краудсорсинговых меток 502, сформированных пользователями из множества 202 пользователей, обращавшимися к этому по меньшей мере одному веб-ресурсу в течение заранее заданного периода времени T. Таким образом, конечный анализатор 806 меток способствует повышению достоверности краудсорсинговых меток 502 процессором 404 аномальных краудсорсинговых меток.
В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии процессор 404 аномальных краудсорсинговых меток может обмениваться данными с третьим сервером 230 приложений и с сервером 232 отслеживания с целью определения подмножества из множества 202 пользователей, которые уже обращались к по меньшей мере одному веб-ресурсу, но не формировали соответствующую метку для цифрового элемента 402 (см. фиг. 4). Метки, сформированные такими пользователями в будущем, с высокой вероятностью будут необъективными. Поэтому процессор 404 аномальных краудсорсинговых меток также может удалять такие метки или по меньшей мере назначать уменьшающий весовой коэффициент для таких меток в будущем.In some non-limiting embodiments of the present technology, the anomalous
В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии процессор 404 аномальных краудсорсинговых меток также может обмениваться данными с третьим сервером 230 приложений и с сервером 232 отслеживания, чтобы отслеживать историю просмотра будущего пользователя, обращающегося к по меньшей мере одному веб-ресурсу в будущем, и выполнять корректирующее действие при наличии источника внешнего инициирующего события. Такое корректирующее действие может включать в себя удаление любых меток, формируемых будущими пользователями, или по меньшей мере назначение уменьшающего весового коэффициента для любых меток, формируемых будущими пользователями в будущем. Кроме того, в некоторых вариантах осуществления изобретения процессор 404 аномальных краудсорсинговых меток в случае наличия источника внешнего инициирующего события может анализировать краудсорсинговую метку, формируемую будущим пользователем, с целью проверки того, что источник внешнего инициирующего события представляет собой фактический источник внешнего инициирующего события.In some non-limiting embodiments of the present technology, the anomalous
В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии, где по меньшей мере один веб-ресурс содержит множество веб-ресурсов, определенных в качестве возможных источников внешнего инициирующего события, процессор 404 аномальных краудсорсинговых меток может упорядочивать по меньшей мере один веб-ресурс в ранжированном списке 1500 (описан ниже) с использованием доли множества 202 пользователей, просмотревших веб-ресурс из числа по меньшей мере одного веб-ресурса.In some non-limiting embodiments of the present technology, where at least one web resource contains a plurality of web resources identified as possible sources of an external trigger, the abnormal
На фиг. 15 представлен ранжированный список 1500, сформированный процессором 404 аномальных краудсорсинговых меток и содержащий набор 1502 URL-адресов, связанных с по меньшей мере одним веб-ресурсом, и долю 1504 пользователей из множества 202 пользователей, просмотревших конкретный веб-ресурс из числа этого по меньшей мере одного веб-ресурса. Например, URL-адрес www.iiii.com просмотрели 50 пользователей, URL-адрес www.ffff.com просмотрели 45 пользователей и т.д. Кроме того, процессор 404 аномальных краудсорсинговых меток может выбирать подмножество (например, подмножество 1506) из по меньшей мере одного веб-ресурса с использованием абсолютного значения доли 1504 пользователей в качестве порога отсечения для низкочастотного подмножества (например, подмножества 1508), просмотренного долей 1504 пользователей. In FIG. 15 shows a ranked list 1500 generated by the anomalous
В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии процессор 404 аномальных краудсорсинговых меток также может использовать алгоритм машинного обучения (MLA), обученный предсказанию источника внешнего инициирующего события с наибольшим рангом на основе N источников с наибольшим рангом из множества источников внешнего инициирующего события.In some non-limiting embodiments of the present technology, the anomalous
Предполагается, что несмотря на то, что процессор 404 аномальных краудсорсинговых меток показан в виде отдельного модуля, согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера, функции процессора 404 аномальных краудсорсинговых меток могут быть реализованы в каком-либо одном сервере или во всех серверах из числа первого сервера 226 приложений, второго сервера 228 приложений, третьего сервера 230 приложений и сервера 232 отслеживания.It is contemplated that although the abnormal
На фиг. 16 представлена блок-схема способа 1600 обнаружения внешнего инициирующего события согласно различным вариантам осуществления настоящей технологии, не имеющим ограничительного характера.In FIG. 16 is a flow diagram of a
В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии способ 1600 может выполняться для одного сервиса, например, из числа других прикладных сервисов 310. В другом варианте осуществления изобретения способ 1600 может выполняться для множества сервисов, таких как прикладные сервисы 306 социальных медиа, мультимедийные прикладные сервисы 308 и другие прикладные сервисы 310. Способ 1600 выполняется в соответствии с не имеющими ограничительного характера вариантами осуществления настоящей технологии. Способ 1600 может выполняться третьим сервером 230 приложений и начинаться с шага 1602.In some non-limiting embodiments of the present technology,
Шаг 1602: анализ части множества краудсорсинговых меток.Step 1602: parsing a portion of the set of crowdsourced tags.
На шаге 1602 анализатор 902 пиковых тенденций получает краудсорсинговые метки 502 и анализирует часть множества краудсорсинговых меток 502 или все краудсорсинговые метки 502 за некоторый период времени.In
Шаг 1604: определение аномального подмножества краудсорсинговых меток.Step 1604: Determining an anomalous subset of crowdsourced tags.
На шаге 1604 селектор 904 аномального подмножества определяет аномальное подмножество краудсорсинговых меток на основе пиковых тенденций, проанализированных анализатором 902 пиковых тенденций в части множества краудсорсинговых меток 502 или во всех краудсорсинговых метках 502.In
Шаг 1606: получение истории просмотра из журнала просмотра веб-страниц.Step 1606: Get browsing history from web browsing history.
На шаге 1606 получатель 1002 истории просмотра получает данные 1100 истории просмотра, связанные с частью пользователей 202, формирующих часть множества краудсорсинговых меток 502 или все краудсорсинговые метки 502, из журнала просмотра веб-страниц, связанного с множеством 202 пользователей и хранящегося на сервере 232 отслеживания.At
Шаг 1608: разделение истории просмотра на первую группу истории просмотра и вторую группу истории просмотра.Step 1608: Dividing the browsing history into a first browsing history group and a second browsing history group.
На шаге 1608 синтаксический анализатор 1004 истории просмотра разделяет данные 1100 истории просмотра на первую группу 1200 истории просмотра, связанную с пользователями, формирующими аномальные краудсорсинговые метки, и вторую группу 1300 истории просмотра, связанную с оставшимися пользователями, соответствующими части множества краудсорсинговых меток 502.In
Шаг 1610: формирование дельта-набора веб-ресурсов.Step 1610: Generate a delta web resource set.
На шаге 1610 формирователь 1006 дельта-набора анализирует первую группу 1200 истории просмотра и вторую группу 1300 истории просмотра с целью формирования дельта-набора 1400. Дельта-набор 1400 формируется на основе различия веб-ресурсов, связанных с первой группой 1200 истории просмотра и со второй группой 1300 истории просмотра и посещенных частью пользователей 202, формирующих часть множества краудсорсинговых меток 502 или все краудсорсинговые метки 502. Дельта-набор содержит по меньшей мере один веб-ресурс из первого набора истории поиска, связанный с аномальным характером посещений и с источником внешнего инициирующего события.In step 1610, the delta set
Специалистам в данной области техники должно быть очевидно, что по меньшей некоторые варианты осуществления настоящей технологии преследуют цель расширения арсенала технических решений определенной технической проблемы, а именно, снижения затрат вычислительных ресурсов на различных серверах путем сокращения действий с аномальными метками, выполняемых через сеть связи, в результате чего предполагается оптимизация сетевого трафика и уменьшение нагрузки на сетевые серверы. Очевидно, что не все упомянутые в данном описании технические эффекты должны присутствовать в каждом варианте реализации настоящей технологии. Например, возможны варианты реализации настоящей технологии, когда пользователь не получает некоторые из этих технических эффектов, или другие варианты реализации, когда пользователь получает другие технические эффекты либо технический эффект отсутствует.It should be apparent to those skilled in the art that at least some embodiments of the present technology are intended to expand the arsenal of technical solutions to a particular technical problem, namely, to reduce the cost of computing resources on various servers by reducing the actions with anomalous labels performed through a communication network, in resulting in optimization of network traffic and reduction of load on network servers. It is obvious that not all the technical effects mentioned in this description should be present in every embodiment of the present technology. For example, there may be implementations of the present technology when the user does not receive some of these technical effects, or other implementations when the user receives other technical effects or there is no technical effect.
Для специалиста в данной области могут быть очевидными возможные изменения и усовершенствования описанных выше вариантов осуществления настоящей технологии. Предшествующее описание приведено лишь в качестве примера, а не для ограничения объема изобретения. Объем охраны настоящей технологии определяется исключительно объемом приложенной формулы изобретения. For a person skilled in the art, possible changes and improvements in the above-described embodiments of the present technology may be obvious. The foregoing description is given by way of example only and is not intended to limit the scope of the invention. The scope of protection of this technology is determined solely by the scope of the appended claims.
Несмотря на то, что описанные выше варианты реализации приведены со ссылкой на конкретные шаги, выполняемые в определенном порядке, должно быть понятно, что эти шаги могут быть объединены, разделены или что их порядок может быть изменен без выхода за границы настоящей технологии. Соответственно, порядок и группировка шагов не носят ограничительного характера для настоящей технологии.Although the embodiments described above are given with reference to specific steps performed in a specific order, it should be understood that these steps can be combined, separated, or that their order can be changed without departing from the boundaries of the present technology. Accordingly, the order and grouping of steps is not limiting to the present technology.
Claims (45)
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| RU2019126515A RU2775591C2 (en) | 2019-08-22 | Method and system for detecting abnormal crowdsourcing label | |
| US16/868,363 US11086948B2 (en) | 2019-08-22 | 2020-05-06 | Method and system for determining abnormal crowd-sourced label |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| RU2019126515A RU2775591C2 (en) | 2019-08-22 | Method and system for detecting abnormal crowdsourcing label |
Publications (3)
| Publication Number | Publication Date |
|---|---|
| RU2019126515A RU2019126515A (en) | 2021-02-24 |
| RU2019126515A3 RU2019126515A3 (en) | 2021-11-23 |
| RU2775591C2 true RU2775591C2 (en) | 2022-07-05 |
Family
ID=
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7519562B1 (en) * | 2005-03-31 | 2009-04-14 | Amazon Technologies, Inc. | Automatic identification of unreliable user ratings |
| US9479516B2 (en) * | 2013-02-11 | 2016-10-25 | Google Inc. | Automatic detection of fraudulent ratings/comments related to an application store |
| US20180357683A1 (en) * | 2017-06-08 | 2018-12-13 | International Business Machines Corporation | Rating data management |
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7519562B1 (en) * | 2005-03-31 | 2009-04-14 | Amazon Technologies, Inc. | Automatic identification of unreliable user ratings |
| US9479516B2 (en) * | 2013-02-11 | 2016-10-25 | Google Inc. | Automatic detection of fraudulent ratings/comments related to an application store |
| US20180357683A1 (en) * | 2017-06-08 | 2018-12-13 | International Business Machines Corporation | Rating data management |
Non-Patent Citations (1)
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP6167493B2 (en) | Method, computer program, storage medium and system for managing information | |
| US9614862B2 (en) | System and method for webpage analysis | |
| US9300755B2 (en) | System and method for determining information reliability | |
| US8788925B1 (en) | Authorized syndicated descriptions of linked web content displayed with links in user-generated content | |
| US10212170B1 (en) | User authentication using client-side browse history | |
| US8898272B1 (en) | Identifying information in resource locators | |
| US10902067B2 (en) | Systems and methods for predicting revenue for web-based content | |
| US11275748B2 (en) | Influence score of a social media domain | |
| US9230030B2 (en) | Method and system for mining websites | |
| CN102855256B (en) | For determining the method, apparatus and equipment of Website Evaluation information | |
| RU2658878C1 (en) | Method and server for web-resource classification | |
| US20210081475A1 (en) | System and method for integrating content into webpages | |
| Dongo et al. | A qualitative and quantitative comparison between Web scraping and API methods for Twitter credibility analysis | |
| JP2013522731A (en) | Customizable semantic search by user role | |
| WO2014180130A1 (en) | Method and system for recommending contents | |
| CN107341245A (en) | Data processing method, device and server | |
| US9712520B1 (en) | User authentication using client-side browse history | |
| US20140331142A1 (en) | Method and system for recommending contents | |
| CN105868290B (en) | Method and device for displaying search results | |
| Zhi et al. | Claimverif: a real-time claim verification system using the web and fact databases | |
| CN102663052A (en) | Method and device for providing search results of search engine | |
| US9646104B1 (en) | User tracking based on client-side browse history | |
| US11086948B2 (en) | Method and system for determining abnormal crowd-sourced label | |
| CN107526748B (en) | A method and device for identifying user click behavior | |
| CN110929129B (en) | Information detection method, equipment and machine-readable storage medium |