[БЕЗ_ЗВУКА] [БЕЗ_ЗВУКА] До сих пор для ссылочного ранжирования мы с вами использовали сам тот факт, что документы каким-то образом связаны между собой. Однако, очевидно, что, например, в случае с веб-документами, они не просто связаны ссылками, но к этим ссылкам также привязан какой-то текст, который, по мнению авторов страниц, наилучшим образом описывает те документы, на которые они ссылаются. Очевидно, что этот текст мы так же можем использовать в целях ссылочного ранжирования. В этом случае мы можем использовать несколько подходов. Первый из них — мы можем проиндексировать текст ссылок, построить зонный индекс и в дальнейшем при поиске документов отталкиваться также от того, с каким текстом ссылались на этот документ, учитывая, например, авторитетность источника, который ссылался на документ с текущим текстом. Другой интересный подход, который мы можем рассмотреть, это алгоритм HITS. Это алгоритм, который позволяет отранжировать документы в соответствии со своим понятием об авторитетности этих документов, а также расширить исходное множество релевантных документов по запросу. Итак, как же мы будем выполнять этот алгоритм? На первом шаге мы найдем все документы, которые релевантны нашему запросу. Далее проведем черновое ранжирование и отберем только топ лучших документов по нашему мнению. Это будет наш корневой набор. Теперь давайте введем дополнительно следующее понятие. Первое — это авторитетный документ, это, собственно, документ корневого набора, тот, который в себе содержит запросные слова. И хаб-документ — это документ, который содержит в себе исходящие ссылки на авторитетный документ. Теперь давайте расширим наш корневой набор, добавим в него несколько авторитетных хабов, которые ссылаются на документ из корневого набора. Также добавим все документы, на которые ссылаются документы корневого набора. Зачем мы это делаем? Бывают случаи, когда сама страница по факту не содержит тех слов, которые описывают ее лучшим образом и благодаря которым она могла бы оказаться релевантной нашему запросу по текстовому ранжированию. Однако мы можем учесть реакцию на эту страницу окружающей среды других страниц. То есть в случае, если пользователи ссылаются на эту страницу с каким-то определенным текстом, то очевидно, что этот текст, хоть он и не содержится на самой странице, будет также достаточно хорошо ее описывать. Таким образом, мы поднимем эти документы и также добавим их к нашему набору. Получившееся большое множество документов будет называться базовый набор. Алгоритм HITS, в отличие от алгоритма PayRank, считается не на всем корпусе, а именно на этом базовом наборе, так как он связан с конкретным запросом, и нам нужно отсечь все ненужные для этого запроса документы. Итак, что же мы будем делать? Для каждого документа мы введем два коэффициента. Первый из них — это показатель авторитетности документа, а второй коэффициент — это коэффициент посредничества, то есть коэффициент, который показывает, на сколько хороших документов ссылается сам этот документ. Итак, мы опять получаем итеративный процесс. На каждой итерации для каждого документа мы будем вычислять заново значение авторитетности и коэффициента посредничества. Изначально все эти значения инициализируются единицей. В дальнейшем на каждой итерации коэффициент авторитетности складывается из коэффициентов посредничества тех страниц, которые ссылаются на текущую страницу, в то время как новый коэффициент посредничества будет складываться из авторитетности тех страниц, на которые ссылается данная страница. Очевидно, что, так как эти значения ничем сверху не ограничены, то наш процесс будет в итоге расходиться. Поэтому нам нужно ввести нормирование. Одним из примеров нормирования, которое мы можем использовать, чтобы сделать процесс сходящимся, мы можем ограничить каким-то фиксированным числом суммарное значение авторитетности для всех документов, и в конце каждой итерации пропорционально понижать коэффициент авторитетности для каждого документа в нашем наборе. В конечном итоге мы будем ранжировать документы по коэффициенту авторитетности, который получили эти документы. Итак, этот алгоритм имеет очевидные достоинства и недостатки. Самым главным его достоинством является то, что он позволяет расширить исходное множество документов и использовать даже те документы, которые мы не смогли бы поднять в выдачу, если бы использовали только текстовое ранжирование. Кроме того, этот алгоритм позволяет нам отранжировать документы более лучшим образом в соответствии с тем, как именно эти документы находятся в связи с другими. То есть, если на документ часто ссылаются, то он будет стоять в выдаче выше и, очевидно, будет более авторитетным, будет более полезным пользователю, по нашему мнению. Но этот алгоритм имеет также и недостатки. Самый главный недостаток заключается в том, что нам надо пересчитывать коэффициенты для каждого запроса, то есть при каждом новом запросе нужно будет повторять весь процесс заново. Это будет требовать много времени и много ресурсов. Кроме того, существует такая проблема, что этот алгоритм будет ставить на первые или достаточно высокие позиции в выдаче те документы, которые не являются действительно релевантными запросу пользователя, однако являются очень авторитетными и на них ссылаются многие авторитетные хабы. Таким образом, мы получим замусоривание в выдаче. [БЕЗ_ЗВУКА]