Ленте новостей в Telegram быть

В течение последних нескольких месяцев в админских кругах распространяется слух о довольно интересном нововведении телеграма. Все говорят о ленте новостей, но достоверных и точных данных ни у кого не было.

И вот, 18 ноября, на сайте contest.com выходит новый конкурс для разработчиков — Первый раунд конкурса кластеризации данных. Кто не знает, этот сайт команда мессенджера сделала специально для проведения подобных конкурсов. Бюджет на разработку алгоритма более 200 000 долларов, по 100 тысяч на каждый раунд. С одной стороны довольно щедро, а с другой — это гарантия того, что нововведение точно будет. Не будет же Дуров просто так выбрасывать столько денег, чтоб побаловаться.

Итак, мы порылись в условиях конкурса и можем выделить несколько моментов, которые точно будут в будущих обновлениях. Давайте пройдёмся по всем.

Выделение текстов на русском и английском языках 

Алгоритм должен выделить все англо- и русскоязычные тексты, остальные языки не являются релевантными для данного этапа конкурса.

Что нам понравилось в этом моменте? А то, что русскоязычный сегмент для Дурова один из самых релевантных. То-есть, можно с уверенностью сказать, что в случае блокировки, Telegram будет «сражаться» до последнего.

Отделение новостей от других материалов

Алгоритм должен оставить в списке только новости, отсеяв посторонние тексты, энциклопедические и справочные материалы и т.д.

В ленту будут собираться действительно новости, алгоритм сможет отсеивать различные статьи. Возможно будет отслеживаться актуальность новостей. Наибольшие охваты будут получать те, кто работает оперативнее всех.

Группировка новостей по тематике

Алгоритм должен распределить новости по следующим 7-ми тематикам:

— Society (включает Politics, Elections, Legislation, Incidents, Crime)
— Economy (включает Markets, Finance, Business)
— Technology (включает Gadgets, Auto, Apps, Internet services)
— Sports (включает E-Sports)
— Entertainment (включает Movies, Music, Games, Books, Arts)
— Science (включает Health, Biology, Physics, Genetics)
— Other (новостные статьи, не попавшие в перечисленные выше категории)

Можно будет подписываться на определённые тематики новостей. Если вы занимаетесь искусством и отслеживаете новости по своей теме, то вам не будут попадаться новости политики. И это не может не радовать. Также можно проследить некий приоритет новостей для команды мессенджера по их порядку в списке.

Группировка похожих новостей в сюжеты

Алгоритм должен сгруппировать новости, написанные об одном событии/инфоповоде/сюжете, выбрав общий заголовок для группы новостей. Новости внутри сюжета должны быть отсортированы по релеватности.

Очень крутая штука, которой не хватает всем новостным каналам. Теперь все новости по одной теме, будут собираться в одну категорию и их можно будет рассмотреть с разных сторон. То есть посмотреть на одно и то же событие под разным углом, либо оценить ситуацию максимально полноценно.

Ранжирование сюжетов

Алгоритм должен сформировать списки сюжетов по тематикам, отсортированные по важности. Кроме того, нужно сформировать отсортированный по релеватности список сюжетов вне зависимости от тематики.

Здесь особо коментировать нечего, этот пункт улучшает навигацию по сюжетам в рубрике, а также собирает наиболее важные сюжеты в ленте всех новостей.

Выводы

  1. Лента новостей будет, и это не может не радовать
  2. Возможно будет внесена новая жизнь в полумёртвые, забытые или заброшенные новостные каналы, но это не точно.
  3. Пока не известно будет это отдельный сервис или лента будет встроенной в телеграм. Если лента будет встроенной, то мы предполагаем, выглядеть она будет как раздел «Архивы».
  4. Также не известно откуда будет браться контент для ленты. С каналов, с каналов и сайтов, со статей в Telegraph или отовсюду.
  5. Если новости будут браться с каналов, то как попасть в эту выборку также пока не понятно.