Характеристики больших данных что входит сбербанк

Обновлено: 28.04.2024

Через банк проходят сотни миллионов транзакций ежедневно, поэтому на серверах накапливаются большие данные: сведения о самих клиентах, паттерны их покупок, требования в целом. По сути, банки превращаются в IT-компании так, как это произошло с телеком-операторами. Они предоставляют все больше цифровых сервисов и услуг, а собираемые ими данные и извлекаемая из них информация активно используются в создании новых сервисов.

Применить эту информацию можно в множестве приложений, от классических задач оптимизации обработки транзакций и кибербезопасности с выявлением мошенничества, вплоть до создания персональных финансовых ассистентов и сверх-таргетированного маркетинга.

Современные банки не только превосходно понимают, чем живут их клиенты, но и могут моделировать, что может произойти с ними: будь то социальная группа в конкретном городе, отдельная индустрия или страна в целом. Это помогает банкам управлять своими рисками и рисками своих клиентов.

С развитием data science (DS) в финансовых и IT-компаниях стало популярным централизовать R&D отделы и data science в том числе. Централизованная DS-практика внутри компании позволяет более продуктивно создавать новые информационные продукты, при этом не теряя и не отставая в технологиях по всему перечню связанных с анализом данных задач.

Осталось самое важное — собрать DS-команду. Под data scientist понимается большое количество ролей — от бизнес-эксперта, который хорошо разбирается в переводе задач бизнеса на язык задач анализа, до разработчика алгоритмов в продакшен системах, включая также визуализаторов, аналитиков, математиков и промежуточные роли. Важно соблюдать баланс между решением реальных бизнес-задач и экспериментами с последними передовыми технологиями. При этом невозможно создавать передовые сервисы, если загнать аналитиков в сверх жесткие рамки и не давать им развиваться.

Банкам приходится конкурировать с другими IT-компаниями за таланты. Специалисты в свою очередь пока не рассматривают банки как высокотехнологичные компании, в которых они могли бы проявить себя, использовать передовые технологии и решать интересные задачи. Чаще всего банки ассоциируются у таких людей с мощными бюрократическими машинами и офисными костюмами, но никак не с agile R&D командами и разработкой, где можно активно публиковать исследования и обмениваться опытом с ведущими специалистами на международных конференциях.

А банку есть что рассказать и показать.

Банк вплотную подошел к проблеме детектирования и последующего прогноза паттернов поведения владельцев карт. Анализируя активность кардхолдеров, мы эти паттерны научились определять.

Мы детектируем паттерны поведения клиентов банка по их транзакциям. Первые модели были связаны с дескриптивным анализом транзакционного поведения. Например, у клиента появились покупки, связанные с авто. Значит, теперь можно предложить ему продукты или услуги, полезные для автовладельцев.

Следующая задача – предсказывать те или иные события, в том числе сам факт покупки. В дополнение к паттернам, с появлением тех или иных MCC-кодов становится возможным извлекать из данных достаточно интересные истории, в том числе связанные с накопительной деятельностью владельцев карт. То есть мы видим, кто из клиентов банка копит деньги, помогаем формировать для них новые предложения.

На рисунке мы видим три кейса: покупка авто, ремонт в квартире/покупка мебели и затраты на лечение. Особенно ценно, если от клиента возможна обратная связь по предлагаемым ему продуктам. Поэтому необходимо делать модели, способные учитывать эту обратную связь. Во многом это тот же принцип, что лежит в основе моделей reinforcement learning, которые мы сейчас начинаем разрабатывать.

Суть. Сначала определяли некий триггер: событие уже произошло (транзакция была совершена). Клиент потратил деньги на обучение, лечение: может получить налоговый вычет. Купил квартиру, взял в ипотеку: предложения о ремонте.

Второй класс задач – предиктивные. Использовался метод рекуррентных нейронных сетей. У клиента большие накопления, то есть он, вероятно, планирует совершить крупную покупку: купить квартиру или машину.

Reinforcement learning или обучение с подкреплением, которое сейчас развивают, в том числе, OpenAI и DeepMind – это предвестник ИИ, каким его хотят видеть. В систему заранее не закладывают какой-либо модели мира, и о нем система фактически ничего не знает. Она начинает взаимодействовать с миром, получать обратную связь, так называемые reward'ы, после чего корректирует свое поведение на их основании. В случае с банковскими продуктами reward – это, например, то, насколько интересным или неинтересным для клиентов оказывается то или иное предложение банка.

Используя методы с определенными свойствами, обеспечивающими применение reinforcement learning, мы можем адаптировать эти алгоритмы в режиме реального времени. Из новых подходов можно ещё отметить, что буквально недавно в Nature выходила статья того же DeepMind, где они рассказывают о том, как в нейросеть внедрили элементы машины Тьюринга. В результате нейросеть получила возможность обладать памятью, которой нейросетям на данном этапе не хватает.

В этом кейсе мы анализируем транзакционную активность: ищем кластеры клиентов с определенными паттернами поведения. Но в этом случае не связываем их с предсказанием каких-либо событий. Например, можно найти клиентов, которые часто совершают перелеты, поездки за границу и часто конвертируют валюты. Исходя из этого, мы формируем предложения таким клиентам.

На слайдах показано, какие паттерны мы можем находить и какие продукты в этом случае можем предлагать. В целом понятная история – здесь предполагаются определенные методы, связанные с кластеризацией. Проекция данных, например.

Задача решалась с помощью рекуррентных нейронных сетей. Такой выбор обоснован несколькими факторами. Параметры нейросети настраиваются с помощью модификаций метода стохастического градиентного спуска. Градиенты вычисляются по минибатчу - небольшому подмножеству объектов. Чтобы избежать ситуации переобучения, когда алгоритм хорошо работает на обучающих данных и плохо на тестовых, используется техника dropout. Транзакции были сгруппированы по пользователям и для каждого пользователя отсортированы по времени. Транзакций, для которых время неизвестно, обнаружено очень мало (несколько десятков), поэтому они были исключены из рассмотрения. В итоге данные были представлены в виде набора последовательностей категорий, по одной последовательности на каждого пользователя. Слишком короткие последовательности (длина меньше 110) были удалены из набора данных. Обучение рекуррентной сети производилось на языке программирования Python3.4 с применением библиотек numpy, theano, lasagne. Для вычисления контроля качества использовались средства модуля sklearn.

Для выделения шаблонов трат клиентов был использован метод LDA. Цель LargeVis визуализации – отобразить пользователей с близкими профилями, так чтобы результирующие точки, соответствующие таким пользователям находились близко друг к другу, и наоборот, пользователей со значительно отличающимися профилями разместить дальше друг от друга. Исходя из этого соображения для изучения полученного отображения была реализована программа, позволяющая для любой точки плоскости выделить K ближайших точек, соответствующих клиентам. После чего по выбранным клиентом вычислялось среднее значение LDA-профиля, то есть для каждой темы было посчитано среднее проявление данной темы среди выбранных клиентов. Полученные усредненные профили показаны на следующем рисунке. Кроме усредненного профиля на гистограмме отображены стандартные отклонения проявления тем от среднего значения.


Как видно, удалось найти области, в которых собраны как клиенты, у которых проявлена только одна тема, так и клиенты, у которых сильно выражены две и более тем, которые проявляются в определенных пропорциях между собой. Кроме того, в некоторых случаях алгоритм разделяет кластеры с клиентами, имеющими сильно схожие профили на два или более отделенных друг от друга кластеров. Это связано с тем, что построение LargeVis основано на приблизительном поиске ближайших соседей, которое позволяет существенно ускорить время работы. Полученная визуализация позволяет исследовать структуру LDA профилей.

Интересные результаты были получены в рамках проекта по оптимизации затрат Банка на управление наличным денежным обращением. Задача управления запасами наличности в кассово-инкассационных центрах (КИЦ) Банка имеет высокую важность для Банка. Сбербанк обладает широкой сетью КИЦ по всей стране – это кластер, куда привозят всю денежную наличность ночью, пересчитывают её и утром развозят по банкоматам, отделениям и корпоративным клиентам. Основная роль кассово-инкассационных центров – обеспечение достаточного запаса наличных денежных средств для удовлетворения потребностей всех клиентов в зоне действия каждого Центра в каждый день. С одной стороны, Банк обязан удовлетворять потребности всех своих клиентов. С другой стороны, он не должен создавать излишние запасы, так как невостребованные остатки фондируются. Важно, чтобы деньги не лежали без дела в банкоматах, а вместо этого, например, мы могли бы разместить их на краткосрочном депозите. При этом мы стремимся избежать репутационных потерь, когда деньги заканчиваются раньше, чем планировалось, банкомат перестает работать, а клиент остается недовольным.

Таким образом, задача распадается на две части. В первую очередь требуется спрогнозировать ожидаемые входящие и исходящие потоки наличности для каждого КИЦ в пределах заданного горизонта времени. При этом прогнозирование производится в разрезе валют, номиналов, источников поступления или направления расходования средств. Это приводит к одновременному построению прогнозов по десяткам тысяч временных рядов. Ввиду того, что очень важно получать точные прогнозы на каждый конкретный день, прогнозные модели должны учитывать графики работы КИЦ, а также особые дни, характерные для каждого Центра. По результатам построения прогнозов определяются Центры, требующие подкрепления, и Центры, в которых ожидается избыток наличности. Поэтому второй частью алгоритма является задача на графах – построение оптимального плана перераспределения (инкассации) наличности между КИЦ Сбербанка с учётом графа КИЦ и возможных маршрутов между ними. При этом при оптимизации учитываются стоимости и временные затраты для каждого маршрута.

Ожидается, что эта оптимизация поможет сократить издержки на управление наличным денежным обращением на величину до 10%.


2020: Большие данные превращаются в огромные. Сбербанк наращивает армию data scientists

4 марта, выступая на конференции TAdviser Big Data и BI Day 2020, старший управляющий директор департамента управления данными Сбербанка (SberData) Борис Рабинович рассказал, как устроена и развивается одна из крупнейших в России платформ данных, которую используют в банке. Он отметил, что в Сбербанке возникает все больше задач, требующих обработки данных в реальном времени, и для этого используются алгоритмы искусственного интеллекта.



В банке также создается все больше специализированных инструментов для разработчиков – data-инженеров, data scientists. Количество data scientists очень большое, но банку нужно их все больше и больше, говорит Рабинович.

По его информации, в Сбербанке по состоянию на 4 марта накоплено более 120 ПБ данных. В спокойные периоды банк осуществляет порядка 12 тыс. транзакций в секунду, а неспокойные – до 20 тыс. транзакций, и информация о них загружается в «Фабрику данных», которая, в свою очередь, является частью цифровой платформы Сбербанка.



В Сбербанке более 200 команд, которые на базе «Фабрики данных» разрабатывают свои продукты и решения. Задач, в решении которых задействована «Фабрика данных», - множество. Борис Рабинович привел несколько примеров: управленческая отчетность в режиме реального времени, регуляторная и налоговая отчетность, транзакционный скоринг AI в потребительском кредитовании и др.



С точки зрения технологий раньше в «Фабрике данных» был «крен в сторону Hadoop», говорит Борис Рабинович. Но после 2018 года в компании осознали, что этот подход был не совсем правильный. Теперь в зависимости от решаемых задач пользователям фабрики предлагаются разные технологии, включая Oracle и Teradata, с которых изначально осуществлялся переход на Hadoop.



Представитель банка остановился на существующем также «супермаркете данных», где инженеры и аналитики Сбербанка могут изучить и заказать данные. Поставка осуществляется автоматически по заданному расписанию.



Планы Сбербанка включают вывод компонент «Фабрики данных» в собственную облачную платформу банка – SberCloud, и предложение инструментов фабрики, в том числе, внешнему рынку. Часть из них уже выведена в облако, говорит Борис Рабинович.

Big Data позволяет банку снижать ставки по кредитам

В годовом отчете Сбербанка за 2016 год, выпущенном в апреле, говорится, что анализ больших данных по активности клиентов позволил банку снизить уровень неработающих кредитов и сократить риски. Это, в свою очередь, «привело к снижению процентных ставок по кредитам, формированию специальных предложений с более интересными условиями для разных сегментов заемщиков».



В Сбербанке заявили TAdviser, что использование технологий Big Data помогает точнее определить текущий риск-профиль клиента, его интересы и потребности, что в итоге позволяет банку делать «своевременные и персонализированные предложения» в части предоставляемых услуг.

Например, использование информации по движению средств по счетам клиентов, анализируя их структуру трат, банк может оценить умение клиента распоряжаться его денежными средствами. Это, в свою очередь, напрямую влияет на вероятность невозврата денежных средств в срок.

В качестве примера клиентов, умеющих правильно рассчитывать свои траты, несмотря на небольшой доход, являются пенсионеры, говорят в Сбербанке. Зачастую им банк выдает кредиты по пониженной процентной ставке.

В отчете также указывается, что данные о клиентах для последующего анализа Сбербанк черпает, в том числе, из социальных сетей и от сотовых операторов, охватывая категории населения от молодежи до пенсионеров.

Анализировать большие данные Сбербанка будут студенты МГУ

В марте 2017 года Сбербанк и факультет вычислительной математики и кибернетики (ВМК) МГУ сообщили об открытии исследовательской лаборатории «ВМК-Сбербанк», которая будет специализироваться на теории риска и анализе данных для банка. Лаборатория сфокусируется на поддержке передовых исследований и разработок в области статистических методов анализа больших данных и машинного обучения.

Отвечая на вопрос TAdviser на официальном открытии лаборатории, вице-президент Сбербанка Александр Ведяхин рассказал, что в реестре банка есть около 500 задач, связанных с аналитикой, и каждый квартал добавляется по 30-50 новых задач. Самые сложные и интересные задачи Сбербанк планирует решать в рамках новой лаборатории, сказал он.



Спектр задач, связанных с анализом данных в банке, очень широкий: от анализа клиентского опыта для предоставления оптимального кредитного предложения, до риск-менеджмента, до управления информационной безопасностью и оптимизации ИТ-процессов, добавили в Сбербанке.

Завкафедрой математической статистики ВМК МГУ Виктор Королев, который руководит лабораторией, сообщил TAdviser, что первая задача в области анализа данных, которую ВМК уже решал для Сбербанка, связана с оптимизацией инкассационной деятельности банка. C математической точки зрения это задача оптимального управления ресурсами. Она потребовала разработки новых подходов и применения технологий, связанных с машинным обучением, сказал Королев. Результаты ее выполнения уже приняты Сбербанком к практической реализации, добавил он.

В текущем портфеле задач лаборатории есть задачи, связанные с анализом рисков, анализом текстов, с переработкой больших объемов информации, чтобы, например, составить портрет потенциального клиента банка, рассказал Королев TAdviser.

Представители Сбербанка и ВМК МГУ рассказали TAdviser, что от вида результатов работ будет зависеть, кому они будут принадлежать на выходе. Результаты могут быть представлены в виде моделей и алгоритмов, сервисов и приложений, в виде научных статей и др. Александр Ведяхин заявил TAdviser, что прикладные результаты будут на стороне Сбербанка. При этом в процессе решения прикладных задач могут появиться и новые фундаментальные результаты, новые подходы, которые останутся за МГУ.

К выполнению задач в лаборатории планируется привлекать студентов и аспирантов ВМК. Сколько всего их будет задействовано в работе лаборатории, на ВМК сказать затруднились. Всего на факультете на дневном отделении учится порядка 2000 студентов. В основном, в ее работе будут участвовать студенты кафедры математической статистики. Курировать работу будут порядка 10 сотрудников факультета ВМК, уточнили TAdviser представители факультета.

Помимо проведения исследований и разработок лаборатория ставит целью способствовать подготовке кадров. В Сбербанке говорят, что студенты ВМК очень востребованы и на рынке, и внутри их банка и в «Сбертехе».

Факультет заинтересован в том, чтобы через те важные и нужные задачи, которые поставляет Сбербанк, «прокачать», пропустить как можно больше студентов и аспирантов, сказал TAdviser представитель ВМК МГУ.

Объемы финансирования лаборатории Сбербанк не раскрывает. Александр Ведяхин характеризует их как «достаточные, чтобы увлечь студентов, кафедру, и чтобы всем было интересно».

В марте 2016 года МГУ и Сбербанк заключили соглашение о стратегическом сотрудничестве. Оно предусматривает сотрудничество в сферах образования, научно-исследовательской и социально-экономической деятельности.

Расширение возможностей платформы Informatica Intelligent Data Platform для работы с большими данными

Для расширения функциональности платформы Informatica Intelligent Data Platform Сбербанк в начале 2017 года приобрел компонент для работы с большими данными Informatica Big Data Management. Подробнее о проекте здесь

Сбербанк начал охоту на специалистов по блокчейну и Big Data

Сбербанку нужны квалифицированные ИТ-специалисты, сообщил в начале декабря 2016 года глава банка Герман Греф в ходе «прямой линии» с сотрудниками, сообщает агентство «Прайм». [1] Для них в банке есть возможности серьезного роста зарплат.

Греф отметил, что банку нужны, в частности, специалисты в сфере больших данных, а также блокчейн-разработчики. По его словам, профи в этих направлениях будут иметь высокую ценность в банке, и, в отличие от других сотрудников, зарплата которых регулируется и ограничена рынком, этим специалистам банк готов существенно повышать зарплаты по мере наращивания их компетенций. Подробнее здесь.

Сбербанк открыл свои большие данные

22 ноября 2016 года Сбербанк анонсировал запуск проекта «Открытые данные», в рамках которого кредитная организация начала делиться информацией по финансовой активности своих клиентов. Проект построен по технологиям Big Data. Подробнее о проекте здесь.

Создание распределенной системы хранения и обработки супермассивов данных на базе Hadoop

Сбербанк выбрал платформу Hadoop в качестве стандарта и в середине 2016 года проводил закупку распределенной системы хранения и обработки супермассивов данных на базе этой платформы. Подробнее о проекте здесь.

Инвестиции в разработчика GridGain

Для развития Big Data в начале 2016 года Сбербанк инвестировал в разработчика, специализирующегося на этом - компанию GridGain Systems (Гридгаин Рус). Греф охарактеризовал ее как компанию, «которая выиграла тендер у Oracle, IBM и других, оказалась на порядок выше этих крупнейших компаний». Подробнее о сделке и компании здесь.

2015: Сбербанк выбрал «Яндекс» для работы с Big Data

В 2015 году «Яндекс» стал консультантом Сбербанка по решению задач, связанных с обработкой и анализом больших массивов информации. Для сотрудничества по данному направлению был заключен контракт на сумму в 13,7 млн рублей. Подробнее о сотрудничестве здесь.

image


На днях произошло, в какой-то степени, знаменательное событие и одна из крупнейших компаний России заявила о том что теперь публикует открытые данные на своем сайте. Этой компанией является Сбербанк и соответствующий раздел на их сайте. Открытие раздела удостоилось пресс-релиза на их сайте и о нем, как о важном событии, написали десятки финансовых и не финансовых СМИ.

Действительно ли Сбербанк совершил нечто невероятное? Рядовое ли это явление и является ли то что сделал Сбербанк сейчас открытыми данными? Вот о чем далее пойдет речь.

В качестве вступления

Прежде чем продолжить о Сбербанке, давайте вернемся к термину открытые данные.

Информация, размещаемая ее обладателями в сети "Интернет" в формате, допускающем автоматизированную обработку без предварительных изменений человеком в целях повторного ее использования, является общедоступной информацией, размещаемой в форме открытых данных.

2-е определение из Википедии
Открытые данные (англ. open data) — концепция, отражающая идею о том, что определённые данные должны быть свободно доступны для машиночитаемого использования и дальнейшей републикации без ограничений авторского права, патентов и других механизмов контроля. Освободить данные от ограничений авторского права можно с помощью свободных лицензий, таких как лицензий Creative Commons. Если какой-либо набор данных не является общественным достоянием, либо не связан лицензией, дающей права на свободное повторное использование, то такой набор данных не считается открытым, даже если он выложен в машиночитаемом виде в Интернет.

3-е из хартии открытых данных
Open data is digital data that is made available with the technical and legal characteristics necessary for it to be freely used, reused, and redistributed by anyone, anytime, anywhere.
Или на сумбурном русском:

Открытые данные — это цифровые данные сделанные общедоступными с техническими и юридическими характеристиками обязательными для того чтобы они свободно использовались, использовались повторно и распространялись кем угодно, когда угодно и где угодно

Также, у открытых данных есть четко сформулированные принципы их публикации, отраженные как раз в хартии открытых данных.
Эти принципы:

  1. Открытость по умолчанию
  2. Своевременно и полно
  3. Доступно и удобно
  4. Сравнимо и интегрируемо
  5. Для улучшения управления и вовлечения граждан
  6. Для развития и инноваций

За те 7 лет что я лично занимаюсь темой открытых данных в России я слышал и видел как открытыми данными называли очень и очень многое что ими не является. Самый выдающийся по глупости вопрос был в том что, когда определение дается через описание "свободно доступных машиночитаемых данных", то вопрос "А машиночитаемые данные — это те которые я могу в машине прочитать?".

Но во всех определениях важно помнить одно — открытые данные ориентированны на технологически квалифицированного потребителя. Государство не производит само новых информационных продуктов, оно дает возможность это делать стартапам, ИТ компаниям и общественникам.

Почему публикуют открытые данные?

Чтобы разобрать этот конкретный случай важно знать зачем вообще владельцы данных их публикуют? Особенно компании и госорганы — иногда это может показаться совершенно странным.

Пиар. Обязательства или Выгода

Это три главные причины почему кто-либо данные публикует (вопросы фана и тщеславия я сознательно оставляю за скобками).

И если Вы видите активность какой-либо организации в открытых данных, да и в вообще в вопросах открытости и прозрачности, то ищите ответ в одной из этих трех причин.

Например, как устроен пиар на открытых данных. Главная его отличительная способность ориентация на массового потребителя, массового избирателя, массового гражданина.

Вопросы технологий и данных остаются в стороне. Вопросы посещаемости, медийного охвата, число статей с упоминанием — выходят на первое место.

Обязательства

Обязательства или принуждение — это когда открытые данные публикуются потому что закон требует их публикации. Владелец данных не всегда может быть заинтересован в открытости, но он соблюдает требования закона и их публикует.

Например, Центробанк собирает с банков формы отчетности и раскрывает в специальном разделе на сайте — это нормативно закрепленные обязательство банков и ЦБ.

Обязательство — это фундамент открытости. Именно по этой причине многие из тех кто обязаны раскрывать данные не предпринимают дополнительные действия по их доступности. Они только соблюдают обязательные требования, но не пишет об этом рекламных пресс-релизов.

Например, если Правительство Москвы публикует набор данных с адресами 28 военторгов и распространяет это по новостным сайтам, то совершенно не факт что, например, декларации о доходах чиновников города они опубликуют как открытые данные и также распространят по СМИ.

Иначе говоря — обязательство исполняются тихо и незаметно, настолько, насколько это возможно

Выгода

Зачем кому-то может быть выгодна публикация собственных данных? Казалось бы — владей и молчи, кому-то еще знать совершенно необязательно.

Тем не менее есть причины почему открытые данные публикуются государственными и коммерческими структурами. Например, раздел Datasets в Kaggle заполняется в поисках новых находок, решений и инсайтов для которых нужны тысячи data scientist'ов.

Или почему Федеральное Казначейство распространяет вот уже много лет данные с портала госзакупок через FTP сервер (еще до историй с открытыми данными) — потому что это проще и дешевле при распространении базы данных необходимой сотням контрагентов в субъектах федерации.

Какие-то компании организуют хакатоны и ищут себе сотрудников. Другие публикуют открытые данные для поддержания репутации в сообществе, как это делает Google в их Transparency Report

Так что же Сбербанк?

Если Вы снова посмотрите на раздел открытых данных Сбербанка, то обнаружите следующие особенности:

Нет свободных лицензий

Вместо свободы использования и распространения там только отказ от ответственности звучащий как

Представленная информация — результат анализа данных ПАО Сбербанк, 4 квартал, 2016 год. Данные не являются управленческой, бухгалтерской, финансовой отчетностью. При использовании ссылок на указанную информацию упоминание ПАО Сбербанк обязательно. Не является рекламой.

Что не имеет даже близкого отношения к свободным лицензиям

Нет наборов данных

Чтобы скачать данные нужно на графике найти специальную кнопку и там в меню еще найти раздел выгрузки в XLSX, CSV или JSON. Особенность в том что все эти выгрузки — это выгрузки из Javascript файлов выполняемые на стороне клиентов.

А выгрузка в CSV и тд делается с помощью Javascript кода. И выкачать какой либо набор данных напрямую невозможно. Акцент сделан на визуализацию, а не на работу с данными аналитиками.

Отсутствует описание наборов

Несмотря на то что на сайте даже используют термин "Паспорт датасета" который активно используется в реальных паспортах наборов данных на государственных порталах, конечно же ничего такого там нет. Ни информации об ответственных, ни описания структуры наборов — ничего нет

Продажа услуг и смешение с большими данными

Раздел заканчивается продажей исследований Сбербанка и тем что все это сделано на больших данных. А сам формат подачи больше похож на лонгрид какого-то инфобизнеса, а не раздел открытых данных.

Выводы

Из всего этого можно сделать лишь один вывод — целью Сбербанка для этого раздела был только пиар и ничего более. Хочется только надеяться что когда-нибудь Сбербанк найдет форму работы с открытыми данными которая приносила бы выгоду и им и сообществу. Потому как пока это более похоже на попытку воспользоваться популярным термином для раскрутки своих коммерческих услуг

Рассказываем об основных терминах, методах и инструментах, которые используются при анализе больших данных.

📊 Что такое Big Data простыми словами

О тенденция развития больших данных мы писали в статье « Почему Big Data так быстро развивается? ». В новой статье расскажем о применениях больших данных простыми словами.

Что такое большие данные?

Big Data – область, в которой рассматриваются различные способы анализа и систематического извлечения больших объемов данных. Она включает применение механических или алгоритмических процессов получения оперативной информации для решения сложных бизнес-задач. Специалисты по Big Data работают с неструктурированными данными, результаты анализа которых используются для поддержки принятия решений в бизнесе.

Одно из определений больших данных звучит следующим образом: «данные можно назвать большими, когда их размер становится частью проблемы». Такие объемы информации не могут быть сохранены и обработаны с использованием традиционного вычислительного подхода в течение заданного периода времени. Но насколько огромными должны быть данные, чтобы их можно было назвать большими? Обычно мы говорим о гигабайтах, терабайтах, петабайтах, эксабайтах или более крупных единицах измерения. Тут и возникает неправильное представление. Даже данные маленького объема можно назвать большими в зависимости от контекста, в котором они используются.

Как классифицируются большие данные?

Выделим три категории:

  • Структурированные данные, имеющие связанную с ними структуру таблиц и отношений. Например, хранящаяся в СУБД информация, файлы CSV или таблицы Excel.
  • Полуструктурированные (слабоструктурированные) данные не соответствуют строгой структуре таблиц и отношений, но имеют другие маркеры для отделения семантических элементов и обеспечения иерархической структуры записей и полей. Например, информация в электронных письмах и файлах журналов.
  • Неструктурированные данные вообще не имеют никакой связанной с ними структуры, либо не организованы в установленном порядке. Обычно это текст на естественном языке, файлы изображений, аудиофайлы и видеофайлы.

Характеристики больших данных

Большие данные характеризуются четырьмя правилами (англ. 4 V’s of Big Data: Volume, Velocity, Variety, Veracity) :

  1. Объем: компании могут собирать огромное количество информации, размер которой становится критическим фактором в аналитике.
  2. Скорость, с которой генерируется информация. Практически все происходящее вокруг нас (поисковые запросы, социальные сети и т. д.) производит новые данные, многие из которых могут быть использованы в бизнес-решениях.
  3. Разнообразие: генерируемая информация неоднородна и может быть представлена в различных форматах, вроде видео, текста, таблиц, числовых последовательностей, показаний сенсоров и т. д. Понимание типа больших данных является ключевым фактором для раскрытия их ценности.
  4. Достоверность: достоверность относится к качеству анализируемых данных. С высокой степенью достоверности они содержат много записей, которые ценны для анализа и которые вносят значимый вклад в общие результаты. С другой стороны данные с низкой достоверностью содержат высокий процент бессмысленной информации, которая называется шумом.

Традиционный подход к хранению и обработке больших данных

При традиционном подходе данные, которые генерируются в организациях, подаются в систему ETL (от англ. Extract, Transform and Load) . Система ETL извлекает информацию, преобразовывает и загружает в базу данных. Как только этот процесс будет завершен, конечные пользователи смогут выполнять различные операции, вроде создание отчетов и запуска аналитических процедур.

По мере роста объема данных, становится сложнее ими управлять и тяжелее обрабатывать их с помощью традиционного подхода. К его основным недостаткам относятся:

  • Дорогостоящая система, которая требует больших инвестиций при внедрении или модернизации, и которую малые и средние компании не смогут себе позволить.
  • По мере роста объема данных масштабирование системы становится сложной задачей.
  • Для обработки и извлечения ценной информации из данных требуется много времени, поскольку инфраструктура разработана и построена на основе устаревших вычислительных систем.

Термины

Облачные Вычисления

Облачные вычисления или облако можно определить, как интернет-модель вычислений, которая в значительной степени обеспечивает доступ к вычислительным ресурсам. Эти ресурсы включают в себя множество вещей, вроде прикладного программного обеспечение, вычислительных ресурсов, серверов, центров обработки данных и т. д.

Прогнозная Аналитика

Технология, которая учится на опыте (данных) предсказывать будущее поведение индивидов с помощью прогностических моделей. Они включают в себя характеристики (переменные) индивида в качестве входных данных и производит оценку в качестве выходных. Чем выше объясняющая способность модели, тем больше вероятность того, что индивид проявит предсказанное поведение.

Описательная Аналитика

Описательная аналитика обобщает данные, уделяя меньше внимания точным деталям каждой их части, вместо этого сосредотачиваясь на общем повествовании.

Базы данных

Данные нуждаются в кураторстве, в правильном хранении и обработке, чтобы они могли быть преобразованы в ценные знания. База данных – это механизм хранения, облегчающий такие преобразования.

Хранилище Данных

Хранилище данных определяется как архитектура, которая позволяет руководителям бизнеса систематически организовывать, понимать и использовать свои данные для принятия стратегических решений.

Бизнес-аналитика

Бизнес-аналитика (BI) – это набор инструментов, технологий и концепций, которые поддерживают бизнес, предоставляя исторические, текущие и прогнозные представления о его деятельности. BI включает в себя интерактивную аналитическую обработку (англ. OLAP, online analytical processing) , конкурентную разведку, бенчмаркинг, отчетность и другие подходы к управлению бизнесом.

Apache Hadoop

Apache Hadoop – это фреймворк с открытым исходным кодом для обработки больших объемов данных в кластерной среде. Он использует простую модель программирования MapReduce для надежных, масштабируемых и распределенных вычислений.

Apache Spark

Apache Spark – это мощный процессорный движок с открытым исходным кодом, основанный на скорости, простоте использования и сложной аналитике, с API-интерфейсами на Java, Scala, Python, R и SQL. Spark запускает программы в 100 раз быстрее, чем Apache Hadoop MapReduce в памяти, или в 10 раз быстрее на диске. Его можно использовать для создания приложений данных в виде библиотеки или для выполнения специального анализа в интерактивном режиме. Spark поддерживает стек библиотек, включая SQL, фреймы данных и наборы данных, MLlib для машинного обучения, GraphX для обработки графиков и потоковую передачу.

Интернет вещей

Интернет вещей (IoT) – это растущий источник больших данных. IoT – это концепция, позволяющая осуществлять интернет-коммуникацию между физическими объектами, датчиками и контроллерами.

Машинное Обучение

Машинное обучение может быть использовано для прогностического анализа и распознавания образов в больших данных. Машинное обучение является междисциплинарным по своей природе и использует методы из области компьютерных наук, статистики и искусственного интеллекта. Основными артефактами исследования машинного обучения являются алгоритмы, которые облегчают автоматическое улучшение на основе опыта и могут быть применены в таких разнообразных областях, как компьютерное зрение и интеллектуальный анализ данных.

Интеллектуальный Анализ Данных

Интеллектуальный анализ данных – это применение специфических алгоритмов для извлечения паттернов из данных. В интеллектуальном анализе акцент делается на применении алгоритмов в ходе которых машинное обучение используются в качестве инструмента для извлечения потенциально ценных паттернов, содержащихся в наборах данных.

Где применяются большие данные

Аналитика больших данных применяется в самых разных областях. Перечислим некоторые из них:

  • Поставщикам медицинских услуг аналитика больших данных нужна для отслеживания и оптимизации потока пациентов, отслеживания использования оборудования и лекарств, организации информации о пациентах и т. д.
  • Туристические компании применяют методы анализа больших данных для оптимизации опыта покупок по различным каналам. Они также изучают потребительские предпочтения и желания, находят корреляцию между текущими продажами и последующим просмотром, что позволяет оптимизировать конверсии.
  • Игровая индустрия использует BigData, чтобы получить информацию о таких вещах, как симпатии, антипатии, отношения пользователей и т. д.

Если вы хотите освоить новую профессию или повысить квалификацию в сфере Big Data, стоит обратить внимание на курс факультета аналитики Big Data онлайн-университета GeekBrains . Программа включает основательную математическую подготовку, изучение языка Python и получение навыков практической работы с базами данных. Также изучаются Hadoop и Apache Spark – востребованные инструменты для работы с большими данными. Курс ориентирован на применение машинного обучения в бизнесе и построен по принципам практической работы над проектами с ведущими специалистами отрасли и личным помощником-куратором.

Сбербанк: Большие Данные для быстрой отдачи

«Большие Данные работают с технологиями машинного обучения и дают отдачу быстро. Всего за год плотной работы с data science мы уже видим результат использования модели, которая увеличивает конверсию и доходность», Елена Ивашечкина, заместитель директора департамента корпоративных клиентов Сбербанка

Какое место занимают Большие Данные в деятельности департамента корпоративных клиентов Сбербанка России? Действительно ли полезны для бизнеса социальные сети? На эти и другие вопросы отвечает Елена Ивашечкина, заместитель директора департамента корпоративных клиентов Сбербанка.

— Какие основные задачи вы решаете и как используются для этого Большие Данные?

Наш департамент отвечает за стратегию работы с данными для всего корпоративного блока.

Вместе с ИТ-подразделениями мы работаем на всех участках цепочки создания ценности из данных — от сбора сырых данных до их агрегации, построения моделей и предоставления потребителям продуктов, улучшенных благодаря работе с данными.

Наше подразделение выполняет несколько основных задач в рамках корпоративного блока.

Мы агрегируем данные, задаем правильную инфраструктуру и модель данных для всех отделов. Это наша задача номер один, так как данные обеспечивают 70-80% бизнес-результата. Коллеги могут использовать их для своих целей — например, для создания продуктов или актуализации перечня документов.

Вторая наша задача — увеличение доходов от вторичных продаж, зависящих, помимо прочего, от удовлетворенности клиентов теми продуктами, которые мы им предлагаем. Здесь тоже множество задач, связанных с качественными данными и параметрами их обработки, и снова инфраструктура Big Data выходит на первое место. Число клиентов огромно, объем данных колоссален, и эффективно обрабатывать их на старых технологиях невозможно.

Третий блок задач, который мы выстраиваем в течение последнего года, связан с data science — разработкой моделей на основе собираемых данных и использованием методов машинного обучения. Это новое перспективное для нас направление, в том числе и с точки зрения получения дохода. Мы делаем модели как для себя, с целью увеличения вторичных продаж и конверсии (процента превращения потенциальных продаж в реальные), так и для других структурных подразделений, например департамента кредитных продуктов и кредитного мониторинга, оцениваем склонность клиента задержать выплаты по кредиту. В рамках внедряемого в банке Agile-подхода департамента корпоративных клиентов — сквозная структура, предоставляющая своих специалистов для построения моделей данных на время реализации проектов в разные команды и подразделения. У нас уже есть хорошие модели оттока, позволяющие принять меры для сохранения клиента, и мы внедряем их в промышленную эксплуатацию. Причем эти модели дают возможность прогнозировать не только полный уход клиента, но и сокращение использования наших услуг.

— Внедрение искусственного интеллекта для поддержки клиентов — это вопрос улучшения качества обслуживания или экономии?

И то, и другое. Конечно, мы преследуем цель повысить качество, но и экономия колоссальная. Мир уходит в онлайн, люди часто не хотят долго ждать ответа оператора, им требуется инструмент, чтобы можно было получить грамотный ответ, но не «висеть» при этом на линии.

— Сегодня многие обращаются к анализу поведения пользователей в социальных сетях, но на практике часто ценность этой информации близка к нулю — слишком маленькое число потенциальных клиентов попадает в эти выборки. Очевидно, что наиболее интересные фигуры или ограничивают свою деятельность в соцсетях, или закрывают доступ к своему профилю, или же не присутствуют в соцсетях вовсе. Как это учитывается в создаваемых моделях? Считаете ли вы социальные сети ценным источником информации?

Сами по себе социальные сети не дают хорошего качества моделей, они работают только как дополнительный фактор. Соцсети могут давать прирост на 5-7 пунктов индекса Джини (показатель для измерения качества модели). Это очень много. Соцсети нужно научиться «правильно готовить». Профиль человека в соцсети часто не так информативен, как его окружение. Анализируя окружение, можно понять, что это за клиент. К тому же соцсети сегментированы. Можно условно сказать, что в LinkedIn «сидят» высокодоходные клиенты, а в «Одноклассниках» много региональных SMB-компаний. Поэтому даже та информация, которая открыта, нам полезна. В проекте c одним из поставщиков данных соцсетей мы получили хорошие результаты по поиску высокодоходных клиентов малого и среднего бизнеса.

— По каким критериям оценивается эффективность применяемых алгоритмов анализа данных? И каковы результаты таких оценок на практике?

Эффективность матмоделей и алгоритмов оценивается стандартно: полнота, точность, коэффициент Джини. По уже проведенным инициативам мы смотрим на совпадение с тем, что мы прогнозировали, конверсию и в итоге — на доход, количество сохраненных клиентов, то есть оценка ведется в бизнес-показателях. Начав использовать инструменты data science, за год мы смогли в полтора раза улучшить качество моделей. И теперь, добавляя работу с вендорами данных соцсетей, понемногу повышаем эффективность дальше.

Процент ошибок сильно зависит от конкретной модели, но я считаю, что любая модель лучше, чем случайный отбор. Даже если она дает совсем небольшое улучшение по сравнению со случайным отбором, это все равно лучше, чем работать без модели. Эффективность также зависит от качества и полноты данных, от времени разработки моделей, инструментов и людей, которые этим занимаются. Вопрос в том, какой уровень эффективности следует считать достаточным.

— Но ведь с учетом ресурсов, затраченных на разработку моделей, эффективность «плохой» модели будет сопоставима или даже ниже случайной выборки?

Крайне редко модель не получается, но при ее разработке приходит новое понимание проблемы и происходит столько правильных итераций по работе с данными, что это время нельзя считать потерянным зря.

— Инвестиции в Большие Данные связаны прежде всего с ожиданиями высокой отдачи в будущем. А в сочетании с какими технологиями Большие Данные способны принести наиболее быстрый эффект?

Большие Данные сейчас работают с технологиями машинного обучения и, на мой взгляд, дают отдачу быстро. Всего за год плотной работы data science мы уже видим результат использования модели, которая увеличивает конверсию и доходность.

Но иногда простые модели, создаваемые быстро, работают лучше, чем сложные, разрабатываемые долго. Я вижу много таких примеров.

— То есть такие технологии имеет смысл применять лишь для очень серьезных задач?

Возможно. А может быть, необходимо еще больше данных. Тут нам многое предстоит сделать: интегрировать все источники, перевести их на инфраструктуру Больших Данных, ускорить все процессы. Наш клиент делает всего несколько транзакций в день, а тот же Facebook «видит» десятки тысяч транзакций по клиенту в день. Чем больше данных и чем правильнее они интегрированы в инфраструктуре, тем эффективнее глубокие методы работы с ними.

— При создании организации, направляемой данными, следует опираться прежде всего на высококвалифицированных специалистов в области data science или же на технологические платформы, которые позволяют работать с Большими Данными бизнес-пользователям?

Для создания такой платформы многое сделано и еще многое предстоит. Параллельно мы развиваем компетенции data science, учимся новым методам и заодно это все интегрируем.

— О чем вы расскажете участникам форума Big Data'17?

О том, что интересно мне самой, когда я хожу на такие конференции. Немного о самих данных — полнота и скорость их получения всех очень волнует, так как это конкурентное преимущество. Об инфраструктуре, архитектуре данных, а затем о реальных кейсах на их основе, о том, какие результаты и отзывы от клиентов получаем. Расскажу, как применяются аналитические алгоритмы анализа данных о транзакциях и действиях в социальных сетях, как с помощью программных методов исследования и сопоставления паттернов поведения выявить неблагонадежных заемщиков или найти потенциальных корпоративных клиентов. Кроме того, обычно всех интересует команда и ее взаимодействие с ИТ.


«Агрокомпания Русь» приобрела онлайн-ферму для молочных хозяйств – разработку компании «Мустанг Технологии Кормления», входящей в экосистему Сбера. Внедрение сервиса позволит компании сократить расходы.


Михаил Петров, директор Департамента цифровой трансформации Счетной палаты Российской Федерации, — об управлении, основанном на данных, и пути цифровой трансформации, по которому движется организация.


Откуда берутся CDO и как выстроить эффективную структуру для исследования данных в условиях кадрового дефицита, рассказывает Виктор Кантор, консультант и эксперт по машинному обучению.


Из всего многообразия направлений робототехники в Сбербанке выбрали для себя пять стратегических приоритетов: промышленную коллаборативную робототехнику, логистические и беспилотные транспортные системы, промышленные экзоскелеты и персональных ассистентов.


Иван Смирнов, директор по ИТ Научно-исследовательского и проектного института карбамида, — об опережающей рынок цифровой трансформации, об изменении подходов к ведению бизнеса и о технологиях, поглощающих компанию.


Денис Савенков, заместитель генерального директора по развитию ИТ НПО «Энергомаш», поделился планами цифровой трансформации ведущего предприятия российского и мирового ракетного двигателестроения.

Автор статьи

Куприянов Денис Юрьевич

Куприянов Денис Юрьевич

Юрист частного права

Страница автора

Читайте также: