Big Data (Большие данные)

Содержание
  1. Что такое Big Data простыми словами? Применение и перспективы больших данных
  2. Что такое Big data?
  3. Как работает технология Big-Data?
  4. Машинное обучение
  5. Анализ настроений
  6. Анализ социальных сетей
  7. Изучение правил ассоциации
  8. Анализ дерева классификации
  9. Генетические алгоритмы
  10. Регрессионный анализ
  11. Data Mining — как собирается и обрабатывается Биг Дата
  12. Реальное применение Big Data
  13. Перспективы использования Биг Дата
  14. Рынок Big data в России
  15. Где можно получить образование по Big Data (анализу больших данных)?
  16. Особенности изучения Big Data в GeekUniversity
  17. Проектно-ориентированное обучение
  18. Наставник
  19. Основательная математическая подготовка
  20. GeekUniversity дает полтора года опыта работы для вашего резюме
  21. Большие данные
  22. Что такое большие данные
  23. VVV — признаки больших данных
  24. Для чего необходимы большие данные
  25. Прямо сейчас большие данные помогают в решении таких задач:
  26. Где используются больше данные
  27. Big Data будет неотъемлемой частью Индустрии 4.0 и интернета вещей, когда сложные системы из огромного числа устройств работают, как единое целое. Вот простые, уже не футуристические, примеры этого:
  28. Кто использует большие данные
  29. Среди российских компаний стоит отметить следующие:
  30. Большие данные: зачем они нужны и как они изменят мир
  31. Зеттабайты информации
  32. Технологии в тренде
  33. ЗV — значит, big data
  34. Озеро в облаке
  35. Большие данные для бизнеса
  36. Технологии Big data и нефть
  37. Big Data (Большие данные): что это, кто такой аналитик big data, что такое обработка больших объемов данных
  38. Что такое «большие данные»
  39. Какие компании занимаются большими данными
  40. Каким должен быть специалист по большим данным
  41. Какие используются инструменты и технологии big data
  42. Какие профессии есть в сфере больших данных
  43. Сколько времени занимает обучение
  44. Какая зарплата считается адекватной для специалистов по большим данным
  45. Как готовиться к собеседованиям
  46. Где набираться опыта самостоятельно
  47. Какие тренды обсуждает сообщество

Что такое Big Data простыми словами? Применение и перспективы больших данных

Big Data (Большие данные)

Через 10 лет мир перейдет в новую эпоху — эпоху больших данных. Вместо виджета погоды на экране смартфона, он сам подскажет вам, что лучше одеть. За завтраком телефон покажет дорогу, по которой вы быстрее доберетесь до работы и когда нужно будет выехать.

Под влиянием Big Data изменится все, чего бы не коснулся человек. Разберемся, что это такое, а также рассмотрим реальное применение и перспективы технологии.

Что такое Big data?

Большие данные — технология обработки информации, которая превосходит сотни терабайт и со временем растет в геометрической прогрессии.

Такие данные настолько велики и сложны, что ни один из традиционных инструментов управления данными не может их хранить или эффективно обрабатывать. Проанализировать этот объем человек не способен. Для этого разработаны специальные алгоритмы, которые после анализа больших данных дают человеку понятные результаты.

В Big Data входят петабайты (1024 терабайта) или эксабайты (1024 петабайта) информации, из которых состоят миллиарды или триллионы записей миллионов людей и все из разных источников (Интернет, продажи, контакт-центр, социальные сети, мобильные устройства). Как правило, информация слабо структурирована и часто неполная и недоступная.

Как работает технология Big-Data?

Пользователи социальной сети загружают фото, видео и выполняют действия каждый день на сотни терабайт. Сколько бы человек не участвовало в разработке, они не справятся с постоянным потоком информации.

Чтобы дальше развивать сервис и делать сайты комфортнее — внедрять умные рекомендации контента, показывать актуальную для пользователя рекламу, сотни тысяч терабайт пропускают через алгоритм и получают структурированную и понятную информацию.

Сравнивая огромный объем информации, в нем находят взаимосвязи. Эти взаимосвязи с определенной вероятностью могут предсказать будущее. Находить и анализировать человеку помогает искусственный интеллект.

Нейросеть сканирует тысячи фотографий, видео, комментариев — те самые сотни терабайт больших данных и выдает результат: сколько довольных покупателей уходит из магазина, будет ли в ближайшие часы пробка на дороге, какие обсуждения популярны в социальной сети и многое другое.

Методы работы с большими данными:

  • Машинное обучение
  • Анализ настроений
  • Анализ социальной сети
  • Ассоциация правил обучения
  • Анализ дерева классификации
  • Генетические алгоритмы
  • Регрессионный анализ

Машинное обучение

Вы просматриваете ленту новостей, лайкаете посты в Instagram, а алгоритм изучает ваш контент и рекомендует похожий. Искусственный интеллект учится без явного программирования и сфокусирован на прогнозировании на основе известных свойств, извлеченных из наборов «обучающих данных».

Машинное обучение помогает:

  • Различать спам и не спам в электронной почте
  • Изучать пользовательские предпочтения и давать рекомендации
  • Определять лучший контент для привлечения потенциальных клиентов
  • Определять вероятность выигрыша дела и устанавливать юридические тарифы

Анализ настроений

Анализ настроений помогает:

  • Улучшать обслуживание в гостиничной сети, анализируя комментарии гостей
  • Настраивать стимулы и услуги для удовлетворения потребностей клиента
  • Определить по мнениям в социальной сети о чем думают клиенты.

Анализ социальных сетей

Анализ социальных сетей впервые использовали в телекоммуникационной отрасли. Метод  применяется социологами для анализа отношений между людьми во многих областях и коммерческой деятельности.

Этот анализ используют чтобы:

  • Увидеть, как люди из разных групп населения формируют связи с посторонними лицами  
  • Выяснить важность и влияние конкретного человека в группе
  • Найти минимальное количество прямых связей  для соединения двух людей
  • Понять социальную структуру клиентской базы

Изучение правил ассоциации

Люди, которые не покупают алкоголь, берут соки чаще, чем любители горячительных напитков?

Изучение правил ассоциации — метод обнаружения интересных взаимосвязей между переменными в больших базах данных. Впервые его использовали крупные сети супермаркетов для обнаружения интересных связей между продуктами, используя информацию из систем торговых точек супермаркетов (POS).

С помощью правил ассоциации:

  • Размещают продукты в большей близости друг к другу, чтобы увеличились продажи
  • Извлекают информацию о посетителях веб-сайтов из журналов веб-сервера
  • Анализируют биологические данные
  • Отслеживают системные журналы для обнаружения злоумышленников
  • Определяют чаще ли покупатели чая берут газированные напитки

Анализ дерева классификации

Статистическая классификация определяет категории, к которым относится новое наблюдение.

Статистическая классификация используется для:

  • Автоматического присвоения документов категориям
  • Классификации организмов по группам
  • Разработки профилей студентов, проходящих онлайн-курсы

Генетические алгоритмы

Генетические алгоритмы вдохновлены тем, как работает эволюция, то есть с помощью таких механизмов, как наследование, мутация и естественный отбор.

Генетические алгоритмы используют для:

  • Составления расписания врачей для отделений неотложной помощи в больницах 
  • Расчет оптимальных материалов для разработки экономичных автомобилей
  • Создания «искусственно творческого» контента, такого как игра слов и шутки

Регрессионный анализ

Как возраст человека влияет на тип автомобиля, который он покупает?

На базовом уровне регрессионный анализ включает в себя манипулирование некоторой независимой переменной (например, фоновой музыкой) чтобы увидеть, как она влияет на зависимую переменную (время, проведенное в магазине).

Регрессионный анализ используют для определения:

  • Уровней удовлетворенности клиентов
  • Как прогноз погоды за предыдущий день влияет на количество полученных звонков в службу поддержки
  • Как район и размер домов влияют на цену жилья

Data Mining — как собирается и обрабатывается Биг Дата

Загрузка больших данных в традиционную реляционную базу для анализа занимает много времени и денег. По этой причине появились специальные подходы для сбора и анализа информации. Для получения и последующего извлечения информацию объединяют и помещают в “озеро данных”. Оттуда программы искусственного интеллекта, используя сложные алгоритмы, ищут повторяющиеся паттерны.

Хранение и обработка происходит следующими инструментами:

  • Apache HADOOP — пакетно-ориентированная система обработки данных. Система хранит и отслеживает информацию на нескольких машинах и масштабируется до нескольких тысяч серверов.
  • HPPC — платформа с открытым исходным кодом, разработанная LexisNexis Risk Solutions. HPPC известна как суперкомпьютер Data Analytics (DAS), поддерживающая обработку данных как в пакетном режиме, так и в режиме реального времени. Система использует суперкомпьютеры и кластеры из обычных компьютеров.
  • Storm — обрабатывает информацию в реальном времени. Использует Eclipse Public License с открытым исходным кодом.

Реальное применение Big Data

Самый быстрый рост расходов на технологии больших данных происходит в банковской сфере, здравоохранении, страховании, ценных бумагах и инвестиционных услугах, а также в области телекоммуникаций.

Три из этих отраслей относятся к финансовому сектору, который имеет множество полезных вариантов для анализа Big Data: обнаружение мошенничества, управление рисками и оптимизация обслуживания клиентов.

Банки и компании, выпускающие кредитные карты, используют большие данные, чтобы выявлять закономерности, которые указывают на преступную деятельность. Из-за чего некоторые аналитики считают, что большие данные могут принести пользу криптовалюте. Алгоритмы смогут выявить мошенничество и незаконную деятельность в крипто-индустрии.

Благодаря криптовалюте такой как Биткойн и Эфириум блокчейн может фактически поддерживать любой тип оцифрованной информации. Его можно использовать в области Big Data, особенно для повышения безопасности или качества информации.

Например, больница может использовать его для обеспечения безопасности, актуальности данных пациента и полного сохранения их качества. Размещая базы данных о здоровьи в блокчейн, больница обеспечивает всем своим сотрудникам доступ к единому, неизменяемому источнику информации.

Также, как люди связывают криптовалюту с волатильностью, они часто связывают большие данные со способностью просеивать большие объемы информации. Big Data поможет отслеживать тенденции. На цену влияет множество факторов и алгоритмы больших данных учтут это, а затем предоставят решение.

Перспективы использования Биг Дата

Blockchain и Big Data — две развивающиеся и взаимодополняющие друг друга технологии. С 2016 блокчейн часто обсуждается в СМИ. Это криптографически безопасная технология распределенных баз данных для хранения и передачи информации. Защита частной и конфиденциальной информации — актуальная и будущая проблема больших данных, которую способен решить блокчейн.

Почти каждая отрасль начала инвестировать в аналитику Big Data, но некоторые инвестируют больше, чем другие.

По информации IDC, больше тратят на банковские услуги, дискретное производство, процессное производство и профессиональные услуги.

По исследованиям Wikibon, выручка от продаж программ и услуг на мировом рынке в 2018 году составила $42 млрд, а в 2027 году преодолеет отметку в $100 млрд.

По оценкам Neimeth, блокчейн составит до 20% общего рынка больших данных к 2030 году, принося до $100 млрд. годового дохода. Это превосходит прибыль PayPal, Visa и Mastercard вместе взятые.

Аналитика Big Data будет важна для отслеживания транзакций и позволит компаниям, использующим блокчейн, выявлять скрытые схемы и выяснять с кем они взаимодействуют в блокчейне.

Рынок Big data в России

Весь мир и в том числе Россия используют технологию Big Data в банковской сфере, услугах связи и розничной торговле. Эксперты считают, что в будущем технологию будут использовать транспортная отрасль, нефтегазовая и пищевая промышленность, а также энергетика. 

Аналитики IDC признали Россию крупнейшим региональным рынком BDA. По расчетам в текущем году выручка приблизится к 1,4 миллиардам долларов и будет составлять 40% общего объема инвестиций в секторе больших данных и приложений бизнес-аналитики.

Где можно получить образование по Big Data (анализу больших данных)?

GeekUniversity совместно с Mail.ru Group открыли первый в России факультет Аналитики Big Data.

Для учебы достаточно школьных знаний. У вас будут все необходимые ресурсы и инструменты + целая программа по высшей математике. Не абстрактная, как в обычных вузах, а построенная на практике. Обучение познакомит вас с технологиями машинного обучения и нейронными сетями, научит решать настоящие бизнес-задачи.

После учебы вы сможете работать по специальностям:

Особенности изучения Big Data в GeekUniversity

Через полтора года практического обучения вы освоите современные технологии Data Science и приобретете компетенции, необходимые для работы в крупной IT-компании. Получите диплом о профессиональной переподготовке и сертификат.

Обучение проводится на основании государственной лицензии № 040485. По результатам успешного завершения обучения выдаем выпускникам диплом о профессиональной переподготовке и электронный сертификат на портале GeekBrains и Mail.ru Group.

Проектно-ориентированное обучение

Обучение происходит на практике, программы разрабатываются совместно со специалистами из компаний-лидеров рынка. Вы решите четыре проектные задачи по работе с данными и примените полученные навыки на практике. Полтора года обучения в GeekUniversity = полтора года реального опыта работы с большими данными для вашего резюме.

Наставник

В течение всего обучения у вас будет личный помощник-куратор. С ним вы сможете быстро разобраться со всеми проблемами, на которые в ином случае ушли бы недели. Работа с наставником удваивает скорость и качество обучения.

Основательная математическая подготовка

Профессионализм в Data Science — это на 50% умение строить математические модели и еще на 50% — работать с данными. GeekUniversity прокачает ваши знания в матанализе, которые обязательно проверят на собеседовании в любой серьезной компании.

GeekUniversity дает полтора года опыта работы для вашего резюме

В результате для вас откроется в 5 раз больше вакансий:

Для тех у кого нет опыта в программировании, предлагается начать с подготовительных курсов. Они позволят получить базовые знания для комфортного обучения по основной программе.

Источник: https://Mining-CryptoCurrency.ru/big-data/

Большие данные

Big Data (Большие данные)

Большие данные – направление, о котором все говорят, но мало кто хорошо в нём разбирается. Гиганты электронной коммерции, промышленные компании и информационные корпорации инвестируют в эту технологию миллиарды. Что же такое Big Data, какие перспективы они предлагают и где используются?

Что такое большие данные

Большие данные – современное технологическое направление, связанное с обработкой крупных массивов данных, которые постоянно растут. Big Data – это сама информация, методы её обработки и аналитики. Перспективы, которые может принести Big Data интересны бизнесу, маркетингу, науке и государству.

В первую очередь большие данные – это всё-таки информация. Настолько большая, что ей сложно оперировать с помощью обычных программных средств. Она бывает структурированной (обработанной), и неструктурированной (разрозненной). Вот некоторые её примеры:

• Данные с сейсмологических станций по всей Земле.• База пользовательских аккаунтов .• Геолокационная информация всех фотографий, выложенных за сегодня в Instagram.

• Базы данных операторов мобильной связи.

Для Big Data разрабатываются свои алгоритмы, программные инструменты и даже машины. Чтобы придумать средство обработки, постоянно растущей информации, необходимо создавать новые, инновационные решения. Именно поэтому большие данные стали отдельным направлением в технологической сфере.

VVV — признаки больших данных

Чтобы уменьшить размытость определений в сфере Big Data, разработаны признаки, которым они должны соответствовать. Все начинаются с буквы V, поэтому система носит название VVV:

• Volume – объём. Объём информации измерим.

• Velocity – скорость. Объём информации не статичен – он постоянно увеличивается, и инструменты обработки должны это учитывать.

• Variety – многообразие. Информация не обязана иметь один формат. Она может быть неструктурированной, частично или полностью структурированной.

К этим трём принципам, с развитием отрасли, добавляются дополнительные V. Например, veracity – достоверность, value – ценность или viability – жизнеспособность.

Но для понимания достаточно первых трёх: большие данные измеримые, прирастающие и неоднообразные.

Для чего необходимы большие данные

цель работы с большими данными – обуздать их (проанализировать) и направить. Человечество научилось производить и извлекать огромные массивы информации, а с их управлением ещё есть проблемы.

Прямо сейчас большие данные помогают в решении таких задач:

• повышение производительности труда;• точная реклама и оптимизация продаж;• прогнозирование ситуаций на внутренних и глобальных рынках;• совершенствование товаров и услуг;• улучшение логистики;

• качественное таргетирование клиентов в любой сфере бизнеса.

Большие данные делают услуги удобнее и выгоднее как для продавцов, так и для покупателей. Предприятия могут узнать, какая продукция популярнее, как сформировать ценовую политику, когда лучшее время для продаж, как оптимизировать ресурсы на производстве, чтобы сделать его эффективнее. За счёт этого клиенты получают точное предложение «без воды».

Источник: lifehacker.ru 

Где используются больше данные

• Облачные хранилища. Хранить всё на локальных компьютерах, дисках и серверах неудобно и затратно. Крупные облачные data-центры становятся надёжным способом хранения информации, доступной в любой момент.

• Блокчейн. Революционная технология, сотрясающая мир в последние годы, упрощает транзакции, делает их безопаснее, а, главное, хорошо справляется с обработкой операций между гигантским количеством контрагентов за счёт своего математического алгоритма.

• Самообслуживание. Роботизация и промышленная автоматизация снижают расходы на ведение бизнеса и уменьшают стоимость товаров или услуг.

• Искусственный интеллект и глубокое обучение. Подражание мышлению головного мозга помогает делать отзывчивые системы, эффективные в науке и бизнесе.

Эти сферы создаются и прогрессируют благодаря сбору и анализу данных. Пионерами в области таких разработок являются: поисковые системы, мобильные операторы, гиганты онлайн-коммерции, банки.

Big Data будет неотъемлемой частью Индустрии 4.0 и интернета вещей, когда сложные системы из огромного числа устройств работают, как единое целое. Вот простые, уже не футуристические, примеры этого:

• Автоматизированный завод сам изменяет линейку продукции, ориентируясь на анализ спроса, поставок, себестоимости и рыночной ситуации.

• Умный дом даёт рекомендации о том, как одеться по погоде и по какому маршруту быстрее всего добраться до работы утром.

• Компания анализирует производство и каналы сбыта с учётом изменений реальной обстановки на рынке.

• Дорожная безопасность повышается за счёт сбора данных о стиле вождения и нарушениях отдельных водителей, а также состояния их машин.

Кто использует большие данные

Наибольший прогресс отрасли наблюдается в США и Европе. Вот крупнейшие иностранные компании и ведомства, которые используют Big Data:

• HSBC повышает безопасность клиентов пластиковых карт. Компания утверждает, что в 10 раз улучшила распознавание мошеннических операций и в 3 раза – защиту от мошенничества в целом.

• Суперкомпьютер Watson, разработанный IBM, анализирует финансовые транзакции в режиме реального времени. Это позволяет сократить частоту ложных срабатываний системы безопасности на 50% и выявить на 15% больше мошеннических действий.

• Procter&Gamble проводит с использованием Big Data маркетинговые исследования, более точно прогнозируя желания клиентов и спрос новых продуктов.

• Министерство труда Германии добивается целевого расхода средств, анализируя большие данные при обработке заявок на пособия. Это помогает направить деньги тем, кто действительно в них нуждается (оказалось, что 20% пособий выплачивались нецелесообразно). Министерство утверждает, что инструменты Big Data сокращают затраты на €10 млрд.

Среди российских компаний стоит отметить следующие:

• Яндекс. Это корпорация, которая управляет одним из самых популярных поисковиков и делает цифровые продукты едва ли не для каждой сферы жизни. Для Яндекс Big Data – не инновация, а обязанность, продиктованная собственными нуждами. В компании работают алгоритмы таргетинга рекламы, прогноза пробок, оптимизации поисковой выдачи, музыкальных рекомендаций, фильтрации спама.

• Мегафон. Телекоммуникационный гигант обратил внимание на большие данные примерно пять лет назад. Работа над геоаналитикой привела к созданию готовых решений анализа пассажироперевозок. В этой области у Мегафон есть сотрудничество с РЖД.

• Билайн. Этот мобильный оператор анализирует массивы информации для борьбы со спамом и мошенничеством, оптимизации линейки продуктов, прогнозирования проблем у клиентов. Известно, что корпорация сотрудничает с банками – оператор помогает анонимно оценивать кредитоспособность абонентов.

• Сбербанк. В крупнейшем банке России супермассивы анализируются для оптимизации затрат, грамотного управления рисками, борьбы с мошенничеством, а также расчёта премий и бонусов для сотрудников. Похожие задачи с помощью Big Data решают конкуренты: Альфа-банк, ВТБ24, Тинькофф-банк, Газпромбанк.

И за границей, и в России организации в основном пользуются сторонними разработками, а не создают инструменты для Big Data сами. В этой сфере популярны технологии Oracle, Teradata, SAS, Impala, Apache, Zettaset, IBM, Vowpal.

Читайте: Что такое интернет вещей, как он работает и чем полезен

Источник: https://invlab.ru/texnologii/bolshie-dannye/

Большие данные: зачем они нужны и как они изменят мир

Big Data (Большие данные)

Рынок технологий работы с большими данными (big data) — один из самых быстрорастущих сегментов IT-технологий в мире.

Это вполне объяснимо, ведь big data в последнее время нашли применение во множестве таких разных областей, как умные дома, увеличение доходов банков и торговых сетей, повышение эффективности самых разных производств.

Именно большие данные — то сырье, которое необходимо, чтобы запустить механизм цифровой трансформации нефтяной компании

Зеттабайты информации

Каждый день любой человек оставляет множество следов. И если раньше это были только физические следы — отпечатки подошв обуви или пальцев, — то сегодня речь идет в первую очередь о цифровых следах.

Отправили запрос поисковику, прогулялись по улице со смартфоном, оборудованным GPS-модулем, или воспользовались навигатором, совершили покупку в магазине с помощью кредитки, лайкнули чей-то пост, скачали музыку или установили приложение — любое из этих действий генерирует поток информации.

А учитывая количество живущих на Земле людей, информации накапливается очень много.

Еще больше данных производят машины, работа которых либо полностью основана на IT-технологиях, либо предполагает оцифровку физических или химических процессов, как, например, это происходит на нефтехимических предприятиях.

Ученые разрабатывают новые способы хранения возрастающих объемов данных, используя молекулы ДНК. Один грамм ДНК может вместить около 700 терабайт данных. Такой способ хранения также очень надежен: молекулы стабильны и могут храниться в течение тысяч лет.

В итоге мировой объем оцифрованной информации растет по экспоненте.

Так, к 2003 году было накоплено 5 эксабайт данных (1 ЭБ = 1 млрд гигабайт = 1018 байт), к 2008-му — 0,18 зеттабайта (1 ЗБ = 1021 байт), к 2011 году — 1,76 зеттабайта, к 2017-му — порядка 10 зеттабайт (1022 байт).

Это данные российского IT-холдинга IBS, специалисты которого прогнозируют, что к 2020 году человечество сформирует 40–44 зеттабайта информации. Если задаться целью и записать 40 зеттабайт данных на стандартные blu-ray-диски, их общий вес будет примерно равен весу 424 авианосцев.

Однако данные получают какую-либо ценность, только если сохраняются и анализируются.

По оценке того же IBS, сегодня ценность имеет лишь несколько процентов генерируемых данных, а по расчетам аналитиков американской корпорации Dell ЕМС, используется лишь 3% от потенциально полезной информации.

Дело в том, что существовавшими еще 10–15 лет назад методами с таким объемом данных справиться было невозможно. И именно тогда возникло понятие big data — то есть буквально «большие данные».

Технологии в тренде

Общепринятого определения для понятия big data нет. На Западе, говоря о больших данных, подразумевают лишь сами объемы неоднородной и быстро поступающей цифровой информации (свыше 100 Гб в день), которые невозможно обработать традиционными инструментами. В России к этому понятию относят еще и технологии обработки данных.

Сам же термин big data появился в 2008 году с легкой руки редактора журнала Nature Клиффорда Линча, который употребил это выражение в спецвыпуске, посвященном взрывному росту мировых объемов информации.

Примерно в это же время стали появляться программные продукты, позволившие по-новому, более эффективно работать с большими информационными массивами.

А чуть позже — в начале второго десятилетия XXI века — к развитию направления серьезно подключились такие IT-гиганты, как Microsoft, Oracle, EMC и IBM.

По оценкам экспертов, к 2020 году наибольшую часть мирового рынка big data будет занимать финансовая отрасль, чуть меньше на развитие этих технологий будут тратить интернет-компании, госсектор и телеком, а самым быстрорастущим сектором станет энергетика.

Технологии big data — это целый комплекс различных инструментов, подходов и методов работы с информацией, позволяющих решать несколько глобальных задач.

Первая — хранение и управление гигантскими массивами информации, которые невозможно эффективно использовать с помощью обычных баз данных.

Вторая задача — организация и систематизация этой неструктурированной или частично структурированной информации, записанной в многообразных форматах. Третья глобальная задача — обработка и анализ полученной информации, как правило, для формирования высокоточных прогнозов.

Технологии обработки больших данных остаются одним из самых динамично развивающихся сегментов рынка информационных технологий.

Согласно прогнозу исследовательской и консалтинговой компании IDC (International Data Corporation), мировые расходы на оборудование, ПО и услуги обработки больших данных и бизнес-аналитики возрастут с $150,8 млрд в 2017 году до $210 млрд в 2020-м и среднегодовой темп роста составит 11,9%.

ЗV — значит, big data

Большие данные характеризуются параметрами, которые сокращенно обозначают как 3V — по первым буквам английских слов volume («объем»), velocity («скорость») и variety («многообразие»). Для big data значения этих параметров высоки, и, что важно, со временем они становятся только выше.

С объемом все достаточно очевидно: объем больших данных велик и он постоянно растет. Только представьте: один-единственный датчик, раз в секунду фиксирующий тот или иной параметр (например, температуру), за год производит более 31,5 млн значений.

А на современном нефтеперерабатывающем заводе таких датчиков могут быть десятки тысяч. В социальной сети сейчас хранится 250 млрд изображений, загруженных пользователями, число же отдельных публикаций — постов — больше на несколько порядков.

Камеры видеонаблюдения Москвы ежедневно записывают около 450 лет видео. И так практически в любой сфере!

Скорость, с которой поступают новые данные, также все время возрастает, так как увеличивается количество источников информации, подключенных к сети и генерирующих данные.

Ускоренное обновление данных, в свою очередь, влияет на нашу оценку их актуальности. То, что еще недавно воспринималось как свежая информация, сейчас представляется безнадежно устаревшим.

Когда-то люди могли ждать письма неделями, сегодня даже электронная почта кажется недостаточно оперативной, ее вытесняют мессенджеры.

Со временем к трем V добавились еще две: veracity («достоверность») и value («ценность») (некоторые называют и другие V). С достоверностью все не так однозначно: с ростом объемов и скорости поступления новых данных их качество и точность все сложнее контролировать.

С другой стороны, появляются и новые пути их проверки — в том числе за счет многообразия источников и типов данных. Так, например, навигатор в вашем смартфоне из-за потери сигнала спутников может увести вас совсем не туда. Но данные сотовой сети, акселерометра и карты помогают скорректировать итоговый результат.

Что же касается ценности, то именно возможность полезного использования больших данных придает им смысл и заставляет искать способы их сбора, хранения и анализа.

Работа с большими данными потребовала создания новых подходов к их хранению и обработке. Задачи распределяются между тысячами узлов, что позволяет эффективнее задействовать машинные ресурсы, минимизируя риски потери данных в случае выхода из строя отдельных узлов.

Со временем к трем V добавились еще две: veracity («достоверность») и value («ценность») (некоторые называют и другие V). С достоверностью все не так однозначно: с ростом объемов и скорости поступления новых данных их качество и точность все сложнее контролировать.

С другой стороны, появляются и новые пути их проверки — в том числе за счет многообразия источников и типов данных. Так, например, навигатор в вашем смартфоне из-за потери сигнала спутников может увести вас совсем не туда. Но данные сотовой сети, акселерометра и карты помогают скорректировать итоговый результат.

Что же касается ценности, то именно возможность полезного использования больших данных придает им смысл и заставляет искать способы их сбора, хранения и анализа.

Так что большие данные — это не просто много данных, а количество, которое уже перешло в новое, ранее недоступное качество.

Озеро в облаке

Многие уже привыкли использовать Dropbox, Google Drive, iCloud и другие облачные сервисы для хранения файлов. Это не только возможность не ограничивать себя емкостью локального диска на своем компьютере, но и способ организации совместной работы с данными и существенно большая надежность, ведь сервис гарантирует сохранение важной информации даже в случае аппаратных сбоев.

Для применения технологий big data создаются свои особые хранилища — так называемые озера данных. В них концентрируются большие объемы неструктурированных данных, собранных одной компанией. Размещаться такие озера могут также в облаке, чтобы упростить доступ к ним для широкого круга специалистов.

Отличие подобных хранилищ в том, что они объединяют данные самого разного рода, предназначение и ценность которых могу быть еще до конца непонятны. Озера данных пополняются по принципу «лишней информации не бывает».

Потом уже искусственный интеллект разберется — возможно, найдет в этих данных важные закономерности и установит связи.

Большие данные для бизнеса

Сегодня технологии big data уже вовсю используются в бизнесе. В первую очередь новые веяния затронули потребительский сектор. Раньше маркетологам приходилось проводить выборочные исследования: опрашивать отобранных по определенным правилам людей и на основании их ответов делать глобальные выводы.

У таких методов много ограничений, а значит, и прогнозы получаются не самые точные.

Сегодня в распоряжении исследователей огромные массивы информации, в деталях описывающие потребительское поведение, нужды и чаяния практически каждого человека: транзакции по кредитным картам, данные геопозиционирования, запросы в поисковых системах, фотографии, размещенные в соцсетях, слова, произнесенные рядом со смартфоном…

В наше время нужно еще очень постараться, чтобы не оставить цифровых следов.

Торговые сети получили возможность анализировать покупки сотен тысяч конкретных клиентов и узнавать, как меняется спрос на те или иные товары в течение дня, недели, месяца и как он связан с изменением сотен других факторов.

Анализ всей этой информации в идеале должен позволить сделать предложение товаров и услуг максимально точным и персонифицированным: в нужное время предложить человеку нужный именно ему товар.

Особенно продвинулись в анализе больших данных банки. Такой подход позволяет автоматически выявлять мошеннические операции, оценивать кредитоспособность клиентов, лучше управлять рисками.

Широко применяется в финансовой сфере так называемый data mining (буквально «добыча данных») — методы, позволяющие обнаружить в информации новые, ранее неизвестные, скрытые закономерности. Раньше ключевую роль здесь играли опыт и интуиция сотрудников.

Но что такое интуиция, если не результат фонового анализа больших данных, поступающих в мозг из внешней среды? Впрочем, сегодня человеческий мозг в этой работе все чаще заменяют искусственным интеллектом.

Не обходится без использования технологий big data и в промышленном секторе. Конечно, скважины на месторождениях и установки на нефтеперерабатывающих заводах сами в интернет не заходят.

Однако сегодня их все активнее оснащают датчиками, подключенными к промышленному интернету вещей.

Такие датчики передают данные, которые раньше приходилось собирать вручную, и это позволяет гораздо лучше узнавать о потребностях и проблемах оборудования и даже предсказывать его будущее (например, прогнозировать, когда может понадобиться ремонт).

Большие данные уже активно используются в сети АЗС «Газпромнефть» для того, чтобы делать персонифицированные предложения клиентам. Основные инструменты для этой работы — программа лояльности и мобильное приложение. Компания стремится к тому, чтобы приблизиться к идеальной модели: «одна акция — один клиент». Современные подходы к анализу пользовательской активности позволили сети АЗС заработать в 2017 году дополнительно 2 млрд рублей по сравнению с 2016 годом.

Технологии Big data и нефть

О том, что данные — это новая нефть, сегодня повторяют довольно часто. Но чем они могут быть полезны для нефти традиционной? На самом деле место для применения технологий big data есть буквально на любом этапе в цепочке создания стоимости в нефтяной отрасли.

Так, в геологоразведке накоплен огромный объем информации, и новые подходы к работе с ней позволяют обнаруживать закономерности, точнее моделировать строение пластов и более эффективно искать перспективные месторождения, сравнивая новые участки с уже известными аналогами.

В сфере добычи и переработки нефти сбор данных о работе оборудования позволяет удаленно контролировать работу любого актива, оптимизировать производственные процессы, предсказывать возможные аварии и сбои в работе.

Например, в «Газпром нефти» был реализован проект, позволивший значительно увеличить надежность скважинного оборудования. Цель этого проекта — выявление причин сбоев автоматического перезапуска электроцентробежных насосов после аварийного отключения электропитания.

Рабочая группа использовала более 200 млн записей, полученных в 2014 году с контроллеров систем управления насосами на 1649 скважинах, а также записи рестартов напряжения из аварийных журналов.

Анализ этой информации традиционными методами был невозможен из-за большого объема неструктурированных данных в разных форматах. Также необходимо было учесть множество различных факторов: скважинные условия, условия эксплуатации, схемы электроснабжения и др.

Применение инструментов big data позволило не только сформировать и проверить набор гипотез о причинах сбоев в автозапуске, но и получить информацию о ранее неизвестных взаимосвязях в работе насосного оборудования.

Большие данные лежат в основе крупных проектов, повышающих эффективность управления отдельными активами и компанией в целом. Пример такого проекта — Центр управления эффективностью (ЦУЭ) блока логистики, переработки и сбыта «Газпром нефти».

Для сбора и обработки данных в центре развернуто озеро данных, в которое стекаются информационные потоки со всех перерабатывающих активов блока. В частности, на основе поступающих данных в ЦУЭ осуществляется предиктивное управление по отклонениям.

То есть анализ показаний различных датчиков позволяет предсказывать потенциальные инциденты до их наступления, что значительно повышает стабильность технологических режимов и безопасность производства.

Оригинал статьи и другие материалы читайте на сайте журнала:
www.gazprom-neft.ru/press-center/sibneft-online/

Источник: https://zen.yandex.ru/media/sibneft/bolshie-dannye-zachem-oni-nujny-i-kak-oni-izmeniat-mir-5def58e816ef9000ad35199b

Big Data (Большие данные): что это, кто такой аналитик big data, что такое обработка больших объемов данных

Big Data (Большие данные)

Термин Big Data (большие данные) подпорчен современным фантастическим преувеличением новых вещей. Как ИИ поработит людей, а блокчейн построит идеальную экономику — так и большие данные позволят знать абсолютно все про всех и видеть будущее. 

Но реальность, как всегда, скучнее и прагматичнее. В больших данных нет никакой магии — как нет ее нигде — просто информации и связей между разными данными становится так много, что обрабатывать и анализировать все старыми способами становится слишком долго.

Появляются новые методы, вместе с ними — новые профессии. Декан факультета Big Data в GeekBrains Сергей Ширкин рассказал, что это за профессии, где они нужны, чем там надо заниматься и что надо уметь. Какие используются методы и технологии обработки больших данных, инструменты и сколько обычно платят специалистам.

Что такое «большие данные»

Вопрос «что называть большими данными» довольно путаный. Даже в публикациях научных журналов описания расходятся.

Где-то миллионы наблюдений считаются «обычными» данными, а где-то большими называют уже сотни тысяч, потому что у каждого из наблюдений есть тысяча признаков.

Поэтому данные решили условно разбить на три части — малые, средние и большие — по самому простому принципу: объему, который они занимают.

Малые данные — это считанные гигабайты. Средние — все, что около терабайта. Одна из основных характеристик больших данных — вес, который составляет примерно петабайт. Но путаницу это не убрало. Поэтому вот критерий еще проще: все, что не помещается на одном сервере — большие данные.

В малых, средних и больших данных разные принципы работы. Большие данные как правило хранятся в кластере сразу на нескольких серверах. Из-за этого даже простые действия выполняются сложнее.

Например, простая задача — найти среднее значение величины. Если это малые данные, мы просто все складываем и делим на количество. А в больших данных мы не можем собрать сразу всю информацию со всех серверов.

Это сложно. Зачастую надо не данные тянуть к себе, а отправлять отдельную программу на каждый сервер. После работы этих программ образуются промежуточные результаты, и среднее значение определяется по ним.

Сергей Ширкин 

Какие компании занимаются большими данными

Первыми с большими данными, либо с «биг дата», начали работать сотовые операторы и поисковые системы. У поисковиков становилось все больше и больше запросов, а текст тяжелее, чем цифры.

На работу с абзацем текста уходит больше времени, чем с финансовой транзакцией. Пользователь ждет, что поисковик отработает запрос за долю секунды — недопустимо, чтобы он работал даже полминуты.

Поэтому поисковики первые начали работать с распараллеливанием при работе с данными.

Чуть позже подключились различные финансовые организации и ритейл. Сами транзакции у них не такие объемные, но большие данные появляются за счет того, что транзакций очень много.

Количество данных растет вообще у всех. Например, у банков и раньше было много данных, но для них не всегда требовались принципы работы, как с большими. Затем банки стали больше работать с данными клиентов. Стали придумывать более гибкие вклады, кредиты, разные тарифы, стали плотнее анализировать транзакции. Для этого уже требовались быстрые способы работы.

Сейчас банки хотят анализировать не только внутреннюю информацию, но и стороннюю. Они хотят получать большие данные от того же ритейла, хотят знать, на что человек тратит деньги. На основе этой информации они пытаются делать коммерческие предложения.

Сейчас вся информация связывается между собой. Ритейлу, банкам, операторам связи и даже поисковикам — всем теперь интересны данные друг друга.

Каким должен быть специалист по большим данным

Поскольку данные расположены на кластере серверов, для их обработки используется более сложная инфраструктура. Это оказывает большую нагрузку на человека, который с ней работает — система должна быть очень надежной. 

Сделать надежным один сервер легко. Но когда их несколько — вероятность падения возрастает пропорционально количеству, и так же растет и ответственность дата-инженера, который с этими данными работает.

Аналитик big data должен понимать, что он всегда может получить неполные или даже неправильные данные. Он написал программу, доверился ее результатам, а потом узнал, что из-за падения одного сервера из тысячи часть данных была отключена, и все выводы неверны.

Взять, к примеру, текстовый поиск. Допустим все слова расположены в алфавитном порядке на нескольких серверах (если говорить очень просто и условно). И вот отключился один из них, пропали все слова на букву «К». Поиск перестал выдавать слово «Кино». Следом пропадают все киноновости, и аналитик делает ложный вывод, что людей больше не интересуют кинотеатры.

Поэтому специалист по большим данным должен знать принципы работы от самых нижних уровней — серверов, экосистем, планировщиков задач — до самых верхнеуровневых программ — библиотек машинного обучения, статистического анализа и прочего. Он должен понимать принципы работы железа, компьютерного оборудования и всего, что настроено поверх него.

В остальном нужно знать все то же, что и при работе с малыми данным. Нужна математика, нужно уметь программировать и особенно хорошо знать алгоритмы распределенных вычислений, уметь приложить их к обычным принципам работы с данными и машинного обучения.

Какие используются инструменты и технологии big data

Поскольку данные хранятся на кластере, для работы с ними нужна особая инфраструктура. Самая популярная экосистема — это Hadoop. В ней может работать очень много разных систем: специальных библиотек, планировщиков, инструментов для машинного обучения и многого другое. Но в первую очередь эта система нужна, чтобы анализировать большие объемы данных за счет распределенных вычислений. 

Например, мы ищем самый популярный твит среди данных разбитых на тысяче серверов. На одном сервере мы бы просто сделали таблицу и все. Здесь мы можем притащить все данные к себе и пересчитать. Но это не правильно, потому что очень долго.

Поэтому есть Hadoop с парадигмами Map Reduce и фреймворком Spark. Вместо того, чтобы тянуть данные к себе, они отправляют к этим данным участки программы. Работа идет параллельно, в тысячу потоков. Потом получается выборка из тысячи серверов на основе которой можно выбрать самый популярный твит.

Map Reduce более старая парадигма, Spark — новее. С его помощью достают данные из кластеров, и в нем же строят модели машинного обучения. 

Какие профессии есть в сфере больших данных

Две основные профессии — это аналитики и дата-инженеры. 

Аналитик прежде всего работает с информацией. Его интересуют табличные данные, он занимается моделями. В его обязанности входит агрегация, очистка, дополнение и визуализация данных. То есть, аналитик в биг дата — это связующее звено между информацией в сыром виде и бизнесом. 

У аналитика есть два основных направления работы. Первое — он может преобразовывать полученную информацию, делать выводы и представлять ее в понятном виде.

Второе — аналитики разрабатывают приложения, которые будет работать и выдавать результат автоматически. Например, делать прогноз по рынку ценных бумаг каждый день. 

Дата инженер — это более низкоуровневая специальность. Это человек, который должен обеспечить хранение, обработку и доставку информации аналитику. Но там, где идет поставка и очистка — их обязанности могут пересекаться

Bigdata-инженеру достается вся черная работа. Если отказали системы, или из кластера пропал один из серверов — подключается он. Это очень ответственная и стрессовая работа. Система может отключиться и в выходные, и в нерабочее время, и инженер должен оперативно предпринять меры.

Это две основные профессии, но есть и другие. Они появляются, когда к задачам, связанным с искусственным интеллектом, добавляются алгоритмы параллельных вычислений. Например, NLP-инженер.

Это программист, который занимается обработкой естественного языка, особенно в случаях, когда надо не просто найти слова, а уловить смысл текста.

Такие инженеры пишут программы для чат-ботов и диалоговых систем, ых помощников и автоматизированных колл-центров. 

Есть ситуации, когда надо проклассифицировать миллиарды картинок, сделать модерацию, отсеять лишнее и найти похожее. Эти профессии больше пересекаются с компьютерным зрением. 

Сколько времени занимает обучение

У нас обучение идет полтора года. Они разбиты на шесть четвертей. В одних идет упор на программирование, в других — на работу с базами данных, в третьих — на математику.

В отличии, например, от факультета ИИ, здесь поменьше математики. Нет такого сильного упора на математический анализ и линейную алгебру. Знания алгоритмов распределенных вычислений нужны больше, чем принципы матанализа. 

Но полтора года достаточно для реальной работы с обработкой больших данных только если у человека был опыт работы с обычными данными и вообще в ИТ.

Остальным студентам после окончания факультета рекомендуется поработать с малыми и средними данными. Только после этого специалиста могут допустить к работе с большими.

После обучения стоит поработать дата-саентистом — поприменять машинное обучение на разных объемах данных.

Когда человек устраивается в большую компанию — даже если у него был опыт — чаще всего его не допустят до больших объемов данных сразу, потому что цена ошибки там намного выше. Ошибки в алгоритмах могут обнаружиться не сразу, и это приведет к большим потерям.

Какая зарплата считается адекватной для специалистов по большим данным

Сейчас есть очень большой кадровый голод среди дата-инженеров. Работа сложная, на человека ложится много ответственности, много стресса. Поэтому специалист со средним опытом получает около двухсот тысяч. Джуниор — от ста до двухсот. 

У аналитика данных стартовая зарплата может быть чуть меньше. Но там нет работы сверх рабочего времени, и ему не будут звонить в нерабочее время из-за экстренных случаев.

Как готовиться к собеседованиям

Не нужно углубляться только в один предмет. На собеседованиях задают вопросы по статистике, по машинному обучению, программированию. Могут спросить про структуры больших данных, алгоритмы, применение, технологии, про кейсы из реальной жизни: упали сервера, случилась авария — как устранять? Могут быть вопросы по предметной сфере — то, что ближе к бизнесу

И если человек слишком углубился в одну математику, и на собеседовании не сделал простое задание по программированию, то шансы на трудоустройство снижаются. Лучше иметь средний уровень по каждому направлению, чем показать себя хорошо в одном, а в другом провалиться полностью.

Есть список вопросов, которые задают на 80 процентах собеседований. Если это машинное обучение — обязательно спросят про градиентный спуск. Если статистика — нужно будет рассказать про корреляцию и проверку гипотез. По программированию скорее всего дадут небольшую задачу средней сложности. А на задачах можно легко набить руку — просто побольше их решать. 

Где набираться опыта самостоятельно

Python можно подтянуть на Питонтьютор, работы с базой данных — на SQL-EX. Там даются задачи, по которым на практике учатся делать запросы. 

Высшая математика — Mathprofi. Там можно получить понятную информацию по математическому анализу, статистике и линейной алгебре. А если плохо со школьной программой, то есть сайт youclever.org

Распределенные же вычисления тренировать получится только на практике. Во-первых для этого нужна инфраструктура, во-вторых алгоритмы могут быстро устаревать. Сейчас постоянно появляется что-то новое. 

Какие тренды обсуждает сообщество

Постепенно набирает силу еще одно направление, которое может привести к бурному росту количества данных — Интернет вещей (IoT). Большие данные такого рода поступают с датчиков устройств, объединенных в сеть, причем количество датчиков в начале следующего десятилетия должно достигнуть десятков миллиардов. 

Устройства самые разные — от бытовых приборов до транспортных средств и промышленных станков, непрерывный поток информации от которых потребует дополнительной инфраструктуры и большого числа высококвалифицированных специалистов. Это означает, что в ближайшее время возникнет острый дефицит дата инженеров и аналитиков больших данных.

Источник: https://geekbrains.ru/posts/gu_big_data_faculty

Все HR- сотруднику
Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: