O-Platinum-Partner-clr.png
Platinum Partner

Решение инфраструктурных задач в области Больших данных

Построение Data Lake, озера данных

Мы предлагаем заказчикам проектирование и развертывание хранилища слабо структурированных данных (Data Lake) на открытой платформе Hadoop. Такое решение наилучшим образом подходит для хранения и обработки больших массивов информации, которые неудобно помещать в традиционные реляционные системы баз данных (например, такие как СУБД Oracle). Data Lake обеспечивает эффективное с точки зрения стоимости и надежное хранение поступающих данных, может масштабироваться без остановки кластера до очень больших размеров (тысячи серверов, петабайты информации).

Решение Data Lake включает в себя:

  • программную платформу Hadoop (на основе дистрибутива CDH компании Cloudera)
  • кластер серверов хранения и обработки данных;
  • при необходимости:
    • средства интеграции с источниками и потребителями информации;
    • подсистему подготовки данных (Big Data Preparation);
    • подсистему управления метаданными;
    • подсистему расширенного анализа данных;
    • инструменты машинного обучения.

Снимок экрана 2019-04-25 в 14.56.42.png

В качестве платформы мы предлагаем своим Заказчикам на выбор несколько вариантов:

  • Программно-аппаратный комплекс Oracle Big Data Appliance.  Оптимальное решение для развертывания кластеров среднего и крупного масштаба.
  • Облачный сервис Oracle Big Data Cloud Service Compute Edition (BDCS CE). Решение начального уровня с минимальными затратами на развертывание.
  • Оптимизированные кластеры Hadoop на оборудовании ведущих поставщиков (Huawei, Lenovo, Cisco, Dell, HP).

Преимущества технологии Big Data

  • Возможность хранить большие объемы длительное время (5+ лет)
  • Возможность работать с любыми данными, в том числе неструктурированными
  • Пакетная обработка данных и обработка в реальном времени (RFID, Sensors, IoT)
  • Возможность анализировать любые данные из любых источников
  • Практически неограниченное горизонтальное масштабирование
  • Низкое ТСО – минимальная стоимость хранения для каждого терабайта информации при сохранении возможности оперативного доступа

Оптимизация производительности Hadoop кластера

Для решений Big Data находящихся в эксплуатации мы предлагаем услугу по настройке и технической поддержке кластера Hadoop.

Наши специалисты выполняют работы:

  • Обследование инфраструктуры кластера
  • Идентификация проблем с настройкой и взаимной интеграцией компонент (как на уровне оборудования, так и для программного обеспечения)
  • Оптимизация производительности кластера для сокращения времени решения задач Заказчика.

Построение Гетерогенного Хранилища Данных, унификация доступа к данным Hadoop и баз данных

Возможности технологии Hadoop предоставляют возможности по хранению огромных массивов данных с низкими затратами на инфраструктуру, при этом сохраняя возможность доступа к ним со стороны потребителей информации. В то же время, в каждой организации можно выделить относительно небольшой объем критичных данных, к которым требуется постоянный доступ с минимальными задержками – эта задача лучше всего решается средствами реляционных СУБД, таких как Oracle Database.

Мы предлагаем объединить преимущества данных подходов и организовать единое гетерогенное хранилище, которое реализует унифицированный доступ к данным независимо от места и способа их хранения. Для этого можно использовать механизм виртуализации доступа к данным на основе решения Oracle Big Data SQL, который отвязывает аналитическую модель или запросы к данным от конкретного места хранения, формата и структуры информации и вводит дополнительный уровень гибкости в отношении выбора места хранения информации, позволяя реализовать концепцию «холодных данных».

«Холодными» данными является некоторое подмножество строк из таблиц хранилища данных и слоя витрин, к которым не требуется постоянный доступ – например, исторические данные или данные аналитических исследований. Для оптимизации затрат такие данные переносятся из реляционной СУБД в кластер Hadoop, стоимость хранения в котором относительно невысока. При этом «горячие» данные, к которым необходим постоянный доступ (данные за последние месяцы, базовые сущности и т.п.), остаются в высокопроизводительной СУБД. Механизм виртуализации доступа обеспечивает потребителям возможность одновременного использования данных из обеих подсистем хранения (в рамках одного запроса) из единого интерфейса.


Использование гетерогенного хранилища позволяет:

  • Снизить затраты на хранение данных
  • Увеличить глубину хранения и детализацию первичных данных
  • Снижение времени и затрат для обеспечения доступа и анализа данных

Полезные ссылки