- BURAN.GPOUP
- Решения
- Анализ больших данных
- Хранение и обработка больших данных
Решение инфраструктурных задач в области Больших данных
Построение Data Lake, озера данных
Мы предлагаем заказчикам проектирование и развертывание хранилища слабо структурированных данных (Data Lake) на открытой платформе Hadoop. Такое решение наилучшим образом подходит для хранения и обработки больших массивов информации, которые неудобно помещать в традиционные реляционные системы баз данных (например, такие как СУБД Oracle). Data Lake обеспечивает эффективное с точки зрения стоимости и надежное хранение поступающих данных, может масштабироваться без остановки кластера до очень больших размеров (тысячи серверов, петабайты информации).
Решение Data Lake включает в себя:
- программную платформу Hadoop (на основе дистрибутива CDH компании Cloudera)
- кластер серверов хранения и обработки данных;
- при необходимости:
- средства интеграции с источниками и потребителями информации;
- подсистему подготовки данных (Big Data Preparation);
- подсистему управления метаданными;
- подсистему расширенного анализа данных;
- инструменты машинного обучения.
В качестве платформы мы предлагаем своим Заказчикам на выбор несколько вариантов:
- Программно-аппаратный комплекс Oracle Big Data Appliance. Оптимальное решение для развертывания кластеров среднего и крупного масштаба.
- Облачный сервис Oracle Big Data Cloud Service Compute Edition (BDCS CE). Решение начального уровня с минимальными затратами на развертывание.
- Оптимизированные кластеры Hadoop на оборудовании ведущих поставщиков (Huawei, Lenovo, Cisco, Dell, HP).
Преимущества технологии Big Data
- Возможность хранить большие объемы длительное время (5+ лет)
- Возможность работать с любыми данными, в том числе неструктурированными
- Пакетная обработка данных и обработка в реальном времени (RFID, Sensors, IoT)
- Возможность анализировать любые данные из любых источников
- Практически неограниченное горизонтальное масштабирование
- Низкое ТСО – минимальная стоимость хранения для каждого терабайта информации при сохранении возможности оперативного доступа
Оптимизация производительности Hadoop кластера
Для решений Big Data находящихся в эксплуатации мы предлагаем услугу по настройке и технической поддержке кластера Hadoop.
Наши специалисты выполняют работы:
- Обследование инфраструктуры кластера
- Идентификация проблем с настройкой и взаимной интеграцией компонент (как на уровне оборудования, так и для программного обеспечения)
- Оптимизация производительности кластера для сокращения времени решения задач Заказчика.
Построение Гетерогенного Хранилища Данных, унификация доступа к данным Hadoop и баз данных
Возможности технологии Hadoop предоставляют возможности по хранению огромных массивов данных с низкими затратами на инфраструктуру, при этом сохраняя возможность доступа к ним со стороны потребителей информации. В то же время, в каждой организации можно выделить относительно небольшой объем критичных данных, к которым требуется постоянный доступ с минимальными задержками – эта задача лучше всего решается средствами реляционных СУБД, таких как Oracle Database.
Мы предлагаем объединить преимущества данных подходов и организовать единое гетерогенное хранилище, которое реализует унифицированный доступ к данным независимо от места и способа их хранения. Для этого можно использовать механизм виртуализации доступа к данным на основе решения Oracle Big Data SQL, который отвязывает аналитическую модель или запросы к данным от конкретного места хранения, формата и структуры информации и вводит дополнительный уровень гибкости в отношении выбора места хранения информации, позволяя реализовать концепцию «холодных данных».
«Холодными» данными является некоторое подмножество строк из таблиц хранилища данных и слоя витрин, к которым не требуется постоянный доступ – например, исторические данные или данные аналитических исследований. Для оптимизации затрат такие данные переносятся из реляционной СУБД в кластер Hadoop, стоимость хранения в котором относительно невысока. При этом «горячие» данные, к которым необходим постоянный доступ (данные за последние месяцы, базовые сущности и т.п.), остаются в высокопроизводительной СУБД. Механизм виртуализации доступа обеспечивает потребителям возможность одновременного использования данных из обеих подсистем хранения (в рамках одного запроса) из единого интерфейса.
Использование гетерогенного хранилища позволяет:
- Снизить затраты на хранение данных
- Увеличить глубину хранения и детализацию первичных данных
- Снижение времени и затрат для обеспечения доступа и анализа данных