У сучасному цифровому середовищі дані стали одним із ключових ресурсів розвитку бізнесу, науки та державних систем. Обсяги інформації зростають експоненційно, а вимоги до швидкості її обробки та якості — постійно підвищуються. Саме тому інженерія даних перетворилася на фундаментальну складову ІТ-інфраструктури будь-якої організації.

Перша лекція курсу знайомить студентів з базовими поняттями, роллю та завданнями інженера даних, а також з архітектурними підходами до організації сховищ і потоків даних. У ній розглядаються ключові елементи сучасних дата-платформ: Data Lake, Data Warehouse та Lakehouse, їхні можливості, відмінності та сфери застосування. Окрему увагу приділено сучасним інструментам інженерії даних — системам ETL/ELT, фреймворкам розподіленої обробки даних (Apache Spark), засобам оркестрації (Apache Airflow) та потоковим платформам (Apache Kafka).

Матеріал цієї лекції створює основу для подальшого вивчення прикладних технологій, побудови конвеєрів даних, розробки аналітичних систем і роботи з великими масивами інформації. Вона формує у студентів цілісне розуміння того, як організовується життєвий цикл даних у реальних ІТ-системах, та готує їх до виконання практичних завдань курсу.

Інженерія даних (Data Engineering) — це галузь, що займається проєктуванням, створенням та підтримкою інфраструктури для збору, зберігання, перетворення й доставки даних. У сучасних ІТ-системах дані перетворилися на головний стратегічний актив, а інженер даних став критично важливою роллю у всіх сферах бізнесу — від фінансів і телекомунікацій до наукових досліджень, виробництва та штучного інтелекту