Airflow İle İlk Projem

Yunus Yarba
Apr 4, 2022

--

Merhaba, sizlere bu yazımda yeni öğrenmeye başladığım Airflow ile ilgili yaptığım örnekten bahsedeceğim. Aslında ETL pipeline tamamını Airflow üzerinde yapmak istiyordum, ancak ilk örnek sadece çıktıyı AWS Bucket yollarken kullanmış olayım. Ama Airflow ile ETL pipeline yaptıktan sonra yazısını yazacağım.

Genel Proje Kurgusu

Bu projede kullandığım dataya buradan ulaşabilirsiniz. Datayı Bucket üzerinden çektikten sonra Spark ile extract ve transform işlemini yaptıktan sonra Airflow üzerinden load ile datayı bucket yolladım.

Spark üzerinden AWS öncellike bağlantıyı sağladım.

Ardında da bucket içerisindeki tüm dosyaları belirlediğim path e çekme adımını gerçekleştirdim.

Çektiğim datayı analiz ederek Spark SQL ile analiz ederek anlamaya çalıştım. Hangi satıcıların teslimatı kuryeye verme süresini kaçırdığını tespit ettim. Elde ettiğim çıktıyı csv olarak kaydettikten sonra Airflow ile yeni bucket yükledim. Kodun tamamına buradan ulaşabilirsiniz.

Bu proje ile Airflow ve AWS S3 Bucket hem öğrenmeye hem de kullanmaya çalıştım. Keyif aldığım bir proje oldu, diğer yazılarda görüşmek üzere.

--

--