Spark Scala-da DataFrame nima?
Spark Scala-da DataFrame nima?

Video: Spark Scala-da DataFrame nima?

Video: Spark Scala-da DataFrame nima?
Video: 21. How to create dataframe in Spark using Scala 2024, Noyabr
Anonim

A Spark DataFrame agregatlarni filtrlash, guruhlash yoki hisoblash operatsiyalarini ta'minlaydigan va foydalanish mumkin bo'lgan nomli ustunlarga ajratilgan ma'lumotlarning taqsimlangan to'plamidir. Uchqun SQL. DataFrames tuzilgan ma'lumotlar fayllari, mavjud RDDlar, Hive-dagi jadvallar yoki tashqi ma'lumotlar bazalaridan tuzilishi mumkin.

Xuddi shunday, siz Scala-da DataFrame nima ekanligini so'rashingiz mumkin.

Nomlangan ustunlarga ajratilgan ma'lumotlar to'plami. A DataFrame Spark SQL da relyatsion jadvalga teng. dan ustunni tanlash uchun ma'lumotlar ramkasi , ilova usulidan foydalaning Skala va Java-da col.

Scala'da lit nima uchun ishlatiladi? ( yoqilgan hisoblanadi ishlatilgan ichida Uchqun literal qiymatni yangi ustunga aylantirish uchun.) Chunki concat ustunlarni argument sifatida oladi yoqilgan bo'lishi kerak ishlatilgan Bu yerga.

Yuqoridagilardan tashqari, uchqundagi RDD va DataFrame o'rtasidagi farq nima?

Spark RDD API-lar - An RDD "Resilient Distributed Datasets" degan ma'noni anglatadi. Bu faqat o'qiladigan bo'limlar to'plamidir. RDD ning asosiy ma'lumotlar tuzilmasi hisoblanadi Uchqun . Sparkdagi DataFrame ishlab chiquvchilarga ma'lumotlarning taqsimlangan to'plamiga tuzilmani yuklash imkonini beradi, bu esa yuqori darajadagi abstraktsiyaga imkon beradi.

Spark'dagi Column bilan nima qiladi?

Ustun bilan uchqun () funktsiyasi hisoblanadi Mavjud DataFrame ustunining nomini o'zgartirish, qiymatni o'zgartirish, ma'lumotlar turini o'zgartirish va shuningdek mumkin yangi ustun yaratish uchun foydalaniladi, bu postda, I bo'ladi bilan tez-tez ishlatiladigan DataFrame ustun operatsiyalari orqali sizga yo'l ko'rsating Skala va Pyspark misollari.

Tavsiya: