Video: Spark Scala-da DataFrame nima?
2024 Muallif: Lynn Donovan | [email protected]. Oxirgi o'zgartirilgan: 2023-12-15 23:54
A Spark DataFrame agregatlarni filtrlash, guruhlash yoki hisoblash operatsiyalarini ta'minlaydigan va foydalanish mumkin bo'lgan nomli ustunlarga ajratilgan ma'lumotlarning taqsimlangan to'plamidir. Uchqun SQL. DataFrames tuzilgan ma'lumotlar fayllari, mavjud RDDlar, Hive-dagi jadvallar yoki tashqi ma'lumotlar bazalaridan tuzilishi mumkin.
Xuddi shunday, siz Scala-da DataFrame nima ekanligini so'rashingiz mumkin.
Nomlangan ustunlarga ajratilgan ma'lumotlar to'plami. A DataFrame Spark SQL da relyatsion jadvalga teng. dan ustunni tanlash uchun ma'lumotlar ramkasi , ilova usulidan foydalaning Skala va Java-da col.
Scala'da lit nima uchun ishlatiladi? ( yoqilgan hisoblanadi ishlatilgan ichida Uchqun literal qiymatni yangi ustunga aylantirish uchun.) Chunki concat ustunlarni argument sifatida oladi yoqilgan bo'lishi kerak ishlatilgan Bu yerga.
Yuqoridagilardan tashqari, uchqundagi RDD va DataFrame o'rtasidagi farq nima?
Spark RDD API-lar - An RDD "Resilient Distributed Datasets" degan ma'noni anglatadi. Bu faqat o'qiladigan bo'limlar to'plamidir. RDD ning asosiy ma'lumotlar tuzilmasi hisoblanadi Uchqun . Sparkdagi DataFrame ishlab chiquvchilarga ma'lumotlarning taqsimlangan to'plamiga tuzilmani yuklash imkonini beradi, bu esa yuqori darajadagi abstraktsiyaga imkon beradi.
Spark'dagi Column bilan nima qiladi?
Ustun bilan uchqun () funktsiyasi hisoblanadi Mavjud DataFrame ustunining nomini o'zgartirish, qiymatni o'zgartirish, ma'lumotlar turini o'zgartirish va shuningdek mumkin yangi ustun yaratish uchun foydalaniladi, bu postda, I bo'ladi bilan tez-tez ishlatiladigan DataFrame ustun operatsiyalari orqali sizga yo'l ko'rsating Skala va Pyspark misollari.
Tavsiya:
Scala'da SBT loyihasi nima?
Sbt Java-ning Maven va Ant-ga o'xshash Scala va Java loyihalari uchun ochiq manbali qurish vositasidir. Uning asosiy xususiyatlari quyidagilardir: Scala kodini kompilyatsiya qilish va ko'plab Scala test ramkalari bilan integratsiya qilish uchun mahalliy yordam. Doimiy kompilyatsiya, sinov va joylashtirish
DataFrame Loc nima?
Pandas DataFrame: loc() funksiyasi loc() funksiyasi qatorlar va ustunlar guruhiga yorliq(lar) yoki mantiqiy massiv orqali kirish uchun ishlatiladi. loc[] asosan yorliqga asoslangan, lekin mantiqiy massiv bilan ham ishlatilishi mumkin. . Dilimlanayotgan o'q bilan bir xil uzunlikdagi mantiqiy massiv, masalan. [To'g'ri, noto'g'ri, rost]
Scala-da RDD nima?
Resilient Distributed Datasets (RDD) - bu Spark-ning asosiy ma'lumotlar tuzilmasi. Bu ob'ektlarning o'zgarmas taqsimlangan to'plamidir. RDD har qanday turdagi Python, Java yoki Scala ob'ektlarini, shu jumladan foydalanuvchi tomonidan belgilangan sinflarni o'z ichiga olishi mumkin. Rasmiy ravishda RDD faqat o'qish uchun mo'ljallangan, bo'lingan yozuvlar to'plamidir
Scala-da nima bekor qilinadi?
Scala usulini bekor qilish. Agar pastki sinf ota-sinfda belgilangan usul bilan bir xil nomga ega bo'lsa, u usulni bekor qilish deb nomlanadi. Agar pastki sinf ota-sinfda belgilangan usul uchun ma'lum bir dasturni taqdim qilmoqchi bo'lsa, u ota-klassdagi usulni bekor qiladi
Scala-da yashirin sinf nima?
Scala 2.10 noaniq sinflar deb nomlangan yangi xususiyatni taqdim etdi. Yashirin sinf - bu yashirin kalit so'z bilan belgilangan sinf. Ushbu kalit so'z sinfning asosiy konstruktorini sinf doirasida bo'lganda yashirin konvertatsiya qilish uchun mavjud qiladi. SIP-13 da yashirin sinflar taklif qilingan