Scala-da RDD nima?
Scala-da RDD nima?

Video: Scala-da RDD nima?

Video: Scala-da RDD nima?
Video: Scala 3. OpenJDK vs Oracle JDK. Марсоход Чжужун и CopterPack. [MJC News #7] #ityoutubersru 2024, Noyabr
Anonim

Chidamli taqsimlangan ma'lumotlar to'plamlari ( RDD ) - bu Sparkning asosiy ma'lumotlar tuzilmasi. Bu ob'ektlarning o'zgarmas taqsimlangan to'plamidir. RDDlar har qanday turdagi Python, Java yoki o'z ichiga olishi mumkin Skala ob'ektlar, shu jumladan foydalanuvchi tomonidan belgilangan sinflar. Rasmiy ravishda, an RDD faqat oʻqish uchun moʻljallangan, boʻlingan yozuvlar toʻplamidir.

Shuningdek, savol tug'iladi: RDD va DataFrame o'rtasidagi farq nima?

RDD – RDD ko'plab mashinalarda tarqalgan ma'lumotlar elementlarining taqsimlangan to'plamidir ichida klaster. RDDlar ma'lumotlarni ifodalovchi Java yoki Scala ob'ektlari to'plamidir. DataFrame – A DataFrame nomli ustunlarga ajratilgan ma'lumotlarning taqsimlangan to'plamidir. Bu kontseptual jihatdan jadvalga teng a ichida relyatsion ma'lumotlar bazasi.

Bundan tashqari, RDD qanday taqsimlanadi? Chidamli Tarqalgan Maʼlumotlar toʻplami ( RDDlar ) Ular a tarqatilgan Klasterning turli mashinalarining xotirasida yoki disklarida saqlanadigan ob'ektlar to'plami. Bitta RDD bir nechta mantiqiy bo'limlarga bo'linishi mumkin, shunda bu bo'limlar klasterning turli mashinalarida saqlanishi va qayta ishlanishi mumkin.

Spark RDD qanday ishlaydi?

RDDlar ichida Uchqun bo'limlarni o'z ichiga olgan yozuvlar to'plamiga ega. RDDlar ichida Uchqun ma'lumotlarning kichik mantiqiy bo'laklariga bo'linadi - bo'limlar deb nomlanadi, harakat bajarilganda, har bir bo'lim uchun vazifa ishga tushadi. Bo'limlar RDDlar parallelizmning asosiy birliklari hisoblanadi.

Qaysi biri tezroq RDD yoki DataFrame?

RDD - oddiy guruhlash va jamlash amallarini bajarishda RDD API sekinroq. DataFrame - qidiruv tahlilini amalga oshirishda, ma'lumotlar bo'yicha jamlangan statistik ma'lumotlarni yaratishda; ma'lumotlar ramkalari bor Tezroq . RDD - Agar siz past darajadagi o'zgarishlar va harakatlarni xohlasangiz, biz foydalanamiz RDDlar . Bundan tashqari, bizga yuqori darajadagi abstraktsiyalar kerak bo'lganda foydalanamiz RDDlar.

Tavsiya: