Hadoop-ning qaysi fayl formati ustunli ma'lumotlarni saqlash formatiga ruxsat beradi?
Hadoop-ning qaysi fayl formati ustunli ma'lumotlarni saqlash formatiga ruxsat beradi?

Video: Hadoop-ning qaysi fayl formati ustunli ma'lumotlarni saqlash formatiga ruxsat beradi?

Video: Hadoop-ning qaysi fayl formati ustunli ma'lumotlarni saqlash formatiga ruxsat beradi?
Video: Data Science with Python! Analyzing File Types from Avro to Stata 2024, Dekabr
Anonim

Ustunli fayl formatlari (Parket, RCFile )

Hadoop uchun fayl formatlaridagi so'nggi qizg'inlik - bu ustunli fayllarni saqlash. Asosan, bu shunchaki bir-biriga ulashgan ma'lumotlar qatorlarini saqlash o'rniga siz ustun qiymatlarini bir-biriga ulashgan holda saqlashingizni anglatadi. Shunday qilib, ma'lumotlar to'plamlari gorizontal va vertikal ravishda bo'linadi.

Bundan tashqari, Hadoop ma'lumotlarni qaysi formatda qayta ishlaydi?

Bir nechta bor Hadoop - maxsus fayl formatlar MapReduce bilan yaxshi ishlash uchun maxsus yaratilgan. Bular Hadoop - maxsus fayl formatlar faylga asoslangan ma'lumotlar ketma-ketlik fayllari, serializatsiya kabi tuzilmalar formatlar Avro va ustunli kabi formatlar RCFile va Parket kabi.

Bundan tashqari, ustunli fayl formati nima deb so'rashi mumkin. Qator va Ustunli Hive uchun saqlash. ORC bu a ustunli saqlash format Hivetables uchun Hadoop da ishlatiladi. Bu samarali fayl formati yozuvlar ko'p ustunlarni o'z ichiga olgan ma'lumotlarni saqlash uchun. Misol tariqasida veb-sayt faoliyati va ish faoliyatini tahlil qilish uchun Clickstream (veb) ma'lumotlarini keltirish mumkin.

Xuddi shunday, Hadoop-da fayl formati nima?

Asosiy fayl formatlari quyidagilar: matn format , Kalit-qiymat format , Ketma-ket format . Boshqa formatlar ishlatiladigan va yaxshi ma'lum bo'lgan: Avro, Parket, RC yoki Row-Columnar format , ORC yoki Optimallashtirilgan qator ustuni format.

Nima uchun ma'lumotlarni saqlashda ustunli fayl formatlari qo'llaniladi?

ORC qatorni saqlaydi ma'lumotlar ichida ustunli format . Bu qator- ustunli format siqish uchun juda samarali va saqlash . Bu aklaster bo'ylab parallel ishlov berishga imkon beradi va ustunli format tezroq ishlov berish va dekompressiya qilish uchun keraksiz ustunlarni o'tkazib yuborish imkonini beradi.

Tavsiya: