Hadoop-da kichik fayllar bilan bog'liq muammo nima?
Hadoop-da kichik fayllar bilan bog'liq muammo nima?

Video: Hadoop-da kichik fayllar bilan bog'liq muammo nima?

Video: Hadoop-da kichik fayllar bilan bog'liq muammo nima?
Video: How to Install Hadoop on Windows 2024, Noyabr
Anonim

1) Kichik fayl muammosi ichida HDFS : Ko'p saqlash kichik fayllar bular nihoyatda kichikroq Blok o'lchamini samarali boshqarish mumkin emas HDFS . O'qish kichik fayllar ma'lumotlar tugunidan ma'lumotlar tuguniga ko'p izlanishlar va ko'plab sakrashlarni o'z ichiga oladi, bu esa samarasiz ma'lumotlarni qayta ishlashga olib keladi.

Bundan tashqari, qaysi fayllar Hadoop-da kichik fayl muammolari bilan shug'ullanadi?

1) HAR ( Hadoop Arxiv) Fayllar bilan tanishtirildi kichik fayl muammosini hal qilish . HAR tepasida qatlamni joriy qildi HDFS uchun interfeysni ta'minlovchi fayl kirish. Foydalanish Hadoop arxiv buyrug'i, HAR fayllar yaratilgan, qaysi a ishlaydi MapReduce qadoqlash vazifasi fayllar ichiga arxivlanadi kichikroq soni HDFS fayllari.

Bundan tashqari, men HDFS-da turli xil blok o'lchamlarini ishlatadigan bir nechta faylga ega bo'lishim mumkinmi? Standart hajmi ning blok 64 MB ni tashkil qiladi. siz mumkin uni sizning talabingizga qarab o'zgartiring. Savolingizga kelsak, ha siz bir nechta fayllarni yaratishi mumkin turlicha blok o'lchamlari lekin real vaqtda bu bo'ladi ishlab chiqarishni qo'llab-quvvatlamaydi.

Bundan tashqari, nima uchun HDFS kichik fayllarni optimal tarzda ishlamaydi?

Bilan muammolar kichik fayllar va HDFS Har fayl , katalog va bloklash HDFS bu nom tugun xotirasida ob'ekt sifatida ifodalanadi, ularning har biri 150 baytni egallaydi, qoida tariqasida. Bundan tashqari, HDFS emas samarali kirishga qaratilgan kichik fayllar : bu hisoblanadi birinchi navbatda katta hajmdagi oqimli kirish uchun mo'ljallangan fayllar.

Nima uchun Hadoop sekin?

Sekin Ushbu diskni qayta ishlash tezligi vaqt talab etadi va bu butun jarayonni juda yaxshi qiladi sekin . Agar Hadoop kichik hajmdagi ma'lumotlarni qayta ishlaydi, bu juda sekin qiyosiy. Bu katta ma'lumotlar to'plamlari uchun ideal. Sifatida Hadoop yadroda ommaviy ishlov berish dvigateliga ega, uning real vaqt rejimida ishlash tezligi kamroq.

Tavsiya: