និមិត្តសញ្ញា VAST

វេទិកាផ្ទុកទិន្នន័យ VAST S3

VAST-S3-Storage-Data-Platform-product

ព័ត៌មានអំពីផលិតផល

លក្ខណៈបច្ចេកទេស

  • ឈ្មោះផលិតផល៖ ឧបករណ៍ធ្វើចំណាកស្រុក VAST S3
  • កំណែ៖ 1.0
  • ទស្សនិកជនគោលដៅ៖ វិស្វករទិន្នន័យ ស្ថាបត្យករទិន្នន័យ អ្នកគ្រប់គ្រងប្រព័ន្ធ
  • ភាពឆបគ្នា៖ ការកំណត់រចនាសម្ព័ន្ធផ្ទុក Hadoop, Hive, S3

ការណែនាំអំពីការប្រើប្រាស់ផលិតផល

ជម្រើស 1: ការផ្ទេរទិន្នន័យទៅ S3 ជាមួយ DistCp ដោយប្រើអាដាប់ទ័រ S3A

  • ករណីប្រើប្រាស់៖ ល្អបំផុតសម្រាប់សេណារីយ៉ូផ្ទេរទិន្នន័យភាគច្រើន។
  • គោលបំណង៖ ផ្លាស់ទីទិន្នន័យឆៅយ៉ាងច្រើនពី HDFS ទៅ S3 ប្រកបដោយប្រសិទ្ធភាព។

ជំហាន៖

  1. កំណត់រចនាសម្ព័ន្ធ /etc/hadoop/conf/core-site.xml៖
                    fs.s3a.access.key RBY76D9A.. fs.s3a.secret.key aBa6Odt/u/ua2J3ACABpa2.. fs.s3a.path.style.access true fs.s3.enable-storage-classes true fs.s3a.connection.sslends.enabled http://vippool.yourvastcluster.com
    

    សូមប្រាកដថា fs.s3a.endpoint គឺជាឈ្មោះ DNS សម្រាប់ VIP-pool ។

  2. ប្រតិបត្តិពាក្យបញ្ជា DistCp៖
    hadoop distcp hdfs://your-hdfs-path/target_data/ s3a://vast-hadoop-s3-bucket/target_data
  3. ផ្ទៀងផ្ទាត់ការផ្ទេរទិន្នន័យ៖
    hdfs dfs -ls s3a://vast-hadoop-s3-bucket/target_data

ជម្រើសទី 2៖ ការធ្វើចំណាកស្រុក Hive Tables និងការប្រើប្រាស់ Hive-Meta ជាមួយ S3A

  • ករណីប្រើប្រាស់៖ ល្អបំផុតសម្រាប់រក្សាទុកទិន្នន័យមេតាតារាង Hive។
  • គោលបំណង៖ ផ្ទេររចនាសម្ព័ន្ធតារាង Hive គ្រោងការណ៍ និងទិន្នន័យមេតាពី HDFS ទៅ S3 ។

សំណួរដែលសួរញឹកញាប់ (FAQ)

  • សំណួរ៖ តើអ្នកណាជាទស្សនិកជនគោលដៅសម្រាប់ឧបករណ៍នេះ?
    A: វិស្វករទិន្នន័យ ស្ថាបត្យករទិន្នន័យ និងអ្នកគ្រប់គ្រងប្រព័ន្ធគ្រប់គ្រងការផ្ទុកទិន្នន័យ និងការធ្វើចំណាកស្រុកនៅក្នុងបរិស្ថាន Hadoop ។
  • សំណួរ៖ តើអ្វីជាតម្រូវការជាមុនសម្រាប់ការប្រើប្រាស់ឧបករណ៍ធ្វើចំណាកស្រុកនេះ?
    A: ការស្គាល់ជាមួយការកំណត់រចនាសម្ព័ន្ធផ្ទុក Hadoop, Hive និង S3 ត្រូវបានណែនាំ។

មគ្គុទ្ទេសក៍ការអនុវត្តល្អបំផុតសម្រាប់ការផ្ទេរទិន្នន័យ HDFS និងតារាង Hive ទៅ VAST S3

អរូបី

មគ្គុទ្ទេសក៍នេះផ្តល់នូវភាពទូលំទូលាយview នៃការអនុវត្តល្អបំផុតសម្រាប់ការផ្ទេរទិន្នន័យពីតារាង Hive/HDFS ប្រពៃណីទៅកន្លែងផ្ទុក VAST S3 ដោយប្រើអាដាប់ទ័រ S3A ។ វាផ្តល់នូវជម្រើសជាច្រើនដែលតម្រូវទៅតាមករណីប្រើប្រាស់ផ្សេងៗគ្នា រួមទាំងការផ្ទេរទិន្នន័យច្រើន រក្សាទិន្នន័យមេតាតារាង Hive ធានានូវភាពស៊ីសង្វាក់គ្នានៃទិន្នន័យ និងកាត់បន្ថយពេលវេលារងចាំ។ ដោយធ្វើតាមជំហានដែលបានរៀបរាប់នៅក្នុងផ្នែកដែលពាក់ព័ន្ធ វិស្វករទិន្នន័យ និងអ្នកគ្រប់គ្រងអាចជ្រើសរើសវិធីធ្វើចំណាកស្រុកដែលសមរម្យបំផុតដោយផ្អែកលើតម្រូវការជាក់លាក់របស់ពួកគេ ដោយធានាបាននូវការផ្ទេរទិន្នន័យប្រកបដោយប្រសិទ្ធភាពជាមួយនឹងផលប៉ះពាល់តិចតួចបំផុតលើប្រតិបត្តិការដែលកំពុងដំណើរការ។ ការណែនាំនេះរួមបញ្ចូលទាំងតម្រូវការជាមុន ជំហានការធ្វើចំណាកស្រុកលម្អិត និងគន្លឹះបង្កើនប្រសិទ្ធភាព ដើម្បីជួយសម្រួលដល់ដំណើរការធ្វើចំណាកស្រុកដោយរលូន និងមានប្រសិទ្ធភាព។

ទស្សនិកជន
មគ្គុទ្ទេសក៍នេះត្រូវបានបម្រុងទុកសម្រាប់វិស្វករទិន្នន័យ ស្ថាបត្យករទិន្នន័យ និងអ្នកគ្រប់គ្រងប្រព័ន្ធដែលទទួលខុសត្រូវក្នុងការគ្រប់គ្រងការផ្ទុកទិន្នន័យ និងការផ្ទេរទិន្នន័យនៅក្នុងបរិស្ថាន Hadoop ។ ការស្គាល់ជាមួយការកំណត់រចនាសម្ព័ន្ធផ្ទុក Hadoop, Hive និង S3 ត្រូវបានណែនាំ។

តម្រូវការជាមុន

  • អ្នកប្រើប្រាស់ VAST ដែលមានការអនុញ្ញាតសមរម្យ & ការចូលប្រើ S3 សោសម្ងាត់៖ គ្រប់គ្រងអ្នកប្រើប្រាស់
  • S3 Bucket នៅលើ VAST cluster៖ ការគ្រប់គ្រងធុង
  • គោលការណ៍កំណត់អត្តសញ្ញាណដែលបានកំណត់សម្រាប់ម្ចាស់ធុង៖ ការគ្រប់គ្រងការចូលប្រើ S3
  • ការតភ្ជាប់បណ្តាញរវាង VAST VIPs និងក្រុម Hadoop៖ ការកំណត់រចនាសម្ព័ន្ធបណ្តាញ
  • Hadoop បានដំឡើងនៅក្នុងបរិវេណជាមួយ DistCp

ជម្រើសចំណាកស្រុក

ជម្រើសទី 1៖ ការផ្ទេរទិន្នន័យទៅ S3 ជាមួយ DistCp ដោយប្រើអាដាប់ទ័រ S3A

ប្រើករណី
ជម្រើសនេះគឺល្អសម្រាប់សេណារីយ៉ូផ្ទេរទិន្នន័យភាគច្រើន ដែលគោលដៅចម្បងគឺដើម្បីផ្លាស់ទីទិន្នន័យឆៅមួយចំនួនធំពី HDFS ទៅ S3 ប្រកបដោយប្រសិទ្ធភាព។ វាសមស្របនៅពេលរក្សាទុកទិន្នន័យមេតាតារាង Hive មិនមែនជាកង្វល់ទេ។

គោលបំណង
គោលបំណងសំខាន់នៃការប្រើប្រាស់ DistCp (ច្បាប់ចម្លងចែកចាយ) ជាមួយនឹងអាដាប់ទ័រ S3A គឺដើម្បីប្រើប្រាស់សមត្ថភាពចម្លងស្របរបស់វា ដើម្បីផ្ទេរទិន្នន័យពី HDFS ទៅ S3 យ៉ាងរហ័ស និងមានប្រសិទ្ធភាព។ វិធីសាស្រ្តនេះធានាថាទិន្នន័យត្រូវបានផ្លាស់ទីក្នុងលក្ខណៈដែលអាចធ្វើមាត្រដ្ឋានបាន និងរឹងមាំ។

ជំហាន

  1. កំណត់រចនាសម្ព័ន្ធ /etc/hadoop/conf/core-site.xml: ធ្វើបច្ចុប្បន្នភាពការកំណត់រចនាសម្ព័ន្ធ Hadoop file ដើម្បីរួមបញ្ចូលព័ត៌មានបញ្ជាក់អត្តសញ្ញាណ S3A និងព័ត៌មានចំណុចបញ្ចប់។
    • fs.s3a.access.key
    • RBY76D9A..
    • fs.s3a.secret.key
    • aBa6Odt/u/ua2J3ACABpa2..
    • fs.s3a.path.style.access
    • ពិត
    • fs.s3.enable-storage-classes
    • ពិត
    • fs.s3a.connection.ssl.បានបើក
    • មិនពិត
    • fs.s3a.endpoint
    • http://vippool.yourvastcluster.com</value>
    • សូមប្រាកដថា fs.s3a.endpoint គឺជាឈ្មោះ DNS សម្រាប់ VIP-pool ដូច្នេះតុល្យភាពនឹងត្រូវបានធ្វើឱ្យសកម្មរវាង CNODE's ។
  2. ប្រតិបត្តិពាក្យបញ្ជា DistCp៖ ប្រើពាក្យបញ្ជា DistCp ដើម្បីចម្លងទិន្នន័យពីផ្លូវ HDFS ទៅកាន់ធុង S3 គោលដៅ។ hadoop distcp hdfs://your-hdfs-path/target_data/ s3a://vast-hadoop-s3-bucket/target_data
  3. ផ្ទៀងផ្ទាត់ការផ្ទេរទិន្នន័យ៖ បន្ទាប់ពីការផ្ទេរ សូមផ្ទៀងផ្ទាត់ថាទិន្នន័យត្រូវបានចម្លងត្រឹមត្រូវដោយរាយបញ្ជីមាតិកានៃធុង S3 ។
    hdfs dfs -ls s3a://vast-hadoop-s3-bucket/target_data

ជម្រើស 2៖ ការធ្វើចំណាកស្រុក Hive Tables និងការប្រើប្រាស់ Hive-Meta ជាមួយ S3A

ករណីប្រើប្រាស់៖
ជម្រើសនេះគឺល្អសម្រាប់សេណារីយ៉ូ ដែលវាមានសារៈសំខាន់ក្នុងការផ្ទេរតារាង Hive រួមជាមួយនឹងទិន្នន័យមេតារបស់ពួកគេ ដើម្បីធានាថា គ្រោងការណ៍ Hive និងនិយមន័យតារាងត្រូវបានរក្សាទុក។ វាសមស្របសម្រាប់ការរក្សាភាពសុចរិត និងមុខងាររបស់តារាង Hive បន្ទាប់ពីការធ្វើចំណាកស្រុកទៅ S3។

គោលបំណង៖
គោលបំណងចម្បងនៃវិធីសាស្រ្តនេះគឺដើម្បីផ្លាស់ប្តូររចនាសម្ព័ន្ធតារាង Hive យ៉ាងរលូន រួមទាំងនិយមន័យគ្រោងការណ៍ និងទិន្នន័យមេតាពី HDFS ទៅ S3 ។ នេះធានាថាតារាង Hive នៅតែអាចសាកសួរបាន និងរក្សារចនាសម្ព័ន្ធដែលបានកំណត់របស់ពួកគេនៅក្នុងបរិយាកាសផ្ទុកថ្មី។

ការកំណត់រចនាសម្ព័ន្ធ Hive S3A
ជំហាន៖
ជំនួស ជាមួយនឹងឈ្មោះធុង S3A របស់អ្នក។ អតីតample បង្កើតមូលដ្ឋានទិន្នន័យ Hive ដែលមានឈ្មោះថា mydb និងតារាងឈ្មោះ mytable រក្សាទុកជាអត្ថបទ file នៅក្នុង S3A ។

  1. កំណត់រចនាសម្ព័ន្ធ Hive សម្រាប់ S3A៖ កំណត់ឧបករណ៍ភ្ជាប់ S3A ជាលំនាំដើម fileប្រព័ន្ធសម្រាប់ Hive ។ កំណត់ fs.defaultFS=s3a:// /
  2. បង្កើតមូលដ្ឋានទិន្នន័យ Hive៖ បង្កើតមូលដ្ឋានទិន្នន័យ Hive ថ្មីមួយដែលនឹងរក្សាទុកតារាងដែលបានផ្ទេរ។ បង្កើតមូលដ្ឋានទិន្នន័យ mydb;
  3. បង្កើតតារាង Hive ក្នុង S3៖ បង្កើតតារាងមួយក្នុងមូលដ្ឋានទិន្នន័យ Hive ដែលយោងទិន្នន័យដែលរក្សាទុកក្នុង S3 ។ បង្កើតតារាង mydb.mytable (col1 INT, col2 STRING)
    រក្សាទុកជាអត្ថបទFILE
    ទីតាំង 's3a:// /mytable/';
  4. ផ្ទៀងផ្ទាត់ការបង្កើតតារាង៖ ត្រូវប្រាកដថាតារាងត្រូវបានបង្កើតដោយជោគជ័យ ហើយកំពុងចង្អុលទៅទីតាំង S3 ត្រឹមត្រូវ។
    បង្ហាញតារាង;

ដោយធ្វើតាមជំហានទាំងនេះ អ្នកអាចផ្ទេរតារាង Hive ទៅ S3 ប្រកបដោយប្រសិទ្ធភាព ដោយរក្សាគ្រោងការណ៍ និងទិន្នន័យមេតា ហើយធានាថាតារាងនៅតែមានមុខងារ និងអាចសួរបាននៅក្នុងទីតាំងថ្មីរបស់វា។ វិធីសាស្រ្តនេះគឺចាំបាច់សម្រាប់សេណារីយ៉ូដែលការរក្សារចនាសម្ព័ន្ធឡូជីខលនៃតារាង Hive គឺមានសារៈសំខាន់។

ជាងview - ការធ្វើចំណាកស្រុកដោយគ្មានពេលទំនេរ

ប្រើករណី:
វិធីសាស្រ្តនេះគឺល្អសម្រាប់សេណារីយ៉ូដែលទិន្នន័យត្រូវផ្ទេរទៅទីតាំងផ្ទុកថ្មីដោយមិនបង្កឱ្យមានការផ្អាក ឬរំខានដល់ប្រតិបត្តិការដែលកំពុងបន្ត។

គោលបំណង៖
ដើម្បីផ្ទេរទិន្នន័យពីទីតាំងផ្ទុកមួយទៅកន្លែងមួយទៀតដោយរលូន ធានានូវភាពអាចរកបានជាបន្តបន្ទាប់នៃទិន្នន័យក្នុងអំឡុងពេលដំណើរការផ្ទេរ។

ជំហាន

  1. បង្កើតតារាងថ្មី៖ បង្កើតតារាងថ្មីនៅក្នុងទីតាំងផ្ទុកដែលចង់បានដោយប្រើគ្រោងការណ៍ដូចគ្នានឹងតារាងដើម។ បង្កើតតារាងថ្មីដូចជា mytable;
  2. ចម្លងទិន្នន័យទៅតារាងថ្មី៖ ប្រើសេចក្តីថ្លែងការណ៍ INSERT INTO ដើម្បីចម្លងទិន្នន័យពីតារាងដើមទៅតារាងថ្មី។
    បញ្ចូលទៅក្នុងតារាងថ្មី SELECT * ពី mytable;
  3. ធ្វើបច្ចុប្បន្នភាពសេចក្តីយោងទៅតារាងដើម៖ នៅពេលដែលទិន្នន័យត្រូវបានចម្លង សូមធ្វើបច្ចុប្បន្នភាពសេចក្តីយោងណាមួយទៅកាន់តារាងដើម ដើម្បីចង្អុលទៅតារាងថ្មី។
    ALTER TABLE mytable_external SET LOCATION 'ទីតាំងថ្មី' ;
  4. ទម្លាក់តារាងដើម៖ បន្ទាប់ពីធានាថាឯកសារយោងទាំងអស់ត្រូវបានធ្វើបច្ចុប្បន្នភាព ហើយតារាងថ្មីដំណើរការបានត្រឹមត្រូវ សូមទម្លាក់តារាងដើម ដើម្បីបង្កើនធនធាន។
    ទម្លាក់តារាង mytable;

ដោយធ្វើតាមជំហានទាំងនេះ អ្នកអាចផ្ទេរតារាង Apache Hive របស់អ្នកពីទីតាំងផ្ទុកមួយទៅទីតាំងមួយទៀតដោយមិនមានពេលវេលារងចាំណាមួយឡើយ ដោយធានាបាននូវទិន្នន័យជាបន្តបន្ទាប់ និងការរំខានតិចតួចបំផុតចំពោះប្រតិបត្តិការរបស់អ្នក។

ជម្រើសទី 2a៖ ការធ្វើចំណាកស្រុកដោយប្រើប្រាស់រូបភាព Hive Snapshots (CTAS)

ប្រើករណី:
វិធីសាស្រ្តនេះគឺល្អសម្រាប់សេណារីយ៉ូដែលទាមទារការថតចម្លងទិន្នន័យស្របគ្នាតាមប្រតិបត្តិការ។ វាមានប្រយោជន៍សម្រាប់ការផ្ទេរទិន្នន័យ ការបម្រុងទុក ឬការវិភាគលើរូបថតដែលមានស្ថេរភាព។

គោលបំណង៖
គោលបំណងចម្បងនៃ CTAS (Create Table As Select) គឺដើម្បីបង្កើតរូបថតស្របគ្នានៃទិន្នន័យនៅចំណុចជាក់លាក់មួយក្នុងពេលវេលា។ វាធានាថាការផ្លាស់ប្តូរទាំងអស់ចំពោះទិន្នន័យរហូតដល់ចំណុចនៃរូបថតត្រូវបានរួមបញ្ចូល ដោយផ្តល់នូវស្ថានភាពទិន្នន័យដែលមានស្ថេរភាពសម្រាប់ការធ្វើចំណាកស្រុក ឬការវិភាគ។

ជំហាន:

  1. បង្កើត Snapshot (តារាងប្រភព): បង្កើតរូបថតនៃតារាងប្រភពដោយប្រើ CREATE TABLE AS SELECT statement។ ពាក្យបញ្ជានេះបង្កើតហាងតុថ្មី _sales_snap ហើយបញ្ចូលវាជាមួយទិន្នន័យពី store _ sales ។ វាធានាថាការផ្លាស់ប្តូរណាមួយដែលបានធ្វើឡើងចំពោះហាង _ តារាងលក់បន្ទាប់ពីចំណុចនេះមិនប៉ះពាល់ដល់ដំណើរការផ្លាស់ប្តូរទេ។
    បង្កើត TABLE store_sales_snap AS SELECT * FROM store_sales;
  2. នាំចេញរូបថត (តារាងប្រភព)៖ នាំចេញទិន្នន័យរូបថតទៅទីតាំង S3 ដែលចង់បានដោយប្រើពាក្យបញ្ជា INSERT OVERWRITE DIRECTORY ។ វាផ្លាស់ទីទិន្នន័យពី HDFS ទៅធុង VAST S3 ដែលជាកន្លែងផ្ទុកទិសដៅ។ បញ្ចូលលើសលុប 's3://my-s3-bucket/export -path' SELECT * FROM store_sales_snap;
  3. ស្តារតារាង (តារាងទិសដៅ): បង្កើតតារាងថ្មីក្នុងទិសដៅ ហើយចង្អុលវាទៅទិន្នន័យដែលបាននាំចេញនៅលើ S3 ។ CREATE TABLE … LIKE សេចក្តីថ្លែងការណ៍បង្កើតទិសដៅតារាងថ្មី _ ហាង _ ការលក់ជាមួយនឹងគ្រោងការណ៍ដូចគ្នានឹងហាង _ ការលក់។ តារាង ALTER … សេចក្តីថ្លែងការណ៍ SET LOCATION ផ្លាស់ប្តូរទីតាំងគោលដៅ _ ហាង _ ការលក់ទៅផ្លូវ S3 ដែលទិន្នន័យរូបថតត្រូវបាននាំចេញ។
    បង្កើត TABLE destination_store_sales ដូចហាង_sales; ALTER TABLE destination_store_sales SET LOCATION 's3://my-s3-bucket/export-path';

នៅក្នុងដំណើរការនៃការធ្វើចំណាកស្រុកនេះ រូបថតនៃតារាងប្រភព (ហាង _ ការលក់) ត្រូវបានបង្កើត និងនាំចេញទៅកាន់ធុងទឹក S3 ។ ក
តារាងថ្មី (ទិសដៅ _ ហាង _ ការលក់) បន្ទាប់មកត្រូវបានបង្កើតនៅគោលដៅជាមួយនឹងគ្រោងការណ៍ដូចគ្នា ហើយត្រូវបានភ្ជាប់ទៅទិន្នន័យដែលបាននាំចេញនៅលើ S3 ។ វិធីសាស្រ្តនេះធានានូវការធ្វើចំណាកស្រុកស្រប និងដាច់ដោយឡែកនៃទិន្នន័យពីប្រភពទៅគោលដៅ។

ជម្រើសទី 2b៖ ការធ្វើចំណាកស្រុកដោយប្រើ S3 Temp Bucket

ករណីប្រើប្រាស់៖
វិធីសាស្រ្តនេះគឺល្អសម្រាប់សេណារីយ៉ូដែលអ្នកត្រូវការដើម្បីធានាឱ្យមានភាពស៊ីសង្វាក់គ្នានៃទិន្នន័យក្នុងអំឡុងពេលនៃការធ្វើចំណាកស្រុកដោយប្រើធុង S3 បណ្តោះអាសន្នជាទីតាំងផ្ទុកអន្តរការី។

គោលបំណង៖
គោលបំណងចម្បងនៃការប្រើប្រាស់ធុង S3 បណ្តោះអាសន្នគឺដើម្បីផ្តល់ជាtagតំបន់ដែលធានានូវភាពស៊ីសង្វាក់គ្នានៃទិន្នន័យក្នុងអំឡុងពេលដំណើរការផ្ទេរទិន្នន័យពី HDFS ទៅ VAST S3 ។

ជំហាន៖

  1. នាំចេញតារាងប្រភពទៅធុង S3 បណ្តោះអាសន្ន៖ ចម្លងទិន្នន័យពីហាង _ តារាងលក់នៅលើ HDFS ទៅទីតាំងបណ្តោះអាសន្ននៅលើ S3 ។ នេះត្រូវបានធ្វើដោយប្រើសេចក្តីថ្លែងការណ៍តារាងនាំចេញ។
    នាំចេញតារាងហាង_លក់ទៅ 's3://your_temp_bucket/store_sales_temp';
  2. បង្កើតតារាងគោលដៅក្នុងសំបុក៖ កំណត់គ្រោងការណ៍ និងទីតាំងសម្រាប់តារាងគោលដៅនៅលើ S3 ។ ប្រើ
    បង្កើតសេចក្តីថ្លែងការណ៍តារាងខាងក្រៅ ដើម្បីបង្កើតគ្រោងការណ៍តារាងស្រដៀងនឹងតារាងលក់ _ តារាងលក់ និងបញ្ជាក់ទ្រង់ទ្រាយផ្ទុកទិន្នន័យ (ឧ. ប៉ារឃ្យូត)។
    បង្កើតតារាងខាងក្រៅ store_sales_s3 (
    • ss_sold_date_sk INT,
    • ss_sold_time_sk INT,
    • ss_item_sk INT,
    • ss_customer_sk INT,
    • ss_cdemo_sk INT,
    • ss_hdemo_sk INT,
    • ss_addr_sk INT,
    • ss_store_sk INT,
    • ss_promo_sk INT,
    • ss_ticket_number INT,
    • ss_quantity INT,
    • ss_wholesale_cost DECIMAL(7,2),
    • ss_list_price DECIMAL(7,2),
    • ss_sales_price DECIMAL(7,2),
    • ss_ext_discount_amt DECIMAL(7,2),
    • ss_ext_sales_price DECIMAL(7,2),
    • ss_ext_wholesale_cost DECIMAL(7,2),
    • ss_ext_list_price DECIMAL(7,2),
    • ss_ext_tax DECIMAL(7,2),
    • ss_coupon_amt DECIMAL(7,2),
    • ss_net_paid DECIMAL(7,2),
    • ss_net_paid_inc_tax DECIMAL(7,2),
    • ss_net_profit DECIMAL(7,2)
    • រក្សាទុកជា parquet
    • LOCATION 's3://your_target_bucket/store_sales_s3';
  3. នាំចូលទិន្នន័យពីធុង S3 បណ្តោះអាសន្នទៅកាន់តារាងគោលដៅ៖ បញ្ចូលតារាង _sales_s3 របស់ហាងជាមួយនឹងទិន្នន័យពីធុង S3 បណ្តោះអាសន្ន។ ប្រើសេចក្តីថ្លែងការណ៍ INSERT OVERWRITE TABLE ដើម្បីចម្លងទិន្នន័យពីទីតាំង S3 បណ្តោះអាសន្នទៅកាន់តារាង _sales_s3 របស់ហាងនៅលើ S3 ។
    បញ្ចូលលើសលុបតារាង store_sales_s3 ជ្រើសរើស * ពី 's3://your_temp_bucket/store_sales_temp';
  4. ទម្លាក់ធុង S3 បណ្តោះអាសន្ន និងខ្លឹមសាររបស់វា៖ សម្អាតដោយលុបទិន្នន័យបណ្តោះអាសន្ន។ បន្ទាប់ពីការផ្ទេរទិន្នន័យត្រូវបានបញ្ចប់ ការផ្ទុកបណ្តោះអាសន្នលែងត្រូវការទៀតហើយ។ ប្រើ Hadoop file ពាក្យបញ្ជាប្រព័ន្ធដើម្បីយកធុង S3 បណ្តោះអាសន្នចេញ។ hadoop fs -rm -r s3a://your_temp_bucket/store_sales_temp

វិធីសាស្រ្តនេះជួយសម្រួលដល់ការផ្ទេរទិន្នន័យប្រកបដោយប្រសិទ្ធភាពពី HDFS ទៅ S3 ដោយប្រើធុង S3 បណ្តោះអាសន្នជាការផ្ទុកអន្តរការី។ វាធានានូវភាពស៊ីសង្វាក់គ្នានៃទិន្នន័យ និងអនុញ្ញាតឱ្យមានការកំណត់គ្រោងការណ៍ និងទ្រង់ទ្រាយផ្ទុកនៅក្នុងទីតាំងគោលដៅ។

ជម្រើសទី 2 គ៖ ការផ្ទេរទិន្នន័យតារាងដោយប្រើសេចក្តីថ្លែងការណ៍ INSERT សាមញ្ញ

ប្រើករណី
វិធីសាស្រ្តនេះគឺល្អសម្រាប់ការធ្វើចំណាកស្រុកត្រង់ដែលទិន្នន័យត្រូវការចម្លងពីតារាងប្រភពនៅលើ HDFS ទៅកាន់តារាងគោលដៅនៅលើ VAST S3 ដោយមិនចាំបាច់មានជំហានមធ្យម ឬការកំណត់រចនាសម្ព័ន្ធស្មុគស្មាញ។

គោលបំណង:
គោលបំណងចម្បងគឺដើម្បីបង្កើតតារាងថ្មីនៅលើ VAST S3 និងចម្លងទិន្នន័យពីតារាងប្រភពនៅលើ HDFS ដោយផ្ទាល់ដោយប្រើសេចក្តីថ្លែងការណ៍ Hive SQL សាមញ្ញ។

ជំហាន:

  1. បង្កើតតារាងគោលដៅនៅលើ S3៖ បង្កើតតារាងថ្មីនៅលើ VAST S3 ជាមួយនឹងគ្រោងការណ៍ដូចគ្នានឹងតារាងប្រភពនៅលើ HDFS ។
    ប្រើសេចក្តីថ្លែងការណ៍ CREATE EXTERNAL TABLE ដើម្បីកំណត់គ្រោងការណ៍តារាង និងបញ្ជាក់ទ្រង់ទ្រាយផ្ទុកទិន្នន័យ (ឧទាហរណ៍ PARQUET) និងទីតាំងនៅលើ S3 ។
    បង្កើតតារាងខាងក្រៅ store_sales_s3 (
    • ss_sold_date_sk INT,
    • ss_sold_time_sk INT,
    • ss_item_sk INT,
    • ss_customer_sk INT,
    • ss_cdemo_sk INT,
    • ss_hdemo_sk INT,
    • ss_addr_sk INT,
    • ss_store_sk INT,
    • ss_promo_sk INT,
    • ss_ticket_number INT,
    • ss_quantity INT
    • )
    • រក្សាទុកជា parquet
    • LOCATION 's3://your_target_bucket/store_sales_s3';
  2. ចម្លងទិន្នន័យពីតារាងប្រភពទៅតារាងគោលដៅ៖ ប្រើសេចក្តីថ្លែងការណ៍ INSERT INTO ដើម្បីចម្លងទិន្នន័យពីតារាងប្រភពនៅលើ HDFS ទៅកាន់តារាងគោលដៅនៅលើ S3 ។
    បញ្ចូលទៅក្នុង store_sales_s3 SELECT * FROM store_sales;
  3. ធ្វើឱ្យការផ្ទេរទិន្នន័យមានសុពលភាព៖ ត្រូវប្រាកដថាទិន្នន័យត្រូវបានសរសេរដោយជោគជ័យទៅកាន់តារាងគោលដៅនៅលើ S3 ។ ប្រើ​សំណួរ SELECT COUNT(*) ដើម្បី​ទៅ​យក​ចំនួន​ជួរ​ដេក​ក្នុង​តារាង​គោលដៅ ហើយ​ប្រៀបធៀប​វា​ជាមួយ​តារាង​ប្រភព​ដើម្បី​បញ្ជាក់​ថា​កំណត់ត្រា​ទាំងអស់​ត្រូវ​បាន​ migrated.ds

ដោយប្រើសេចក្តីថ្លែងការណ៍ CREATE TABLE សាមញ្ញ បញ្ចូលទៅក្នុង និង SELECT COUNT(*) អ្នកអាចផ្ទេរទិន្នន័យពីតារាងប្រភពនៅលើ HDFS ទៅកាន់តារាងគោលដៅនៅលើ VAST S3 ប្រកបដោយប្រសិទ្ធភាព។ វិធីសាស្រ្តនេះធានាថាគ្រោងការណ៍ត្រូវបានរក្សានិង
អនុញ្ញាតឱ្យមានសុពលភាពត្រង់ត្រង់នៃការផ្ទេរទិន្នន័យ។

ជម្រើសទី 2d៖ ការផ្ទេរតារាងខាងក្រៅទៅ VAST S3 ពី Hive នៅលើតារាង HDFS

ករណីប្រើប្រាស់៖
វិធីសាស្រ្តនេះគឺល្អសម្រាប់ការផ្ទេរតារាងខាងក្រៅពី Hive នៅលើ HDFS ទៅ VAST S3 ដោយរក្សារចនាសម្ព័ន្ធឡូជីខល និងការបែងចែកនៃសំណុំទិន្នន័យសម្រាប់ដំណើរការសំណួរដែលប្រសើរឡើង។

គោលបំណង៖
គោលបំណងចម្បងគឺដើម្បីបង្កើតតារាងបែងចែកថ្មីនៅលើ VAST S3 ជាមួយនឹងគ្រោងការណ៍ដែលត្រូវគ្នានឹងតារាងប្រភពពី HDFS ។ នេះធានាថាទិន្នន័យមេតាត្រូវបានរក្សាទុកក្នុង Hive ខណៈពេលដែលទិន្នន័យពិតប្រាកដស្ថិតនៅលើ S3 ដែលអនុញ្ញាតឱ្យរក្សាទុក និងទាញយកទិន្នន័យប្រកបដោយប្រសិទ្ធភាព។

ជំហាន៖

  1. បង្កើតតារាង Target S3៖ បង្កើតតារាងខាងក្រៅដែលបានបែងចែកថ្មីនៅលើ VAST S3 ជាមួយនឹងគ្រោងការណ៍ដែលត្រូវគ្នានឹងតារាងប្រភពនៅលើ HDFS ។ ប្រើសេចក្តីថ្លែងការណ៍ CREATE EXTERNAL TABLE ដើម្បីកំណត់គ្រោងការណ៍តារាង បញ្ជាក់ទម្រង់ទិន្នន័យ (ឧទាហរណ៍ PARQUET) និងកំណត់ទីតាំងទៅធុង VAST S3 ។
    បង្កើតតារាងខាងក្រៅ tlc_taxi_data_s3_partitioned (
    លេខសម្គាល់អ្នកលក់ INT,
    • tpep_pickup_datetime TIMESTAMP,
    • tpep_dropoff_datetime TIMESTAMP,
    • អ្នកដំណើរ_រាប់ BIGINT,
    • trip_distance ពីរដង,
    • RatecodeID BIGINT,
    • store_and_fwd_flag STRING,
    • PULocationID INT,
    • DOLocationID INT,
    • Payment_type BIGINT,
    • fare_amount ពីរដង,
    • ទ្វេដងបន្ថែម,
    • mta_tax DOUBLE,
    • tip_amount ពីរដង,
    • tolls_amount ពីរដង,
    • improvement_surcharge ពីរដង,
    • total_amount DOUBLE,
    • congestion_surcharge ពីរដង,
    • Airport_fee ទ្វេដង
    • )
    • បែងចែកដោយ (ឆ្នាំ STRING ខែ STRING)
    • រក្សាទុកជា parquet
    • LOCATION 's3a://cloudera/hive/tlc_taxi_data_s3_partitioned'
    • TBLPROPERTIES ('external.table.purge'='true');
    • ការបែងចែក៖ ឃ្លាដែលបានចែកជាចំណែកកំណត់ថាទិន្នន័យគួរតែត្រូវបានបែងចែកតាមឆ្នាំ និងខែ ដែលបង្កើនប្រសិទ្ធភាពដំណើរការសំណួរ។
    • ទីតាំង៖ ទីតាំងកំណត់ផ្លូវ VAST S3 ដែលទិន្នន័យនឹងត្រូវបានរក្សាទុក។
    • លក្ខណៈសម្បត្តិតារាង៖ TBLPROPERTIES ត្រូវបានកំណត់ដើម្បីធានាថានៅពេលដែលតារាងត្រូវបានទម្លាក់ ទិន្នន័យនៅតែមាននៅក្នុង S3 ។
  2. បញ្ចូលតារាងចែកភាគដោយប្រើ Hive នៅលើតារាង HDFS៖ ប្រើសេចក្តីថ្លែងការណ៍ INSERT INTO TABLE ដើម្បីបញ្ចូលតារាង tlc _ taxi _ data _ s3 _ partitioned table ជាមួយទិន្នន័យពីតារាងប្រភព។
    • ឃ្លា PARTITION ធានាថាទិន្នន័យត្រូវបានបែងចែកតាមឆ្នាំ និងខែ ខណៈពេលដែលត្រូវបានសរសេរទៅ S3 ។
    • បញ្ចូលទៅក្នុងតារាង tlc_taxi_data_s3_partitioned PARTITION (ឆ្នាំ ខែ) SELECT
    • លេខសម្គាល់អ្នកលក់,
    • tpep_pickup_datetime,
    • tpep_dropoff_datetime,
    • ចំនួនអ្នកដំណើរ,
    • trip_distance,
    • RatecodeID,
    • store_and_fwd_flag,
    • PULocationID,
    • DOLocationID,
    • ប្រភេទនៃការទូទាត់,
    • fare_amount,
    • បន្ថែម,
    • mta_tax,
    • tip_ចំនួន,
    • tolls_amount,
    • ការកែលម្អ_បន្ថែម,
    • ចំនួនសរុប,
    • congestion_surcharge,
    • ថ្លៃសំបុត្រយន្តហោះ,
    • SUBSTRING(INPUT__FILE__NAME, -16, 4) AS ឆ្នាំ,
    • SUBSTRING(INPUT__FILE__NAME, -11, 2) AS ខែ
    • ពី tlc_taxi_intermediary;

អនុគមន៍ SUBSTRING៖ ស្រង់ព័ត៌មានឆ្នាំ និងខែ ពី file ឈ្មោះ សន្មតថាអនុសញ្ញាដាក់ឈ្មោះជាក់លាក់។
តាមរយៈការបង្កើតតារាងបែងចែកផ្នែកខាងក្រៅនៅលើ VAST S3 និងបញ្ចូលវាជាមួយនឹងទិន្នន័យពីតារាង Hive នៅលើ HDFS វិធីសាស្ត្រនេះធានានូវការផ្ទុក និងការទាញយកទិន្នន័យប្រកបដោយប្រសិទ្ធភាព ខណៈពេលដែលរក្សាបាននូវរចនាសម្ព័ន្ធឡូជីខលនៃសំណុំទិន្នន័យ។ វិធីសាស្រ្តនេះប្រើប្រាស់ការបែងចែក ដើម្បីបង្កើនប្រសិទ្ធភាពដំណើរការសំណួរ និងផ្តល់នូវផ្លូវធ្វើចំណាកស្រុកគ្មានថ្នេរសម្រាប់តារាងខាងក្រៅ។

តាមដានការធ្វើចំណាកស្រុក

ដើម្បីតាមដានវឌ្ឍនភាពនៃដំណើរការនាំចេញ និងនាំចូលនៅក្នុង Apache Hive ឧបករណ៍ និងបច្ចេកទេសផ្សេងៗអាចត្រូវបានប្រើ។ នេះគឺជាជម្រើសជាច្រើនដែលត្រូវពិចារណា៖

  1. Hive CLI ឬ Beeline៖
    • ប្រើ Hive command-line interface (CLI) ឬ Beeline ដើម្បីតាមដានវឌ្ឍនភាពនៃប្រតិបត្តិការនាំចេញ និងនាំចូល។ នៅពេលអ្នកប្រតិបត្តិសំណួរ CLI ឬ Beeline បង្ហាញដំណើរការ និងស្ថានភាពសំណួរ។
    • ពាក្យ​បញ្ជា៖ អ្នក​អាច​ត្រួត​ពិនិត្យ​ដំណើរ​ការ​ដោយ​ពិនិត្យ​មើល​កំណត់​ហេតុ ឬ​ប្រើ​ពាក្យ​បញ្ជា SHOW JOBS ឬ SHOW SESSIONS ដើម្បី view ស្ថានភាពការងារ ឬវគ្គដែលកំពុងដំណើរការ។
  2. អ្នកគ្រប់គ្រងធនធាន Hadoop៖
    • អ្នកគ្រប់គ្រងធនធាន Hadoop ផ្តល់នូវ ក web ចំណុចប្រទាក់ដើម្បីតាមដានវឌ្ឍនភាពនៃប្រតិបត្តិការនាំចេញ និងនាំចូល Hive ។
    • លក្ខណៈពិសេស៖ View ស្ថានភាពនៃការដំណើរការការងារ និងកិច្ចការ ពិនិត្យមើលការប្រើប្រាស់ធនធាន និងតាមដានដំណើរការការងារតាមរយៈកម្មវិធីគ្រប់គ្រងធនធាន web ចំណុចប្រទាក់។
  3. ឧបករណ៍ត្រួតពិនិត្យភាគីទីបី៖
    • ប្រើប្រាស់ឧបករណ៍ត្រួតពិនិត្យភាគីទីបីដូចជា Ganglia, Nagios ឬ Datadog ដើម្បីត្រួតពិនិត្យសេវា Hive ។
    • អត្ថប្រយោជន៍៖ ឧបករណ៍ទាំងនេះផ្តល់នូវការវាស់វែង និងការមើលឃើញផ្សេងៗ ដើម្បីជួយអ្នកក្នុងការតាមដានដំណើរការ និងស្ថានភាពនៃសេវាកម្ម Hive និងសមាសធាតុរបស់វា។ ពួកគេផ្តល់នូវការយល់ដឹងបន្ថែមអំពីដំណើរការប្រព័ន្ធ និងអាចជូនដំណឹងអ្នកអំពីបញ្ហាដែលអាចកើតឡើងក្នុងអំឡុងពេលដំណើរការផ្ទេរ។

តាមរយៈការប្រើប្រាស់ឧបករណ៍ និងបច្ចេកទេសទាំងនេះ អ្នកអាចតាមដានដំណើរការនៃការផ្លាស់ប្តូរទិន្នន័យរបស់អ្នកប្រកបដោយប្រសិទ្ធភាព ដោយធានាថាប្រតិបត្តិការនាំចេញ និងនាំចូលកំពុងដំណើរការដូចការរំពឹងទុក និងអនុញ្ញាតឱ្យអ្នកដោះស្រាយបញ្ហាដែលអាចកើតឡើងភ្លាមៗ។

ការបង្កើនប្រសិទ្ធភាព S3A សម្រាប់ការធ្វើចំណាកស្រុក

S3A គឺ ក file ការអនុវត្តប្រព័ន្ធសម្រាប់ Apache Hadoop ដែលអនុញ្ញាតឱ្យកម្មវិធី Hadoop អាន និងសរសេរទិន្នន័យទៅកន្លែងផ្ទុក S3 ។ វាផ្តល់ជម្រើសជំនួស HDFS ដើមរបស់ Hadoop file ប្រព័ន្ធ អនុញ្ញាតឱ្យអ្នកប្រើប្រាស់រក្សាទុក និងចូលប្រើទិន្នន័យនៅលើ S3 ប្រកបដោយប្រសិទ្ធភាព។ ការធ្វើឱ្យការកំណត់ S3A ប្រសើរឡើងអាចធ្វើឱ្យប្រសើរឡើងយ៉ាងខ្លាំងនូវដំណើរការនៃការផ្លាស់ប្តូរទិន្នន័យពី HDFS ទៅ VAST S3 ។

ការកំណត់រចនាសម្ព័ន្ធមូលដ្ឋាន (គ្មានការបង្កើនប្រសិទ្ធភាព)៖
ខាងក្រោមនេះគឺជាអតីតample នៃការកំណត់រចនាសម្ព័ន្ធ core-site.xml មូលដ្ឋានសម្រាប់ S3A ដោយមិនមានការលៃតម្រូវណាមួយឡើយ៖

  • fs.defaultFS
  • s3a://temp1
  • hadoop.tmp.dir
  • /home/hadoop/tmp
  • fs.s3a.access.key
  • AG8SSUT6SE436AEXBPRE
  • fs.s3a.secret.key
  • SIOPRO3jsvT1maTyMxetaOvXDpRsyrAX78zcEVEEE
  • fs.s3a.path.style.access
  • ពិត
  • fs.s3.enable-storage-classes
  • ពិត
  • fs.s3a.connection.ssl.បានបើក
  • មិនពិត
  • fs.s3a.endpoint
  • http://vippool.yourvastcluster.com

ការលៃតម្រូវសូន្យ TTL៖
ម៉ាស៊ីនភ្ញៀវ S3A រក្សាទុកការភ្ជាប់ចំណុចបញ្ចប់សម្រាប់ហេតុផលដំណើរការ។ ដើម្បីកែលម្អការអនុវត្ត សូមកំណត់
TTL (ពេលវេលាដើម្បីរស់នៅ) ដល់សូន្យ ដែលធានានូវសមត្ថភាពរបស់ VAST ក្នុងការធ្វើមាត្រដ្ឋានលើ Cnodes ច្រើន។
បន្ថែមខាងក្រោមទៅ core-site.xml៖

  • fs.s3a.endpoint.connection.ttl
  • ២៤.២

ការលៃតម្រូវបន្ថែមសម្រាប់ S3A៖
ប៉ារ៉ាម៉ែត្របន្ថែមអាចត្រូវបានកែសម្រួលដើម្បីបង្កើនប្រសិទ្ធភាពប្រតិបត្តិការ S3A៖

ទំហំពហុផ្នែក

  • គោលបំណង៖ បញ្ជាក់ទំហំនៃផ្នែកនីមួយៗនៅពេលផ្ទុកឡើងធំ files to S3. Increasing this size can improve upload performance for larger files ដោយកាត់បន្ថយចំនួនផ្នែក។
  • តម្លៃលំនាំដើម៖ ១២៨ មេកាបៃ
  • តម្លៃល្អបំផុត៖ តម្លៃល្អបំផុតអាស្រ័យលើកម្រិតបញ្ជូនបណ្តាញ ទំហំទិន្នន័យដែលកំពុងផ្ទុកឡើង និងថ្នាក់ផ្ទុក S3 ។ តម្លៃធំជាងធ្វើអោយប្រសើរឡើងនូវការអនុវត្តសម្រាប់ទំហំធំ files ប៉ុន្តែអាចបង្កើនហានិភ័យនៃការបង្ហោះដែលបរាជ័យដោយសារបញ្ហាបណ្តាញ។ ជាឧទាហរណ៍ ការកំណត់ទំហំពហុផ្នែកដល់ 10 MB អាចបង្កើនល្បឿនផ្ទុកឡើងសម្រាប់ទំហំតូចជាងនេះ។ files ប៉ុន្តែប្រហែលជាមិនល្អបំផុតសម្រាប់ទំហំធំទេ។ files ដែលអាចទទួលបានអត្ថប្រយោជន៍ពីទំហំពហុផ្នែកធំជាង។
    • fs.s3a.multipart.size 10 ម

ផ្ទុកឡើងលឿន ប្លុកសកម្ម

  • គោលបំណង៖ កំណត់ចំនួនអតិបរមានៃប្លុកសកម្មដើម្បីផ្ទុកឡើងស្របគ្នាកំឡុងពេលផ្ទុកលឿន។ នេះអាចធ្វើឱ្យប្រសើរឡើងយ៉ាងខ្លាំងនូវការអនុវត្តសម្រាប់ទំហំធំ files.
  • តម្លៃលំនាំដើម៖ 4
  • តម្លៃល្អបំផុត៖ តម្លៃល្អបំផុតអាស្រ័យលើកម្រិតបញ្ជូនបណ្តាញ ចំនួនស្នូលដែលមាន និង
    ថ្នាក់ផ្ទុក S3 ។ តម្លៃខ្ពស់ជាងនេះអនុញ្ញាតឱ្យផ្ទុកឡើងស្របគ្នាកាន់តែច្រើន ប៉ុន្តែអាចបង្កើនការប្រើប្រាស់កម្រិតបញ្ជូនបណ្តាញ និងការភ្ជាប់ទៅ S3 ។ សម្រាប់អតីតampដូច្នេះ ការកំណត់វាទៅ 100 អាចបង្កើនលំហូរនៃការផ្ទុកឡើង ប្រសិនបើកម្រិតបញ្ជូនបណ្តាញ និងសេវា S3 អាចគ្រប់គ្រងការកើនឡើងចំនួននៃការតភ្ជាប់។
    • fs.s3a.fast.upload.active.blocks ១០០

ខ្សែស្រឡាយអតិបរមា

  • គោលបំណង៖ បញ្ជាក់ចំនួនអតិបរិមានៃខ្សែស្រឡាយដែលអាចប្រើបានដោយ S3A fileឧបករណ៍ភ្ជាប់ប្រព័ន្ធសម្រាប់ប្រតិបត្តិការប៉ារ៉ាឡែល។ នេះរាប់បញ្ចូលទាំងការបង្ហោះ ការទាញយក ការរាយបញ្ជីវត្ថុ និងការលុបវត្ថុ។
  • តម្លៃលំនាំដើម៖ 256
  • Optimal Value: The optimal value depends on network bandwidth, S3 storage class, and available client/server resources. Increasing the value can improve parallel operations but may increase resource usage and latency. For example, if the system’s network bandwidth and CPU resources can handle it, increasing the number of threads to 100 can improve the speed of concurrent operations.
    • fs.s3a.threads.max ១០០

ទំហំប្លុក

  • គោលបំណង៖ កំណត់ទំហំប្លុកសម្រាប់ a file រក្សាទុកក្នុង S3 ។ Files ត្រូវបានបែងចែកទៅជាប្លុក ហើយប្លុកនីមួយៗត្រូវបានរក្សាទុកជាវត្ថុ S3 ដាច់ដោយឡែក។
  • តម្លៃលំនាំដើម៖ ១២៨ មេកាបៃ
  • តម្លៃល្អបំផុត៖ តម្លៃល្អបំផុតអាស្រ័យលើ file ទំហំ លំនាំចូលប្រើ និងកម្រិតបញ្ជូនបណ្តាញ។ ទំហំប្លុកធំជាងកាត់បន្ថយចំនួនវត្ថុ S3 ដែលត្រូវបានបង្កើត និងកែលម្អដំណើរការអាន/សរសេរសម្រាប់ទំហំធំ fileស. ទំហំប្លុកតូចជាងគឺសមរម្យជាងសម្រាប់តូច files ឬទិន្នន័យចូលប្រើញឹកញាប់។ ជាឧទាហរណ៍ ការកំណត់ទំហំប្លុកដល់ 100 មេកាបៃ អាចមានប្រយោជន៍សម្រាប់ការងារដែលពាក់ព័ន្ធនឹងទំហំធំ ដែលចូលដំណើរការជាបន្តបន្ទាប់។ files.
    • fs.s3a.block.size 100 ម។

ការលៃតម្រូវបន្ថែមសម្រាប់ VAST៖
ចាប់ពីកំណែ VAST 4.7 SP10 តទៅ មានការកំណត់បង្កើនប្រសិទ្ធភាព (vtool) សម្រាប់គ្រប់គ្រងទិន្នន័យដែលមានមូលដ្ឋានលើ Hadoop ទៅ VAST S3 ។ ការកំណត់នេះអាចបង្កើនប្រសិទ្ធភាពនៃការផ្ទេរទិន្នន័យយ៉ាងសំខាន់។

ជំហាន៖

  1. កំណត់រចនាសម្ព័ន្ធ HDFS Cluster៖
    ត្រូវប្រាកដថាការបង្ហោះច្រើនផ្នែកត្រូវបានបិទដោយកំណត់កម្រិត និងទំហំឱ្យលើសពីទំហំពិតប្រាកដរបស់អ្នក fileស. សម្រាប់អតីតampលេប្រសិនបើអ្នក files ជាទូទៅ 1 GB ឬធំជាងនេះ កំណត់កម្រិត និងទំហំដល់ 1 GB ។ កែតម្រូវតាមការចង់បានរបស់អ្នក។ files ធំជាង។ បិទការបង្ហោះច្រើនផ្នែកសម្រាប់តូចជាង files សម្រួលដំណើរការផ្ទុកឡើង និងកាត់បន្ថយការចំណាយលើស។
    • កំណត់រចនាសម្ព័ន្ធ core-site.xml៖
    • fs.s3a.multipart.threshold 1G
    • fs.s3a.multipart.size 1G
    • fs.s3a.fast.upload ពិត
  2. អនុវត្តការបង្កើនប្រសិទ្ធភាព VAST៖
    • ប្រើ SSH ដើម្បីភ្ជាប់ទៅ CNODE មួយនៅលើ VAST ។
    • អនុវត្តការកំណត់បង្កើនប្រសិទ្ធភាពដោយប្រើពាក្យបញ្ជា vtool ។ ការកំណត់នេះបង្កើនប្រសិទ្ធភាពដំណើរការចម្លងដោយប្រើតំណភ្ជាប់ កាត់បន្ថយពេលវេលា និងធនធានដែលត្រូវការសម្រាប់ការផ្ទេរទិន្នន័យ។
      vtool vsettings កំណត់ S3_COPY_USING_LINK=true

តាមរយៈការអនុវត្តការកំណត់រចនាសម្ព័ន្ធ និងការបង្កើនប្រសិទ្ធភាពទាំងនេះ អ្នកអាចធ្វើឱ្យប្រសើរឡើងយ៉ាងខ្លាំងនូវការអនុវត្តរបស់ S3A សម្រាប់ការផ្ទេរទិន្នន័យពី HDFS ទៅ VAST S3 ដោយធានានូវដំណើរការផ្ទេរទិន្នន័យកាន់តែមានប្រសិទ្ធភាព និងអាចធ្វើមាត្រដ្ឋានបាន។

សម្រាប់ព័ត៌មានបន្ថែមអំពីការផ្ទុកជាសកល និងរបៀបដែលវាអាចជួយអ្នកដោះស្រាយបញ្ហាកម្មវិធីរបស់អ្នក សូមទាក់ទងមកយើងខ្ញុំតាមរយៈ សួស្តី@vastdata.com.
© 2024 VAST Data, Inc. រក្សាសិទ្ធិគ្រប់យ៉ាង។ ពាណិជ្ជសញ្ញាទាំងអស់ជាកម្មសិទ្ធិរបស់ម្ចាស់រៀងៗខ្លួន។

ឯកសារ/ធនធាន

វេទិកាផ្ទុកទិន្នន័យ VAST S3 [pdf] ការណែនាំអ្នកប្រើប្រាស់
S3, S3 Storage Data Platform, Storage Data Platform, Data Platform, Platform

ឯកសារយោង

ទុកមតិយោបល់

អាសយដ្ឋានអ៊ីមែលរបស់អ្នកនឹងមិនត្រូវបានផ្សព្វផ្សាយទេ។ វាលដែលត្រូវការត្រូវបានសម្គាល់ *