មគ្គុទ្ទេសក៍អ្នកប្រើប្រាស់ដំណោះស្រាយសមាហរណកម្មទិន្នន័យ Qlik Talend

Qlik Talend ដំណោះស្រាយរួមបញ្ចូលទិន្នន័យ
ដំណោះស្រាយសមាហរណកម្មទិន្នន័យ Qlik Talend បង្កើនល្បឿនការរៀនម៉ាស៊ីន (ML) បញ្ញាសិប្បនិមិត្ត (AI) និងគំនិតផ្តួចផ្តើម DataOps ជាមួយនឹងការផ្លាស់ប្តូរការចាប់យកទិន្នន័យ (CDC) និងបច្ចេកវិជ្ជាបំប្លែងដែលធានាការស្ទ្រីមទិន្នន័យជាបន្តបន្ទាប់ពីប្រភពទិន្នន័យជាច្រើនទៅកាន់វេទិកា Databricks Lakehouse ដែលត្រៀមរួចជាស្រេចសម្រាប់ AI និង ការប្រើប្រាស់វិភាគ។

Qlik ចម្លង
នៅក្នុងស្ថាបត្យកម្មនេះ Qlik Replicate អនុវត្តមុខងារដូចខាងក្រោមៈ

កំណត់គោលដៅភ្លាមៗ៖
- បង្កើតតារាងគោលដៅក្នុងទម្រង់ DELTA ជាមួយនឹងប្រភេទទិន្នន័យត្រឹមត្រូវដែលបានបកប្រែពីប្រភព។
- អនុវត្តការផ្ទុកដំបូង / ពេញលេញពីប្រភពហើយបញ្ជូនទិន្នន័យទៅក្នុងស្រទាប់ផ្ទុក។
- ផ្ញើ Spark SQL ទៅ Databricks ដើម្បីផ្ទុកទិន្នន័យពីស្រទាប់ផ្ទុក ហើយបម្លែងវាទៅជាតារាងដោយប្រើទម្រង់ delta ។
ចាប់យក និងអនុវត្តការផ្លាស់ប្តូរ៖
- ចាប់យកការផ្លាស់ប្តូរដោយប្រើ CDC ដែលមានមូលដ្ឋានលើកំណត់ហេតុពីប្រភព។
- ចែកចាយ និងអនុវត្តការផ្លាស់ប្តូរ (បញ្ចូល/ធ្វើបច្ចុប្បន្នភាព/លុប) ទៅតារាង DELTA គោលដៅ (ដោយប្រើស្រទាប់ផ្ទុកជាកម្រិតមធ្យម staging) ។

ការរួមបញ្ចូលទិន្នន័យ Qlik Cloud
Qlik Cloud Data Integration គឺជាការផ្តល់ជូន iPaaS ដែលផ្តល់នូវសមត្ថភាពក្នុងការបង្កើតបំពង់បង្ហូរគម្រោងទិន្នន័យ ដើម្បីបំពេញភារកិច្ចរួមបញ្ចូលទិន្នន័យជាច្រើនក្នុងការគាំទ្រស្ថាបត្យកម្មទិន្នន័យ និង AI និងតម្រូវការវិភាគរបស់អ្នក។

មុខងារនៃការរួមបញ្ចូលទិន្នន័យ Qlik Cloud៖

ភារកិច្ចចុះចត៖
- ត្រួតពិនិត្យការផ្ទេរទិន្នន័យដោយគ្មានថ្នេរពីប្រភពផ្សេងៗទៅកាន់តំបន់ចុះចតដែលបានកំណត់ដោយប្រើ Qlik Data Gateway – Data Movement សម្រាប់ការចូលទៅកាន់ប្រភពទិន្នន័យតាមរយៈ Change Data Capture (CDC) ។
- អនុញ្ញាតសម្រាប់ការផ្ទុកឡើងវិញតាមកាលកំណត់ដែលបានកំណត់ដោយដំណើរការបន្ទុកពេញ។

ភារកិច្ចផ្លាស់ប្តូរ៖
- បង្កើតការបំប្លែងទិន្នន័យដែលអាចប្រើឡើងវិញបាន និងផ្អែកលើច្បាប់នៅក្នុងបំពង់បង្ហូរទិន្នន័យ។
- អនុវត្តការបំប្លែងកម្រិតជួរដេក និងបង្កើតសំណុំទិន្នន័យដោយប្រើ SQL ផ្ទាល់ខ្លួន។
- អាចបង្កើតជាតារាង ឬបង្ហាញជាថាមវន្ត views អនុវត្តការបំប្លែងបានភ្លាមៗ។

សំណួរដែលសួរញឹកញាប់ (FAQ)

តើ Qlik Replicate និង Qlik Cloud Data Integration អាចប្រើជាមួយគ្នាបានទេ?
បាទ/ចាស ដំណោះស្រាយទាំងពីរគឺបំពេញបន្ថែម ហើយអាចប្រើជាមួយគ្នា ឬដាច់ដោយឡែក អាស្រ័យលើករណីប្រើប្រាស់ និងស្ថាបត្យកម្មទិន្នន័យរបស់សហគ្រាស។

តើមុខងារសំខាន់ៗរបស់ Qlik Replicate មានអ្វីខ្លះ?
Qlik Replicate អាចធ្វើអោយគោលដៅភ្លាមៗដោយបង្កើតតារាងក្នុងទម្រង់ DELTA អនុវត្តការផ្ទុកដំបូង ចាប់យកការផ្លាស់ប្តូរដោយប្រើ CDC និងអនុវត្តការផ្លាស់ប្តូរទៅតារាងគោលដៅ។
តើគោលបំណងនៃការរួមបញ្ចូលទិន្នន័យ Qlik Cloud គឺជាអ្វី?
ការរួមបញ្ចូលទិន្នន័យ Qlik Cloud អនុញ្ញាតឱ្យបង្កើតបំពង់គម្រោងទិន្នន័យសម្រាប់កិច្ចការរួមបញ្ចូលទិន្នន័យផ្សេងៗ ដើម្បីគាំទ្រស្ថាបត្យកម្មទិន្នន័យ និង AI និងតម្រូវការវិភាគ។

សេចក្តីផ្តើម

ដំណោះស្រាយសមាហរណកម្មទិន្នន័យ Qlik Talend បង្កើនល្បឿនការរៀនម៉ាស៊ីន (ML) បញ្ញាសិប្បនិមិត្ត (AI) និងគំនិតផ្តួចផ្តើម DataOps ជាមួយនឹងការផ្លាស់ប្តូរការចាប់យកទិន្នន័យ (CDC) និងបច្ចេកវិជ្ជាបំប្លែងដែលធានាការស្ទ្រីមទិន្នន័យជាបន្តបន្ទាប់ពីប្រភពទិន្នន័យជាច្រើនទៅកាន់វេទិកា Databricks Lakehouse ដែលត្រៀមរួចជាស្រេចសម្រាប់ AI និង ការប្រើប្រាស់វិភាគ។

Qlik Talend ដំណោះស្រាយរួមបញ្ចូលទិន្នន័យ

Qlik Replicate និង Qlik Talend Cloud Data Integration គឺជាដំណោះស្រាយពីរពី Qlik ដែលអាចឱ្យសហគ្រាសគ្រប់គ្រងទិន្នន័យរបស់ពួកគេតាមប្រភព និងវេទិកាផ្សេងៗគ្នា។ Qlik Replicate គឺជាកម្មវិធីរួមបញ្ចូលទិន្នន័យដែលអនុញ្ញាតឱ្យអ្នកប្រើប្រាស់ចម្លង និងធ្វើបច្ចុប្បន្នភាពទិន្នន័យក្នុងពេលវេលាជាក់ស្តែងពីប្រភពក្នុងបរិវេណ និងពពកទៅឃ្លាំងទិន្នន័យពពកដោយមិនចាំបាច់សរសេរកូដដោយដៃ ឬស្គ្រីប។ Qlik Cloud Data Integration គឺជាសេវាកម្មដែលមានមូលដ្ឋានលើពពកដែលផ្តល់នូវសមត្ថភាពក្នុងការបង្កើតបំពង់បញ្ជូនទិន្នន័យ ដើម្បីបំពេញកិច្ចការរួមបញ្ចូលទិន្នន័យផ្សេងៗ ដូចជាការចុះចត ការចុះឈ្មោះ ការបំប្លែង និងការបង្រួបបង្រួមទិន្នន័យ។ ដំណោះស្រាយទាំងពីរគាំទ្រប្រភពទិន្នន័យ និងទិសដៅជាច្រើនដូចជា មូលដ្ឋានទិន្នន័យទំនាក់ទំនង វេទិកាទិន្នន័យធំ SAP Mainframes ការផ្ទុកពពក និងកម្មវិធី SaaS ។ ទោះយ៉ាងណាក៏ដោយ មានភាពខុសគ្នាមួយចំនួនរវាងពួកវាទាក់ទងនឹងលក្ខណៈពិសេស តម្លៃ និងជម្រើសនៃការប្រើប្រាស់។

ភាពខុសគ្នាសំខាន់ៗមួយចំនួនគឺ៖
- Qlik Replicate គឺជាផលិតផលដាច់ដោយឡែកដែលអាចត្រូវបានដំឡើងនៅក្នុងបរិវេណឬនៅលើពពកខណៈពេលដែល Qlik Talend Cloud Data Integration គឺជាសេវាកម្មគ្រប់គ្រងពេញលេញដែលដំណើរការលើវេទិកា Qlik Cloud ។
- Qlik Replicate ផ្តល់នូវលក្ខណៈពិសេសកម្រិតខ្ពស់បន្ថែមទៀតសម្រាប់ការចម្លងទិន្នន័យ ដូចជាការផ្លាស់ប្តូរការចាប់យកទិន្នន័យ (CDC) ការពន្យាពេលបញ្ចូលគ្នា ការវិវត្តនៃគ្រោងការណ៍ និងការដោះស្រាយជម្លោះ។ ខណៈពេលដែល Qlik Talend Cloud Data Integration ផ្តោតលើការបំប្លែងទិន្នន័យ និងការបង្រួបបង្រួម ដូចជាការសម្អាតទិន្នន័យ ការពង្រឹង ការលាយបញ្ចូលគ្នា និងការបង្កើតទម្រង់។
សរុបមក Qlik Replicate និង Qlik Talend Cloud Data Integration គឺជាដំណោះស្រាយបំពេញបន្ថែម ដែលអាចប្រើបានជាមួយគ្នា ឬដាច់ដោយឡែក អាស្រ័យលើករណីប្រើប្រាស់ និងស្ថាបត្យកម្មទិន្នន័យរបស់សហគ្រាស។ ដំណោះស្រាយទាំងពីរមានគោលបំណងផ្តល់នូវសមត្ថភាពក្នុងការរួមបញ្ចូលទិន្នន័យដែលមានល្បឿនលឿន គួរឱ្យទុកចិត្ត និងអាចធ្វើមាត្រដ្ឋានបានសម្រាប់តម្រូវការ AI និងវិភាគទំនើប។

Qlik ចម្លង

Qlik Replicate® បន្តធ្វើចលនាទិន្នន័យ CDC ដោយស្វ័យប្រវត្តិពីប្រភពទិន្នន័យជាច្រើន (ឧ. Oracle, Microsoft SQL Server, SAP, Mainframe និងច្រើនទៀត) ទៅកាន់ Databricks Lakehouse Platform ។ វាជួយអតិថិជនជៀសវាងការលើកទម្ងន់ធ្ងន់ដែលទាក់ទងនឹងការទាញយកទិន្នន័យដោយដៃ ផ្ទេរវាតាមរយៈ API/script ហើយបន្ទាប់មកកាត់ staging និងនាំចូលវា។
នៅក្នុងស្ថាបត្យកម្មនេះ Qlik Replicate អនុវត្តមុខងារដូចខាងក្រោមៈ
1. កំណត់គោលដៅភ្លាមៗ
  - បង្កើតតារាងគោលដៅក្នុងទម្រង់ DELTA ជាមួយនឹងប្រភេទទិន្នន័យត្រឹមត្រូវដែលបានបកប្រែពីប្រភព
  - អនុវត្តការផ្ទុកដំបូង / ពេញលេញពីប្រភពហើយបញ្ជូនទិន្នន័យទៅក្នុងស្រទាប់ផ្ទុក
  - ផ្ញើ Spark SQL ទៅ Databricks ដើម្បីផ្ទុកទិន្នន័យពីស្រទាប់ផ្ទុក ហើយបំប្លែងវាទៅជាតារាងដោយប្រើទម្រង់ delta
2. ចាប់យក និងអនុវត្តការផ្លាស់ប្តូរ
  - ចាប់យកការផ្លាស់ប្តូរដោយប្រើ CDC ដែលមានមូលដ្ឋានលើកំណត់ហេតុពីប្រភព
  - ចែកចាយ និងអនុវត្តការផ្លាស់ប្តូរ (បញ្ចូល/ធ្វើបច្ចុប្បន្នភាព/លុប) ទៅតារាង DELTA គោលដៅ (ដោយប្រើស្រទាប់ផ្ទុកជាកម្រិតមធ្យម staging)

ការរួមបញ្ចូលទិន្នន័យ Qlik Cloud

Qlik Cloud Data Integration គឺជាការផ្តល់ជូន iPaaS (Integration Platform as a Service) ដែលផ្តល់នូវសមត្ថភាពក្នុងការបង្កើតបំពង់គម្រោងទិន្នន័យ ដើម្បីបំពេញភារកិច្ចរួមបញ្ចូលទិន្នន័យជាច្រើនប្រភេទ ដើម្បីគាំទ្រដល់ស្ថាបត្យកម្មទិន្នន័យ និង AI និងតម្រូវការវិភាគរបស់អ្នក។
- បំពង់ទិន្នន័យ - អ្នកអាចប្រើប្រាស់ពេលវេលាជាក់ស្តែង ការចាប់យកទិន្នន័យការផ្លាស់ប្តូរដោយផ្អែកលើការភ្ជាប់ជាមួយការភ្ជាប់សុវត្ថិភាពទៅប្រភពទិន្នន័យក្នុងបរិវេណដែលនៅពីក្រោយជញ្ជាំងភ្លើង ឬប្រើសមត្ថភាពផ្ទុកពេញលេញសម្រាប់ប្រភពទិន្នន័យ SaaS ។ នៅពេលដែលអ្នកមានទិន្នន័យនៅលើយន្តហោះ អ្នកអាចអនុវត្តការបំប្លែងសម្រាប់លទ្ធផលដែលសមស្របតាមគោលបំណង ឬលំនាំស្វ័យប្រវត្តិដូចជា data mart facts និង dimensions។ ខាងក្រៅ views និងរស់នៅ views ត្រូវបានបង្កើតឡើងសម្រាប់ការប្រើប្រាស់ទិន្នន័យ។ Qlik Cloud Data Integration ក៏បង្កើតកន្លែងផ្ទុកទិន្នន័យប្រវត្តិសាស្រ្តប្រភេទ 2 ពេញលេញ (HDS) ផងដែរ។
- ភារកិច្ចចម្លងទិន្នន័យ - ចម្លងទិន្នន័យពីប្រភពដែលត្រូវគ្នាទៅគោលដៅដែលបានគាំទ្រណាមួយ។ ទិន្នន័យអាចត្រូវបានបំប្លែង និងបន្តធ្វើបច្ចុប្បន្នភាពជាប់លាប់ដោយប្រើបច្ចេកទេសផ្លាស់ប្តូរទិន្នន័យ (CDC) ។ មានសមត្ថភាពផងដែរក្នុងការបញ្ជូនទិន្នន័យទៅក្នុង Data lake ដែលបញ្ជូនទិន្នន័យទៅក្នុង Amazon S3, Azure Data Lake Storage ឬ Google Cloud Storage
លទ្ធផលទិន្នន័យចម្រាញ់ចេញពី Qlik Cloud Data Integration អាចត្រូវបានប្រើសម្រាប់គោលបំណងជាច្រើន៖
- ចលនាពេលវេលាពិតប្រាកដពីប្រភពសហគ្រាសទាំងអស់ រួមទាំងមូលដ្ឋានទិន្នន័យទំនាក់ទំនង SAP កម្មវិធី Mainframe និង SaaS ។
- ការបំប្លែងទិន្នន័យដោយប្រើ ELT (Extract/Load/Transform) ដោយប្រើវិធីសាស្រ្តគ្មានកូដដោយមិនចាំបាច់មានដំណោះស្រាយភាគីទីបីបន្ថែម។
- ការបង្កើត datamarts ដោយស្វ័យប្រវត្តិសម្រាប់ការវិភាគនៅក្នុង Databricks Lakehouse ។
- ការធ្វើទំនើបកម្មនៃឃ្លាំងទិន្នន័យរបស់អ្នកដើម្បីគាំទ្រ AI, Machine Learning និងគំនិតផ្តួចផ្តើមផ្សេងៗទៀត។
នៅក្នុងស្ថាបត្យកម្មនេះ Qlik Cloud Data Integration អនុវត្តមុខងារដូចខាងក្រោម៖
- កំណត់គោលដៅភ្លាមៗ។
  - បង្កើតតារាងគោលដៅក្នុងទម្រង់ DELTA ជាមួយនឹងប្រភេទទិន្នន័យត្រឹមត្រូវដែលបានបកប្រែពីតារាងប្រភព
  - អនុវត្តការផ្ទុកដំបូង / ពេញលេញពីប្រភពបញ្ជូនទិន្នន័យទៅស្រទាប់ផ្ទុក
    - កម្មវិធី SaaS - ដោយផ្ទាល់
    - មូលដ្ឋានទិន្នន័យទំនាក់ទំនង - ដោយប្រើច្រកទិន្នន័យ
  - ផ្ញើ Spark SQL ទៅ Databricks ដើម្បីផ្ទុកទិន្នន័យពីស្រទាប់ផ្ទុក ហើយបំប្លែងវាទៅជាតារាងដោយប្រើទម្រង់ delta
- ចាប់យក និងអនុវត្តការផ្លាស់ប្តូរ។
  - ចាប់យកការផ្លាស់ប្តូរដោយប្រើ CDC ដែលមានមូលដ្ឋានលើកំណត់ហេតុពីប្រភព
    - កម្មវិធី SaaS - ដោយផ្ទាល់
    - មូលដ្ឋានទិន្នន័យទំនាក់ទំនង - ដោយប្រើ Qlik Data Gateway
  - ចែកចាយ និងអនុវត្តការផ្លាស់ប្តូរ (បញ្ចូល/ធ្វើបច្ចុប្បន្នភាព/លុប) ទៅតារាង DELTA គោលដៅ (ដោយប្រើស្រទាប់ផ្ទុកជាកម្រិតមធ្យម staging)
- ប្រតិបត្តិការផ្លាស់ប្តូរការបញ្ជូន Sparksql ទៅ Databricks

វិធីមួយទៀតនៃការមើលឃើញស្ថាបត្យកម្មនេះគឺតាមរយៈគំនិតនៃភារកិច្ចដែលមានមុខងារឯកទេស

ភារកិច្ចចុះចត - ត្រួតពិនិត្យការផ្ទេរទិន្នន័យពីប្រភពផ្សេងៗទៅកាន់តំបន់ចុះចតដែលបានកំណត់។ ដ្យាក្រាមរូបភាពបង្ហាញពីការប្រើប្រាស់ Qlik Data Gateway – Data Movement សម្រាប់ការចូលទៅកាន់ប្រភពទិន្នន័យតាមរយៈ Change Data Capture (CDC) ដើម្បីធានាថាទិន្នន័យនៅតែជាបច្ចុប្បន្ន។ លើសពីនេះ ការភ្ជាប់ប្រភពរួមបញ្ចូលទិន្នន័យ Qlik Cloud អាចត្រូវបានប្រើប្រាស់ដើម្បីដំណើរការបន្ទុកពេញលេញ ដែលអនុញ្ញាតឱ្យផ្ទុកឡើងវិញតាមកាលកំណត់។

ភារកិច្ចផ្ទុក - ត្រួតពិនិត្យការអនុវត្តទិន្នន័យទៅតារាងផ្ទុក រួមទាំងការបង្កើត និងគ្រប់គ្រងតារាងទាំងពីរ និងខាងក្រៅ viewស. កិច្ចការសំខាន់នេះដើរតួយ៉ាងសំខាន់ក្នុងការរក្សាភាពត្រឹមត្រូវនៃទិន្នន័យ និងលទ្ធភាពប្រើប្រាស់ក្នុងបរិយាកាសរួមបញ្ចូលទិន្នន័យ Qlik Cloud ។ ភារកិច្ចផ្ទុកមិនត្រឹមតែគ្រប់គ្រងពេលវេលានៃកម្មវិធីទិន្នន័យប៉ុណ្ណោះទេ ប៉ុន្តែថែមទាំងធានានូវការរួមបញ្ចូលព័ត៌មានទៅក្នុងហេដ្ឋារចនាសម្ព័ន្ធផ្ទុកដោយរលូន បង្កើនប្រសិទ្ធភាព និងមុខងារទាំងមូលនៃវេទិការួមបញ្ចូលទិន្នន័យ Qlik Cloud ។
ភារកិច្ចផ្លាស់ប្តូរ - នៅក្នុងបំពង់ទិន្នន័យរបស់អ្នក អ្នកអាចបង្កើតការបំប្លែងទិន្នន័យដែលអាចប្រើឡើងវិញបាន និងផ្អែកលើច្បាប់។ ការបំប្លែងទាំងនេះអាចត្រូវបានរួមបញ្ចូលយ៉ាងរលូនទៅក្នុងដំណើរការផ្ទុកទិន្នន័យរបស់អ្នក ឬរៀបចំជាកិច្ចការទិន្នន័យបំប្លែងដែលអាចប្រើឡើងវិញបាន។ ភាពបត់បែនបានពង្រីកដល់ការបំប្លែងកម្រិតជួរដេក និងបង្កើតសំណុំទិន្នន័យដោយប្រើ SQL ផ្ទាល់ខ្លួន ដែលអាចបង្កើតជាតារាង ឬបង្ហាញជាថាមវន្ត views អនុវត្តការបំប្លែងបានភ្លាមៗ។
កិច្ចការ Data Mart – បន្ទាប់ពីដំណើរការទិន្នន័យដោយជោគជ័យ វាអាចបង្កើត data marts ដោយប្រើព័ត៌មានដែលមានប្រភពមកពី Storage ឬ Transform tasks។ ស្របតាមតម្រូវការអាជីវកម្ម ផ្សារទិន្នន័យច្រើនអាចត្រូវបានបង្កើត។ តាមឧត្ដមគតិ ទីផ្សារទិន្នន័យទាំងនេះគួរតែបម្រើជាឃ្លាំងសម្រាប់ទិន្នន័យរួម ដែលប្រមូលបានសម្រាប់គោលបំណងវិភាគនៅក្នុងនាយកដ្ឋានជាក់លាក់ ឬអង្គភាពនៃស្ថាប័នមួយ ដូចជាផ្នែកលក់ ឬសូម្បីតែបង្ហាញជាលក្ខណៈពិសេសដែលត្រូវប្រើប្រាស់ដោយដំណើរការ ML។

ការណែនាំអំពីការអនុវត្ត

ដូចដែលបានរៀបរាប់ពីមុននៅក្នុងឯកសារនេះ Qlik Replicate និង Qlik Cloud Data Integration គឺជាដំណោះស្រាយពីរដែលអាចប្រើជាមួយគ្នា ឬដោយឡែកពីគ្នា។ ការសម្រេចចិត្តប្រើវារួមគ្នាឬជាលក្ខណៈបុគ្គលអាស្រ័យលើស្ថាបត្យកម្មទិន្នន័យនិងតម្រូវការរបស់សហគ្រាស។ វាមានសារៈសំខាន់ណាស់ក្នុងការពិចារណាលើតម្រូវការរបស់អតិថិជន និងករណីប្រើប្រាស់ដើម្បីកំណត់រចនាសម្ព័ន្ធប្រកបដោយប្រសិទ្ធភាព និងប្រសិទ្ធភាពបំផុត។
- ពីមួយទៅច្រើន topologies ទាមទារការប្រើប្រាស់ Qlik Replicate បច្ចុប្បន្ន
- ប្រភព SaaS ត្រូវបានគាំទ្រដោយ Qlik Cloud Data Integration ប៉ុណ្ណោះ។

វាអាចមានករណីដែលទាំងការចម្លង និង Qlik Cloud Data Integration អាចត្រូវបានប្រើប្រាស់ជាមួយគ្នា។ ជាឧទាហរណ៍ ការចម្លងអាចត្រូវបានប្រើដើម្បីបញ្ចូលទិន្នន័យទៅក្នុង Databricks ពីប្រភពដែលបច្ចុប្បន្នមិនត្រូវបានគាំទ្រដោយ Qlik Cloud Data Integration។ បន្ទាប់មកទិន្នន័យដែលបានចុះឈ្មោះអាចត្រូវបានប្រើជាធាតុបញ្ចូលសម្រាប់បំពង់បង្ហូរទិន្នន័យដែលបានបង្កើតដោយប្រើ Qlik Cloud Data Integration។

Databricks Data Intelligence Platform

មូលដ្ឋានគ្រឹះនៃ Databricks Data Intelligence Platform ស្ថិតនៅក្នុងស្ថាបត្យកម្ម lakehouse ដែលជាការបញ្ចូលគ្នាបដិវត្តន៍នៃទិន្នន័យបឹង និងឃ្លាំងទិន្នន័យ។ វិធីសាស្រ្តប្រកបដោយភាពច្នៃប្រឌិតនេះគឺសំដៅឆ្ពោះទៅរកការកាត់បន្ថយការចំណាយ និងពន្លឿនការសម្រេចបាននូវទិន្នន័យ និងគោលដៅ AI ។
ដោយប្រកាន់ខ្ជាប់នូវគោលការណ៍ប្រភពបើកចំហ និងការប្រកាន់ខ្ជាប់នូវស្តង់ដារបើកចំហ ស្ថាបត្យកម្ម lakehouse សម្រួលហេដ្ឋារចនាសម្ព័ន្ធទិន្នន័យដោយដកចេញនូវរបាំងប្រវត្តិសាស្ត្រដែលជារឿយៗធ្វើអោយស្មុគស្មាញដល់អាណាចក្រនៃទិន្នន័យ និង AI ។ តាមរយៈការធ្វើដូច្នេះ វាផ្តល់នូវបរិយាកាសកាន់តែស្អិតរមួត និងមានប្រសិទ្ធភាពសម្រាប់ការគ្រប់គ្រង និងប្រើប្រាស់ធនធានទិន្នន័យរបស់អ្នក។

បង្រួបបង្រួម

ស្ថាបត្យកម្មបង្រួបបង្រួមដែលរួមបញ្ចូលការរួមបញ្ចូល ការផ្ទុក ដំណើរការ អភិបាលកិច្ច ការចែករំលែក ការវិភាគ និង AI ។ វិធីសាស្រ្តឯកវចនៈសម្រាប់ដោះស្រាយទាំងទិន្នន័យដែលមានរចនាសម្ព័ន្ធ និងមិនមានរចនាសម្ព័ន្ធ។ ទស្សនវិស័យដ៏ទូលំទូលាយលើខ្សែទិន្នន័យ និងការបង្ហាញពីដើមដល់ចប់។ កញ្ចប់ឧបករណ៍ដ៏ស្អិតរមួតដែលផ្ទុក Python និង SQL, សៀវភៅកត់ត្រា និង IDEs ដំណើរការបណ្តុំ និងស្ទ្រីម ឆ្លងកាត់អ្នកផ្តល់សេវាពពកធំៗទាំងអស់។

បើក

នៅក្នុងក្របខ័ណ្ឌ Databricks ការគ្រប់គ្រងលើទិន្នន័យត្រូវបានរក្សាជាប់លាប់ ដោយធានានូវឯករាជ្យភាពពីទម្រង់កម្មសិទ្ធិ និងប្រព័ន្ធអេកូឡូស៊ីបិទជិត។
មូលដ្ឋានគ្រឹះនៃស្ថាបត្យកម្ម lakehouse ពឹងផ្អែកលើគម្រោងប្រភពបើកចំហដែលទទួលយកយ៉ាងទូលំទូលាយដូចជា Apache Spark™, Delta Lake និង MLflow ។ វារីករាយនឹងការគាំទ្រជាសកលតាមរយៈបណ្តាញដៃគូ Databricks ។ លើសពីនេះ មុខងារ Delta Sharing បង្ហាញដំណោះស្រាយបើកចំហសម្រាប់ការចែករំលែកទិន្នន័យពេលវេលាជាក់ស្តែងដោយសុវត្ថិភាពពី lakehouse ទៅកាន់វេទិកាកុំព្យូទ័រណាមួយ។ នេះត្រូវបានសម្រេចដោយមិនចាំបាច់មានការចម្លងទិន្នន័យ ឬការស្រង់ចេញយ៉ាងស្មុគស្មាញ ដំណើរការ Transform, Load (ETL)។

អាចធ្វើមាត្រដ្ឋានបាន។

ការបង្កើនប្រសិទ្ធភាពដោយស្វ័យប្រវត្តិសម្រាប់ដំណើរការ និងការផ្ទុកត្រូវបានរចនាឡើងយ៉ាងល្អិតល្អន់ដើម្បីធានាបាននូវការចំណាយសរុបនៃកម្មសិទ្ធិ (TCO) ទាបបំផុតក្នុងចំណោមវេទិកាទិន្នន័យ ក្នុងពេលដំណាលគ្នាសម្រេចបាននូវដំណើរការកំណត់កំណត់ត្រាពិភពលោកសម្រាប់ឃ្លាំងទិន្នន័យ និងករណីប្រើប្រាស់បញ្ញាសិប្បនិម្មិត (AI)។ នេះពង្រីកដល់ការអនុវត្តបច្ចេកទេសបង្កើតដូចជា គំរូភាសាធំ (LLMs)។
ដោយមិនគិតពីមាត្រដ្ឋានអង្គភាពទេ Databricks ត្រូវបានបង្កើតឡើងដើម្បីដោះស្រាយយ៉ាងមានប្រសិទ្ធភាពនូវតម្រូវការប្រតិបត្តិការរបស់អាជីវកម្ម ចាប់ពីការចាប់ផ្តើមអាជីវកម្មរហូតដល់សហគ្រាសសកល។

ឃ្លាំង SQL x ចង្កោមកុំព្យូទ័រទូទៅ

ដំណោះស្រាយ Qlik គាំទ្រទាំង Databricks SQL Warehouses និង Compute Clusters។ ពួកវាជាវិធីពីរផ្សេងគ្នានៃដំណើរការទិន្នន័យនៅក្នុងពពក។ ក្នុងករណីទាំងពីរដំណោះស្រាយ Qlik នឹងផ្ញើពាក្យបញ្ជា SparkSQL ដើម្បីដំណើរការទិន្នន័យ ដោយមិនពឹងផ្អែកលើលក្ខណៈពិសេសដែលបានគាំទ្រផ្សេងទៀត (ដូចជាសៀវភៅកត់ត្រានៅក្នុង Scala សម្រាប់អតីត។ampលេ) ជម្រើសរវាងឃ្លាំង Databricks SQL និងចង្កោមកុំព្យូទ័រទូទៅអាស្រ័យលើតម្រូវការជាក់លាក់ និងគោលដៅនៃគម្រោងនីមួយៗ។ កត្តាមួយចំនួនដែលត្រូវពិចារណាគឺ៖

បរិមាណទិន្នន័យ

ប្រេកង់ CDC៖ ឃ្លាំង SQL មានល្បឿនលឿនក្នុងការបង្វិលនៅពេលធ្វើសកម្មភាពលើកដំបូង ហើយចង្កោមអាចយឺតជាងក្នុងការឆ្លើយពាក្យបញ្ជាដំបូង។
ការធ្វើមាត្រដ្ឋាន និងការបត់បែន៖ ឃ្លាំង SQL អាចធ្វើមាត្រដ្ឋានឡើង ឬចុះក្រោមដោយស្វ័យប្រវត្តិ ដើម្បីបំពេញតាមតម្រូវការរបស់អ្នកប្រើប្រាស់ និងសំណួរដែលស្របគ្នា។ ចង្កោមគណនាទូទៅក៏អាចធ្វើមាត្រដ្ឋានបានដែរ ប៉ុន្តែត្រូវការអន្តរាគមន៍ និងការលៃតម្រូវដោយដៃបន្ថែមទៀត។
សុវត្ថិភាព និងអភិបាលកិច្ច៖ ឃ្លាំង SQL ផ្តល់នូវមុខងារសុវត្ថិភាពដែលភ្ជាប់មកជាមួយដូចជា ការអ៊ិនគ្រីប ការផ្ទៀងផ្ទាត់ ការអនុញ្ញាត ការធ្វើសវនកម្ម និងការអនុលោមតាមច្បាប់។ ចង្កោមកុំព្យូទ័រទូទៅក៏អាចអនុវត្តវិធានការសុវត្ថិភាពបានដែរ ប៉ុន្តែទាមទារការកំណត់រចនាសម្ព័ន្ធ និងការគ្រប់គ្រងបន្ថែមទៀត។

សរុបមក ឃ្លាំង Databricks SQL និងចង្កោមកុំព្យូទ័រទូទៅគឺជាដំណោះស្រាយដ៏មានឥទ្ធិពល និងអាចទុកចិត្តបានសម្រាប់ដំណើរការទិន្នន័យនៅក្នុងពពក។ ទោះជាយ៉ាងណាក៏ដោយ ពួកគេមានចំណុចខ្លាំង និងចំណុចខ្សោយខុសៗគ្នា ដែលគួរត្រូវបានវាយតម្លៃយ៉ាងប្រុងប្រយ័ត្ន មុននឹងជ្រើសរើសជម្រើសមួយទៀត។

អនុសាសន៍សម្រាប់ចង្កោមកុំព្យូទ័រទូទៅសម្រាប់ដំណោះស្រាយ Qlik

ចំណាំ
អនុសាសន៍ខាងក្រោមគឺសម្រាប់ជាឯកសារយោង និងផ្អែកលើគម្រោង និង POCs ដែលធ្វើឡើងដោយ Qlik និងដៃគូរបស់ខ្លួនទាក់ទងនឹងតម្រូវការជាក់លាក់។ កត្តាជាច្រើនដូចជាបណ្តាញ topology ភាពយឺតយ៉ាវ រចនាសម្ព័ន្ធតារាង ប្រេកង់អាប់ដេត កំណែកម្មវិធីបញ្ជា។ល។ អាចប៉ះពាល់ដល់ការកំណត់ចាំបាច់សម្រាប់ករណីប្រើប្រាស់ជាក់លាក់របស់អ្នក។ អតិថិជនត្រូវបានណែនាំអោយអនុវត្តវិសាលភាព និងឧស្សាហ៍ព្យាយាមដើម្បីកំណត់ការកំណត់រចនាសម្ព័ន្ធរបស់ពួកគេ។

ពេលវេលាដំណើរការរបស់ Databricks
ពិនិត្យ Qlik Replicate និង Qlik Cloud Data Integration ជានិច្ច (http://help.qlik.com) ដើម្បីមើលថា Databricks Runtime មួយណាត្រូវបានគាំទ្រ នៅពេលអ្នកកំពុងកំណត់រចនាសម្ព័ន្ធចង្កោមរបស់អ្នក។

Databricks Runtime Version គាំទ្រ Photon
នៅពេលអ្នកកំពុងកំណត់រចនាសម្ព័ន្ធចង្កោមរបស់អ្នក ជ្រើសរើស "Photon" សម្រាប់កំណែដំណើរការ Databricks ដែលនឹងគាំទ្រចង្កោមគោលបំណងទូទៅរបស់អ្នក។ Photon គឺជាម៉ាស៊ីនសំណួរដែលមានលក្ខណៈជាវ៉ិចទ័រដើមនៅលើ Databricks ដែលបានសរសេរដើម្បីឱ្យត្រូវគ្នាដោយផ្ទាល់ជាមួយ Apache Spark ។ Photon គឺជាផ្នែកមួយនៃកម្មវិធីដំណើរការដែលមានប្រសិទ្ធភាពខ្ពស់ដែលដំណើរការ SQL និង DataFrame API ដែលមានស្រាប់របស់អ្នក ហៅលឿនជាងមុន និងកាត់បន្ថយការចំណាយសរុបរបស់អ្នកក្នុងមួយបន្ទុក។ សម្រាប់ការពិភាក្សាបន្ថែមអំពី Photon សូមមើលឯកសារនេះ https://docs.databricks.com/runtime/photon.html
ជ្រើសរើស "ការធ្វើឱ្យប្រសើរអង្គចងចាំ - ឃ្លាំងសម្ងាត់ Delta បានពន្លឿន"
នៅពេលអ្នកកំពុងកំណត់រចនាសម្ព័ន្ធចង្កោមរបស់អ្នក សូមប្រាកដថាអ្នកជ្រើសរើស "ការធ្វើឱ្យប្រសើរអង្គចងចាំ - ឃ្លាំងសម្ងាត់ Delta បង្កើនល្បឿន" ប្រភេទកម្មករ។
(*) បញ្ជីខាងលើគឺផ្អែកលើ Azure Databricks វាអាចផ្លាស់ប្តូរប្រសិនបើអ្នកកំពុងប្រើ AWS ឬ GCP
កំណត់រចនាសម្ព័ន្ធជម្រើសបង្កើនប្រសិទ្ធភាពដោយស្វ័យប្រវត្តិ
បន្ថែមការកំណត់រចនាសម្ព័ន្ធទៅចង្កោមរបស់អ្នកដើម្បីបើកដំណើរការ optimizeWrite និងបិទ autoCompact ។ ការបិទដំណើរការ autoCompact គឺចាំបាច់ដើម្បីការពារការបង្រួមសៀរៀលពីការត្រូវបានបង្កឡើងដោយការអាប់ដេត CDC ក្នុងពេលជាក់ស្តែង (ដែលអាចនាំទៅរកការបង្កើនភាពយឺតយ៉ាវ)។ ដើម្បីធ្វើដូច្នេះ បន្ថែមបន្ទាត់ខាងក្រោមទៅផ្នែក Spark របស់អ្នកនៃជម្រើសកម្រិតខ្ពស់នៃចង្កោមរបស់អ្នក។
ផ្កាភ្លើង។ ទិន្នន័យ bricks.delta.properties.defaults ។ auto-optimize.optimize សរសេរពិត
spark.databricks.delta.properties.defaults.autoOptimize.autoCompact មិនពិត
សូមពិនិត្យ https://docs.databricks.com/clusters/configure.html សម្រាប់ព័ត៌មានបន្ថែមអំពីការកំណត់រចនាសម្ព័ន្ធចង្កោមរបស់អ្នក។

ធ្វើឱ្យតារាងប្រសើរឡើងជាទៀងទាត់
វាមានសារៈសំខាន់ណាស់ក្នុងការកំណត់កាលវិភាគសៀវភៅកត់ត្រាដើម្បី OPTIMIZE តារាងនៅក្នុង Delta Lake របស់អ្នក។ វានឹងធ្វើអោយល្បឿនសំណួរប្រសើរឡើងសម្រាប់ទិន្នន័យដែលបានចុះចត។ សូមពិគ្រោះជាមួយឯកសារនេះ៖ https://docs.microsoft.com/en-us/azure/databricks/delta/optimizations/file-mgmt សម្រាប់ samples នៃ notebooks ដើម្បីបង្កើនប្រសិទ្ធភាពតារាង។
ការធ្វើមាត្រដ្ឋានដោយស្វ័យប្រវត្តិ
ដោយសារបរិមាណការងារអថេរដែល CDC បង្ហាញ ការណែនាំគឺត្រូវប្រើឡើងវិញview your configuration based on the workload and testing with your tasks, monitoring and then increasing ឬ decreasing based on the usage. Please refer to Databricks documentation (https://docs.databricks.com/clusters/clusters-manage.html#monitor-performance) សម្រាប់របៀបត្រួតពិនិត្យការអនុវត្តចង្កោម។

អនុសាសន៍សម្រាប់ឃ្លាំង SQL សម្រាប់ដំណោះស្រាយ Qlik

ចំណាំ

អនុសាសន៍ខាងក្រោមគឺសម្រាប់ជាឯកសារយោង និងផ្អែកលើគម្រោង និង POCs ដែលធ្វើឡើងដោយ Qlik និងដៃគូរបស់ខ្លួនទាក់ទងនឹងតម្រូវការជាក់លាក់។ កត្តាជាច្រើនដូចជាបណ្តាញ topology ភាពយឺតយ៉ាវ រចនាសម្ព័ន្ធតារាង ប្រេកង់អាប់ដេត កំណែកម្មវិធីបញ្ជា។ល។ អាចប៉ះពាល់ដល់ការកំណត់ចាំបាច់សម្រាប់ករណីប្រើប្រាស់ជាក់លាក់របស់អ្នក។ អតិថិជនត្រូវបានណែនាំអោយអនុវត្តវិសាលភាព និងឧស្សាហ៍ព្យាយាមដើម្បីកំណត់ការកំណត់រចនាសម្ព័ន្ធរបស់ពួកគេ។
SQL Warehouses មានជម្រើសតិចជាងច្រើនក្នុងការកំណត់រចនាសម្ព័ន្ធនៅកម្រិតឃ្លាំង (បើប្រៀបធៀបទៅនឹងចង្កោម)។ ការកំណត់រចនាសម្ព័ន្ធដែលមាន។

ប្រភេទឃ្លាំង
- នៅពេលឯកសារនេះត្រូវបានសរសេរ មានឃ្លាំងបីប្រភេទ។ សូមយោងឯកសារនេះ តើឃ្លាំង SQL ជាអ្វី? សម្រាប់ការពិភាក្សាទូទៅអំពីពួកគេ។
- តាមទស្សនៈនៃការអនុវត្ត និងស្របគ្នា អនុសាសន៍ទូទៅគឺត្រូវប្រើឃ្លាំង Serverless ដើម្បីបង្កើនការអនុវត្តទូទៅនៃកិច្ចការរបស់អ្នក។ បរិស្ថាន និងគណនីមួយចំនួនមិនមានជម្រើសនេះទេ ក្នុងស្ថានភាពនេះ ការណែនាំគឺឃ្លាំង Pro។

ការធ្វើមាត្រដ្ឋាន
កែតម្រូវប៉ារ៉ាម៉ែត្រនេះដើម្បីបង្កើនដោយផ្អែកលើប៉ារ៉ាម៉ែត្រភារកិច្ច "ចំនួនអតិបរមានៃតារាងដែលត្រូវផ្ទុកស្របគ្នា" (ចម្លង) ឬ "ចំនួនអតិបរមានៃការតភ្ជាប់មូលដ្ឋានទិន្នន័យ" (Qlik Cloud Data Integration) ។ ច្បាប់ទូទៅនៃមេដៃគឺត្រូវមានចង្កោមឃ្លាំងមួយដើម្បីដំណើរការតារាង 2 ទៅ 3 ឬការតភ្ជាប់ស្របគ្នា។
ទំហំចង្កោម
- ប៉ារ៉ាម៉ែត្រនេះពឹងផ្អែកខ្លាំងលើទិន្នន័យដែលកំពុងដំណើរការ។ ប៉ារ៉ាម៉ែត្រជាច្រើនអាចប៉ះពាល់ដល់ដំណើរការទូទៅដូចជាតារាងជាច្រើន ចំនួន និងប្រភេទជួរឈរនៃតារាងនីមួយៗ ប្រេកង់អាប់ដេតជាដើម។
- អនុសាសន៍ទូទៅគឺត្រូវចាប់ផ្តើមជាមួយនឹងទំហំមួយដែលមានតម្លៃរំពឹងទុកល្អ x ការអនុវត្ត (ដូចជាឧបករណ៍ផ្ទុកសម្រាប់ឧample) និងធ្វើការសាកល្បងមួយចំនួនដែលកែតម្រូវប៉ារ៉ាម៉ែត្រនេះ (ឡើងលើ ឬចុះក្រោម) ប្រៀបធៀបជាមួយបន្ទាត់មូលដ្ឋាន។

ការប្រៀបធៀបការអនុវត្តរវាង SQL Warehouses x General Compute Clusters

ចំណាំ
ការធ្វើតេស្តនេះត្រូវបានធ្វើឡើងនៅក្នុងបរិយាកាសមន្ទីរពិសោធន៍ ហើយមិនតំណាងឱ្យបរិយាកាសជាក់ស្តែងណាមួយឡើយ។ លទ្ធផលអាចប្រែប្រួលអាស្រ័យលើប្រភេទនៃប្រភព ធាតុកំពូល បរិមាណ ទំហំកំណត់ត្រា ការលៃតម្រូវមូលដ្ឋានទិន្នន័យប្រភព និងអថេរផ្សេងទៀត។

បរិស្ថាន៖

ប្រភព
- PostgreSQL ដំណើរការលើ VM
- 1 តារាងដែលមាន 7 ជួរឈរនិង 36 លានកំណត់ត្រា
- សោចម្បង (1 ជួរឈរ)
- ការធ្វើតេស្តស្គ្រីប CDC ជាមួយអ្នកជំនាញfile ខាងក្រោម

គោលដៅ (Databricks on Azure) – Stagនៅលើ ADLS gen2
Qlik ចម្លងខែវិច្ឆិកា ឆ្នាំ 2023 (2023.11.0.149) នៅលើ Windows
ដំណើរការ
- កិច្ចការពីរ (ប្រភពតែមួយ និងចំណុចបញ្ចប់គោលដៅផ្សេងគ្នា)
- បានចាប់ផ្តើមផ្ទុកពេញលើកិច្ចការទី 1 ហើយរង់ចាំការបញ្ចប់។
- បានចាប់ផ្តើមផ្ទុកពេញលើកិច្ចការទី 2 ហើយរង់ចាំការបញ្ចប់។
- បានចាប់ផ្តើមស្គ្រីប SQL ដែលក្លែងធ្វើការផ្លាស់ប្តូរ។ ភារកិច្ចទាំងពីរដំណើរការស្របគ្នា និងបញ្ជូនទៅកាន់គ្រោងការណ៍ផ្សេងគ្នានៅលើ Databricks
  លទ្ធផល៖
  ដោយប្រើកម្មវិធីគ្រប់គ្រងសហគ្រាស Qlik ដើម្បីប្រមូលស្ថិតិទាំងអស់ យើងបានសង្កេតឃើញថាមិនមានភាពខុសគ្នាខ្លាំងក្នុងការអនុវត្តរវាងការប្រើប្រាស់ឃ្លាំង SQL និង Clusters នោះទេ។ តាមទស្សនៈនៃការចំណាយ ឃ្លាំង SQL ជាធម្មតាមានប្រសិទ្ធភាពជាង ដែលអាចបង្ហាញពីការប្រើប្រាស់របស់ពួកគេលើចង្កោម។

ការណែនាំសម្រាប់ការរួមបញ្ចូលទិន្នន័យ Qlik Cloud

ការជ្រើសរើសតារាងក្នុងកិច្ចការមួយ។
Databricks ផ្តល់អនុសាសន៍ឱ្យញែកតារាងធំ ឬធំទូលាយ (ជួរឈរជាច្រើន) ដែលដំណើរការច្រើនសម្រាប់កិច្ចការរបស់ពួកគេ។ ការប្រើប្រាស់វិធីសាស្រ្តនេះធ្វើឱ្យវាកាន់តែងាយស្រួលក្នុងការត្រួតពិនិត្យការអនុវត្ត ឬបែងចែកឃ្លាំងសម្រាប់កិច្ចការជាក់លាក់មួយ។
ការផ្លាស់ប្តូរនៅក្នុងកិច្ចការមួយ។
ប្រសិនបើគោលបំណងរបស់អ្នកគឺដើម្បីបង្កើនប្រសិទ្ធភាពលំហូរនៃទិន្នន័យប្រតិបត្តិការខ្ពស់ដែលត្រូវបានបញ្ចូលទៅក្នុងបឹង វាត្រូវបានណែនាំឱ្យកាត់បន្ថយការផ្លាស់ប្តូរនៅកម្រិតកិច្ចការ។ វិធីសាស្រ្តនេះអនុញ្ញាតឱ្យអ្នកចុះចតទិន្នន័យដូចដែលវាចូលទៅក្នុងបឹងហើយបន្ទាប់មកប្រើសមត្ថភាពវិស្វកម្មទិន្នន័យដែលមានទាំងអស់ដើម្បីអនុវត្តការផ្លាស់ប្តូរ។ ដំណើរការនេះត្រូវបានសំដៅតាមបច្ចេកទេសថាជាការបំប្លែង ETL (Extract-Transform-Load) ទៅជា ELT (Extract-Load-Transform)។

ឃ្លាំងទិន្នន័យប្រវត្តិសាស្រ្ត (ប្រភេទទី 2) នៅការផ្ទុក / ការផ្លាស់ប្តូរ
Qlik Cloud Data Integration នឹងបង្កើតទ្រព្យសម្បត្តិប្រវត្តិសាស្រ្ត (ប្រភេទទី 2) តាមលំនាំដើម ដែលរក្សា និងគ្រប់គ្រងទិន្នន័យបច្ចុប្បន្ន និងប្រវត្តិសាស្រ្តតាមពេលវេលា ដោយផ្អែកលើប្រភេទ 2 SCD (Slowly Changing Dimension) ។ កំណែទាំងអស់នៃកំណត់ត្រាត្រូវបានរក្សាទុក រួមទាំងការលុប ជាមួយនឹងកាលបរិច្ឆេទដែលបង្ហាញពីរយៈពេលដែលកំណត់ត្រានីមួយៗសកម្ម។ ប្រសិនបើព័ត៌មាននេះមិនពាក់ព័ន្ធ អ្នកអាចបិទមុខងារនេះនៅក្នុងផ្នែកផ្ទុក ឬផ្លាស់ប្តូរនៃការកំណត់គម្រោង។ វានឹងជួយសន្សំសំចៃធនធាន (លំហ និងកុំព្យូទ័រ) ពីកន្លែងធ្វើការរបស់អ្នក។
សម្ភារៈលើកិច្ចការផ្លាស់ប្តូរ
ទិន្នន័យដែលបានបង្កើតពីកិច្ចការបំប្លែងអាចត្រូវបានលាតត្រដាងតាមពីរវិធី៖
- Views - ដែលជាកន្លែងដែលសំណួរទាំងអស់ប្រឆាំងនឹងអង្គភាពនេះនឹងត្រូវបានប្រតិបត្តិប្រឆាំងនឹងតារាងដើមពីតំបន់ផ្ទុក
- តុ - ដែលជាកន្លែងដែលតារាងនឹងត្រូវបានបំពេញតាមវិធីដែលបានកំណត់ពេលដោយផ្អែកលើទិន្នន័យពីតំបន់ផ្ទុក។
  ជម្រើសរវាងពួកវានឹងផ្អែកលើថាតើទិន្នន័យដែលបានបំប្លែងនឹងត្រូវបានចូលប្រើញឹកញាប់ប៉ុណ្ណា។ ទិន្នន័យដែលបានបំប្លែងតិចជាញឹកញាប់នឹងត្រូវបានបង្ហាញជា views ទិន្នន័យដែលបានផ្លាស់ប្តូរញឹកញាប់ជាងនេះគួរតែត្រូវបានបន្តជាតារាង។ ប្រសិនបើមានតម្រូវការប្រើប្រាស់ទាំងពីរ វាមានជម្រើសដើម្បីមានកិច្ចការបំប្លែងពីរ (ឬច្រើន) ដែលមួយផ្អែកលើ views និងផ្សេងទៀតដោយផ្អែកលើតារាង។
ការប្រើប្រាស់ផ្ទាល់ Views
- រស់នៅ views បញ្ចូលទិន្នន័យពីតារាងផ្លាស់ប្តូរដែលមិនទាន់ត្រូវបានអនុវត្តចំពោះតារាងបច្ចុប្បន្ន ឬពីមុន។ មុខងារនេះអនុញ្ញាតឱ្យអ្នកប្រើប្រាស់ចូលប្រើទិន្នន័យដោយកាត់បន្ថយភាពយឺតយ៉ាវដោយមិនចាំបាច់មានកម្មវិធីផ្លាស់ប្តូរញឹកញាប់។
- ការពន្យារពេលប្រតិបត្តិការបញ្ចូលគ្នាក៏នាំឱ្យមានការសន្សំការចំណាយ និងការថយចុះតម្រូវការដំណើរការនៅលើវេទិកាគោលដៅ។
- លើសពីនេះទៀត, រស់នៅ views ផ្តល់ជូន advantage ដែលមិនតម្រូវឱ្យថ្នាក់កុំព្យូទ័រដំណើរការជានិច្ច។ ភាពយឺតយ៉ាវអាចត្រូវបានពង្រឹង ព្រោះមិនចាំបាច់អនុវត្តការផ្លាស់ប្តូរពេញមួយថ្ងៃទៀតទេ។ កំណត់ត្រាដែលបានបញ្ចូលថ្មីអាចប្រើបានភ្លាមៗក្នុងការផ្សាយផ្ទាល់ views នៅពេលដែលពួកវាអាចចូលប្រើបានក្នុងតារាងការផ្លាស់ប្តូរ ហើយកិច្ចការផ្ទុកអាចដំណើរការមិនសូវញឹកញាប់ក្នុងការសន្សំធនធានក្រុម/ឃ្លាំង។
អស់ពេលនៅកម្រិតនៃការតភ្ជាប់
ដើម្បីធានាបាននូវប្រតិបត្តិការដ៏ល្អប្រសើរនៃការរួមបញ្ចូលទិន្នន័យ Qlik Cloud វាជារឿងសំខាន់ក្នុងការកំណត់រចនាសម្ព័ន្ធទ្រព្យសម្បត្តិខាងក្នុងដែលមានឈ្មោះថា executeTimeout ជាមួយនឹងតម្លៃធំជាង 300។ ការកំណត់រចនាសម្ព័ន្ធនេះធានាថាប្រព័ន្ធ Qlik Cloud Data Integration នឹងរក្សារយៈពេលរង់ចាំយ៉ាងហោចណាស់ 5 នាទីមុនពេលចុះឈ្មោះ។ បរាជ័យ។ អាស្រ័យហេតុនេះ វាផ្តល់ពេលវេលាគ្រប់គ្រាន់សម្រាប់ឃ្លាំងដើម្បីចាប់ផ្តើមដំណើរការប្រសិនបើវាស្ថិតក្នុងស្ថានភាពផ្អាកពីមុន។ នេះមានសារៈសំខាន់ជាពិសេសនៅក្នុងសេណារីយ៉ូដែលឃ្លាំងត្រូវការពេលវេលាចាប់ផ្តើមយូរជាងនេះ។

អនុសាសន៍សម្រាប់ Qlik ចម្លង

ការជ្រើសរើសតារាងក្នុងកិច្ចការមួយ។
Databricks ផ្តល់អនុសាសន៍ឱ្យញែកតារាងធំ ឬធំទូលាយ (ជួរឈរជាច្រើន) ដែលដំណើរការច្រើនសម្រាប់កិច្ចការរបស់ពួកគេ។ ការប្រើប្រាស់វិធីសាស្រ្តនេះធ្វើឱ្យវាកាន់តែងាយស្រួលក្នុងការត្រួតពិនិត្យការអនុវត្ត ឬបែងចែកចង្កោមទៅកិច្ចការជាក់លាក់មួយ។
ការផ្លាស់ប្តូរនៅក្នុងកិច្ចការមួយ។
ប្រសិនបើគោលបំណងរបស់អ្នកគឺដើម្បីបង្កើនប្រសិទ្ធភាពលំហូរនៃទិន្នន័យប្រតិបត្តិការខ្ពស់ដែលត្រូវបានបញ្ចូលទៅក្នុង Lakehouse វាត្រូវបានផ្ដល់អនុសាសន៍ឱ្យកាត់បន្ថយការផ្លាស់ប្តូរនៅកម្រិតភារកិច្ច។ វិធីសាស្រ្តនេះអនុញ្ញាតឱ្យអ្នកចុះចតទិន្នន័យដូចដែលវាចូលទៅក្នុង Lakehouse ហើយបន្ទាប់មកប្រើសមត្ថភាពវិស្វកម្មទិន្នន័យដែលមានទាំងអស់ដើម្បីអនុវត្តការផ្លាស់ប្តូរ។ ដំណើរការនេះត្រូវបានសំដៅតាមបច្ចេកទេសថាជាការបំប្លែង ETL (Extract-Transform-Load) ទៅជា ELT (Extract-Load-Transform)។
File ការកំណត់ទំហំ
- មានប៉ារ៉ាម៉ែត្រចម្លង Qlik នៅកម្រិតការតភ្ជាប់ដែលអាចបង្កើនលំហូរទិន្នន័យ។ វាត្រូវបានគេហៅថាអតិបរមា file ទំហំ (MB) ហើយវាមានទីតាំងនៅក្រោមការកំណត់កម្រិតខ្ពស់នៃការតភ្ជាប់របស់អ្នក។
- តម្លៃលំនាំដើមគឺ 100Mb ហើយប៉ារ៉ាម៉ែត្រនេះបង្ហាញពី file ទំហំដែលត្រូវបានផ្ទុកឡើងទៅ stagតំបន់មុនពេលផ្ទុកទៅក្នុងតារាង។ អ្នកអាចមើលឃើញខាងក្រោមផលប៉ះពាល់នៃការផ្លាស់ប្តូរប៉ារ៉ាម៉ែត្រនេះសម្រាប់តារាងដែលមានកំណត់ត្រា 100M (ទិន្នន័យប្រហែល 3.8 GB នៅលើប្រភព)។ មិនមាន "ច្បាប់មាស" សម្រាប់ប៉ារ៉ាម៉ែត្រនេះទេ ប៉ុន្តែជាធម្មតាវាធំជាង file ទំហំបង្កើនដំណើរការផ្ទេរទិន្នន័យ ដែលមានសារៈសំខាន់ខ្លាំងក្នុងអំឡុងពេលផ្ទុកពេញដំបូង។
- ការកំណត់រចនាសម្ព័ន្ធចង្កោម៖
- តារាងប្រភព (Azure RDS Mysql)
  
  As shown above, there was a very good improvement when increasing នេះ។ file ទំហំពីតម្លៃលំនាំដើម (100MB) ដល់ 500MB ទោះបីជាការកើនឡើងបន្ថែមលើសពី 500MB ក្នុងការធ្វើតេស្តនេះមានឥទ្ធិពលតិចជាងច្រើនលើដំណើរការក៏ដោយ។
ការកំណត់ការលៃតម្រូវបាច់
Qlik ចម្លងការផ្លាស់ប្តូរខ្នាតតូចសម្រាប់ការដឹកជញ្ជូនដែលប្រសើរឡើងទៅ Databricks Delta និងការកំណត់រចនាសម្ព័ន្ធការលៃតម្រូវជាបាច់សម្រាប់ភារកិច្ចប៉ះពាល់ដល់ទំហំនៃ micro-batch ដែលផ្ញើទៅ Databricks ។
- ផ្លាស់ប្តូររបៀបដំណើរការ៖ មានតែ Batch Optimized Apply ប៉ុណ្ណោះដែលត្រូវបានគាំទ្រសម្រាប់គោលដៅ Databricks ។
- អនុវត្តការផ្លាស់ប្តូរជាបាច់ទៅតារាងច្រើនក្នុងពេលដំណាលគ្នា៖ This option configures the number of threads that will work in parallel to upload and apply data to Databricks. The default value is 5, with a maximum of 50. Increasing this value can improve your throughput when there are many tables with CDC in a given batch however it may require additional cluster resources. Please review ដែនកំណត់នៃរបៀបនេះនៅក្នុងការណែនាំជំនួយការចម្លង។
- អនុវត្តការផ្លាស់ប្តូរជាបាច់ក្នុងការកំណត់ចន្លោះពេល៖ កំណត់រចនាសម្ព័ន្ធពេលវេលា និងទំហំនៃដុំមីក្រូ។
- យូរជាង (វិនាទី)៖ This specifies the minimum amount of time to wait between each application of batch changes. The default value is 1 and typically is too low a value for Databricks delta apply processes. Increasing this value decreases the frequency with which changes are applied to the target while increasing the size of the batches, essentially creating larger batches at the expense of some additional latency. It is recommended to start with a value of 60 and increase even further if some additional latency is acceptable. In some cases waiting for larger batches can improve throughput and latency
- ប៉ុន្តែតិចជាង (វិនាទី)៖ តម្លៃនេះបញ្ជាក់ចំនួនអតិបរមានៃពេលវេលាដែលត្រូវរង់ចាំរវាងកម្មវិធីនីមួយៗនៃការផ្លាស់ប្តូរជាបាច់ (មុនពេលប្រកាសអស់ពេល)។ នៅក្នុងពាក្យផ្សេងទៀត ភាពយឺតយ៉ាវដែលអាចទទួលយកបានអតិបរមា។ តម្លៃលំនាំដើមគឺ 30។ តម្លៃនេះកំណត់ចំនួនអតិបរមានៃពេលវេលាដែលត្រូវរង់ចាំ មុនពេលអនុវត្តការផ្លាស់ប្តូរបន្ទាប់ពីតម្លៃដែលវែងជាង (វិនាទី) ត្រូវបានឈានដល់។ វាត្រូវបានណែនាំឱ្យកំណត់រចនាសម្ព័ន្ធតម្លៃនេះដល់ 120 (រួមផ្សំជាមួយតម្លៃវែងជាង 60 ហើយកំណត់តម្លៃឱ្យកាន់តែខ្ពស់ ប្រសិនបើភាពយឺតយ៉ាវច្រើនអាចទទួលយកបាន។
- បង្ខំឱ្យអនុវត្តបណ្តុំនៅពេលដំណើរការអង្គចងចាំលើសពី (MB)៖ ការកំណត់នេះបញ្ជាក់ចំនួនអតិបរមានៃអង្គចងចាំដែលត្រូវប្រើសម្រាប់ដំណើរការមុននៅក្នុងរបៀបអនុវត្តដែលបានធ្វើឱ្យប្រសើរឡើងជាបាច់។ តម្លៃលំនាំដើមគឺ 500។ សម្រាប់ទំហំបាច់អតិបរមា សូមកំណត់តម្លៃនេះទៅចំនួនអង្គចងចាំខ្ពស់បំផុតដែលអ្នកអាចបែងចែកទៅ Qlik Replicate ។ វាត្រូវបានផ្ដល់អនុសាសន៍ឱ្យចាប់ផ្តើមជាមួយនឹងតម្លៃ 2000 ហើយពិចារណាការលៃតម្រូវខ្ពស់ជាងប្រសិនបើមានធនធានគ្រប់គ្រាន់នៅលើម៉ាស៊ីនមេ Qlik Replicate ។
- អនុវត្តការផ្លាស់ប្តូរដោយប្រើការបញ្ចូលគ្នា៖ នេះអនុញ្ញាតឱ្យភារកិច្ចប្រើពាក្យបញ្ជា SQL MERGE ដើម្បីពន្លឿនការបញ្ចូលទៅក្នុង Lakehouse ។

បែងចែកតារាងធំ
- Databricks ផ្តល់នូវសមត្ថភាពក្នុងការបែងចែកតារាង Delta ។ វាត្រូវបានផ្ដល់អនុសាសន៍ឱ្យបែងចែកតារាងធំ ៗ ដែលអាចជាឧបសគ្គនៅក្នុងដំណើរការកម្មវិធី។ Qlik Replicate បច្ចុប្បន្នមិនគាំទ្រការកំណត់រចនាសម្ព័ន្ធការបែងចែកគោលដៅនៅក្នុងកិច្ចការទេ។ តារាង Delta គោលដៅគួរតែត្រូវបានបង្កើតឡើងដោយ Qlik Replicate ហើយបន្ទាប់មកបង្កើតឡើងវិញជាមួយនឹងជួរឈរភាគថាសដែលសមស្រប។ ប្រសិនបើតារាងត្រូវបានកំណត់ថាជាការបែងចែក វាត្រូវបានណែនាំឱ្យកំណត់ភារកិច្ចដើម្បីអនុវត្ត TRUNCATE សម្រាប់ការផ្ទុកពេញ។
- ខណៈពេលដែលការបែងចែកជាគោលគំនិតត្រង់ ការកំណត់ជួរឈរបែងចែកល្អបំផុតទាមទារឱ្យមានការយល់ដឹងច្បាស់លាស់អំពីរបៀបដែលទិន្នន័យត្រូវបានកែប្រែដោយកម្មវិធី។ វាមិនត្រូវបានណែនាំអោយបែងចែកកូនសោចម្បងទេ ដោយសារការព្រួយបារម្ភអំពី cardinality ។ តារាងធំដែលទាមទារការបែងចែកជាធម្មតា
  "ប្រតិបត្តិការ" នៅក្នុងធម្មជាតិ - ឧទាហរណ៍ទិន្នន័យលក់។ ជាធម្មតាការជ្រើសរើសជួរឈរកាលបរិច្ឆេទ ឬបន្ថែមជួរឈរ YEAR_MONTH ទៅទិន្នន័យគោលដៅដែលបានកំណត់នៅក្នុង Replicate ផ្តល់នូវវិធីសាស្រ្តដ៏ល្អសម្រាប់ការបែងចែក។ ខាងក្រោមនេះគឺជាអតីតampឥទ្ធិពលនៃការបែងចែកទៅលើការប្រើប្រាស់ចង្កោម ហើយដូច្នេះភាពយឺតយ៉ាវ។ នៅក្នុងនេះអតីតample តារាងប្រហែល 68 លានជួរប្រភព / 655 GB នៃទិន្នន័យកំពុងដំណើរការផលិតកម្ម CDC ។ ការបែងចែកតារាង delta ដោយប្រើជួរឈរ DATE សម្រេចបាននូវការកាត់បន្ថយភាពយឺតយ៉ាវ 73% និងការកាត់បន្ថយទំហំធំនៃអង្គចងចាំ និងការប្រើប្រាស់ស៊ីភីយូនៅលើចង្កោម។

ការប្រើប្រាស់ចង្កោម - មិនត្រូវបានបែងចែក

ឧបសម្ព័ន្ធ I - ការបង្កើតការតភ្ជាប់

វាត្រូវបានផ្ដល់អនុសាសន៍យ៉ាងខ្លាំងឱ្យអ្នកពិនិត្យមើលឯកសារដែលមាននៅលើ help.qlik.com សម្រាប់តម្រូវការចុងក្រោយបំផុត និងការកំណត់រចនាសម្ព័ន្ធដែលបានគាំទ្រសម្រាប់បរិស្ថាន Databricks របស់អ្នក។
ដើម្បីបង្កើតការភ្ជាប់ទិន្នន័យនៅក្នុង Qlik Replicate ទៅ Databricks អ្នកនឹងត្រូវការ៖

ឈ្មោះម៉ាស៊ីនមេ
ច្រក
ផ្លូវ HTTP
សញ្ញាសម្ងាត់

ចង្កោម
ព័ត៌មាន 1, 2, និង 3 អាចត្រូវបានស្រង់ចេញពីកុងសូល Databricks ដោយចូលទៅកាន់ការកំណត់រចនាសម្ព័ន្ធចង្កោម ឬការកំណត់រចនាសម្ព័ន្ធ SQL Endpoint របស់អ្នក ហើយនៅក្រោមផ្នែកជម្រើសកម្រិតខ្ពស់ អ្នកនឹងឃើញផ្ទាំង JDBC/ODBC

ឃ្លាំងទិន្នន័យ SQL
ព័ត៌មាន 1, 2, និង 3 អាចត្រូវបានស្រង់ចេញពីកុងសូល Databricks ដោយចូលទៅកាន់ផ្នែក SQL Warehouse នៅក្រោមផ្ទាំង "ព័ត៌មានលម្អិតអំពីការតភ្ជាប់"

ដើម្បីទទួលបានសញ្ញាសម្ងាត់ចូលប្រើ អ្នកត្រូវចូលទៅកាន់អ្នកប្រើប្រាស់
ផ្នែកការកំណត់នៃកុងសូល Databricks របស់អ្នក ហើយប្រើប៊ូតុងបង្កើតនិមិត្តសញ្ញាថ្មី។

វាមានសារៈសំខាន់ណាស់ក្នុងការរក្សាទុកនិមិត្តសញ្ញាដែលបានបង្កើតនៅកន្លែងដែលមានសុវត្ថិភាព ព្រោះអ្នកមិនអាចទាញយកវាម្តងទៀតបានទេ បន្ទាប់ពីអ្នកបិទការសន្ទនានេះ

ឯកសារ/ធនធាន

Qlik Talend ដំណោះស្រាយរួមបញ្ចូលទិន្នន័យ [pdf] ការណែនាំអ្នកប្រើប្រាស់
Talend Data Integration Solutions ដំណោះស្រាយសមាហរណកម្មទិន្នន័យ ដំណោះស្រាយសមាហរណកម្ម ដំណោះស្រាយ

ឯកសារយោង

សៀវភៅណែនាំអ្នកប្រើប្រាស់

Qlik Talend ដំណោះស្រាយរួមបញ្ចូលទិន្នន័យ

លក្ខណៈបច្ចេកទេស

ការណែនាំអំពីការប្រើប្រាស់ផលិតផល

សំណួរដែលសួរញឹកញាប់ (FAQ)

សេចក្តីផ្តើម

Qlik Talend ដំណោះស្រាយរួមបញ្ចូលទិន្នន័យ

Qlik ចម្លង

ការរួមបញ្ចូលទិន្នន័យ Qlik Cloud

វិធីមួយទៀតនៃការមើលឃើញស្ថាបត្យកម្មនេះគឺតាមរយៈគំនិតនៃភារកិច្ចដែលមានមុខងារឯកទេស

ការណែនាំអំពីការអនុវត្ត

Databricks Data Intelligence Platform

បង្រួបបង្រួម

បើក

អាចធ្វើមាត្រដ្ឋានបាន។

ឃ្លាំង SQL x ចង្កោមកុំព្យូទ័រទូទៅ

អនុសាសន៍សម្រាប់ចង្កោមកុំព្យូទ័រទូទៅសម្រាប់ដំណោះស្រាយ Qlik

អនុសាសន៍សម្រាប់ឃ្លាំង SQL សម្រាប់ដំណោះស្រាយ Qlik

ការប្រៀបធៀបការអនុវត្តរវាង SQL Warehouses x General Compute Clusters

ការណែនាំសម្រាប់ការរួមបញ្ចូលទិន្នន័យ Qlik Cloud

អនុសាសន៍សម្រាប់ Qlik ចម្លង

ឧបសម្ព័ន្ធ I - ការបង្កើតការតភ្ជាប់

ឯកសារ/ធនធាន

ឯកសារយោង

ប្រកាសដែលពាក់ព័ន្ធ

ទុកមតិយោបល់

បោះបង់ការឆ្លើយតប