Qlik Talend Data Integration Solutions

Vipimo
- Jina la Bidhaa: Qlik Talend Data Integration Solutions
- Jukwaa la Ujumuishaji: Jukwaa la Databricks Lakehouse
- Vipengele: Badilisha Ukamataji Data (CDC), Teknolojia ya Mabadiliko
Maagizo ya Matumizi ya Bidhaa
Qlik Talend Data Integration Solutions
Masuluhisho ya Ujumuishaji wa Data ya Qlik Talend huharakisha ujifunzaji wa mashine (ML), akili bandia (AI), na mipango ya DataOps yenye Change Data Capture (CDC), na teknolojia ya mabadiliko ambayo huhakikisha mtiririko wa data kutoka kwa vyanzo vingi vya data hadi kwenye Databricks Lakehouse Platform tayari kwa AI na. Matumizi ya uchanganuzi.
Qlik Replicate
Katika usanifu huu, Qlik Replicate hufanya kazi zifuatazo:
- Sakinisha Lengo:
- Unda majedwali lengwa katika umbizo la DELTA na aina sahihi za data zilizotafsiriwa kutoka chanzo.
- Tekeleza upakiaji wa awali/kamili kutoka kwa chanzo na utume data kwenye safu ya hifadhi.
- Tuma Spark SQL kwa Databricks ili kupakia data kutoka kwa safu ya hifadhi na kuibadilisha kuwa majedwali kwa kutumia umbizo la delta.
- Nasa na Tekeleza Mabadiliko:
- Nasa mabadiliko kwa kutumia kumbukumbu ya CDC kutoka kwa chanzo.
- Peleka na TUMA mabadiliko (Ingiza / Sasisha / Futa) kwenye jedwali lengwa la DELTA (kwa kutumia safu ya hifadhi kama s ya katitaging).
Ujumuishaji wa Data ya Wingu wa Qlik
Qlik Cloud Data Integration ni toleo la iPaaS ambalo hutoa uwezo wa kuunda mabomba ya mradi wa data kutekeleza kazi mbalimbali za kuunganisha data ili kusaidia usanifu wako wa data na AI, na mahitaji ya Uchanganuzi.
Majukumu ya Ujumuishaji wa Data ya Qlik Cloud:
- Kazi za kutua:
- Inasimamia uhamishaji usio na mshono wa data kutoka kwa vyanzo mbalimbali hadi eneo lililoteuliwa la kutua kwa kutumia Qlik Data Gateway - Usogezaji Data kwa kupata vyanzo vya data kupitia Badilisha Data Capture (CDC).
- Huruhusu upakiaji upya wa mara kwa mara kwa kutekeleza mizigo kamili.
- Kazi za Kubadilisha:
- Huzalisha mabadiliko ya data inayoweza kutumika tena na kulingana na sheria ndani ya bomba la data.
- Hufanya mabadiliko ya kiwango cha safu mlalo na ufundi seti za data kwa kutumia SQL maalum.
- Inaweza kubadilika kuwa majedwali au kudhihirisha kama inayobadilika views kutumia mabadiliko juu ya kuruka.
Maswali Yanayoulizwa Mara Kwa Mara (FAQ)
- Je, Qlik Inaiga na Ujumuishaji wa Data ya Wingu wa Qlik inaweza kutumika pamoja?
Ndiyo, masuluhisho yote mawili yanakamilishana na yanaweza kutumika pamoja au tofauti kulingana na hali ya matumizi ya biashara na usanifu wa data. - Ni zipi baadhi ya kazi kuu za Qlik Replicate?
Qlik Replicate inaweza kuthibitisha lengo kwa kuunda majedwali katika umbizo la DELTA, kutekeleza mizigo ya awali, kunasa mabadiliko kwa kutumia CDC, na kutumia mabadiliko kwenye majedwali lengwa. - Madhumuni ya Ujumuishaji wa Data ya Qlik Cloud ni nini?
Ujumuishaji wa Data ya Wingu wa Qlik huruhusu kuunda bomba za mradi wa data kwa kazi mbalimbali za ujumuishaji wa data ili kusaidia usanifu wa data na AI, na mahitaji ya Uchanganuzi.
Utangulizi
Masuluhisho ya Ujumuishaji wa Data ya Qlik Talend huharakisha ujifunzaji wa mashine (ML), akili bandia (AI), na mipango ya DataOps yenye Change Data Capture (CDC), na teknolojia ya mabadiliko ambayo huhakikisha mtiririko wa data kutoka kwa vyanzo vingi vya data hadi kwenye Databricks Lakehouse Platform tayari kwa AI na. Matumizi ya uchanganuzi.
Qlik Talend Data Integration Solutions

- Qlik Replicate na Qlik Talend Cloud Data Integration ni masuluhisho mawili kutoka kwa Qlik ambayo huwezesha makampuni ya biashara kudhibiti data zao kwenye vyanzo na mifumo tofauti. Qlik Replicate ni programu ya kuunganisha data ambayo huruhusu watumiaji kunakili na kusasisha data katika muda halisi kutoka kwenye majengo na vyanzo vya wingu hadi ghala za data za wingu bila kusimba au kuandika hati. Qlik Cloud Data Integration ni huduma inayotegemea wingu ambayo hutoa uwezo wa kuunda mabomba ya data kutekeleza kazi mbalimbali za kuunganisha data, kama vile kutua, kusajili, kubadilisha na kuunganisha data. Suluhu zote mbili zinaunga mkono vyanzo na maeneo mengi ya data, kama vile hifadhidata za uhusiano, majukwaa makubwa ya data, SAP, Mainframes, hifadhi ya wingu, na programu za SaaS. Hata hivyo, kuna baadhi ya tofauti kati yao katika suala la vipengele, bei, na chaguzi za kupeleka.
- Baadhi ya tofauti kuu ni:
- Qlik Replicate ni bidhaa inayojitegemea ambayo inaweza kusakinishwa kwenye majengo au kwenye wingu, huku Qlik Talend Cloud Data Integration ni huduma inayodhibitiwa kikamilifu inayoendeshwa kwenye mfumo wa Qlik Cloud.
- Qlik Replicate inatoa vipengele vya kina zaidi vya urudiaji wa data, kama vile kunasa data ya mabadiliko (CDC), muunganisho uliocheleweshwa, mabadiliko ya taratibu na utatuzi wa migogoro. Huku Ujumuishaji wa Data ya Wingu wa Qlik Talend unaangazia zaidi kubadilisha na kuunganisha data, kama vile usafishaji wa data, uboreshaji, uchanganyaji na wasifu.
- Kwa muhtasari, Qlik Replicate na Qlik Talend Cloud Data Integration ni suluhu zinazosaidiana ambazo zinaweza kutumika pamoja au kando kulingana na hali ya matumizi na usanifu wa data wa biashara. Suluhu zote mbili zinalenga kutoa uwezo wa kuunganisha data wa haraka, wa kutegemewa na hatarishi kwa mahitaji ya kisasa ya AI na Analytics.
Qlik Replicate
- Qlik Replicate® huendelea kugeuza data ya CDC kiotomatiki kutoka kwa vyanzo vingi vya data (km, Oracle, Microsoft SQL Server, SAP, Mainframe, na zaidi) hadi kwenye Mfumo wa Databricks Lakehouse. Humsaidia mteja kuepuka unyanyuaji mzito unaohusishwa na kutoa data kwa mikono, kuihamisha kupitia API/script, na kisha kukata, s.tagkuiingiza, na kuiingiza.
- Katika usanifu huu, Qlik Replicate hufanya kazi zifuatazo:
- Sakinisha Lengo
- Unda majedwali lengwa katika umbizo la DELTA na aina sahihi za data zilizotafsiriwa kutoka chanzo
- Tekeleza upakiaji wa awali/kamili kutoka kwa chanzo na utume data kwenye safu ya hifadhi
- Tuma Spark SQL kwa Databricks ili kupakia data kutoka kwa safu ya hifadhi na kuibadilisha kuwa majedwali kwa kutumia umbizo la delta.
- Nasa na Tekeleza Mabadiliko
- Nasa mabadiliko kwa kutumia kumbukumbu ya CDC kutoka kwa chanzo
- Peleka na TUMA mabadiliko (Ingiza / Sasisha / Futa) kwenye jedwali lengwa la DELTA (kwa kutumia safu ya hifadhi kama s ya katitaging)

- Sakinisha Lengo
Ujumuishaji wa Data ya Wingu wa Qlik
- Qlik Cloud Data Integration ni iPaaS (Jukwaa la Ujumuishaji kama Huduma) inayotoa uwezo wa kuunda mabomba ya mradi wa data kutekeleza majukumu mbalimbali ya ujumuishaji wa data ili kusaidia usanifu wako wa data na AI, na mahitaji ya Uchanganuzi.
- Mabomba ya data - Unaweza kuboresha upigaji data wa mabadiliko wa wakati halisi, unaotegemea kumbukumbu na muunganisho salama kwa vyanzo vya data vya nyumbani nyuma ya ngome au utumie uwezo kamili wa upakiaji kwa vyanzo vya data vya SaaS. Pindi tu unapoweka data kwenye bodi, unaweza kutumia mabadiliko kwa matokeo ya kufaa-kwa-lengo au kubadilisha mifumo otomatiki kama vile ukweli na vipimo vya data mart. Ya nje views na kuishi views hutolewa kwa matumizi ya data. Ujumuishaji wa Data ya Wingu wa Qlik pia hutengeneza hifadhi kamili ya data ya kihistoria ya aina 2 (HDS).
- Kazi za Kurudia Data - Rudia data kutoka kwa chanzo chochote kinachooana hadi lengwa lolote linalotumika. Data inaweza kubadilishwa na kusasishwa mara kwa mara kwa kutumia mbinu za Change Data Capture (CDC). Kuna uwezo pia wa kuwasilisha data kwenye ziwa la data linalowasilisha data kwenye Amazon S3, Hifadhi ya Ziwa ya Azure Data, au Hifadhi ya Wingu la Google.
- Data iliyoboreshwa kutoka kwa Ujumuishaji wa Data ya Wingu ya Qlik inaweza kutumika kwa madhumuni mengi:
- Harakati za wakati halisi kutoka kwa vyanzo vyote vya biashara ikijumuisha hifadhidata za uhusiano, SAP, Mainframe na programu za SaaS.
- Kubadilisha data kwa kutumia ELT (Dondoo/Pakia/Badilisha) kwa kutumia mbinu ya kutoweka msimbo bila hitaji la masuluhisho ya ziada ya wahusika wengine.
- Uundaji kiotomatiki wa hifadhidata za uchanganuzi katika Databricks Lakehouse.
- Uboreshaji wa hazina yako ya data ili kusaidia AI, Mafunzo ya Mashine na mipango mingine.
- Katika usanifu huu, Qlik Cloud Data Integration hufanya kazi zifuatazo:
- Sakinisha Lengo.
- Unda majedwali lengwa katika umbizo la DELTA ukitumia aina sahihi za data zilizotafsiriwa kutoka kwa majedwali ya vyanzo
- Tekeleza upakiaji wa awali/kamili kutoka kwa chanzo kutuma data kwenye safu ya hifadhi
- Maombi ya SaaS - moja kwa moja
- Hifadhidata za Uhusiano - kwa kutumia Lango la Data
- Tuma Spark SQL kwa Databricks ili kupakia data kutoka kwa safu ya hifadhi na kuibadilisha kuwa majedwali kwa kutumia umbizo la delta.
- Nasa na Tekeleza Mabadiliko.
- Nasa mabadiliko kwa kutumia kumbukumbu ya CDC kutoka kwa chanzo
- Maombi ya SaaS - moja kwa moja
- Hifadhidata za Uhusiano - kwa kutumia Qlik Data Gateway
- Peleka na TUMA mabadiliko (Ingiza / Sasisha / Futa) kwenye jedwali lengwa la DELTA (kwa kutumia safu ya hifadhi kama s ya katitaging)
- Nasa mabadiliko kwa kutumia kumbukumbu ya CDC kutoka kwa chanzo
- Tekeleza Mabadiliko Kutuma Sparksql kwa Databricks

- Sakinisha Lengo.
Njia nyingine ya kuona usanifu huu ni kupitia dhana ya kazi zilizo na kazi maalum

- Kazi za kutua - inasimamia uhamishaji usio na mshono wa data kutoka kwa vyanzo mbalimbali hadi eneo lililoteuliwa la kutua. Mchoro wa kielelezo unaonyesha matumizi ya Qlik Data Gateway - Movement ya Data kwa ajili ya kupata vyanzo vya data kupitia Change Data Capture (CDC) ili kuhakikisha data inabaki kuwa ya sasa. Zaidi ya hayo, miunganisho ya chanzo cha Ujumuishaji wa Data ya Wingu ya Qlik inaweza kuajiriwa kutekeleza upakiaji kamili, ikiruhusu upakiaji upya wa mara kwa mara.
- Kazi za Uhifadhi - inasimamia utumiaji wa data kwenye majedwali ya kuhifadhi, ikijumuisha uundaji na usimamizi wa majedwali yote mawili na ya nje views. Jukumu hili muhimu lina jukumu muhimu katika kudumisha uadilifu na ufikiaji wa data ndani ya mazingira ya Ujumuishaji wa Data ya Wingu ya Qlik. Kazi ya kuhifadhi haidhibiti tu muda wa utumaji data lakini pia huhakikisha ujumuishaji wa taarifa katika miundombinu ya hifadhi, na hivyo kuimarisha ufanisi na utendakazi wa jumla wa jukwaa la Ujumuishaji wa Data ya Wingu la Qlik.
- Kazi za mabadiliko - Ndani ya bomba lako la data, unaweza kuzalisha mabadiliko ya data ambayo yanaweza kutumika tena na kulingana na sheria. Mabadiliko haya yanaweza kujumuishwa kwa urahisi katika mchakato wako wa kuabiri data au kusanidiwa kama majukumu ya data ya mageuzi inayoweza kutumika tena. Unyumbulifu unaenea hadi kufanya mabadiliko ya kiwango cha safu mlalo na kuunda seti za data kwa kutumia SQL maalum, ambayo inaweza kubadilika kuwa majedwali au kudhihirisha kama inayobadilika. views kutumia mabadiliko juu ya kuruka.
- Kazi za Data Mart - Baada ya kuingiza data kwa mafanikio, inawezekana kutengeneza mifumo ya data kwa kutumia taarifa iliyopatikana kutoka kwa kazi za Kuhifadhi au Kubadilisha. Kulingana na mahitaji ya biashara, mifumo mingi ya data inaweza kuundwa. Kwa hakika, hifadhi hizi za data zinafaa kutumika kama hazina za data iliyojumlishwa, iliyokusanywa kwa madhumuni ya uchanganuzi ndani ya idara au kitengo mahususi cha shirika, kama vile idara ya Mauzo au hata kufichuliwa kama vipengele vya kutumiwa na michakato ya ML.
Mwongozo wa utekelezaji
- Kama ilivyotajwa hapo awali katika hati hii, Qlik Replicate na Qlik Cloud Data Integration ni masuluhisho mawili yanayoweza kutumika pamoja au tofauti. Uamuzi wa kuzitumia pamoja au kibinafsi hutegemea usanifu wa data na mahitaji ya biashara. Ni muhimu kuzingatia mahitaji ya wateja na kesi za matumizi ili kuamua usanifu wa ufanisi zaidi na ufanisi.
- Topolojia moja hadi nyingi zinahitaji kwa sasa matumizi ya Qlik Replicate
- Vyanzo vya SaaS vinatumika tu na Ujumuishaji wa Data ya Wingu wa Qlik
- Kunaweza kuwa na matukio ambapo Uunganishaji wa Data ya Wingu wa Kuiga na Qlik unaweza kutumika pamoja. Kwa mfano, Replicate inaweza kutumika kulisha data kwenye Databricks kutoka chanzo ambacho hakitumiki kwa sasa na Qlik Cloud Data Integration. Data iliyosajiliwa inaweza kisha kutumika kama nyenzo za mabomba ya data iliyoundwa kwa kutumia Ujumuishaji wa Data wa Qlik Cloud.
Jukwaa la Ujasusi la Databricks
- Msingi wa Jukwaa la Ujasusi la Databricks upo katika usanifu wa lakehouse, mchanganyiko wa kimapinduzi wa maziwa ya data na maghala ya data. Mbinu hii bunifu inalenga kupunguza gharama na kuharakisha utekelezaji wa data na malengo ya AI.
- Kwa kukumbatia kanuni za chanzo huria na kuzingatia viwango vilivyo wazi, usanifu wa ziwa hurahisisha miundombinu ya data kwa kuondoa vizuizi vya kihistoria ambavyo mara nyingi vinatatiza nyanja za data na AI. Kwa kufanya hivyo, inatoa mazingira ya kushikamana na ufanisi zaidi ya kudhibiti na kutumia rasilimali zako za data.

Umoja
Usanifu uliounganishwa unaojumuisha ujumuishaji, uhifadhi, usindikaji, utawala, kushiriki, uchanganuzi na AI. Mbinu ya umoja ya kushughulikia data iliyopangwa na isiyo na muundo. Mtazamo wa kina juu ya ukoo wa data na asili kutoka mwanzo hadi mwisho. Zana ya zana iliyoshikana inayoshughulikia Python na SQL, daftari na IDE, michakato ya bechi na utiririshaji, kwa watoa huduma wote wakuu wa wingu.

Fungua
- Ndani ya mfumo wa Databricks, udhibiti wa data hudumishwa kila mara, kuhakikisha uhuru kutoka kwa miundo inayomilikiwa na mifumo ikolojia iliyofungwa.
- Msingi wa usanifu wa ziwa unategemea miradi ya chanzo-wazi inayokumbatiwa na wengi kama vile Apache Spark™, Delta Lake, na MLflow. Inafurahia usaidizi wa kimataifa kupitia Mtandao wa Washirika wa Databricks. Zaidi ya hayo, kipengele cha Kushiriki kwa Delta kinawasilisha suluhisho wazi la kushiriki kwa usalama data ya wakati halisi kutoka kwa ziwa hadi jukwaa lolote la kompyuta. Hii inafanikiwa bila hitaji la urudufishaji data au dondoo tata, Transform, Load (ETL) michakato.

Inaweza kupunguzwa
- Uboreshaji otomatiki wa utendakazi na uhifadhi umeundwa kwa ustadi ili kuhakikisha gharama ya chini kabisa ya Umiliki (TCO) kati ya majukwaa ya data, kwa wakati mmoja kufikia utendakazi wa kuweka rekodi duniani kwa uhifadhi wa data na kesi za utumiaji za Akili Bandia (AI). Hii inaenea hadi kwa matumizi ya mbinu za uzalishaji kama vile Miundo Kubwa ya Lugha (LLMs).
- Bila kujali ukubwa wa shirika, Databricks imeundwa ili kushughulikia ipasavyo mahitaji ya uendeshaji wa biashara, kuanzia zinazoanzishwa hadi biashara za kimataifa.
SQL Warehouses x General Compute Clusters
Suluhu za Qlik zinaauni Ghala za Databricks SQL na Nguzo za Kuhesabu. Ni njia mbili tofauti za usindikaji wa data kwenye wingu. Katika visa vyote viwili, suluhisho za Qlik zitatuma amri za SparkSQL kuchakata data, bila kutegemea huduma zingine zinazotumika (kama vile madaftari huko Scala kwa ex.ample). Chaguo kati ya ghala za Databricks SQL na makundi ya jumla ya kokotoo hutegemea mahitaji na malengo mahususi ya kila mradi. Baadhi ya mambo ya kuzingatia ni:
Kiasi cha data
- Masafa ya CDC: Ghala za SQL zinasokota kwa haraka wakati zinachukuliwa mara ya kwanza, na vikundi vinaweza kuwa polepole kujibu amri ya kwanza.
- Uwezo na unyumbufu: Ghala za SQL zinaweza kupanda au kushuka kiotomatiki ili kukidhi mahitaji ya watumiaji na hoja zinazofanana. Nguzo za jumla za kukokotoa pia zinaweza kuongeza lakini zinahitaji uingiliaji kati na urekebishaji wa mikono.
- Usalama na utawala: Ghala za SQL hutoa vipengele vya usalama vilivyojengewa ndani kama vile usimbaji fiche, uthibitishaji, uidhinishaji, ukaguzi na uzingatiaji. Vikundi vya jumla vya kukokotoa vinaweza pia kutekeleza hatua za usalama lakini vinahitaji usanidi na usimamizi zaidi.
- Kwa muhtasari, ghala za Databricks SQL na makundi ya jumla ya kokotoo ni masuluhisho yenye nguvu na yanayotegemeka kwa uchakataji wa data kwenye wingu. Walakini, wana nguvu na udhaifu tofauti ambao unapaswa kutathminiwa kwa uangalifu kabla ya kuchagua moja juu ya nyingine.
Mapendekezo kwa Makundi ya Jumla ya Kukokotoa kwa Masuluhisho ya Qlik
KUMBUKA
Mapendekezo yaliyo hapa chini ni ya marejeleo na yanatokana na miradi na POC zinazoendeshwa na Qlik na washirika wake kuhusu mahitaji mahususi. Sababu kadhaa kama vile topolojia ya mtandao, muda wa kusubiri, muundo wa jedwali, marudio ya kusasisha, matoleo ya viendeshaji, n.k. huenda zikaathiri mipangilio muhimu ya kesi yako mahususi ya utumiaji. Wateja wanashauriwa kufanya upeo na bidii muhimu ili kuamua usanidi wao.
- Databricks Runtime
Daima angalia Qlik Replicate na Qlik Cloud Data Integration (http://help.qlik.com) ili kuona ni Muda gani wa Uendeshaji wa Databricks unatumika unaposanidi nguzo yako. - Toleo la Databrick Runtime Inasaidia Photon
Unaposanidi kikundi chako chagua "Photon" kwa toleo la wakati wa utekelezaji wa Databricks ambalo litasaidia nguzo yako ya madhumuni ya jumla. Photon ndio injini ya asili ya kuuliza iliyo na vekta kwenye Databricks, iliyoandikwa ili kuendana moja kwa moja na Apache Spark. Photon ni sehemu ya muda wa utendaji wa juu unaoendesha simu zako zilizopo za SQL na API ya DataFrame haraka na kupunguza jumla ya gharama yako kwa kila mzigo wa kazi. Kwa majadiliano zaidi kuhusu Photon, tafadhali rejelea hati hii https://docs.databricks.com/runtime/photon.html
- Chagua "Kumbukumbu Imeboreshwa - akiba ya Delta imeharakishwa"
Unaposanidi kikundi chako, hakikisha umechagua "Kumbukumbu iliyoboreshwa - akiba ya Delta imeharakishwa" Aina ya Mfanyakazi.
(*) orodha iliyo hapo juu inategemea Azure Databricks, hii inaweza kubadilika ikiwa unatumia AWS au GCP
- Sanidi Chaguo za Kuboresha Kiotomatiki
Ongeza usanidi kwenye nguzo yako ili kuwezesha optimizeWrite na kuzima AutoCompact. Kuzima kiotomatiki ni muhimu ili kuzuia utengamano wa mfululizo usiwashwe na masasisho ya wakati halisi ya CDC (ambayo yanaweza kusababisha ucheleweshaji kuongezeka). Ili kufanya hivyo, ongeza mistari iliyo hapa chini kwenye sehemu yako ya Spark ya Chaguo za Kina za nguzo yako.
cheche. data matofali.delta.properties.defaults. boresha kiotomatiki.ongeza.Andika kweli
spark.databricks.delta.properties.defaults.autoOptimize.autoCompact uongo
Tafadhali angalia https://docs.databricks.com/clusters/configure.html kwa maelezo zaidi kuhusu kusanidi nguzo yako.
- Boresha Majedwali Mara kwa Mara
Ni muhimu kuratibu daftari ili KUBORESHA jedwali katika Delta Lake yako. Hii itaboresha kasi ya hoja kwa data iliyotua. Tafadhali angalia hati hizi: https://docs.microsoft.com/en-us/azure/databricks/delta/optimizations/file-mgmt kwa sampchini ya madaftari ili kuongeza meza. - Kuongeza kasi kiotomatiki
Kwa sababu ya wingi wa mzigo wa kazi ambao CDC inawasilisha, pendekezo ni kufanywa upyaview your configuration based on the workload and testing with your tasks, monitoring and then increasing au amriasing based on the usage. Please refer to Databricks documentation (https://docs.databricks.com/clusters/clusters-manage.html#monitor-performance) kwa jinsi ya kufuatilia utendaji wa nguzo.
Mapendekezo ya Ghala za SQL za Suluhu za Qlik
KUMBUKA
Mapendekezo yaliyo hapa chini ni ya marejeleo na yanatokana na miradi na POC zinazoendeshwa na Qlik na washirika wake kuhusu mahitaji mahususi. Sababu kadhaa kama vile topolojia ya mtandao, muda wa kusubiri, muundo wa jedwali, marudio ya kusasisha, matoleo ya viendeshaji, n.k. huenda zikaathiri mipangilio muhimu ya kesi yako mahususi ya utumiaji. Wateja wanashauriwa kufanya upeo na bidii muhimu ili kuamua usanidi wao.
Ghala za SQL zina chaguo chache zaidi za kusanidi katika kiwango cha ghala (ikilinganishwa na nguzo). Mipangilio inayopatikana.

- Aina ya Ghala
- Hadi wakati waraka huu unaandikwa kuna aina tatu za ghala. Tafadhali rejelea hati hii Maghala ya SQL ni Gani? kwa majadiliano ya jumla juu yao

- Kwa mtazamo wa utendakazi na ulinganifu, pendekezo la jumla ni kutumia ghala la Serverless ili kuongeza utendaji wa jumla wa kazi yako. Baadhi ya mazingira na akaunti hazina chaguo hili, katika hali hii, inayopendekezwa ni ghala la Pro.
- Hadi wakati waraka huu unaandikwa kuna aina tatu za ghala. Tafadhali rejelea hati hii Maghala ya SQL ni Gani? kwa majadiliano ya jumla juu yao
- Kuongeza
Rekebisha kigezo hiki ili kiongezeke kulingana na kigezo cha kazi "Idadi ya juu zaidi ya jedwali za kupakia sambamba" (Rudisha) au "Idadi ya juu zaidi ya miunganisho ya hifadhidata" (Ushirikiano wa Qlik Cloud Data). Kanuni ya jumla ya kidole gumba ni kuwa na nguzo moja ya ghala ili kuchakata meza 2 hadi 3 au miunganisho sambamba. - Ukubwa wa Nguzo
- Kigezo hiki kinategemea sana data inayochakatwa. Vigezo kadhaa vinaweza kuathiri utendaji wa jumla kama vile majedwali kadhaa, nambari na aina za safu wima za kila jedwali, masasisho ya kusasisha n.k.
- Pendekezo la jumla ni kuanza na saizi ambayo ina utendakazi mzuri wa gharama inayotarajiwa (kama wastani kwa example) na ufanye majaribio fulani kurekebisha kigezo hiki (juu au chini) ukilinganisha na msingi.
Ulinganisho wa utendaji kati ya Maghala ya SQL x Makundi ya Kukokotoa ya Jumla
KUMBUKA
Uchunguzi huu ulifanyika katika mazingira ya maabara na hauwakilishi mazingira yoyote halisi ya kuishi. Matokeo yanaweza kutofautiana kulingana na aina ya vyanzo, topolojia, juzuu, saizi ya rekodi, upangaji wa hifadhidata ya chanzo na vigeu vingine.
Mazingira:
- Chanzo
- PostgreSQL inayoendesha kwenye VM
- Jedwali 1 lenye safu wima 7 na rekodi milioni 36
- Ufunguo Msingi (safu wima 1)
- Jaribio la hati ya CDC na mtaalamufile chini

- Malengo (Databricks kwenye Azure) - Stagkwenye ADLS gen2

- Qlik Replicate Novemba 2023 (2023.11.0.149) kwenye Windows
- Mchakato
- Kazi mbili (chanzo kimoja na miisho tofauti inayolengwa)
- Ilianza mzigo kamili kwenye kazi ya 1 na kusubiri kukamilika.
- Ilianza mzigo kamili kwenye kazi ya 2 na kusubiri kukamilika.
- Ilianza hati ya SQL kuiga mabadiliko. Kazi zote mbili zinaendana sambamba na hutoa kwa schema tofauti kwenye Databricks
Matokeo:
Kwa kutumia Qlik Enterprise Manager kukusanya takwimu zote, tuliona kuwa hakuna tofauti kubwa katika utendaji kazi kati ya kutumia SQL Warehouses na Clusters. Kwa mtazamo wa gharama, Ghala za SQL kawaida huwa na gharama nafuu zaidi, ambayo inaweza kuonyesha matumizi yao juu ya makundi.
Mapendekezo ya Ujumuishaji wa Data ya Wingu ya Qlik
- Uteuzi wa Jedwali katika Kazi
Databricks inapendekeza kutenganisha meza kubwa au pana (safu wima nyingi) ambazo hufanya uchakataji mwingi kwa kazi zao. Kutumia mbinu hii hurahisisha ufuatiliaji wa utendaji au kutenga ghala kwa kazi maalum. - Mabadiliko Katika Kazi
Ikiwa lengo lako ni kuboresha upitaji wa data yenye shughuli nyingi inayoingizwa kwenye ziwa, inashauriwa kupunguza mabadiliko katika kiwango cha kazi. Mbinu hii hukuruhusu kuweka data kama ilivyo kwenye ziwa na kisha kutumia uwezo wote wa uhandisi wa data ili kufanya mabadiliko. Mchakato huu kitaalamu unajulikana kama kubadilisha ETL (Extract-Transform-Load) hadi ELT (Extract-Load-Transform). - Hifadhi ya Data ya Kihistoria (Aina ya 2) kwenye Hifadhi / Kubadilisha
Uunganishaji wa Data ya Wingu wa Qlik kwa chaguomsingi utaunda vipengee vya Hifadhi ya Data ya Kihistoria (Aina ya 2) ambayo huhifadhi na kudhibiti data ya sasa na ya kihistoria baada ya muda, kulingana na dhana ya Aina ya 2 ya SCD (Kipimo Kinachobadilika Polepole). Matoleo yote ya rekodi yanahifadhiwa, ikiwa ni pamoja na kufutwa, na tarehe zinazoonyesha kipindi ambacho kila rekodi ilifanya kazi. Ikiwa maelezo haya hayafai, unaweza kuzima kipengele hiki katika sehemu ya Hifadhi au Badilisha ya mipangilio ya mradi. Hii itaokoa rasilimali (nafasi na kompyuta) kutoka kwa nafasi yako ya kazi.
- Uboreshaji wa Majukumu ya Mabadiliko
Data inayotokana na kazi ya mabadiliko inaweza kufichuliwa kwa njia mbili:- Views - ambapo maswali yote dhidi ya huluki hii yatatekelezwa dhidi ya majedwali asili kutoka eneo la hifadhi
- Majedwali - ambapo meza zitawekwa kwa njia iliyopangwa kulingana na data kutoka eneo la hifadhi.
Chaguo kati yao itategemea mara ngapi data iliyobadilishwa itafikiwa. Data iliyobadilishwa mara kwa mara itafichuliwa kama views, data iliyobadilishwa mara nyingi zaidi inapaswa kuendelezwa kama majedwali. Ikiwa kuna haja ya kutumia zote mbili, kuna chaguo la kuwa na kazi mbili (au zaidi) za mabadiliko, moja kulingana na views na zingine kulingana na jedwali.
- Kutumia Live Views
- Ishi views hujumuisha data kutoka kwa majedwali ya mabadiliko ambayo bado hayajatumika kwa majedwali ya sasa au ya awali. Kipengele hiki huruhusu watumiaji kufikia data na muda wa kusubiri uliopunguzwa bila hitaji la matumizi ya mara kwa mara ya mabadiliko.
- Kuchelewesha utendakazi wa kuunganisha pia husababisha kuokoa gharama na kupungua kwa mahitaji ya usindikaji kwenye jukwaa lengwa.
- Kwa kuongeza, kuishi views kutoa advantage ya kutohitaji kiwango cha hesabu kufanya kazi kila wakati. Kuchelewa kunaweza kuimarishwa kwa kuwa hakuna haja tena ya kutumia mabadiliko siku nzima. Rekodi mpya zilizoingizwa zinapatikana mara moja moja kwa moja views mara zinapopatikana katika jedwali la mabadiliko na kazi ya kuhifadhi inaweza kufanya kazi chini ya kuokoa nguzo/rasilimali za ghala.
- Muda Umekwisha Katika Kiwango cha Muunganisho
Ili kuhakikisha utendakazi bora wa Ujumuishaji wa Data ya Wingu wa Qlik, ni muhimu kusanidi kipengele cha ndani kinachoitwa executeTimeout chenye thamani kubwa zaidi ya 300. Mipangilio hii inahakikisha kwamba mfumo wa Ujumuishaji wa Data wa Qlik Cloud utadumisha muda wa kusubiri wa angalau dakika 5 kabla ya kusajili. kushindwa. Kwa hivyo, hii inatoa muda wa kutosha kwa ghala kuanzishwa ikiwa hapo awali ilikuwa katika hali ya kusimama. Hii ni muhimu sana katika hali ambapo ghala linahitaji muda mrefu wa kuanza.
Mapendekezo ya Qlik Replicate
- Uteuzi wa Jedwali katika Kazi
Databricks inapendekeza kutenganisha meza kubwa au pana (safu wima nyingi) ambazo hufanya uchakataji mwingi kwa kazi zao. Kutumia mbinu hii hurahisisha ufuatiliaji wa utendaji au kutenga nguzo kwa kazi maalum. - Mabadiliko Katika Kazi
Ikiwa lengo lako ni kuboresha utendakazi wa data yenye shughuli nyingi inayoingizwa kwenye Lakehouse, inashauriwa kupunguza mabadiliko katika kiwango cha kazi. Mbinu hii hukuruhusu kuweka data kama ilivyo kwenye Lakehouse na kisha kutumia uwezo wote wa uhandisi wa data ili kufanya mabadiliko. Mchakato huu kitaalamu unajulikana kama kubadilisha ETL (Extract-Transform-Load) hadi ELT (Extract-Load-Transform). - File Usanidi wa Ukubwa
- Kuna kigezo cha Kuiga cha Qlik kwenye kiwango cha muunganisho ambacho kinaweza kuongeza upitishaji wa data. Inaitwa Upeo file size(MB) na iko chini ya mipangilio ya hali ya juu ya muunganisho wako

- Thamani chaguo-msingi ni 100Mb na kigezo hiki kinaonyesha file saizi ambayo imepakiwa kwa stageneo kabla ya kupakiwa kwenye meza. Unaweza kuona hapa chini athari za kubadilisha kigezo hiki kwa jedwali lenye rekodi za 100M (takriban data ya GB 3.8 kwenye chanzo). Hakuna "sheria ya dhahabu" kwa parameter hii, lakini kwa kawaida, kubwa zaidi file saizi huongeza utendakazi wa uhamishaji data ambao ni muhimu sana wakati wa upakiaji kamili wa awali.
- Usanidi wa Nguzo:

- Jedwali la Chanzo (Azure RDS Mysql)

As shown above, there was a very good improvement when increasing ya file ukubwa kutoka thamani chaguo-msingi (MB 100) hadi MB 500, ingawa ongezeko la ziada zaidi ya MB 500 katika jaribio hili lilikuwa na athari ndogo sana kwenye utendakazi.
- Kuna kigezo cha Kuiga cha Qlik kwenye kiwango cha muunganisho ambacho kinaweza kuongeza upitishaji wa data. Inaitwa Upeo file size(MB) na iko chini ya mipangilio ya hali ya juu ya muunganisho wako
- Mipangilio ya Kurekebisha Bechi
Qlik Nakili mabadiliko ya bechi ndogo kwa uwasilishaji ulioboreshwa kwa Databricks Delta na usanidi wa urekebishaji wa bechi kwa kazi huathiri ukubwa wa bechi ndogo iliyotumwa kwa Databricks.- Badilisha Hali ya Uchakataji: Bechi Iliyoboreshwa pekee ndiyo inayotumika kwa malengo ya Databricks.
- Tekeleza mabadiliko ya makundi kwenye jedwali nyingi kwa wakati mmoja: This option configures the number of threads that will work in parallel to upload and apply data to Databricks. The default value is 5, with a maximum of 50. Increasing this value can improve your throughput when there are many tables with CDC in a given batch however it may require additional cluster resources. Please review vikwazo vya hali hii katika mwongozo wa usaidizi wa Nakala.
- Tekeleza mabadiliko ya makundi katika mipangilio ya muda: Sanidi saa na ukubwa wa kundi ndogo.
- Muda mrefu zaidi ya (sekunde): This specifies the minimum amount of time to wait between each application of batch changes. The default value is 1 and typically is too low a value for Databricks delta apply processes. Increasing this value decreases the frequency with which changes are applied to the target while increasing the size of the batches, essentially creating larger batches at the expense of some additional latency. It is recommended to start with a value of 60 and increase even further if some additional latency is acceptable. In some cases waiting for larger batches can improve throughput and latency
- Lakini chini ya (sekunde): Thamani hii inabainisha kiwango cha juu cha muda cha kusubiri kati ya kila programu ya mabadiliko ya bechi (kabla ya kutangaza kuisha). Kwa maneno mengine, latency ya juu inayokubalika. Thamani chaguo-msingi ni 30. Thamani hii huamua kiwango cha juu cha muda wa kusubiri kabla ya kutumia mabadiliko baada ya Thamani ya Muda mrefu zaidi ya (sekunde) kufikiwa. Inapendekezwa kusanidi thamani hii hadi 120 (pamoja na Thamani ya Tena Kuliko ya 60 na kuweka thamani ya juu zaidi ikiwa muda wa kusubiri zaidi unakubalika.
- Lazimisha kutumia kundi wakati kumbukumbu ya usindikaji inazidi (MB): mpangilio huu unabainisha kiwango cha juu zaidi cha kumbukumbu cha kutumia kwa uchakataji wa awali katika hali ya kutumia iliyoboreshwa ya Kundi. Thamani chaguo-msingi ni 500. Kwa ukubwa wa juu zaidi wa bechi, weka thamani hii hadi kiwango cha juu zaidi cha kumbukumbu unayoweza kutenga kwa Qlik Replicate. Inashauriwa kuanza na thamani ya 2000 na uzingatie kuboresha zaidi ikiwa kuna rasilimali za kutosha kwenye seva ya Qlik Replicate.
- Tekeleza Mabadiliko kwa kutumia Unganisha: hii huwezesha kazi kutumia amri za SQL MERGE ili kuongeza kasi ya kumeza kwenye Lakehouse.

- Sehemu ya Meza Kubwa
- Databricks hutoa uwezo wa kugawa meza za Delta. Inapendekezwa kugawa meza kubwa ambazo zinaweza kuwa kizuizi katika mchakato wa maombi. Qlik Replicate kwa sasa haiauni kusanidi ugawaji lengwa ndani ya kazi. Jedwali lengwa la Delta linapaswa kuundwa na Qlik Replicate na kisha kuundwa upya kwa safu wima zinazofaa za kugawa. Ikiwa jedwali linafafanuliwa kuwa limegawanywa, inashauriwa kuweka kazi ili kufanya TRUNCATE kwa mizigo kamili.
- Ingawa kugawanya ni dhana iliyonyooka, kubainisha safu wima bora zaidi za kugawa kunahitaji uelewa thabiti wa jinsi data inavyorekebishwa na programu. Haipendekezi kugawa ufunguo wa msingi kwa sababu ya wasiwasi wa kardinali. Jedwali kubwa ambazo zinahitaji kugawanywa ni kawaida
"Muamala" katika asili - kwa mfano data ya mauzo. Kwa kawaida kuchagua safu wima ya tarehe au kuongeza safu wima ya YEAR_MONTH kwenye data lengwa iliyowekwa ndani ya Replicate hutoa mbinu nzuri ya kugawanya. Chini ni example ya athari za ugawaji kwenye matumizi ya nguzo na kwa hivyo utulivu. Katika hii example, jedwali la takriban safumlalo chanzo milioni 68 / GB 655 za data ilikuwa ikichakata mzigo wa CDC wa uzalishaji. Kugawanya jedwali la delta kwa kutumia safu ya DATE kulipata punguzo la 73% la muda wa kusubiri na kupunguza kwa kiasi kikubwa kumbukumbu na matumizi ya CPU kwenye nguzo.
Utumiaji wa Nguzo - Haijagawanywa

Kiambatisho I - Kuunda Viunganisho
Inapendekezwa sana uangalie hati zinazopatikana kwenye help.qlik.com kwa mahitaji ya hivi punde na usanidi unaotumika kwa mazingira yako ya Databricks.
Ili kuunda muunganisho wa data katika nakala ya Qlik kwa mfano wa Databricks utahitaji:
- Jina la Mpangishi wa Seva
- Bandari
- Njia ya HTTP
- Ishara
Vikundi
Taarifa ya 1, 2, na 3 inaweza kutolewa kutoka kwa dashibodi ya Databricks kwa kwenda kwenye usanidi wa nguzo au usanidi wako wa SQL Endpoint, na chini ya sehemu ya Chaguo za Juu utapata kichupo cha JDBC/ODBC.
Ghala la Databricks SQL
Maelezo ya 1, 2, na 3 yanaweza kutolewa kutoka kwa dashibodi ya Databricks kwa kwenda kwenye sehemu ya SQL Warehouse chini ya kichupo cha "Maelezo ya muunganisho"

Ili kupata ishara ya ufikiaji, unahitaji kwenda kwa Mtumiaji
Sehemu ya mipangilio ya dashibodi yako ya Databricks na utumie kitufe cha Tokeni mpya.

Ni muhimu kuhifadhi tokeni iliyozalishwa mahali salama kwa sababu huwezi kuipata tena baada ya kufunga mazungumzo haya
Nyaraka / Rasilimali
![]() |
Qlik Talend Data Integration Solutions [pdf] Mwongozo wa Mtumiaji Suluhisho za Ujumuishaji wa Takwimu za Talend, Suluhisho za Ujumuishaji wa Data, Suluhisho za Ujumuishaji, Suluhisho |





