VAST-logó

VAST S3 Storage Data Platform

VAST-S3-Storage-Data-Platform-product

Termékinformáció

Műszaki adatok

  • Terméknév: VAST S3 migrációs eszköz
  • Verzió: 1.0
  • Célközönség: adatmérnökök, adatépítészek, rendszergazdák
  • Kompatibilitás: Hadoop, Hive, S3 tárolási konfigurációk

A termék használati útmutatója

Opció 1: Adatok migrálása S3-ba DistCp segítségével az S3A adapter segítségével

  • Használati eset: Ideális tömeges adatátvitelhez.
  • Cél: Hatékonyan mozgathat nagy mennyiségű nyers adatot HDFS-ről S3-ra.

Lépések:

  1. Az /etc/hadoop/conf/core-site.xml konfigurálása:
                    fs.s3a.access.key RBY76D9A.. fs.s3a.secret.key aBa6Odt/u/ua2J3ACABpa2.. fs.s3a.path.style.access true fs.s3.enable-storage-classes true fs.s3a.connection. ssl.enabled false fs.s3a.endpoint http://vippool.yourvastcluster.com
    

    Győződjön meg arról, hogy az fs.s3a.endpoint a VIP-készlet DNS-neve.

  2. Hajtsa végre a DistCp parancsot:
    hadoop distcp hdfs://your-hdfs-path/target_data/ s3a://vast-hadoop-s3-bucket/target_data
  3. Adatátvitel ellenőrzése:
    hdfs dfs -ls s3a://vast-hadoop-s3-bucket/target_data

2. lehetőség: Hive táblák áttelepítése és a Hive-Meta használata az S3A-val

  • Használati eset: Ideális a Hive-tábla metaadatainak megőrzésére.
  • Cél: Hive-táblaszerkezetek, sémák és metaadatok migrálása HDFS-ről S3-ra.

Gyakran Ismételt Kérdések (GYIK)

  • K: Ki a célközönsége ennek az eszköznek?
    A: Az adattárolást és a Hadoop-környezeteken belüli migrációt kezelő adatmérnökök, adatépítészek és rendszeradminisztrátorok.
  • K: Milyen előfeltételei vannak a migrációs eszköz használatának?
    A: A Hadoop, Hive és S3 tárolási konfigurációk ismerete ajánlott.

Útmutató a HDFS-adatok és hive-táblázatok VAST S3-ra való migrálásához

Absztrakt

Ez az útmutató átfogó áttekintést nyújtview bevált módszerek a hagyományos Hive/HDFS táblákból a VAST S3 tárolóba való áttelepítéséhez az S3A adapter használatával. Több lehetőséget kínál a különböző használati esetekre szabva, beleértve a tömeges adatátvitelt, a Hive-tábla metaadatainak megőrzését, az adatok konzisztenciájának biztosítását és az állásidő minimalizálását. Az adatmérnökök és adminisztrátorok a vonatkozó fejezetekben ismertetett lépések betartásával kiválaszthatják az igényeiknek leginkább megfelelő migrációs módot, biztosítva a hatékony adatátvitelt, minimális hatással a folyamatban lévő műveletekre. Ez az útmutató előfeltételeket, részletes áttelepítési lépéseket és optimalizálási tippeket tartalmaz a zökkenőmentes és hatékony migrációs folyamat elősegítése érdekében.

Közönség
Ez az útmutató adatmérnököknek, adattervezőknek és rendszergazdáknak szól, akik az adattárolás és a Hadoop-környezeten belüli migráció kezeléséért felelősek. A Hadoop, Hive és S3 tárolási konfigurációk ismerete ajánlott.

Előfeltételek

  • VAST felhasználó a megfelelő jogosultságokkal és S3 hozzáféréssel, titkos kulcsokkal: Felhasználók kezelése
  • S3-csoport a VAST-fürtön: Csoportok kezelése
  • A csoporttulajdonoshoz rendelt identitási szabályzat: S3 Access kezelése
  • Hálózati kapcsolat a VAST VIP-k és a Hadoop-fürt között: Hálózati konfiguráció
  • A Hadoop helyszíni telepítése a DistCp segítségével

Migrációs lehetőségek

1. lehetőség: Adatok migrálása S3-ba DistCp segítségével az S3A adapter segítségével

Használati eset
Ez a lehetőség ideális tömeges adatátviteli forgatókönyvekhez, ahol az elsődleges cél nagy mennyiségű nyers adat hatékony áthelyezése HDFS-ről S3-ra. Akkor megfelelő, ha a Hive-tábla metaadatainak megőrzése nem jelent gondot.

Cél
A DistCp (Distributed Copy) S3A adapterrel való használatának fő célja, hogy kihasználja párhuzamos másolási képességeit, hogy gyorsan és hatékonyan vigye át az adatokat a HDFS-ről az S3 tárolóra. Ez a módszer biztosítja az adatok skálázható és robusztus módon történő mozgatását.

Lépések

  1. Az /etc/hadoop/conf/core-site.xml konfigurálása: Frissítse a Hadoop konfigurációt file hogy tartalmazza az S3A hitelesítő adatokat és a végpont információkat.
    • fs.s3a.access.key
    • RBY76D9A..
    • fs.s3a.secret.key
    • aBa6Odt/u/ua2J3ACABpa2..
    • fs.s3a.path.style.access
    • igaz
    • fs.s3.enable-storage-classes
    • igaz
    • fs.s3a.connection.ssl.enabled
    • hamis
    • fs.s3a.endpoint
    • http://vippool.yourvastcluster.com</value>
    • Győződjön meg arról, hogy az fs.s3a.endpoint a VIP-készlet DNS-neve, így a CNODE-ok közötti egyensúlyozás aktiválódik.
  2. A DistCp parancs végrehajtása: A DistCp paranccsal másolhat adatokat a HDFS elérési útról a cél S3 tárolóba. hadoop distcp hdfs://your-hdfs-path/target_data/ s3a://vast-hadoop-s3-bucket/target_data
  3. Adatátvitel ellenőrzése: Az átvitelt követően az S3 vödör tartalmának felsorolásával ellenőrizze, hogy az adatok megfelelően másolásra kerültek-e.
    hdfs dfs -ls s3a://vast-hadoop-s3-bucket/target_data

Opció 2: Hive táblák migrálása és a Hive-Meta használata az S3A-val

Használati eset:
Ez a beállítás ideális olyan forgatókönyvekhez, amelyekben kulcsfontosságú a Hive-táblázatok és azok metaadatainak migrálása a Hive-séma és a táblázatdefiníciók megőrzése érdekében. Alkalmas a Hive-táblák integritásának és funkcionalitásának megőrzésére az S3-ra való migráció után.

Cél:
Ennek a módszernek az elsődleges célja a Hive-táblaszerkezetek, köztük a sémadefiníciók és a metaadatok zökkenőmentes migrálása a HDFS-ről az S3-ra. Ez biztosítja, hogy a Hive-táblák lekérdezhetők maradjanak, és megőrizzék meghatározott struktúrájukat az új tárolási környezetben.

Hive S3A konfiguráció
Lépések:
Cserélje ki az S3A vödör nevével. Ez az exampA le létrehoz egy mydb nevű Hive adatbázist és egy mytable nevű táblát szövegként tárolva file az S3A-ban.

  1. Hive konfigurálása S3A-hoz: Állítsa be az S3A-csatlakozót alapértelmezettként filerendszer a Hive számára. set fs.defaultFS=s3a:// /
  2. Hive-adatbázis létrehozása: Hozzon létre egy új Hive-adatbázist, amely tárolja az áttelepített táblákat. ADATBÁZIS LÉTREHOZÁSA mydb;
  3. Hive-tábla létrehozása az S3-ban: Hozzon létre egy táblát a Hive-adatbázisban, amely hivatkozik az S3-ban tárolt adatokra. TÁBLÁZAT LÉTREHOZÁSA mydb.mytable (col1 INT, col2 STRING)
    SZÖVEGKÉNT TÁROLVAFILE
    LOCATION 's3a:// /mytable/';
  4. Táblázat létrehozásának ellenőrzése: Győződjön meg arról, hogy a tábla létrehozása sikeres volt, és a megfelelő S3 helyre mutat.
    ASZTALOK MUTATÁSA;

Az alábbi lépések követésével hatékonyan migrálhatja a Hive-táblákat az S3-ba, megőrizve a sémát és a metaadatokat, és biztosítva, hogy a táblák működőképesek és lekérdezhetők maradjanak az új helyükön. Ez a módszer elengedhetetlen olyan forgatókönyvekhez, ahol a Hive táblák logikai szerkezetének fenntartása kritikus fontosságú.

Felettview – Migráció állásidő nélkül

Használati eset:
Ez a módszer ideális olyan helyzetekben, amikor az adatokat új tárolóhelyre kell áttelepíteni anélkül, hogy leállást vagy fennakadást okozna a folyamatban lévő műveletekben.

Cél:
Az adatok zökkenőmentes migrálása egyik tárolóhelyről a másikra, biztosítva az adatok folyamatos elérhetőségét az áttelepítési folyamat során.

Lépések

  1. Új tábla létrehozása: Hozzon létre egy új táblát a kívánt tárolóhelyen az eredeti táblával megegyező séma használatával. TÁBLÁZAT LÉTREHOZÁSA newtable LIKE mytable;
  2. Adatok másolása az új táblába: Az INSERT INTO utasítás segítségével másolja át az adatokat az eredeti táblából az új táblába.
    INSERT INTO newtable SELECT * FROM mytable;
  3. Az eredeti táblára mutató hivatkozások frissítése: Az adatok másolása után frissítse az eredeti táblára mutató hivatkozásokat, hogy az új táblára mutasson.
    ALTER TABLE mytable_external SET LOCATION 'új_hely' ;
  4. Az eredeti tábla eldobása: Miután meggyőződött arról, hogy minden hivatkozás frissült, és az új tábla megfelelően működik, az erőforrások felszabadításához dobja el az eredeti táblát.
    DROP TABLE mytable;

Az alábbi lépések követésével áttelepítheti Apache Hive tábláját egyik tárolóhelyről a másikra, leállás nélkül, így biztosítva az adatok folyamatos rendelkezésre állását és a műveletek minimális fennakadását.

2a lehetőség: Migráció Hive Snapshots (CTAS) segítségével

Használati eset:
Ez a módszer ideális olyan forgatókönyvekhez, amelyek az adatok tranzakciós szempontból konzisztens pillanatképét igénylik. Hasznos adatmigrációhoz, biztonsági mentésekhez vagy elemzésekhez egy stabil pillanatfelvételen.

Cél:
A CTAS (Create Table As Select) elsődleges célja, hogy konzisztens pillanatképet hozzon létre az adatokról egy adott időpontban. Ez biztosítja, hogy az adatokon a pillanatkép pillanatáig végrehajtott módosítások szerepeljenek, így stabil adatállapotot biztosítva az áttelepítéshez vagy elemzéshez.

Lépések:

  1. Pillanatkép létrehozása (forrástábla): Hozzon létre egy pillanatképet a forrástábláról a CREATE TABLE AS SELECT utasítással. Ez a parancs létrehoz egy új _sales_snap táblát, és feltölti a bolti _ értékesítés adataival. Ez biztosítja, hogy a bolt _ értékesítési tábláján ezen pont után végrehajtott módosítások ne befolyásolják az áttelepítési folyamatot.
    CREATE TABLE store_sales_snap AS SELECT * FROM store_sales;
  2. Pillanatkép exportálása (forrástáblázat): Exportálja a pillanatfelvétel adatait a kívánt S3 helyre az INSERT OVERWRITE DIRECTORY paranccsal. Ez áthelyezi az adatokat a HDFS-ből a VAST S3 tárolóba, amely a céltároló. INSERT FELÍRÁSI KÖNYVTÁR 's3://my-s3-bucket/export -path' SELECT * FROM store_sales_snap;
  3. Táblázat visszaállítása (Céltábla): Hozzon létre egy új táblát a célhelyen, és mutasson rá az exportált adatokra az S3-on. A CREATE TABLE … LIKE utasítás új tábla célhelyet hoz létre _ store _ sales, amely megegyezik a bolti _ értékesítéssel megegyező sémával. Az ALTER TABLE … SET LOCATION utasítás módosítja a cél _ bolt _ értékesítés helyét arra az S3 elérési útra, ahová a pillanatképadatokat exportálták.
    TÁBLÁZAT LÉTREHOZÁSA cél_áruház_értékesítés MINT áruház_értékesítés; ALTER TABLE cél_bolt_értékesítés SET LOCATION 's3://my-s3-bucket/export-path';

Ebben az áttelepítési folyamatban létrejön egy pillanatkép a forrástábláról (bolti _ értékesítés), és exportálódik egy S3 tárolóba. A
Ezután új tábla (cél _ bolt _ értékesítés) jön létre a célhelyen ugyanazzal a sémával, és az S3-on exportált adatokhoz kapcsolódik. Ez a módszer biztosítja az adatok következetes és elszigetelt migrációját a forrásból a célba.

2b. lehetőség: Migráció S3 Temp Bucket használatával

Használati eset:
Ez a módszer ideális olyan forgatókönyvekhez, ahol az adatok konzisztenciáját kell biztosítania az áttelepítés során egy ideiglenes S3 tároló közvetítő tárolóhelyként való használatával.

Cél:
Az ideiglenes S3 vödör használatának elsődleges célja az, hogy minttagolyan terület, amely biztosítja az adatok konzisztenciáját a HDFS-ről a VAST S3-ra való migrációs folyamat során.

Lépések:

  1. A forrástábla exportálása egy ideiglenes S3 tárolóba: Másolja át az adatokat a HDFS-en lévő bolti _ értékesítési táblázatból egy ideiglenes helyre az S3-on. Ez az EXPORT TABLE utasítással történik.
    EXPORT TÁBLÁZAT store_sales TO 's3://your_temp_bucket/store_sales_temp';
  2. Céltábla létrehozása a Hive-ben: Határozza meg a céltábla sémáját és helyét az S3-on. Használja a
    CREATE EXTERNAL TABLE utasítás a bolti _ értékesítési táblához hasonló táblaséma létrehozásához, és adja meg az adattárolási formátumot (pl. PARQUET).
    KÜLSŐ TÁBLÁZAT LÉTREHOZÁSA store_sales_s3 (
    • ss_sold_date_sk INT,
    • ss_sold_time_sk INT,
    • ss_item_sk INT,
    • ss_customer_sk INT,
    • ss_cdemo_sk INT,
    • ss_hdemo_sk INT,
    • ss_addr_sk INT,
    • ss_store_sk INT,
    • ss_promo_sk INT,
    • ss_ticket_number INT,
    • ss_quantity INT,
    • ss_wholesale_cost DECIMAL(7,2),
    • ss_list_price DECIMAL(7,2),
    • ss_sales_price DECIMAL(7,2;XNUMX),
    • ss_ext_discount_amt DECIMAL(7,2;XNUMX),
    • ss_ext_sales_price DECIMAL(7,2),
    • ss_ext_wholesale_cost DECIMAL(7,2),
    • ss_ext_list_price DECIMAL(7,2),
    • ss_ext_tax DECIMAL(7,2;XNUMX),
    • ss_coupon_amt DECIMAL(7,2;XNUMX),
    • ss_net_paid DECIMAL(7,2),
    • ss_net_paid_inc_tax DECIMAL(7,2),
    • ss_net_profit DECIMAL(7,2;XNUMX)
    • PARketta KÉNT TÁROLVA
    • LOCATION 's3://your_target_bucket/store_sales_s3';
  3. Adatok importálása az ideiglenes S3 tárolóból a céltáblázatba: Töltse fel a bolt _sales_s3 tábláját az ideiglenes S3 tárolóból származó adatokkal. Használja az INSERT OVERWRITE TABLE utasítást az adatok másolásához az ideiglenes S3 helyről az S3 áruház _sales_s3 táblájába.
    INSERT OVERWRITE TABLE store_sales_s3 SELECT * FROM 's3://your_temp_bucket/store_sales_temp';
  4. Dobja el az ideiglenes S3 tárolót és annak tartalmát: Tisztítsa meg az ideiglenes adatok törlésével. Az adatmigráció befejezése után nincs szükség ideiglenes tárolásra. Használja a Hadoop-ot file rendszerparancs az ideiglenes S3 tároló eltávolításához. hadoop fs -rm -r s3a://your_temp_bucket/store_sales_temp

Ez a módszer lehetővé teszi a hatékony adatmigrációt a HDFS-ről az S3-ra, ideiglenes S3-tároló közvetítő tárolóként. Biztosítja az adatok konzisztenciáját, és lehetővé teszi a séma és a tárolási formátum meghatározását a célhelyen.

2c lehetőség: Táblázatok adatainak áttelepítése egyszerű INSERT utasításokkal

Használati eset
Ez a módszer ideális egyszerű áttelepítésekhez, ahol az adatokat a HDFS forrástáblájából a VAST S3 céltáblájába kell másolni anélkül, hogy közbenső lépésekre vagy összetett konfigurációkra lenne szükség.

Cél:
Az elsődleges cél egy új tábla létrehozása a VAST S3 rendszeren, és az adatok másolása a forrástáblából közvetlenül a HDFS-en egyszerű Hive SQL utasítások segítségével.

Lépések:

  1. Céltábla létrehozása az S3-on: Hozzon létre egy új táblát a VAST S3-on ugyanazzal a sémával, mint a HDFS-forrástáblázat.
    Használja a CREATE EXTERNAL TABLE utasítást a tábla séma meghatározásához, valamint az adattárolási formátum (pl. PARQUET) és az S3 helyének megadásához.
    KÜLSŐ TÁBLÁZAT LÉTREHOZÁSA store_sales_s3 (
    • ss_sold_date_sk INT,
    • ss_sold_time_sk INT,
    • ss_item_sk INT,
    • ss_customer_sk INT,
    • ss_cdemo_sk INT,
    • ss_hdemo_sk INT,
    • ss_addr_sk INT,
    • ss_store_sk INT,
    • ss_promo_sk INT,
    • ss_ticket_number INT,
    • ss_quantity INT
    • )
    • PARketta KÉNT TÁROLVA
    • LOCATION 's3://your_target_bucket/store_sales_s3';
  2. Adatok másolása a forrástáblából a céltáblába: Használja az INSERT INTO utasítást az adatok másolásához a HDFS forrástáblájából a céltáblába az S3-on.
    INSERT INTO store_sales_s3 SELECT * FROM store_sales;
  3. Adatáttelepítés ellenőrzése: Győződjön meg arról, hogy az adatok sikeresen beírásra kerültek az S3 céltáblájába. Használjon SELECT COUNT(*) lekérdezést a céltáblázatban lévő sorok számának lekéréséhez, és hasonlítsa össze a forrástáblával annak ellenőrzésére, hogy az összes rekordot áttelepítették.ds

Egyszerű CREATE TABLE, INSERT INTO és SELECT COUNT(*) utasítások használatával hatékonyan migrálhatja az adatokat a HDFS-en lévő forrástáblázatból a VAST S3 céltáblájába. Ez a módszer biztosítja a séma karbantartását és
lehetővé teszi az adatmigráció egyszerű érvényesítését.

2d. lehetőség: Külső tábla migrálása VAST S3-ra a HDFS-táblázat Hive-jából

Használati eset:
Ez a módszer ideális külső táblák áttelepítésére a HDFS-en lévő Hive-ről a VAST S3-ra, fenntartva az adatkészlet logikai szerkezetét és particionálását az optimalizált lekérdezési teljesítmény érdekében.

Cél:
Az elsődleges cél egy új particionált tábla létrehozása a VAST S3 rendszeren, amelynek sémája megegyezik a HDFS forrástáblájával. Ez biztosítja, hogy a metaadatok a Hive-ben legyenek tárolva, miközben a tényleges adatok az S3-on vannak, ami lehetővé teszi a hatékony adattárolást és -visszakeresést.

Lépések:

  1. A Target S3 tábla létrehozása: Hozzon létre egy új particionált külső táblát a VAST S3 rendszeren olyan sémával, amely megegyezik a HDFS forrástáblájával. Használja a CREATE EXTERNAL TABLE utasítást a táblázatséma meghatározásához, az adatformátum (pl. PARQUET) megadásához, és a hely beállításához egy VAST S3 gyűjtőhelyre.
    KÜLSŐ TÁBLÁZAT LÉTREHOZÁSA tlc_taxi_data_s3_partitioned (
    VendorID INT,
    • tpep_pickup_datetime TIMESTAMP,
    • tpep_dropoff_datetime TIMESTAMP,
    • utasszám BIGINT,
    • trip_distance DOUBLE,
    • RatecodeID BIGINT,
    • store_and_fwd_flag STRING,
    • PULocationID INT,
    • DOLocationID INT,
    • payment_type BIGINT,
    • viteldíj DOUBLE,
    • extra DUPLA,
    • mta_tax DOUBLE,
    • tip_amount DOUBLE,
    • tolls_amount DOUBLE,
    • javítás_felár DOUBLE,
    • total_amount DOUBLE,
    • congestion_surcharge DOUBLE,
    • Repülőtéri_díj DUPLA
    • )
    • PARTÍCIÓBAN (STRING év, STRING hónap)
    • PARketta KÉNT TÁROLVA
    • LOCATION 's3a://cloudera/hive/tlc_taxi_data_s3_partitioned'
    • TBLPROPERTIES ('external.table.purge'='true');
    • Particionálás: A PARTITIONED BY záradék meghatározza, hogy az adatokat év és hónap szerint kell particionálni, ami optimalizálja a lekérdezés teljesítményét.
    • Hely: A LOCATION határozza meg azt a VAST S3 elérési utat, ahol az adatok tárolásra kerülnek.
    • Táblázat tulajdonságai: A TBLPROPERTIES beállítása biztosítja, hogy a táblázat eldobásakor az adatok az S3-ban maradjanak.
  2. A particionált tábla feltöltése a HDFS tábla Hive használatával: Az INSERT INTO TABLE utasítás segítségével töltse fel a tlc _ taxi _ data _ s3 _ particionált táblát a forrástábla adataival.
    • A PARTÍCIÓ záradék biztosítja, hogy az adatok év és hónap szerint particionálva legyenek, miközben az S3-ba íródnak.
    • INSERT INTO TABLE tlc_taxi_data_s3_partitioned PARTITION (év, hónap) SELECT
    • szállítóazonosító,
    • tpep_pickup_datetime,
    • tpep_dropoff_datetime,
    • utasszám,
    • trip_distance,
    • RatecodeID,
    • store_and_fwd_flag,
    • PULocationID,
    • DOLocationID,
    • fizetési_típus,
    • viteldíj_összeg,
    • külön,
    • mta_tax,
    • tip_amount,
    • tolls_amount,
    • javítás_felár,
    • total_amount,
    • congestion_surcharge,
    • Airport_fee,
    • SUBSTRING(INPUT__FILE__NAME, -16, 4) AS év,
    • SUBSTRING(INPUT__FILE__NAME, -11, 2) AS hónap
    • FROM tlc_taxi_intermediary;

SUBSTRING Funkciók: Az év és a hónap információinak kinyerése a file név, konkrét elnevezési konvenciót feltételezve.
Azáltal, hogy külső particionált táblát hoz létre a VAST S3 rendszeren, és feltölti a Hive táblából a HDFS-en lévő adatokkal, ez a módszer hatékony adattárolást és visszakeresést biztosít, miközben megőrzi az adatkészlet logikai szerkezetét. Ez a megközelítés kihasználja a particionálást a lekérdezés teljesítményének optimalizálása érdekében, és zökkenőmentes migrációs útvonalat biztosít a külső táblák számára.

A migráció figyelése

Az Apache Hive exportálási és importálási folyamatának nyomon követésére különféle eszközök és technikák használhatók. Íme, több lehetőség is megfontolandó:

  1. Hive CLI vagy Beeline:
    • A Hive parancssori felület (CLI) vagy a Beeline segítségével nyomon követheti az exportálási és importálási műveletek folyamatát. A lekérdezések végrehajtásakor a CLI vagy a Beeline megjeleníti a lekérdezés folyamatát és állapotát.
    • Parancsok: A folyamatot nyomon követheti a naplók ellenőrzésével, vagy a MUNKÁK MEGJELENÍTÉSE vagy a MEGJELENÍTÉSE parancsok használatával. view a futó jobok vagy munkamenetek állapota.
  2. Hadoop Resource Manager:
    • A Hadoop Resource Manager biztosítja a web interfész a Hive export- és importműveletek előrehaladásának nyomon követéséhez.
    • Jellemzők: View a futó feladatok és feladatok állapotát, ellenőrizze az erőforrás-használatot, és kövesse nyomon a feladatok előrehaladását az erőforrás-kezelőn keresztül web felület.
  3. Harmadik féltől származó megfigyelőeszközök:
    • Használjon harmadik féltől származó felügyeleti eszközöket, mint például a Ganglia, Nagios vagy Datadog a Hive szolgáltatás figyeléséhez.
    • Előnyök: Ezek az eszközök különféle mérőszámokat és vizualizációkat kínálnak, amelyek segítenek nyomon követni a Hive szolgáltatás és összetevői teljesítményét és állapotát. További betekintést nyújtanak a rendszer teljesítményébe, és figyelmeztethetik az áttelepítési folyamat során esetlegesen felmerülő problémákat.

Ezen eszközök és technikák alkalmazásával hatékonyan nyomon követheti az adatmigráció előrehaladását, biztosítva, hogy az exportálási és importálási műveletek a várt módon haladjanak, és lehetővé teszi az esetlegesen felmerülő problémák azonnali kezelését.

Teljesítményoptimalizáló S3A a migrációhoz

Az S3A egy file Az Apache Hadoop rendszer megvalósítása, amely lehetővé teszi a Hadoop-alkalmazások számára, hogy adatokat olvassanak és írjanak az S3 tárolóra. Alternatívát kínál a Hadoop natív HDFS-jéhez file rendszer, amely lehetővé teszi a felhasználók számára az adatok hatékony tárolását és elérését az S3-on. Az S3A beállításainak optimalizálása jelentősen javíthatja a HDFS-ről a VAST S3-ra történő adatmigráció teljesítményét.

Alapkonfiguráció (nincs optimalizálás):
Lent egy exampaz S3A alapszintű core-site.xml konfigurációja hangolás nélkül:

  • fs.defaultFS
  • s3a://temp1
  • hadoop.tmp.dir
  • /home/hadoop/tmp
  • fs.s3a.access.key
  • AG8SSUT6SE436AEXBPRE
  • fs.s3a.secret.key
  • SIOPRO3jsvT1maTyMxetaOvXDpRsyrAX78zcEVEEE
  • fs.s3a.path.style.access
  • igaz
  • fs.s3.enable-storage-classes
  • igaz
  • fs.s3a.connection.ssl.enabled
  • hamis
  • fs.s3a.endpoint
  • http://vippool.yourvastcluster.com

TTL nulla hangolás:
Az S3A kliens teljesítmény okokból gyorsítótárazza a végponti kapcsolatot. A teljesítmény javítása érdekében állítsa be
a TTL (time to live) nullára csökken, biztosítva a VAST azon képességét, hogy több Cnode-on is skálázható legyen.
Adja hozzá a következőket a core-site.xml fájlhoz:

  • fs.s3a.endpoint.connection.ttl
  • 0

További hangolás az S3A-hoz:
További paraméterek hangolhatók az S3A teljesítményének optimalizálása érdekében:

Többrészes méret

  • Cél: Meghatározza az egyes részek méretét nagy feltöltéskor files az S3-ra. Ennek a méretnek a növelése javíthatja a feltöltési teljesítményt nagyobb méreteknél files az alkatrészek számának csökkentésével.
  • Alapértelmezett érték: 128 MB
  • Optimális érték: Az optimális érték a hálózati sávszélességtől, a feltöltendő adatok méretétől és az S3 tárolóosztálytól függ. A nagyobb értékek javítják a teljesítményt a nagyoknál files, de növelheti a hálózati problémák miatti sikertelen feltöltés kockázatát. Például, ha a több rész méretét 10 MB-ra állítja, növelheti a feltöltési sebességet kisebb méretben files de nem biztos, hogy optimális a nagyon nagy files, aminek előnyös lehet a nagyobb többrészes méret.
    • fs.s3a.multipart.size 10M

Aktív blokkok gyors feltöltése

  • Cél: Meghatározza a gyors feltöltés során párhuzamosan feltöltendő aktív blokkok maximális számát. Ez jelentősen javíthatja a teljesítményt nagyok számára files.
  • Alapértelmezett érték: 4
  • Optimális érték: Az optimális érték a hálózati sávszélességtől, a rendelkezésre álló magok számától és a
    S3 tárolási osztály. A magasabb értékek több párhuzamos feltöltést tesznek lehetővé, de növelhetik a hálózati sávszélesség-használatot és az S3-hoz való csatlakozást. Plample, 100-ra állítva növelheti a feltöltési sebességet, ha a hálózati sávszélesség és az S3 szolgáltatás képes kezelni a megnövekedett számú kapcsolatokat.
    • fs.s3a.fast.upload.active.blocks 100

Maximális szálak

  • Cél: Meghatározza az S3A által használható szálak maximális számát filerendszercsatlakozó párhuzamos műveletekhez. Ide tartozik az objektumok feltöltése, letöltése, listázása és törlése.
  • Alapértelmezett érték: 256
  • Optimális érték: Az optimális érték a hálózati sávszélességtől, az S3 tárolási osztálytól és a rendelkezésre álló kliens/szerver erőforrásoktól függ. Az érték növelése javíthatja a párhuzamos műveleteket, de növelheti az erőforrás-használatot és a várakozási időt. PlampLe, ha a rendszer hálózati sávszélessége és CPU-erőforrásai kezelni tudják, a szálak számának 100-ra növelése javíthatja az egyidejű műveletek sebességét.
    • fs.s3a.threads.max 100

Blokkméret

  • Cél: Beállítja a blokk méretét a file S3-ban tárolva. FileAz s blokkokra van osztva, és mindegyik blokk külön S3 objektumként van tárolva.
  • Alapértelmezett érték: 32 MB
  • Optimális érték: Az optimális érték attól függ file méret, hozzáférési minták és hálózati sávszélesség. A nagyobb blokkméretek csökkentik a létrehozott S3 objektumok számát, és javítják az olvasási/írási teljesítményt nagy méreteknél files. A kisebb blokkméretek jobban megfelelnek a kicsiknek files vagy ritkán hozzáférhető adatok. Például a blokk méretének 100 MB-ra állítása előnyös lehet nagy, egymás utáni hozzáférést igénylő munkaterhelések esetén. files.
    • fs.s3a.block.size 100 m

További hangolás a VAST-hoz:
A VAST 4.7 SP10-es verziójától kezdve létezik egy optimalizálási beállítás (vtool) a Hadoop-alapú adatok VAST S3-ra történő kezelésére. Ez a beállítás jelentősen javíthatja az adatáttelepítések teljesítményét.

Lépések:

  1. HDFS-fürt konfigurálása:
    Győződjön meg arról, hogy a többrészes feltöltések le vannak tiltva úgy, hogy a küszöbértéket és a méretet úgy állítja be, hogy az meghaladja a tényleges méretét. files. Plample, ha a tiéd files általában 1 GB vagy nagyobb, állítsa a küszöbértéket és a méretet 1 GB-ra. Állítsa be ennek megfelelően, ha files nagyobbak. Többrészes feltöltések letiltása kisebbeknél files leegyszerűsíti a feltöltési folyamatot és csökkenti az általános költségeket.
    • A core-site.xml konfigurálása:
    • fs.s3a.multipart.threshold 1G
    • fs.s3a.multipart.size 1G
    • fs.s3a.fast.upload igaz
  2. VAST optimalizálás alkalmazása:
    • Az SSH használatával csatlakozhat a VAST egyik CNODE-jához.
    • Alkalmazza az optimalizálási beállítást a vtool paranccsal. Ez a beállítás hivatkozások használatával optimalizálja a másolási folyamatot, csökkentve az adatmigrációhoz szükséges időt és erőforrásokat.
      vtool vsettings set S3_COPY_USING_LINK=true

Ezen konfigurációk és optimalizálások végrehajtásával jelentősen javíthatja az S3A teljesítményét a HDFS-ről a VAST S3-ra történő adatmigrációhoz, így hatékonyabb és skálázhatóbb adatátviteli folyamatot biztosít.

Ha további információra van szüksége az Univerzális tárhelyről, és arról, hogyan segíthet az alkalmazási problémák megoldásában, forduljon hozzánk a következő címen hello@vastdata.com.
©2024 VAST Data, Inc. Minden jog fenntartva. Minden védjegy a megfelelő tulajdonosok tulajdona.

Dokumentumok / Források

VAST S3 Storage Data Platform [pdf] Felhasználói útmutató
S3, S3 Storage Data Platform, Storage Data Platform, Data Platform, Platform

Hivatkozások

Hagyj megjegyzést

E-mail címét nem tesszük közzé. A kötelező mezők meg vannak jelölve *