VAST S3 Storage Data Platform
Termékinformáció
Műszaki adatok
- Terméknév: VAST S3 migrációs eszköz
- Verzió: 1.0
- Célközönség: adatmérnökök, adatépítészek, rendszergazdák
- Kompatibilitás: Hadoop, Hive, S3 tárolási konfigurációk
A termék használati útmutatója
Opció 1: Adatok migrálása S3-ba DistCp segítségével az S3A adapter segítségével
- Használati eset: Ideális tömeges adatátvitelhez.
- Cél: Hatékonyan mozgathat nagy mennyiségű nyers adatot HDFS-ről S3-ra.
Lépések:
- Az /etc/hadoop/conf/core-site.xml konfigurálása:
fs.s3a.access.key RBY76D9A.. fs.s3a.secret.key aBa6Odt/u/ua2J3ACABpa2.. fs.s3a.path.style.access true fs.s3.enable-storage-classes true fs.s3a.connection. ssl.enabled false fs.s3a.endpoint http://vippool.yourvastcluster.com
Győződjön meg arról, hogy az fs.s3a.endpoint a VIP-készlet DNS-neve.
- Hajtsa végre a DistCp parancsot:
hadoop distcp hdfs://your-hdfs-path/target_data/ s3a://vast-hadoop-s3-bucket/target_data - Adatátvitel ellenőrzése:
hdfs dfs -ls s3a://vast-hadoop-s3-bucket/target_data
2. lehetőség: Hive táblák áttelepítése és a Hive-Meta használata az S3A-val
- Használati eset: Ideális a Hive-tábla metaadatainak megőrzésére.
- Cél: Hive-táblaszerkezetek, sémák és metaadatok migrálása HDFS-ről S3-ra.
Gyakran Ismételt Kérdések (GYIK)
- K: Ki a célközönsége ennek az eszköznek?
A: Az adattárolást és a Hadoop-környezeteken belüli migrációt kezelő adatmérnökök, adatépítészek és rendszeradminisztrátorok. - K: Milyen előfeltételei vannak a migrációs eszköz használatának?
A: A Hadoop, Hive és S3 tárolási konfigurációk ismerete ajánlott.
Útmutató a HDFS-adatok és hive-táblázatok VAST S3-ra való migrálásához
Absztrakt
Ez az útmutató átfogó áttekintést nyújtview bevált módszerek a hagyományos Hive/HDFS táblákból a VAST S3 tárolóba való áttelepítéséhez az S3A adapter használatával. Több lehetőséget kínál a különböző használati esetekre szabva, beleértve a tömeges adatátvitelt, a Hive-tábla metaadatainak megőrzését, az adatok konzisztenciájának biztosítását és az állásidő minimalizálását. Az adatmérnökök és adminisztrátorok a vonatkozó fejezetekben ismertetett lépések betartásával kiválaszthatják az igényeiknek leginkább megfelelő migrációs módot, biztosítva a hatékony adatátvitelt, minimális hatással a folyamatban lévő műveletekre. Ez az útmutató előfeltételeket, részletes áttelepítési lépéseket és optimalizálási tippeket tartalmaz a zökkenőmentes és hatékony migrációs folyamat elősegítése érdekében.
Közönség
Ez az útmutató adatmérnököknek, adattervezőknek és rendszergazdáknak szól, akik az adattárolás és a Hadoop-környezeten belüli migráció kezeléséért felelősek. A Hadoop, Hive és S3 tárolási konfigurációk ismerete ajánlott.
Előfeltételek
- VAST felhasználó a megfelelő jogosultságokkal és S3 hozzáféréssel, titkos kulcsokkal: Felhasználók kezelése
- S3-csoport a VAST-fürtön: Csoportok kezelése
- A csoporttulajdonoshoz rendelt identitási szabályzat: S3 Access kezelése
- Hálózati kapcsolat a VAST VIP-k és a Hadoop-fürt között: Hálózati konfiguráció
- A Hadoop helyszíni telepítése a DistCp segítségével
Migrációs lehetőségek
1. lehetőség: Adatok migrálása S3-ba DistCp segítségével az S3A adapter segítségével
Használati eset
Ez a lehetőség ideális tömeges adatátviteli forgatókönyvekhez, ahol az elsődleges cél nagy mennyiségű nyers adat hatékony áthelyezése HDFS-ről S3-ra. Akkor megfelelő, ha a Hive-tábla metaadatainak megőrzése nem jelent gondot.
Cél
A DistCp (Distributed Copy) S3A adapterrel való használatának fő célja, hogy kihasználja párhuzamos másolási képességeit, hogy gyorsan és hatékonyan vigye át az adatokat a HDFS-ről az S3 tárolóra. Ez a módszer biztosítja az adatok skálázható és robusztus módon történő mozgatását.
Lépések
- Az /etc/hadoop/conf/core-site.xml konfigurálása: Frissítse a Hadoop konfigurációt file hogy tartalmazza az S3A hitelesítő adatokat és a végpont információkat.
- fs.s3a.access.key
- RBY76D9A..
- fs.s3a.secret.key
- aBa6Odt/u/ua2J3ACABpa2..
- fs.s3a.path.style.access
- igaz
- fs.s3.enable-storage-classes
- igaz
- fs.s3a.connection.ssl.enabled
- hamis
- fs.s3a.endpoint
- http://vippool.yourvastcluster.com</value>
- Győződjön meg arról, hogy az fs.s3a.endpoint a VIP-készlet DNS-neve, így a CNODE-ok közötti egyensúlyozás aktiválódik.
- A DistCp parancs végrehajtása: A DistCp paranccsal másolhat adatokat a HDFS elérési útról a cél S3 tárolóba. hadoop distcp hdfs://your-hdfs-path/target_data/ s3a://vast-hadoop-s3-bucket/target_data
- Adatátvitel ellenőrzése: Az átvitelt követően az S3 vödör tartalmának felsorolásával ellenőrizze, hogy az adatok megfelelően másolásra kerültek-e.
hdfs dfs -ls s3a://vast-hadoop-s3-bucket/target_data
Opció 2: Hive táblák migrálása és a Hive-Meta használata az S3A-val
Használati eset:
Ez a beállítás ideális olyan forgatókönyvekhez, amelyekben kulcsfontosságú a Hive-táblázatok és azok metaadatainak migrálása a Hive-séma és a táblázatdefiníciók megőrzése érdekében. Alkalmas a Hive-táblák integritásának és funkcionalitásának megőrzésére az S3-ra való migráció után.
Cél:
Ennek a módszernek az elsődleges célja a Hive-táblaszerkezetek, köztük a sémadefiníciók és a metaadatok zökkenőmentes migrálása a HDFS-ről az S3-ra. Ez biztosítja, hogy a Hive-táblák lekérdezhetők maradjanak, és megőrizzék meghatározott struktúrájukat az új tárolási környezetben.
Hive S3A konfiguráció
Lépések:
Cserélje ki az S3A vödör nevével. Ez az exampA le létrehoz egy mydb nevű Hive adatbázist és egy mytable nevű táblát szövegként tárolva file az S3A-ban.
- Hive konfigurálása S3A-hoz: Állítsa be az S3A-csatlakozót alapértelmezettként filerendszer a Hive számára. set fs.defaultFS=s3a:// /
- Hive-adatbázis létrehozása: Hozzon létre egy új Hive-adatbázist, amely tárolja az áttelepített táblákat. ADATBÁZIS LÉTREHOZÁSA mydb;
- Hive-tábla létrehozása az S3-ban: Hozzon létre egy táblát a Hive-adatbázisban, amely hivatkozik az S3-ban tárolt adatokra. TÁBLÁZAT LÉTREHOZÁSA mydb.mytable (col1 INT, col2 STRING)
SZÖVEGKÉNT TÁROLVAFILE
LOCATION 's3a:// /mytable/'; - Táblázat létrehozásának ellenőrzése: Győződjön meg arról, hogy a tábla létrehozása sikeres volt, és a megfelelő S3 helyre mutat.
ASZTALOK MUTATÁSA;
Az alábbi lépések követésével hatékonyan migrálhatja a Hive-táblákat az S3-ba, megőrizve a sémát és a metaadatokat, és biztosítva, hogy a táblák működőképesek és lekérdezhetők maradjanak az új helyükön. Ez a módszer elengedhetetlen olyan forgatókönyvekhez, ahol a Hive táblák logikai szerkezetének fenntartása kritikus fontosságú.
Felettview – Migráció állásidő nélkül
Használati eset:
Ez a módszer ideális olyan helyzetekben, amikor az adatokat új tárolóhelyre kell áttelepíteni anélkül, hogy leállást vagy fennakadást okozna a folyamatban lévő műveletekben.
Cél:
Az adatok zökkenőmentes migrálása egyik tárolóhelyről a másikra, biztosítva az adatok folyamatos elérhetőségét az áttelepítési folyamat során.
Lépések
- Új tábla létrehozása: Hozzon létre egy új táblát a kívánt tárolóhelyen az eredeti táblával megegyező séma használatával. TÁBLÁZAT LÉTREHOZÁSA newtable LIKE mytable;
- Adatok másolása az új táblába: Az INSERT INTO utasítás segítségével másolja át az adatokat az eredeti táblából az új táblába.
INSERT INTO newtable SELECT * FROM mytable; - Az eredeti táblára mutató hivatkozások frissítése: Az adatok másolása után frissítse az eredeti táblára mutató hivatkozásokat, hogy az új táblára mutasson.
ALTER TABLE mytable_external SET LOCATION 'új_hely' ; - Az eredeti tábla eldobása: Miután meggyőződött arról, hogy minden hivatkozás frissült, és az új tábla megfelelően működik, az erőforrások felszabadításához dobja el az eredeti táblát.
DROP TABLE mytable;
Az alábbi lépések követésével áttelepítheti Apache Hive tábláját egyik tárolóhelyről a másikra, leállás nélkül, így biztosítva az adatok folyamatos rendelkezésre állását és a műveletek minimális fennakadását.
2a lehetőség: Migráció Hive Snapshots (CTAS) segítségével
Használati eset:
Ez a módszer ideális olyan forgatókönyvekhez, amelyek az adatok tranzakciós szempontból konzisztens pillanatképét igénylik. Hasznos adatmigrációhoz, biztonsági mentésekhez vagy elemzésekhez egy stabil pillanatfelvételen.
Cél:
A CTAS (Create Table As Select) elsődleges célja, hogy konzisztens pillanatképet hozzon létre az adatokról egy adott időpontban. Ez biztosítja, hogy az adatokon a pillanatkép pillanatáig végrehajtott módosítások szerepeljenek, így stabil adatállapotot biztosítva az áttelepítéshez vagy elemzéshez.
Lépések:
- Pillanatkép létrehozása (forrástábla): Hozzon létre egy pillanatképet a forrástábláról a CREATE TABLE AS SELECT utasítással. Ez a parancs létrehoz egy új _sales_snap táblát, és feltölti a bolti _ értékesítés adataival. Ez biztosítja, hogy a bolt _ értékesítési tábláján ezen pont után végrehajtott módosítások ne befolyásolják az áttelepítési folyamatot.
CREATE TABLE store_sales_snap AS SELECT * FROM store_sales; - Pillanatkép exportálása (forrástáblázat): Exportálja a pillanatfelvétel adatait a kívánt S3 helyre az INSERT OVERWRITE DIRECTORY paranccsal. Ez áthelyezi az adatokat a HDFS-ből a VAST S3 tárolóba, amely a céltároló. INSERT FELÍRÁSI KÖNYVTÁR 's3://my-s3-bucket/export -path' SELECT * FROM store_sales_snap;
- Táblázat visszaállítása (Céltábla): Hozzon létre egy új táblát a célhelyen, és mutasson rá az exportált adatokra az S3-on. A CREATE TABLE … LIKE utasítás új tábla célhelyet hoz létre _ store _ sales, amely megegyezik a bolti _ értékesítéssel megegyező sémával. Az ALTER TABLE … SET LOCATION utasítás módosítja a cél _ bolt _ értékesítés helyét arra az S3 elérési útra, ahová a pillanatképadatokat exportálták.
TÁBLÁZAT LÉTREHOZÁSA cél_áruház_értékesítés MINT áruház_értékesítés; ALTER TABLE cél_bolt_értékesítés SET LOCATION 's3://my-s3-bucket/export-path';
Ebben az áttelepítési folyamatban létrejön egy pillanatkép a forrástábláról (bolti _ értékesítés), és exportálódik egy S3 tárolóba. A
Ezután új tábla (cél _ bolt _ értékesítés) jön létre a célhelyen ugyanazzal a sémával, és az S3-on exportált adatokhoz kapcsolódik. Ez a módszer biztosítja az adatok következetes és elszigetelt migrációját a forrásból a célba.
2b. lehetőség: Migráció S3 Temp Bucket használatával
Használati eset:
Ez a módszer ideális olyan forgatókönyvekhez, ahol az adatok konzisztenciáját kell biztosítania az áttelepítés során egy ideiglenes S3 tároló közvetítő tárolóhelyként való használatával.
Cél:
Az ideiglenes S3 vödör használatának elsődleges célja az, hogy minttagolyan terület, amely biztosítja az adatok konzisztenciáját a HDFS-ről a VAST S3-ra való migrációs folyamat során.
Lépések:
- A forrástábla exportálása egy ideiglenes S3 tárolóba: Másolja át az adatokat a HDFS-en lévő bolti _ értékesítési táblázatból egy ideiglenes helyre az S3-on. Ez az EXPORT TABLE utasítással történik.
EXPORT TÁBLÁZAT store_sales TO 's3://your_temp_bucket/store_sales_temp'; - Céltábla létrehozása a Hive-ben: Határozza meg a céltábla sémáját és helyét az S3-on. Használja a
CREATE EXTERNAL TABLE utasítás a bolti _ értékesítési táblához hasonló táblaséma létrehozásához, és adja meg az adattárolási formátumot (pl. PARQUET).
KÜLSŐ TÁBLÁZAT LÉTREHOZÁSA store_sales_s3 (- ss_sold_date_sk INT,
- ss_sold_time_sk INT,
- ss_item_sk INT,
- ss_customer_sk INT,
- ss_cdemo_sk INT,
- ss_hdemo_sk INT,
- ss_addr_sk INT,
- ss_store_sk INT,
- ss_promo_sk INT,
- ss_ticket_number INT,
- ss_quantity INT,
- ss_wholesale_cost DECIMAL(7,2),
- ss_list_price DECIMAL(7,2),
- ss_sales_price DECIMAL(7,2;XNUMX),
- ss_ext_discount_amt DECIMAL(7,2;XNUMX),
- ss_ext_sales_price DECIMAL(7,2),
- ss_ext_wholesale_cost DECIMAL(7,2),
- ss_ext_list_price DECIMAL(7,2),
- ss_ext_tax DECIMAL(7,2;XNUMX),
- ss_coupon_amt DECIMAL(7,2;XNUMX),
- ss_net_paid DECIMAL(7,2),
- ss_net_paid_inc_tax DECIMAL(7,2),
- ss_net_profit DECIMAL(7,2;XNUMX)
- PARketta KÉNT TÁROLVA
- LOCATION 's3://your_target_bucket/store_sales_s3';
- Adatok importálása az ideiglenes S3 tárolóból a céltáblázatba: Töltse fel a bolt _sales_s3 tábláját az ideiglenes S3 tárolóból származó adatokkal. Használja az INSERT OVERWRITE TABLE utasítást az adatok másolásához az ideiglenes S3 helyről az S3 áruház _sales_s3 táblájába.
INSERT OVERWRITE TABLE store_sales_s3 SELECT * FROM 's3://your_temp_bucket/store_sales_temp'; - Dobja el az ideiglenes S3 tárolót és annak tartalmát: Tisztítsa meg az ideiglenes adatok törlésével. Az adatmigráció befejezése után nincs szükség ideiglenes tárolásra. Használja a Hadoop-ot file rendszerparancs az ideiglenes S3 tároló eltávolításához. hadoop fs -rm -r s3a://your_temp_bucket/store_sales_temp
Ez a módszer lehetővé teszi a hatékony adatmigrációt a HDFS-ről az S3-ra, ideiglenes S3-tároló közvetítő tárolóként. Biztosítja az adatok konzisztenciáját, és lehetővé teszi a séma és a tárolási formátum meghatározását a célhelyen.
2c lehetőség: Táblázatok adatainak áttelepítése egyszerű INSERT utasításokkal
Használati eset
Ez a módszer ideális egyszerű áttelepítésekhez, ahol az adatokat a HDFS forrástáblájából a VAST S3 céltáblájába kell másolni anélkül, hogy közbenső lépésekre vagy összetett konfigurációkra lenne szükség.
Cél:
Az elsődleges cél egy új tábla létrehozása a VAST S3 rendszeren, és az adatok másolása a forrástáblából közvetlenül a HDFS-en egyszerű Hive SQL utasítások segítségével.
Lépések:
- Céltábla létrehozása az S3-on: Hozzon létre egy új táblát a VAST S3-on ugyanazzal a sémával, mint a HDFS-forrástáblázat.
Használja a CREATE EXTERNAL TABLE utasítást a tábla séma meghatározásához, valamint az adattárolási formátum (pl. PARQUET) és az S3 helyének megadásához.
KÜLSŐ TÁBLÁZAT LÉTREHOZÁSA store_sales_s3 (- ss_sold_date_sk INT,
- ss_sold_time_sk INT,
- ss_item_sk INT,
- ss_customer_sk INT,
- ss_cdemo_sk INT,
- ss_hdemo_sk INT,
- ss_addr_sk INT,
- ss_store_sk INT,
- ss_promo_sk INT,
- ss_ticket_number INT,
- ss_quantity INT
- )
- PARketta KÉNT TÁROLVA
- LOCATION 's3://your_target_bucket/store_sales_s3';
- Adatok másolása a forrástáblából a céltáblába: Használja az INSERT INTO utasítást az adatok másolásához a HDFS forrástáblájából a céltáblába az S3-on.
INSERT INTO store_sales_s3 SELECT * FROM store_sales; - Adatáttelepítés ellenőrzése: Győződjön meg arról, hogy az adatok sikeresen beírásra kerültek az S3 céltáblájába. Használjon SELECT COUNT(*) lekérdezést a céltáblázatban lévő sorok számának lekéréséhez, és hasonlítsa össze a forrástáblával annak ellenőrzésére, hogy az összes rekordot áttelepítették.ds
Egyszerű CREATE TABLE, INSERT INTO és SELECT COUNT(*) utasítások használatával hatékonyan migrálhatja az adatokat a HDFS-en lévő forrástáblázatból a VAST S3 céltáblájába. Ez a módszer biztosítja a séma karbantartását és
lehetővé teszi az adatmigráció egyszerű érvényesítését.
2d. lehetőség: Külső tábla migrálása VAST S3-ra a HDFS-táblázat Hive-jából
Használati eset:
Ez a módszer ideális külső táblák áttelepítésére a HDFS-en lévő Hive-ről a VAST S3-ra, fenntartva az adatkészlet logikai szerkezetét és particionálását az optimalizált lekérdezési teljesítmény érdekében.
Cél:
Az elsődleges cél egy új particionált tábla létrehozása a VAST S3 rendszeren, amelynek sémája megegyezik a HDFS forrástáblájával. Ez biztosítja, hogy a metaadatok a Hive-ben legyenek tárolva, miközben a tényleges adatok az S3-on vannak, ami lehetővé teszi a hatékony adattárolást és -visszakeresést.
Lépések:
- A Target S3 tábla létrehozása: Hozzon létre egy új particionált külső táblát a VAST S3 rendszeren olyan sémával, amely megegyezik a HDFS forrástáblájával. Használja a CREATE EXTERNAL TABLE utasítást a táblázatséma meghatározásához, az adatformátum (pl. PARQUET) megadásához, és a hely beállításához egy VAST S3 gyűjtőhelyre.
KÜLSŐ TÁBLÁZAT LÉTREHOZÁSA tlc_taxi_data_s3_partitioned (
VendorID INT,- tpep_pickup_datetime TIMESTAMP,
- tpep_dropoff_datetime TIMESTAMP,
- utasszám BIGINT,
- trip_distance DOUBLE,
- RatecodeID BIGINT,
- store_and_fwd_flag STRING,
- PULocationID INT,
- DOLocationID INT,
- payment_type BIGINT,
- viteldíj DOUBLE,
- extra DUPLA,
- mta_tax DOUBLE,
- tip_amount DOUBLE,
- tolls_amount DOUBLE,
- javítás_felár DOUBLE,
- total_amount DOUBLE,
- congestion_surcharge DOUBLE,
- Repülőtéri_díj DUPLA
- )
- PARTÍCIÓBAN (STRING év, STRING hónap)
- PARketta KÉNT TÁROLVA
- LOCATION 's3a://cloudera/hive/tlc_taxi_data_s3_partitioned'
- TBLPROPERTIES ('external.table.purge'='true');
- Particionálás: A PARTITIONED BY záradék meghatározza, hogy az adatokat év és hónap szerint kell particionálni, ami optimalizálja a lekérdezés teljesítményét.
- Hely: A LOCATION határozza meg azt a VAST S3 elérési utat, ahol az adatok tárolásra kerülnek.
- Táblázat tulajdonságai: A TBLPROPERTIES beállítása biztosítja, hogy a táblázat eldobásakor az adatok az S3-ban maradjanak.
- A particionált tábla feltöltése a HDFS tábla Hive használatával: Az INSERT INTO TABLE utasítás segítségével töltse fel a tlc _ taxi _ data _ s3 _ particionált táblát a forrástábla adataival.
- A PARTÍCIÓ záradék biztosítja, hogy az adatok év és hónap szerint particionálva legyenek, miközben az S3-ba íródnak.
- INSERT INTO TABLE tlc_taxi_data_s3_partitioned PARTITION (év, hónap) SELECT
- szállítóazonosító,
- tpep_pickup_datetime,
- tpep_dropoff_datetime,
- utasszám,
- trip_distance,
- RatecodeID,
- store_and_fwd_flag,
- PULocationID,
- DOLocationID,
- fizetési_típus,
- viteldíj_összeg,
- külön,
- mta_tax,
- tip_amount,
- tolls_amount,
- javítás_felár,
- total_amount,
- congestion_surcharge,
- Airport_fee,
- SUBSTRING(INPUT__FILE__NAME, -16, 4) AS év,
- SUBSTRING(INPUT__FILE__NAME, -11, 2) AS hónap
- FROM tlc_taxi_intermediary;
SUBSTRING Funkciók: Az év és a hónap információinak kinyerése a file név, konkrét elnevezési konvenciót feltételezve.
Azáltal, hogy külső particionált táblát hoz létre a VAST S3 rendszeren, és feltölti a Hive táblából a HDFS-en lévő adatokkal, ez a módszer hatékony adattárolást és visszakeresést biztosít, miközben megőrzi az adatkészlet logikai szerkezetét. Ez a megközelítés kihasználja a particionálást a lekérdezés teljesítményének optimalizálása érdekében, és zökkenőmentes migrációs útvonalat biztosít a külső táblák számára.
A migráció figyelése
Az Apache Hive exportálási és importálási folyamatának nyomon követésére különféle eszközök és technikák használhatók. Íme, több lehetőség is megfontolandó:
- Hive CLI vagy Beeline:
- A Hive parancssori felület (CLI) vagy a Beeline segítségével nyomon követheti az exportálási és importálási műveletek folyamatát. A lekérdezések végrehajtásakor a CLI vagy a Beeline megjeleníti a lekérdezés folyamatát és állapotát.
- Parancsok: A folyamatot nyomon követheti a naplók ellenőrzésével, vagy a MUNKÁK MEGJELENÍTÉSE vagy a MEGJELENÍTÉSE parancsok használatával. view a futó jobok vagy munkamenetek állapota.
- Hadoop Resource Manager:
- A Hadoop Resource Manager biztosítja a web interfész a Hive export- és importműveletek előrehaladásának nyomon követéséhez.
- Jellemzők: View a futó feladatok és feladatok állapotát, ellenőrizze az erőforrás-használatot, és kövesse nyomon a feladatok előrehaladását az erőforrás-kezelőn keresztül web felület.
- Harmadik féltől származó megfigyelőeszközök:
- Használjon harmadik féltől származó felügyeleti eszközöket, mint például a Ganglia, Nagios vagy Datadog a Hive szolgáltatás figyeléséhez.
- Előnyök: Ezek az eszközök különféle mérőszámokat és vizualizációkat kínálnak, amelyek segítenek nyomon követni a Hive szolgáltatás és összetevői teljesítményét és állapotát. További betekintést nyújtanak a rendszer teljesítményébe, és figyelmeztethetik az áttelepítési folyamat során esetlegesen felmerülő problémákat.
Ezen eszközök és technikák alkalmazásával hatékonyan nyomon követheti az adatmigráció előrehaladását, biztosítva, hogy az exportálási és importálási műveletek a várt módon haladjanak, és lehetővé teszi az esetlegesen felmerülő problémák azonnali kezelését.
Teljesítményoptimalizáló S3A a migrációhoz
Az S3A egy file Az Apache Hadoop rendszer megvalósítása, amely lehetővé teszi a Hadoop-alkalmazások számára, hogy adatokat olvassanak és írjanak az S3 tárolóra. Alternatívát kínál a Hadoop natív HDFS-jéhez file rendszer, amely lehetővé teszi a felhasználók számára az adatok hatékony tárolását és elérését az S3-on. Az S3A beállításainak optimalizálása jelentősen javíthatja a HDFS-ről a VAST S3-ra történő adatmigráció teljesítményét.
Alapkonfiguráció (nincs optimalizálás):
Lent egy exampaz S3A alapszintű core-site.xml konfigurációja hangolás nélkül:
- fs.defaultFS
- s3a://temp1
- hadoop.tmp.dir
- /home/hadoop/tmp
- fs.s3a.access.key
- AG8SSUT6SE436AEXBPRE
- fs.s3a.secret.key
- SIOPRO3jsvT1maTyMxetaOvXDpRsyrAX78zcEVEEE
- fs.s3a.path.style.access
- igaz
- fs.s3.enable-storage-classes
- igaz
- fs.s3a.connection.ssl.enabled
- hamis
- fs.s3a.endpoint
- http://vippool.yourvastcluster.com
TTL nulla hangolás:
Az S3A kliens teljesítmény okokból gyorsítótárazza a végponti kapcsolatot. A teljesítmény javítása érdekében állítsa be
a TTL (time to live) nullára csökken, biztosítva a VAST azon képességét, hogy több Cnode-on is skálázható legyen.
Adja hozzá a következőket a core-site.xml fájlhoz:
- fs.s3a.endpoint.connection.ttl
- 0
További hangolás az S3A-hoz:
További paraméterek hangolhatók az S3A teljesítményének optimalizálása érdekében:
Többrészes méret
- Cél: Meghatározza az egyes részek méretét nagy feltöltéskor files az S3-ra. Ennek a méretnek a növelése javíthatja a feltöltési teljesítményt nagyobb méreteknél files az alkatrészek számának csökkentésével.
- Alapértelmezett érték: 128 MB
- Optimális érték: Az optimális érték a hálózati sávszélességtől, a feltöltendő adatok méretétől és az S3 tárolóosztálytól függ. A nagyobb értékek javítják a teljesítményt a nagyoknál files, de növelheti a hálózati problémák miatti sikertelen feltöltés kockázatát. Például, ha a több rész méretét 10 MB-ra állítja, növelheti a feltöltési sebességet kisebb méretben files de nem biztos, hogy optimális a nagyon nagy files, aminek előnyös lehet a nagyobb többrészes méret.
- fs.s3a.multipart.size 10M
Aktív blokkok gyors feltöltése
- Cél: Meghatározza a gyors feltöltés során párhuzamosan feltöltendő aktív blokkok maximális számát. Ez jelentősen javíthatja a teljesítményt nagyok számára files.
- Alapértelmezett érték: 4
- Optimális érték: Az optimális érték a hálózati sávszélességtől, a rendelkezésre álló magok számától és a
S3 tárolási osztály. A magasabb értékek több párhuzamos feltöltést tesznek lehetővé, de növelhetik a hálózati sávszélesség-használatot és az S3-hoz való csatlakozást. Plample, 100-ra állítva növelheti a feltöltési sebességet, ha a hálózati sávszélesség és az S3 szolgáltatás képes kezelni a megnövekedett számú kapcsolatokat.- fs.s3a.fast.upload.active.blocks 100
Maximális szálak
- Cél: Meghatározza az S3A által használható szálak maximális számát filerendszercsatlakozó párhuzamos műveletekhez. Ide tartozik az objektumok feltöltése, letöltése, listázása és törlése.
- Alapértelmezett érték: 256
- Optimális érték: Az optimális érték a hálózati sávszélességtől, az S3 tárolási osztálytól és a rendelkezésre álló kliens/szerver erőforrásoktól függ. Az érték növelése javíthatja a párhuzamos műveleteket, de növelheti az erőforrás-használatot és a várakozási időt. PlampLe, ha a rendszer hálózati sávszélessége és CPU-erőforrásai kezelni tudják, a szálak számának 100-ra növelése javíthatja az egyidejű műveletek sebességét.
- fs.s3a.threads.max 100
Blokkméret
- Cél: Beállítja a blokk méretét a file S3-ban tárolva. FileAz s blokkokra van osztva, és mindegyik blokk külön S3 objektumként van tárolva.
- Alapértelmezett érték: 32 MB
- Optimális érték: Az optimális érték attól függ file méret, hozzáférési minták és hálózati sávszélesség. A nagyobb blokkméretek csökkentik a létrehozott S3 objektumok számát, és javítják az olvasási/írási teljesítményt nagy méreteknél files. A kisebb blokkméretek jobban megfelelnek a kicsiknek files vagy ritkán hozzáférhető adatok. Például a blokk méretének 100 MB-ra állítása előnyös lehet nagy, egymás utáni hozzáférést igénylő munkaterhelések esetén. files.
- fs.s3a.block.size 100 m
További hangolás a VAST-hoz:
A VAST 4.7 SP10-es verziójától kezdve létezik egy optimalizálási beállítás (vtool) a Hadoop-alapú adatok VAST S3-ra történő kezelésére. Ez a beállítás jelentősen javíthatja az adatáttelepítések teljesítményét.
Lépések:
- HDFS-fürt konfigurálása:
Győződjön meg arról, hogy a többrészes feltöltések le vannak tiltva úgy, hogy a küszöbértéket és a méretet úgy állítja be, hogy az meghaladja a tényleges méretét. files. Plample, ha a tiéd files általában 1 GB vagy nagyobb, állítsa a küszöbértéket és a méretet 1 GB-ra. Állítsa be ennek megfelelően, ha files nagyobbak. Többrészes feltöltések letiltása kisebbeknél files leegyszerűsíti a feltöltési folyamatot és csökkenti az általános költségeket.- A core-site.xml konfigurálása:
- …
- fs.s3a.multipart.threshold 1G
- fs.s3a.multipart.size 1G
- fs.s3a.fast.upload igaz
- …
- VAST optimalizálás alkalmazása:
- Az SSH használatával csatlakozhat a VAST egyik CNODE-jához.
- Alkalmazza az optimalizálási beállítást a vtool paranccsal. Ez a beállítás hivatkozások használatával optimalizálja a másolási folyamatot, csökkentve az adatmigrációhoz szükséges időt és erőforrásokat.
vtool vsettings set S3_COPY_USING_LINK=true
Ezen konfigurációk és optimalizálások végrehajtásával jelentősen javíthatja az S3A teljesítményét a HDFS-ről a VAST S3-ra történő adatmigrációhoz, így hatékonyabb és skálázhatóbb adatátviteli folyamatot biztosít.
Ha további információra van szüksége az Univerzális tárhelyről, és arról, hogyan segíthet az alkalmazási problémák megoldásában, forduljon hozzánk a következő címen hello@vastdata.com.
©2024 VAST Data, Inc. Minden jog fenntartva. Minden védjegy a megfelelő tulajdonosok tulajdona.
Dokumentumok / Források
![]() |
VAST S3 Storage Data Platform [pdf] Felhasználói útmutató S3, S3 Storage Data Platform, Storage Data Platform, Data Platform, Platform |