VAST S3 Storage Data Platform felhasználói útmutató

                fs.s3a.access.key RBY76D9A.. fs.s3a.secret.key aBa6Odt/u/ua2J3ACABpa2.. fs.s3a.path.style.access true fs.s3.enable-storage-classes true fs.s3a.connection. ssl.enabled false fs.s3a.endpoint http://vippool.yourvastcluster.com

Győződjön meg arról, hogy az fs.s3a.endpoint a VIP-készlet DNS-neve.

Hajtsa végre a DistCp parancsot:
hadoop distcp hdfs://your-hdfs-path/target_data/ s3a://vast-hadoop-s3-bucket/target_data

Adatátvitel ellenőrzése:
hdfs dfs -ls s3a://vast-hadoop-s3-bucket/target_data

2. lehetőség: Hive táblák áttelepítése és a Hive-Meta használata az S3A-val

Használati eset: Ideális a Hive-tábla metaadatainak megőrzésére.
Cél: Hive-táblaszerkezetek, sémák és metaadatok migrálása HDFS-ről S3-ra.

Gyakran Ismételt Kérdések (GYIK)

K: Ki a célközönsége ennek az eszköznek?
A: Az adattárolást és a Hadoop-környezeteken belüli migrációt kezelő adatmérnökök, adatépítészek és rendszeradminisztrátorok.
K: Milyen előfeltételei vannak a migrációs eszköz használatának?
A: A Hadoop, Hive és S3 tárolási konfigurációk ismerete ajánlott.

Útmutató a HDFS-adatok és hive-táblázatok VAST S3-ra való migrálásához

Absztrakt

Ez az útmutató átfogó áttekintést nyújtview bevált módszerek a hagyományos Hive/HDFS táblákból a VAST S3 tárolóba való áttelepítéséhez az S3A adapter használatával. Több lehetőséget kínál a különböző használati esetekre szabva, beleértve a tömeges adatátvitelt, a Hive-tábla metaadatainak megőrzését, az adatok konzisztenciájának biztosítását és az állásidő minimalizálását. Az adatmérnökök és adminisztrátorok a vonatkozó fejezetekben ismertetett lépések betartásával kiválaszthatják az igényeiknek leginkább megfelelő migrációs módot, biztosítva a hatékony adatátvitelt, minimális hatással a folyamatban lévő műveletekre. Ez az útmutató előfeltételeket, részletes áttelepítési lépéseket és optimalizálási tippeket tartalmaz a zökkenőmentes és hatékony migrációs folyamat elősegítése érdekében.

Közönség
Ez az útmutató adatmérnököknek, adattervezőknek és rendszergazdáknak szól, akik az adattárolás és a Hadoop-környezeten belüli migráció kezeléséért felelősek. A Hadoop, Hive és S3 tárolási konfigurációk ismerete ajánlott.

Előfeltételek

VAST felhasználó a megfelelő jogosultságokkal és S3 hozzáféréssel, titkos kulcsokkal: Felhasználók kezelése
S3-csoport a VAST-fürtön: Csoportok kezelése

A csoporttulajdonoshoz rendelt identitási szabályzat: S3 Access kezelése
Hálózati kapcsolat a VAST VIP-k és a Hadoop-fürt között: Hálózati konfiguráció

A Hadoop helyszíni telepítése a DistCp segítségével

Migrációs lehetőségek

1. lehetőség: Adatok migrálása S3-ba DistCp segítségével az S3A adapter segítségével

Használati eset
Ez a lehetőség ideális tömeges adatátviteli forgatókönyvekhez, ahol az elsődleges cél nagy mennyiségű nyers adat hatékony áthelyezése HDFS-ről S3-ra. Akkor megfelelő, ha a Hive-tábla metaadatainak megőrzése nem jelent gondot.

Cél
A DistCp (Distributed Copy) S3A adapterrel való használatának fő célja, hogy kihasználja párhuzamos másolási képességeit, hogy gyorsan és hatékonyan vigye át az adatokat a HDFS-ről az S3 tárolóra. Ez a módszer biztosítja az adatok skálázható és robusztus módon történő mozgatását.

Lépések

Az /etc/hadoop/conf/core-site.xml konfigurálása: Frissítse a Hadoop konfigurációt file hogy tartalmazza az S3A hitelesítő adatokat és a végpont információkat.
- fs.s3a.access.key
- RBY76D9A..
- fs.s3a.secret.key
- aBa6Odt/u/ua2J3ACABpa2..
- fs.s3a.path.style.access
- igaz
- fs.s3.enable-storage-classes
- igaz
- fs.s3a.connection.ssl.enabled
- hamis
- fs.s3a.endpoint
- http://vippool.yourvastcluster.com</value>
- Győződjön meg arról, hogy az fs.s3a.endpoint a VIP-készlet DNS-neve, így a CNODE-ok közötti egyensúlyozás aktiválódik.

A DistCp parancs végrehajtása: A DistCp paranccsal másolhat adatokat a HDFS elérési útról a cél S3 tárolóba. hadoop distcp hdfs://your-hdfs-path/target_data/ s3a://vast-hadoop-s3-bucket/target_data
Adatátvitel ellenőrzése: Az átvitelt követően az S3 vödör tartalmának felsorolásával ellenőrizze, hogy az adatok megfelelően másolásra kerültek-e.
hdfs dfs -ls s3a://vast-hadoop-s3-bucket/target_data

Opció 2: Hive táblák migrálása és a Hive-Meta használata az S3A-val

Használati eset:
Ez a beállítás ideális olyan forgatókönyvekhez, amelyekben kulcsfontosságú a Hive-táblázatok és azok metaadatainak migrálása a Hive-séma és a táblázatdefiníciók megőrzése érdekében. Alkalmas a Hive-táblák integritásának és funkcionalitásának megőrzésére az S3-ra való migráció után.

Cél:
Ennek a módszernek az elsődleges célja a Hive-táblaszerkezetek, köztük a sémadefiníciók és a metaadatok zökkenőmentes migrálása a HDFS-ről az S3-ra. Ez biztosítja, hogy a Hive-táblák lekérdezhetők maradjanak, és megőrizzék meghatározott struktúrájukat az új tárolási környezetben.

Hive S3A konfiguráció
Lépések:
Cserélje ki az S3A vödör nevével. Ez az exampA le létrehoz egy mydb nevű Hive adatbázist és egy mytable nevű táblát szövegként tárolva file az S3A-ban.

Hive konfigurálása S3A-hoz: Állítsa be az S3A-csatlakozót alapértelmezettként filerendszer a Hive számára. set fs.defaultFS=s3a:// /
Hive-adatbázis létrehozása: Hozzon létre egy új Hive-adatbázist, amely tárolja az áttelepített táblákat. ADATBÁZIS LÉTREHOZÁSA mydb;
Hive-tábla létrehozása az S3-ban: Hozzon létre egy táblát a Hive-adatbázisban, amely hivatkozik az S3-ban tárolt adatokra. TÁBLÁZAT LÉTREHOZÁSA mydb.mytable (col1 INT, col2 STRING)
SZÖVEGKÉNT TÁROLVAFILE
LOCATION 's3a:// /mytable/';

Táblázat létrehozásának ellenőrzése: Győződjön meg arról, hogy a tábla létrehozása sikeres volt, és a megfelelő S3 helyre mutat.
ASZTALOK MUTATÁSA;

Az alábbi lépések követésével hatékonyan migrálhatja a Hive-táblákat az S3-ba, megőrizve a sémát és a metaadatokat, és biztosítva, hogy a táblák működőképesek és lekérdezhetők maradjanak az új helyükön. Ez a módszer elengedhetetlen olyan forgatókönyvekhez, ahol a Hive táblák logikai szerkezetének fenntartása kritikus fontosságú.

Felettview – Migráció állásidő nélkül

Használati eset:
Ez a módszer ideális olyan helyzetekben, amikor az adatokat új tárolóhelyre kell áttelepíteni anélkül, hogy leállást vagy fennakadást okozna a folyamatban lévő műveletekben.

Cél:
Az adatok zökkenőmentes migrálása egyik tárolóhelyről a másikra, biztosítva az adatok folyamatos elérhetőségét az áttelepítési folyamat során.

Lépések

Új tábla létrehozása: Hozzon létre egy új táblát a kívánt tárolóhelyen az eredeti táblával megegyező séma használatával. TÁBLÁZAT LÉTREHOZÁSA newtable LIKE mytable;

Adatok másolása az új táblába: Az INSERT INTO utasítás segítségével másolja át az adatokat az eredeti táblából az új táblába.
INSERT INTO newtable SELECT * FROM mytable;
Az eredeti táblára mutató hivatkozások frissítése: Az adatok másolása után frissítse az eredeti táblára mutató hivatkozásokat, hogy az új táblára mutasson.
ALTER TABLE mytable_external SET LOCATION 'új_hely' ;
Az eredeti tábla eldobása: Miután meggyőződött arról, hogy minden hivatkozás frissült, és az új tábla megfelelően működik, az erőforrások felszabadításához dobja el az eredeti táblát.
DROP TABLE mytable;

Az alábbi lépések követésével áttelepítheti Apache Hive tábláját egyik tárolóhelyről a másikra, leállás nélkül, így biztosítva az adatok folyamatos rendelkezésre állását és a műveletek minimális fennakadását.

2a lehetőség: Migráció Hive Snapshots (CTAS) segítségével

Használati eset:
Ez a módszer ideális olyan forgatókönyvekhez, amelyek az adatok tranzakciós szempontból konzisztens pillanatképét igénylik. Hasznos adatmigrációhoz, biztonsági mentésekhez vagy elemzésekhez egy stabil pillanatfelvételen.

Cél:
A CTAS (Create Table As Select) elsődleges célja, hogy konzisztens pillanatképet hozzon létre az adatokról egy adott időpontban. Ez biztosítja, hogy az adatokon a pillanatkép pillanatáig végrehajtott módosítások szerepeljenek, így stabil adatállapotot biztosítva az áttelepítéshez vagy elemzéshez.

Lépések:

Pillanatkép létrehozása (forrástábla): Hozzon létre egy pillanatképet a forrástábláról a CREATE TABLE AS SELECT utasítással. Ez a parancs létrehoz egy új _sales_snap táblát, és feltölti a bolti _ értékesítés adataival. Ez biztosítja, hogy a bolt _ értékesítési tábláján ezen pont után végrehajtott módosítások ne befolyásolják az áttelepítési folyamatot.
CREATE TABLE store_sales_snap AS SELECT * FROM store_sales;

Pillanatkép exportálása (forrástáblázat): Exportálja a pillanatfelvétel adatait a kívánt S3 helyre az INSERT OVERWRITE DIRECTORY paranccsal. Ez áthelyezi az adatokat a HDFS-ből a VAST S3 tárolóba, amely a céltároló. INSERT FELÍRÁSI KÖNYVTÁR 's3://my-s3-bucket/export -path' SELECT * FROM store_sales_snap;
Táblázat visszaállítása (Céltábla): Hozzon létre egy új táblát a célhelyen, és mutasson rá az exportált adatokra az S3-on. A CREATE TABLE … LIKE utasítás új tábla célhelyet hoz létre _ store _ sales, amely megegyezik a bolti _ értékesítéssel megegyező sémával. Az ALTER TABLE … SET LOCATION utasítás módosítja a cél _ bolt _ értékesítés helyét arra az S3 elérési útra, ahová a pillanatképadatokat exportálták.
TÁBLÁZAT LÉTREHOZÁSA cél_áruház_értékesítés MINT áruház_értékesítés; ALTER TABLE cél_bolt_értékesítés SET LOCATION 's3://my-s3-bucket/export-path';

Ebben az áttelepítési folyamatban létrejön egy pillanatkép a forrástábláról (bolti _ értékesítés), és exportálódik egy S3 tárolóba. A
Ezután új tábla (cél _ bolt _ értékesítés) jön létre a célhelyen ugyanazzal a sémával, és az S3-on exportált adatokhoz kapcsolódik. Ez a módszer biztosítja az adatok következetes és elszigetelt migrációját a forrásból a célba.

2b. lehetőség: Migráció S3 Temp Bucket használatával

Használati eset:
Ez a módszer ideális olyan forgatókönyvekhez, ahol az adatok konzisztenciáját kell biztosítania az áttelepítés során egy ideiglenes S3 tároló közvetítő tárolóhelyként való használatával.

Cél:
Az ideiglenes S3 vödör használatának elsődleges célja az, hogy minttagolyan terület, amely biztosítja az adatok konzisztenciáját a HDFS-ről a VAST S3-ra való migrációs folyamat során.

Lépések:

A forrástábla exportálása egy ideiglenes S3 tárolóba: Másolja át az adatokat a HDFS-en lévő bolti _ értékesítési táblázatból egy ideiglenes helyre az S3-on. Ez az EXPORT TABLE utasítással történik.
EXPORT TÁBLÁZAT store_sales TO 's3://your_temp_bucket/store_sales_temp';
Céltábla létrehozása a Hive-ben: Határozza meg a céltábla sémáját és helyét az S3-on. Használja a
CREATE EXTERNAL TABLE utasítás a bolti _ értékesítési táblához hasonló táblaséma létrehozásához, és adja meg az adattárolási formátumot (pl. PARQUET).
KÜLSŐ TÁBLÁZAT LÉTREHOZÁSA store_sales_s3 (
- ss_sold_date_sk INT,
- ss_sold_time_sk INT,
- ss_item_sk INT,
- ss_customer_sk INT,
- ss_cdemo_sk INT,
- ss_hdemo_sk INT,
- ss_addr_sk INT,
- ss_store_sk INT,
- ss_promo_sk INT,
- ss_ticket_number INT,
- ss_quantity INT,
- ss_wholesale_cost DECIMAL(7,2),
- ss_list_price DECIMAL(7,2),
- ss_sales_price DECIMAL(7,2;XNUMX),
- ss_ext_discount_amt DECIMAL(7,2;XNUMX),
- ss_ext_sales_price DECIMAL(7,2),
- ss_ext_wholesale_cost DECIMAL(7,2),
- ss_ext_list_price DECIMAL(7,2),
- ss_ext_tax DECIMAL(7,2;XNUMX),
- ss_coupon_amt DECIMAL(7,2;XNUMX),
- ss_net_paid DECIMAL(7,2),
- ss_net_paid_inc_tax DECIMAL(7,2),
- ss_net_profit DECIMAL(7,2;XNUMX)
- PARketta KÉNT TÁROLVA
- LOCATION 's3://your_target_bucket/store_sales_s3';
Adatok importálása az ideiglenes S3 tárolóból a céltáblázatba: Töltse fel a bolt _sales_s3 tábláját az ideiglenes S3 tárolóból származó adatokkal. Használja az INSERT OVERWRITE TABLE utasítást az adatok másolásához az ideiglenes S3 helyről az S3 áruház _sales_s3 táblájába.
INSERT OVERWRITE TABLE store_sales_s3 SELECT * FROM 's3://your_temp_bucket/store_sales_temp';
Dobja el az ideiglenes S3 tárolót és annak tartalmát: Tisztítsa meg az ideiglenes adatok törlésével. Az adatmigráció befejezése után nincs szükség ideiglenes tárolásra. Használja a Hadoop-ot file rendszerparancs az ideiglenes S3 tároló eltávolításához. hadoop fs -rm -r s3a://your_temp_bucket/store_sales_temp

Ez a módszer lehetővé teszi a hatékony adatmigrációt a HDFS-ről az S3-ra, ideiglenes S3-tároló közvetítő tárolóként. Biztosítja az adatok konzisztenciáját, és lehetővé teszi a séma és a tárolási formátum meghatározását a célhelyen.

2c lehetőség: Táblázatok adatainak áttelepítése egyszerű INSERT utasításokkal

Használati eset
Ez a módszer ideális egyszerű áttelepítésekhez, ahol az adatokat a HDFS forrástáblájából a VAST S3 céltáblájába kell másolni anélkül, hogy közbenső lépésekre vagy összetett konfigurációkra lenne szükség.

Cél:
Az elsődleges cél egy új tábla létrehozása a VAST S3 rendszeren, és az adatok másolása a forrástáblából közvetlenül a HDFS-en egyszerű Hive SQL utasítások segítségével.

Lépések:

Céltábla létrehozása az S3-on: Hozzon létre egy új táblát a VAST S3-on ugyanazzal a sémával, mint a HDFS-forrástáblázat.
Használja a CREATE EXTERNAL TABLE utasítást a tábla séma meghatározásához, valamint az adattárolási formátum (pl. PARQUET) és az S3 helyének megadásához.
KÜLSŐ TÁBLÁZAT LÉTREHOZÁSA store_sales_s3 (
- ss_sold_date_sk INT,
- ss_sold_time_sk INT,
- ss_item_sk INT,
- ss_customer_sk INT,
- ss_cdemo_sk INT,
- ss_hdemo_sk INT,
- ss_addr_sk INT,
- ss_store_sk INT,
- ss_promo_sk INT,
- ss_ticket_number INT,
- ss_quantity INT
- )
- PARketta KÉNT TÁROLVA
- LOCATION 's3://your_target_bucket/store_sales_s3';
Adatok másolása a forrástáblából a céltáblába: Használja az INSERT INTO utasítást az adatok másolásához a HDFS forrástáblájából a céltáblába az S3-on.
INSERT INTO store_sales_s3 SELECT * FROM store_sales;

Adatáttelepítés ellenőrzése: Győződjön meg arról, hogy az adatok sikeresen beírásra kerültek az S3 céltáblájába. Használjon SELECT COUNT(*) lekérdezést a céltáblázatban lévő sorok számának lekéréséhez, és hasonlítsa össze a forrástáblával annak ellenőrzésére, hogy az összes rekordot áttelepítették.ds

Egyszerű CREATE TABLE, INSERT INTO és SELECT COUNT(*) utasítások használatával hatékonyan migrálhatja az adatokat a HDFS-en lévő forrástáblázatból a VAST S3 céltáblájába. Ez a módszer biztosítja a séma karbantartását és
lehetővé teszi az adatmigráció egyszerű érvényesítését.

2d. lehetőség: Külső tábla migrálása VAST S3-ra a HDFS-táblázat Hive-jából

Használati eset:
Ez a módszer ideális külső táblák áttelepítésére a HDFS-en lévő Hive-ről a VAST S3-ra, fenntartva az adatkészlet logikai szerkezetét és particionálását az optimalizált lekérdezési teljesítmény érdekében.

Cél:
Az elsődleges cél egy új particionált tábla létrehozása a VAST S3 rendszeren, amelynek sémája megegyezik a HDFS forrástáblájával. Ez biztosítja, hogy a metaadatok a Hive-ben legyenek tárolva, miközben a tényleges adatok az S3-on vannak, ami lehetővé teszi a hatékony adattárolást és -visszakeresést.

Lépések:

A Target S3 tábla létrehozása: Hozzon létre egy új particionált külső táblát a VAST S3 rendszeren olyan sémával, amely megegyezik a HDFS forrástáblájával. Használja a CREATE EXTERNAL TABLE utasítást a táblázatséma meghatározásához, az adatformátum (pl. PARQUET) megadásához, és a hely beállításához egy VAST S3 gyűjtőhelyre.
KÜLSŐ TÁBLÁZAT LÉTREHOZÁSA tlc_taxi_data_s3_partitioned (
VendorID INT,
- tpep_pickup_datetime TIMESTAMP,
- tpep_dropoff_datetime TIMESTAMP,
- utasszám BIGINT,
- trip_distance DOUBLE,
- RatecodeID BIGINT,
- store_and_fwd_flag STRING,
- PULocationID INT,
- DOLocationID INT,
- payment_type BIGINT,
- viteldíj DOUBLE,
- extra DUPLA,
- mta_tax DOUBLE,
- tip_amount DOUBLE,
- tolls_amount DOUBLE,
- javítás_felár DOUBLE,
- total_amount DOUBLE,
- congestion_surcharge DOUBLE,
- Repülőtéri_díj DUPLA
- )
- PARTÍCIÓBAN (STRING év, STRING hónap)
- PARketta KÉNT TÁROLVA
- LOCATION 's3a://cloudera/hive/tlc_taxi_data_s3_partitioned'
- TBLPROPERTIES ('external.table.purge'='true');
- Particionálás: A PARTITIONED BY záradék meghatározza, hogy az adatokat év és hónap szerint kell particionálni, ami optimalizálja a lekérdezés teljesítményét.
- Hely: A LOCATION határozza meg azt a VAST S3 elérési utat, ahol az adatok tárolásra kerülnek.
- Táblázat tulajdonságai: A TBLPROPERTIES beállítása biztosítja, hogy a táblázat eldobásakor az adatok az S3-ban maradjanak.
A particionált tábla feltöltése a HDFS tábla Hive használatával: Az INSERT INTO TABLE utasítás segítségével töltse fel a tlc _ taxi _ data _ s3 _ particionált táblát a forrástábla adataival.
- A PARTÍCIÓ záradék biztosítja, hogy az adatok év és hónap szerint particionálva legyenek, miközben az S3-ba íródnak.
- INSERT INTO TABLE tlc_taxi_data_s3_partitioned PARTITION (év, hónap) SELECT
- szállítóazonosító,
- tpep_pickup_datetime,
- tpep_dropoff_datetime,
- utasszám,
- trip_distance,
- RatecodeID,
- store_and_fwd_flag,
- PULocationID,
- DOLocationID,
- fizetési_típus,
- viteldíj_összeg,
- külön,
- mta_tax,
- tip_amount,
- tolls_amount,
- javítás_felár,
- total_amount,
- congestion_surcharge,
- Airport_fee,
- SUBSTRING(INPUT__FILE__NAME, -16, 4) AS év,
- SUBSTRING(INPUT__FILE__NAME, -11, 2) AS hónap
- FROM tlc_taxi_intermediary;

SUBSTRING Funkciók: Az év és a hónap információinak kinyerése a file név, konkrét elnevezési konvenciót feltételezve.
Azáltal, hogy külső particionált táblát hoz létre a VAST S3 rendszeren, és feltölti a Hive táblából a HDFS-en lévő adatokkal, ez a módszer hatékony adattárolást és visszakeresést biztosít, miközben megőrzi az adatkészlet logikai szerkezetét. Ez a megközelítés kihasználja a particionálást a lekérdezés teljesítményének optimalizálása érdekében, és zökkenőmentes migrációs útvonalat biztosít a külső táblák számára.

A migráció figyelése

Az Apache Hive exportálási és importálási folyamatának nyomon követésére különféle eszközök és technikák használhatók. Íme, több lehetőség is megfontolandó:

Hive CLI vagy Beeline:
- A Hive parancssori felület (CLI) vagy a Beeline segítségével nyomon követheti az exportálási és importálási műveletek folyamatát. A lekérdezések végrehajtásakor a CLI vagy a Beeline megjeleníti a lekérdezés folyamatát és állapotát.
- Parancsok: A folyamatot nyomon követheti a naplók ellenőrzésével, vagy a MUNKÁK MEGJELENÍTÉSE vagy a MEGJELENÍTÉSE parancsok használatával. view a futó jobok vagy munkamenetek állapota.
Hadoop Resource Manager:
- A Hadoop Resource Manager biztosítja a web interfész a Hive export- és importműveletek előrehaladásának nyomon követéséhez.
- Jellemzők: View a futó feladatok és feladatok állapotát, ellenőrizze az erőforrás-használatot, és kövesse nyomon a feladatok előrehaladását az erőforrás-kezelőn keresztül web felület.
Harmadik féltől származó megfigyelőeszközök:
- Használjon harmadik féltől származó felügyeleti eszközöket, mint például a Ganglia, Nagios vagy Datadog a Hive szolgáltatás figyeléséhez.
- Előnyök: Ezek az eszközök különféle mérőszámokat és vizualizációkat kínálnak, amelyek segítenek nyomon követni a Hive szolgáltatás és összetevői teljesítményét és állapotát. További betekintést nyújtanak a rendszer teljesítményébe, és figyelmeztethetik az áttelepítési folyamat során esetlegesen felmerülő problémákat.

Ezen eszközök és technikák alkalmazásával hatékonyan nyomon követheti az adatmigráció előrehaladását, biztosítva, hogy az exportálási és importálási műveletek a várt módon haladjanak, és lehetővé teszi az esetlegesen felmerülő problémák azonnali kezelését.

Teljesítményoptimalizáló S3A a migrációhoz

Az S3A egy file Az Apache Hadoop rendszer megvalósítása, amely lehetővé teszi a Hadoop-alkalmazások számára, hogy adatokat olvassanak és írjanak az S3 tárolóra. Alternatívát kínál a Hadoop natív HDFS-jéhez file rendszer, amely lehetővé teszi a felhasználók számára az adatok hatékony tárolását és elérését az S3-on. Az S3A beállításainak optimalizálása jelentősen javíthatja a HDFS-ről a VAST S3-ra történő adatmigráció teljesítményét.

Alapkonfiguráció (nincs optimalizálás):
Lent egy exampaz S3A alapszintű core-site.xml konfigurációja hangolás nélkül:

fs.defaultFS
s3a://temp1
hadoop.tmp.dir
/home/hadoop/tmp
fs.s3a.access.key
AG8SSUT6SE436AEXBPRE
fs.s3a.secret.key
SIOPRO3jsvT1maTyMxetaOvXDpRsyrAX78zcEVEEE
fs.s3a.path.style.access
igaz
fs.s3.enable-storage-classes
igaz
fs.s3a.connection.ssl.enabled
hamis
fs.s3a.endpoint
http://vippool.yourvastcluster.com

TTL nulla hangolás:
Az S3A kliens teljesítmény okokból gyorsítótárazza a végponti kapcsolatot. A teljesítmény javítása érdekében állítsa be
a TTL (time to live) nullára csökken, biztosítva a VAST azon képességét, hogy több Cnode-on is skálázható legyen.
Adja hozzá a következőket a core-site.xml fájlhoz:

fs.s3a.endpoint.connection.ttl
0

További hangolás az S3A-hoz:
További paraméterek hangolhatók az S3A teljesítményének optimalizálása érdekében:

Többrészes méret

Cél: Meghatározza az egyes részek méretét nagy feltöltéskor files az S3-ra. Ennek a méretnek a növelése javíthatja a feltöltési teljesítményt nagyobb méreteknél files az alkatrészek számának csökkentésével.
Alapértelmezett érték: 128 MB
Optimális érték: Az optimális érték a hálózati sávszélességtől, a feltöltendő adatok méretétől és az S3 tárolóosztálytól függ. A nagyobb értékek javítják a teljesítményt a nagyoknál files, de növelheti a hálózati problémák miatti sikertelen feltöltés kockázatát. Például, ha a több rész méretét 10 MB-ra állítja, növelheti a feltöltési sebességet kisebb méretben files de nem biztos, hogy optimális a nagyon nagy files, aminek előnyös lehet a nagyobb többrészes méret.
- fs.s3a.multipart.size 10M

Aktív blokkok gyors feltöltése

Cél: Meghatározza a gyors feltöltés során párhuzamosan feltöltendő aktív blokkok maximális számát. Ez jelentősen javíthatja a teljesítményt nagyok számára files.
Alapértelmezett érték: 4
Optimális érték: Az optimális érték a hálózati sávszélességtől, a rendelkezésre álló magok számától és a
S3 tárolási osztály. A magasabb értékek több párhuzamos feltöltést tesznek lehetővé, de növelhetik a hálózati sávszélesség-használatot és az S3-hoz való csatlakozást. Plample, 100-ra állítva növelheti a feltöltési sebességet, ha a hálózati sávszélesség és az S3 szolgáltatás képes kezelni a megnövekedett számú kapcsolatokat.
- fs.s3a.fast.upload.active.blocks 100

Maximális szálak

Cél: Meghatározza az S3A által használható szálak maximális számát filerendszercsatlakozó párhuzamos műveletekhez. Ide tartozik az objektumok feltöltése, letöltése, listázása és törlése.
Alapértelmezett érték: 256
Optimális érték: Az optimális érték a hálózati sávszélességtől, az S3 tárolási osztálytól és a rendelkezésre álló kliens/szerver erőforrásoktól függ. Az érték növelése javíthatja a párhuzamos műveleteket, de növelheti az erőforrás-használatot és a várakozási időt. PlampLe, ha a rendszer hálózati sávszélessége és CPU-erőforrásai kezelni tudják, a szálak számának 100-ra növelése javíthatja az egyidejű műveletek sebességét.
- fs.s3a.threads.max 100

Blokkméret

Cél: Beállítja a blokk méretét a file S3-ban tárolva. FileAz s blokkokra van osztva, és mindegyik blokk külön S3 objektumként van tárolva.
Alapértelmezett érték: 32 MB
Optimális érték: Az optimális érték attól függ file méret, hozzáférési minták és hálózati sávszélesség. A nagyobb blokkméretek csökkentik a létrehozott S3 objektumok számát, és javítják az olvasási/írási teljesítményt nagy méreteknél files. A kisebb blokkméretek jobban megfelelnek a kicsiknek files vagy ritkán hozzáférhető adatok. Például a blokk méretének 100 MB-ra állítása előnyös lehet nagy, egymás utáni hozzáférést igénylő munkaterhelések esetén. files.
- fs.s3a.block.size 100 m

További hangolás a VAST-hoz:
A VAST 4.7 SP10-es verziójától kezdve létezik egy optimalizálási beállítás (vtool) a Hadoop-alapú adatok VAST S3-ra történő kezelésére. Ez a beállítás jelentősen javíthatja az adatáttelepítések teljesítményét.

Lépések:

HDFS-fürt konfigurálása:
Győződjön meg arról, hogy a többrészes feltöltések le vannak tiltva úgy, hogy a küszöbértéket és a méretet úgy állítja be, hogy az meghaladja a tényleges méretét. files. Plample, ha a tiéd files általában 1 GB vagy nagyobb, állítsa a küszöbértéket és a méretet 1 GB-ra. Állítsa be ennek megfelelően, ha files nagyobbak. Többrészes feltöltések letiltása kisebbeknél files leegyszerűsíti a feltöltési folyamatot és csökkenti az általános költségeket.
- A core-site.xml konfigurálása:
- …
- fs.s3a.multipart.threshold 1G
- fs.s3a.multipart.size 1G
- fs.s3a.fast.upload igaz
- …
VAST optimalizálás alkalmazása:
- Az SSH használatával csatlakozhat a VAST egyik CNODE-jához.
- Alkalmazza az optimalizálási beállítást a vtool paranccsal. Ez a beállítás hivatkozások használatával optimalizálja a másolási folyamatot, csökkentve az adatmigrációhoz szükséges időt és erőforrásokat.
  vtool vsettings set S3_COPY_USING_LINK=true

Ezen konfigurációk és optimalizálások végrehajtásával jelentősen javíthatja az S3A teljesítményét a HDFS-ről a VAST S3-ra történő adatmigrációhoz, így hatékonyabb és skálázhatóbb adatátviteli folyamatot biztosít.

Ha további információra van szüksége az Univerzális tárhelyről, és arról, hogyan segíthet az alkalmazási problémák megoldásában, forduljon hozzánk a következő címen hello@vastdata.com.
©2024 VAST Data, Inc. Minden jog fenntartva. Minden védjegy a megfelelő tulajdonosok tulajdona.

Dokumentumok / Források

VAST S3 Storage Data Platform [pdf] Felhasználói útmutató
S3, S3 Storage Data Platform, Storage Data Platform, Data Platform, Platform

Hivatkozások

Felhasználói kézikönyv

VAST S3 Storage Data Platform

Termékinformáció

A termék használati útmutatója