NeRSP-merki

NeRSP CVPR24 Tauga 3D endurbygging fyrir endurskinshluti

NeRSP-CVPR24-Neural-3D-Reconstruction-for-Reslective-Objects-Product

Upplýsingar um vöru

Tæknilýsing:

  • Vöruheiti: NeRSP: Neural 3D Reconstruction fyrir endurskinshluti með dreifðum skautuðum myndum
  • Höfundar: Yufei Han, Heng Guo, Koki Fukai, Hiroaki Santo, Boxin Shi, Fumio Okura, Zhanyu Ma, Yunpeng Jia
  • Tengsl: Póst- og fjarskiptaháskólinn í Peking, Osaka háskólinn, Peking háskólinn
  • Ágrip: NeRSP varan býður upp á betri niðurstöður úr formuppbyggingu fyrir endurskinsfleti samanborið við núverandi aðferðir.

Notkunarleiðbeiningar fyrir vöru

  1. Inngangur
    NeRSP varan er hönnuð fyrir 3D endurgerð endurskinshluta með því að nota dreifðar skautaðar myndir. Það sigrar áskoranir sem tengjast því að finna fjölview samsvörun og greina lögun frá útgeislun undir takmörkuðum samsvörun.
  2. Tengd vinna
    NeRSP er innblásið af Neural Radiance Fields (NeRF) og öðrum 3D endurbyggingaraðferðum í taugakerfi. Það mótar yfirborðsform óbeint í gegnum skiltað fjarlægðarsvið (SDF) og notar aðgreinanlega kúlurakningu og rúmmálsútgáfu til að bæta gæði formendurbyggingar.
  3. Polarimetric myndmyndunarlíkan
    NeRSP inniheldur skautað myndmyndunarlíkan til að fá ljósmælingar og rúmfræðilegar vísbendingar fyrir endurgerð.

Algengar spurningar:

  • Sp.: Hver er kosturinntage af því að nota NeRSP fyrir 3D endurbyggingu?
    A: NeRSP býður upp á betri niðurstöður úr formendurbyggingu fyrir endurskinsfleti samanborið við núverandi aðferðir vegna nýstárlegrar nálgunar þess að nota dreifðar skautaðar myndir.
  • Sp.: Er NeRSP varan hentug fyrir dreifða fleti?
    A: Þó að NeRSP sé fyrst og fremst hannað fyrir endurskinsfleti, getur það einnig veitt sannfærandi formmat fyrir dreifða fleti þar sem ljósmælingasamkvæmni gildir yfir views.

NeRSP:
Tauga 3D endurbygging fyrir endurskinshluti með dreifðum skautuðum myndum

Yufei Han1† Heng Guo1†∗ Koki Fukai2† Hiroaki Santo2 Boxin Shi3,4 Fumio Okura2 Zhanyu Ma1 Yunpeng Jia1

  1. Póst- og fjarskiptaháskólinn í Peking
  2. Framhaldsskólinn í upplýsingavísindum og tækni við Osaka háskólann
  3. National Key Laboratory for Multimedia Information Processing, School of Computer Science, Peking University 4National Engineering Research Center of Visual Technology, School of Computer Science, Peking University

Ágrip

Við kynnum NeRSP, tauga þrívíddaruppbyggingartækni fyrir endurskinsflöt með dreifðum skautuðum myndum. Endurspeglun yfirborðs er afar krefjandi eins og speglanir eru view-háð og brjóta þannig í bága við multiview samræmi fyrir multiview hljómtæki. Á hinn bóginn veldur dreifður myndinntak, sem hagnýt myndatökustilling, oft ófullkomnar eða brenglaðar niðurstöður vegna skorts á samsvörun. Þessi grein fjallar sameiginlega um áskoranir dreifðs inntaks og endurskinsflata með því að nýta skautaðar myndir. Við fáum ljósmælingar og rúmfræðilegar vísbendingar frá skautamyndamótunarlíkani og multiview azimut samkvæmni, sem í sameiningu fínstillir yfirborðsrúmfræði sem líkön er með óbeinni taugamynd. Byggt á tilraunum á tilbúnum og raunverulegum gagnasöfnum okkar, náum við nýjustu niðurstöðum yfirborðsuppbyggingar með aðeins 6 views sem inntak.

Inngangur

Fjölbreyttview 3D endurbygging er grundvallarvandamál í tölvusjón (CV) og hefur verið mikið rannsakað í mörg ár [14]. Með framþróun óbeinnrar yfirborðsmyndar [27, 28] og taugageislunarsviða [22], nýleg fjölview Þrívíddaruppbyggingaraðferðir [3, 5, 33, 38] hafa tekið miklum framförum. Þrátt fyrir sannfærandi niðurstöður til að endurheimta lögun, eru flestir margfaldirview hljómtæki (MVS) aðferðir treysta enn að miklu leyti á að finna samsvörun á milli views, sem er sérstaklega krefjandi fyrir endurskinsfleti og dreifðan inntak views.

Fyrir endurskinsfleti, view-háð yfirborð ap-

Jafnt framlag. ∗ Samsvarandi höfundur.
Verkefnasíða: https://yu-fei-han.github.io/NeRSP-project/.

NeRSP-CVPR24-Neural-3D-Reconstruction-for-Reflective-Objects-Mynd- (1)

Mynd 1. Formendurheimtur endurkastandi yfirborðs úr 6 dreifðum skautuðum myndum sem teknar eru (efstu raðir). NeRSP okkar nær betri niðurstöðum úr formuppbyggingu samanborið við núverandi aðferðir sem annað hvort takast á við dreifðar inntak (S-VolSDF [35]) eða endurkastandi endurkast (PANDORA [9]).

Pearance brýtur forsendu ljósmælingasamkvæmni sem notuð er við samsvarsmatið í MVS. Til að takast á við þetta vandamál, hafa nýlegar þrívíddar enduruppbyggingaraðferðir tauga (td Ref-NeuS [3], NeRO [13] og PANDORA [19]) beinlínis líkan endurspeglunar og meta samtímis endurspeglun og umhverfiskort með öfugri flutningi. Hins vegar þétt mynd öflun undir fjölbreytt views þarf til að meðhöndla dyggilega auka óþekkt fyrir utan lögun, svo sem albedo, grófleika og umhverfiskort.

Frá dreifðu inntaki views, það er oft krefjandi að finna nægjanlegt multiview bréfaskriftir. Sérstaklega þegar þeir eru fulltrúar view-háð endurkast, það er erfitt að sundra lögun frá útgeislun undir takmörkuðum fjölda samsvörunar, sem leiðir til óljósrar lögunar-geislunar [40]. Nýlegar tauga þrívíddar enduruppbyggingaraðferðir fyrir dreifðar views (td S-VolSDF [35] og SparseNeuS [20]) krefjast reglusetningar með því að nota ljósmælingasamkvæmni, sem hægt er að brjóta fyrir endurskinsfleti.

Til að takast á við bæði vandamálin leggjum við til að nota dreifðar skautaðar myndir í staðinn fyrir RGB inntak. Sérstaklega leggjum við til NeRSP, tauga 3D endurbyggingaraðferð til að endurheimta lögun endurskinsflata úr dreifðum skautuðum myndum. Við notum skautunarhornið (AoP) sem er dregið af skautuðum myndum, sem endurspeglar beint azimuthorn yfirborðsformsins upp í π og π/2 tvíræðni. Vitað er að þessi geometríska vísbending gerir multiview lögun endurgerð óháð yfirborðsendurkastseiginleikum, en áætlað lögun sem byggist eingöngu á rúmfræðilegu vísbendingunni er óljós [6] undir dreifðum view stillingar. Á hinn bóginn hjálpar ljósmæling frá skautunarmyndmyndunarlíkaninu [2] endurbyggingu taugayfirborðs (td PANDORA [9]) með því að lágmarka muninn á endurgerðum og teknum skautuðum myndum. Hins vegar er áætluð lögun sem byggist eingöngu á ljósmælingunni einnig illa sett undir dreifðum inntakum vegna óljósrar lögunar-geislunar. Ólíkt núverandi pólunarfræðilegri aðferð PANDORA [9] þar sem aðeins ljósmælingabendingin er tekin til greina, sýnir NeRSP okkar samþættingu bæði rúmfræðilegra og ljósmælinga vísbendinga þrengir á áhrifaríkan hátt lausnarrýmið fyrir yfirborðsform, sem sýnt er að það er áhrifaríkt í endurspeglun yfirborðs byggt á fáum inntakum , eins og sést á mynd 1.

Fyrir utan fyrirhugaða NeRSP fyrir 3D endurbyggingu, smíðuðum við einnig Real-world MultiView Skautað myndgagnasett sem inniheldur 6 hluti með samræmdum grunn-sannleika (GT) 3D möskva, kölluð RMVP3D. Ólíkt núverandi gagnasöfnum eins og PANDORA gagnapakkanum [9] sem gefur aðeins skautaðar myndir, samræmdu GT möskva og yfirborðsnormala fyrir hverja view leyfa megindlegt mat á multiview skautuð 3D endurgerð.

Til að draga saman, framfarum við multiview 3D endurbygging með því að leggja til

  • NeRSP, fyrsta aðferðin sem leggur til að nota skautunarupplýsingarnar fyrir endurspeglun yfirborðs undir dreifðum views;
  • alhliða greining á ljósmælingum og rúmfræðilegum vísbendingum sem fengnar eru úr skautuðum myndum; og
  • RMVP3D, fyrsta raunheima multiview skautað myndgagnasett með GT formum fyrir magnmat.

Tengd vinna

Fjölbreyttview Þrívíddaruppbygging hefur verið mikið rannsökuð í áratugi. Neural Radiance Fields (NeRF) [3, 3, 22] hafa náð miklum árangri í skáldsögu view nýmyndun undanfarin ár. Innblásin af NeRF, eru lagðar til 3D endurbyggingaraðferðir í tauga [24], þar sem yfirborðslögunin er líkönuð óbeint í gegnum táknað fjarlægðarsvið (SDF). Frá og með DVR [24], bæta eftirfylgdar aðferðir formendurbyggingargæði með aðgreinanlegri kúlurakningu [37], rúmmálsflutningi [26, 33, 38] eða aukinni formgerð [18, 34]. Þessar aðferðir geta náð sannfærandi lögunarmati fyrir dreifða fleti þar sem samkvæmni ljósmælinga gildir yfir views.

Endurbygging fyrir endurskinsfleti er krefjandi þar sem ljósmælingasamkvæmni er ógild. Núverandi aðferðir [5, 41, 42] fyrirmyndir beinlínis view-háð endurkastsviði og sundurliðun á lögun, staðbundinni birtulýsingu og endurkastseiginleikum eins og albedo og grófleika. Hins vegar eru mat á ofangreindum breytum ófullnægjandi þar sem sundrunin er mjög illa sett. NeRO [19] stingur upp á því að nota klofna summu nálgun myndmyndunarlíkanssins og bætir enn frekar gæði formuppbyggingar án þess að þurfa hlutgrímur. Hins vegar krefjast ofangreindar aðferðir venjulega þétta myndtöku til að tryggja trúverðugar niðurstöður til að endurheimta lögun fyrir krefjandi endurskinsfleti.

Endurbygging með dreifðum views er nauðsynlegt fyrir hagnýtar aðstæður sem krefjast skilvirkrar handtöku. Vegna skorts á fullnægjandi bréfaskriftum frá takmörkuðum views, lögun-geislun tvíræðni er ekki hægt að leysa, sem leiðir til hávaða og brenglaðrar lögunar endurheimt. Núverandi aðferðir takast á við þetta vandamál með því að bæta við reglusetningu eins og sléttleika yfirborðs rúmfræði [25], gróft dýpt á undan [10, 32], eða tíðnistjórnun staðsetningarkóðunarinnar [36]. Sumar aðferðir [7, 20, 39] móta hina dreifðu þrívíddaruppbyggingu sem skilyrt þrívíddaralhæfingarvandamál þar sem forþjálfaðir myndeiginleikar eru notaðir sem alhæfanlegir forgangar. S-VolSDF [3] notar klassíska multiview steríóaðferð sem frumstilling og reglufestir fínstillingu taugaflutnings með líkindamagni. Hins vegar er það enn krefjandi fyrir núverandi aðferðir að endurheimta endurkastandi yfirborð nákvæmlega.

Endurbygging með skautuðum myndum hefur verið rannsökuð fyrir bæði stakaview stillingar [1, 2, 16, 23, 29] og multiview stillingar [6, 8, 9, 11, 12, 43]. Ólíkt RGB myndum gefur AoP frá skautuðum myndum beinar vísbendingar um eðlilegt yfirborð. Einstök-view lögun frá skautun (SfP) tækni nýtur góðs af þessum eiginleika og áætla yfirborðið eðlilegt undir einu fjarlægu ljósi [21, 29] eða óþekktu náttúrulegu ljósi [1, 16]. Fjölbreyttview SfP aðferðir [8, 43] leysa π og π/2 tvíræðni í AoP byggt á margvíslegumview athuganir. PANDORA [9] er fyrsta þrívíddar enduruppbyggingaraðferðin sem byggir á skautuðum myndum, sem hefur sýnt sig að skila árangri við að endurheimta lögun yfirborðs og lýsingu. MVAS [3] endurheimtir lögun yfirborðs frá multiview azimut kort, nátengd AoP kortunum sem fengin eru frá

NeRSP-CVPR24-Neural-3D-Reconstruction-for-Reflective-Objects-Mynd- (2)

skautaðar myndir. Hins vegar kanna þessar aðferðir ekki að nota skautaðar myndir til endurspeglunar yfirborðs við dreifðar myndir.

Polarimetric myndmyndunarlíkan

Áður en kafað er inn í fyrirhugaða aðferð kynnum við fyrst skautamyndarmyndunarlíkanið og leiðum út ljósmælingarbendingu og rúmfræðilega vísbendingu í aðferð okkar. Eins og sýnt er á mynd 2, tekur skyndimyndaskautunarmyndavél myndathuganir við fjögur mismunandi skauunarhorn, með pixlagildi hennar táknuð sem {I0, I45, I90, I135}. Þessar fjórar myndir sýna skautunarástand móttekinna ljósa, sem er táknað sem 4D Stokes vigur s = [s0, s1, s2, s3] reiknaður sem

NeRSP-CVPR24-Neural-3D-Reconstruction-for-Reflective-Objects-Mynd- (3)

Við gerum ráð fyrir að það sé ekkert hringskautað ljós þannig að s3 sé 0. Stokes vigurinn er hægt að nota til að reikna skauunarhornið (AoP), þ.e.

NeRSP-CVPR24-Neural-3D-Reconstruction-for-Reflective-Objects-Mynd- (4)

Byggt á AoP og Stokes vektornum, fáum við rúmfræðilegar og ljósmælingar vísbendingar á samsvarandi hátt.

Geometrísk vísbending
Miðað við AoP ϕa getur azimuth horn yfirborðsins verið annað hvort ϕa + π/2 eða ϕa + π, þekktur sem π og π/2 tvíræðni eftir því hvort yfirborðið er spólgandi eða dreifður ríkjandi. Í þessum hluta kynnum við fyrst geometríska vísbendinguna sem fjölmennið kemur meðview azimut map og stækka það síðan til að ræða AoP.

Eftir MVAS [6], fyrir senupunkt x, yfirborðsnormal n og áætlað azimuthorn ϕ í einni myndavél view fylgja sambandinu sem

NeRSP-CVPR24-Neural-3D-Reconstruction-for-Reflective-Objects-Mynd- (5)

þar sem R = [r1, r2, r3]⊤ er snúningsfylki myndavélarstellingarinnar. Við getum enn frekar endurraðað Eq. (3) til að fá hornrétt samband milli yfirborðsnormals og áætlaðs snertilvigurs t(ϕ) eins og skilgreint er hér að neðan,

NeRSP-CVPR24-Neural-3D-Reconstruction-for-Reflective-Objects-Mynd- (6)

π tvíræðni milli AoP og azimut horns er náttúrulega hægt að leysa sem jöfnuð. (4) stendur ef við leggjum ϕ saman við π. Hægt er að bregðast við π/2 tvíræðni með því að nota gervivarpaðan snertilvigur tˆ(ϕ) þannig að

NeRSP-CVPR24-Neural-3D-Reconstruction-for-Reflective-Objects-Mynd- (7)

Ef einn senupunktur x sést með f views, við getum stafla Eq. (4) og Eq. (5) byggt á k mismunandi snúningum og mældum AoPs, sem leiðir til línulegs kerfis

  • T(x)n(x) = 0. (6)

Við meðhöndlum þetta línulega kerfi sem rúmfræðilega vísbendingu okkar fyrir fjöl-view skautuð 3D endurgerð.

Ljósmælingarmerki
Að því gefnu að lýsingin á atvikumhverfinu sé óskautuð, þá er hægt að tákna Stokes vektorinn fyrir innfallsljósstefnu ω sem

  • si(ω) = L(ω)[1, 0, 0, 0]⊤, (7)

þar sem L(ω) táknar ljósstyrkinn. Útstreymandi ljós sem er skráð af skautunarmyndavélinni verður að hluta til skautað vegna endurkastsins. Þetta ferli er sniðið í gegnum 4×4 Muller fylki H. Undir umhverfislýsingu er hægt að móta útgangandi Stokes vigur sem heildina af atviks Stokes vigri margfaldaðan með Muller fylkinu, þ.e.

NeRSP-CVPR24-Neural-3D-Reconstruction-for-Reflective-Objects-Mynd- (8)

þar sem v og Ω tákna view stefnu og óaðskiljanlegt lén. Í samræmi við skautaða BRDF (pBRDF) líkanið [2] er hægt að sundra úttaks Stokes vigri í dreifða og speglaða hluta sem eru mótaðir með Hd og Hs samsvarandi, þ.e.

NeRSP-CVPR24-Neural-3D-Reconstruction-for-Reflective-Objects-Mynd- (9)

Í kjölfar útleiðslu frá PANDORA [9] getum við mótað úttaks- Stokes vektorinn frekar sem

NeRSP-CVPR24-Neural-3D-Reconstruction-for-Reflective-Objects-Mynd- (10)

þar sem Ld =fΩ ρL(ω)ω⊤n T+i T−i dω er táknað sem dreifður útgeislun sem tengist yfirborðsnormal n, Fresnel flutningsstuðlar [2] T+i,o og T−i,o, dreifður albedo ρ , og azimuthorn innfallsljóss ϕn. Ls = fΩ L(ω) DG 4n⊤v dω táknar spegla útgeislun sem tengist Fresnel endurkaststuðlum [2] R+ og R−, innfalls azimuthornið ϕh miðað við hálfvigginn h = ω+v∥ω+v∥22, og normaldreifingu og skuggahugtakið D og G í Microfacet líkaninu [31].

Vinsamlegast athugaðu viðbótarefnið fyrir frekari upplýsingar. Byggt á skautunarmyndmyndunarlíkani sem sýnt er í jöfnuði. (10), við byggjum ljósmælingabendinguna.

Fyrirhuguð aðferð

NeRSP okkar tekur dreifða fjölview skautaðar myndir, samsvarandi skuggamyndagrímu markhlutarins og myndavélin situr fyrir sem inntak og gefur frá sér yfirborðsform hlutarins sem táknað er óbeint í gegnum SDF. Við byrjum á umræðunni um ljósmælingar og rúmfræðilegar vísbendingar til að leysa óljós form endurbyggingar, fylgt eftir með leiðbeiningum um uppbyggingu netkerfis og tapvirkni NeRSP okkar.

Tvíræðni í dreifðri þrívíddaruppbyggingu
Geometrísk vísbending og ljósmæling vísbending gegna mikilvægu hlutverki við að minnka lausnarrými yfirborðsformsins undir dreifðri views. Eins og sýnt er á mynd 3, sýnum við lögunarmatið undir 2 views með mismunandi vísbendingar. Með aðeins RGB myndir sem inntak (samsvarar stillingunni í NeRO [19] og S-VolSDF [35]), getur mismunandi samsetning af senupunktastöðum, yfirborðsnormalum og endurkastseiginleikum eins og albedo leitt til sömu myndaathugana, þar sem það eru aðeins tvær RGB mælingar fyrir hvern þrívíddarpunkt meðfram myndavélargeislanum. Með Stokes-vigrum sem eru dregin út úr skautuðu myndunum, gefur ljósmælingabendinginn 3 mælingar fyrir hvern þrívíddarpunkt (Stokes-vigur hefur 6 frumefni), sem dregur úr venjulegum yfirborðsframbjóðendum óhæfa við skautunarmyndmyndunarlíkanið.

Á hinn bóginn, byggt á AoP kortum1 úr skautuðum myndum, getum við á einstakan hátt ákvarðað yfirborðsnormal upp að π tvíræðni fyrir hvern senupunkt meðfram myndavélargeislanum. Hins vegar er enn óljóst að finna staðsetningu þar sem myndavélargeislinn sker yfirborðið nema þriðji view er veitt [6]. Því undir strjál views stillingu (td 2 views á mynd 3), að ákvarða staðsetningar senupunkts byggt á annaðhvort rúmfræðilegum eða ljósmælingum vísbendingum er óljós.
Aðferðin okkar sameinar þessar tvær vísbendingar sem eru fengnar úr skautuðum myndum. Eins og sést í neðra hægra hluta myndar 3, ætti rétta staðsetning senupunktsins að hafa yfirborð sitt eðlilegt á mótum venjulegra kandídatahópa sem eru fengnir úr bæði ljósmælingum og rúmfræðilegum vísbendingum. Sem yfirborð eðlilegt á mismunandi sampleiddi senupunktar eru einstaklega ákvarðaðir af rúmfræðilegum vísbendingum, við getum auðveldlega ákvarðað hvort punkturinn sé á yfirborðinu með hjálp ljósmælinga. Á þennan hátt minnkum við lausnarrýmið við endurbyggingu endurskins yfirborðs með dreifðum skotum.

NeRSP-CVPR24-Neural-3D-Reconstruction-for-Reflective-Objects-Mynd- (11)

NeRSP
Uppbygging nets Eins og sýnt er á mynd 4, notar NeRSP okkar svipaða netuppbyggingu og PANDORA [9] sem upphaflega er dregið af Ref-NeRF [30]. Fyrir ljósgeisla sem gefinn er frá myndavélarmiðstöð o með stefnunni v, við sampLe punktur á geislanum með ferðafjarlægð ti, staðsetning hans er auðkennd á xi = o + tiv. Eftir rúmmálsútgáfuna sem notuð er í NeRF [25] er hægt að samþætta Stokes vigurinn s(v) sem sást með ógagnsæi rúmmálsins σi og Stokes vigurnar á sampleiddi punktar meðfram geislanum, þ.e

NeRSP-CVPR24-Neural-3D-Reconstruction-for-Reflective-Objects-Mynd- (12)

NeRSP-CVPR24-Neural-3D-Reconstruction-for-Reflective-Objects-Mynd- (13)

hvarNeRSP-CVPR24-Neural-3D-Reconstruction-for-Reflective-Objects-Mynd- (14) tákna uppsafnaða sendingu semampleiddi punktur.

Hvatinn af nýlegri þrívíddaruppbyggingaraðferð NeuS [3] í taugakerfi, fáum við ógagnsæi rúmmálsins úr SDF neti og tökum einnig út yfirborðið eðlilegt úr halla SDF. Til að reikna svo(xi, v) á sampleiddi punkta, fylgjum við skautamyndarlíkaninu í jöfnuði. (10). Nánar tiltekið er dreifður útgeislun Ld tengdur dreifðum albedo og Fresnel sendingarstuðlum, sem fer eftir staðsetningu senu en óbreytilegur við view átt. Þess vegna notum við dreifð útgeislunarnet til að kortleggja Ld frá eiginleikum hvers atriðispunkts. Spekularútgeislunin Ls tengist spegilblaðinu sem ákvarðast af view stefnu, yfirborðsnormal og yfirborðsgrófleiki. Við notum því RoughnessNet til að spá fyrir um grófleika yfirborðs. Ásamt myndavélinni view stefnu og spáð eðlilegt yfirborð, áætlum við spegla útgeislun Ls eftir samþættu staðsetningarkóðunareiningunni sem Ref-NeRF lagði til [30]. Með því að sameina Ld og Ls, endurgerðum við Stokes vektorinn sem sést eftir jöfnuði. (10).

Tapaðgerð
Ljósmælingartapið er skilgreint sem L1 fjarlægðin milli ˆs(v) og endurgerðra Stokes vigra s(v), þ.e.

NeRSP-CVPR24-Neural-3D-Reconstruction-for-Reflective-Objects-Mynd- (15)

þar sem V táknar alla myndavélargeislana sem kastast inn í mótmælagrímur á mismunandi views. Fyrir rúmfræðilegt tap. við finnum fyrst þrívíddarsenupunktinn x meðfram myndavélargeislanum v þar til við snertum yfirborðið og finnum síðan áætlaða tvívíddarpixlastöðuna á mismunandi views. Rúmfræðilegt tap er skilgreint út frá jöfnuði. (6), þ.e.

NeRSP-CVPR24-Neural-3D-Reconstruction-for-Reflective-Objects-Mynd- (16)

þar sem X táknar öll geisla-yfirborð skurðpunkta innan hluta grímur á mismunandi views. Fyrir utan ljósmælinga- og rúmfræðilega tapið, bætum við við grímutapi sem er undir eftirliti með hlutgrímunum og Eikonal-reglutapinu. Grímutapið er skilgreint sem

NeRSP-CVPR24-Neural-3D-Reconstruction-for-Reflective-Objects-Mynd- (17)

hvarNeRSP-CVPR24-Neural-3D-Reconstruction-for-Reflective-Objects-Mynd- (48) táknar fyrirhugaða grímu við k-th myndavélargeisla, en GT grímugildi hennar er táknað sem Mk. F.Kr. táknar tvöfaldur kross-entropy tap.

NeRSP-CVPR24-Neural-3D-Reconstruction-for-Reflective-Objects-Mynd- (18)

þar sem ni,k er yfirborðsnormal sem er fenginn frá SDF netinu í i-inuampleiddi punktur meðfram k-ta myndavélargeislanum. NeRSP okkar er undir eftirliti með samsetningu ofangreindra tapskilmála, þ.e

NeRSP-CVPR24-Neural-3D-Reconstruction-for-Reflective-Objects-Mynd- (19)

þar sem λe, λm og λp eru stuðlar fyrir samsvarandi tapsliði.

RMVP3D gagnasett
Til að meta fyrirhugaða aðferð með megindlegum hætti, tökum við Real-world Multiview Skautað myndagagnasett með samræmdum sannleiksnetum. Mynd 5 (vinstri) sýnir myndatökuuppsetninguna okkar, sem inniheldur skautaða myndavél, FLIR BFS-U3-51S5PC-C, búin 12 mm linsu og snúningsbraut. Við notum OpenCV til að afmá hrágögnin og fáum 1224×1024 litmyndir með skautunarhornum við 0, 45, 90 og 135 gráður. Meðan á gagnatökunni stendur setjum við markhluti í miðju brautarinnar og tökum 60 myndir á hvern hlut með því að færa myndavélina handvirkt. Við söfnum 4 hlutum sem skotmörk: HUNDUR, FROSKI, LJÓN og KÚLA, eins og sýnt er á mynd 5 (miðju). Fyrir magnmatið tökum við upp leysiskanni Creaform HandySCAN BLACK með nákvæmni upp á 0.01 mm til að fá jörð sannleika möskva. Til að samræma möskva að myndinni sem tekin var views, notum við fyrst PANDORA [9] til að áætla viðmiðunarform með því að nota allt tiltækt views og stilltu síðan skannaða möskva við það sem áætlað er með ICP reikniritinu [4]. Fyrir utan jörð-sannleika form og multiview myndum, tökum við einnig umhverfiskortið með því að nota 360 gráðu myndavél THETA Z1, sem gagnast megindlegu mati á lýsingarmati fyrir tengda tauga andhverfa flutningsverk.

NeRSP-CVPR24-Neural-3D-Reconstruction-for-Reflective-Objects-Mynd- (20) NeRSP-CVPR24-Neural-3D-Reconstruction-for-Reflective-Objects-Mynd- (21)

Tilraunir

Við metum NeRSP með þremur tilraunum: 1) samanburði við núverandi multiview 3D endurbyggingaraðferðir magnbundið á tilbúnu gagnasafni; 2) brottnámsrannsókn á framlagi rúmfræðilegra og ljósmælinga tapskilmála 3) eigindlegra og megindlegra mata á raunverulegum gagnasöfnum. Við bjóðum einnig upp á BRDF og skáldsögu view niðurstöður í ítarefni.

Gagnasett og grunnlínur
Gagnasett. Við útbúum tvö raunveruleg gagnasöfn: PAN-DORA gagnapakkanum [9] og fyrirhugaða RMVP3D okkar, þar sem PANDORA gagnasafnið [9] er aðeins notað til eigindlegrar mats þar sem grunnsannleiksnetið er ekki veitt. Við útbúum einnig gervi multiview skautað myndgagnasett SMVP3D með Mitsuba flutningsvél [15], sem inniheldur 5 hluti með rýmisbreytilegum og endurskinsendurkasti, eins og sýnt er á mynd 6. Hlutirnir eru lýstir upp af umhverfiskortum2 og teknir af 6 views dreift af handahófi um hlutina. Fyrir utan endurgreiddar skautaðar myndir flytjum við líka út stokes vektorana, GT yfirborðs venjuleg kort og AoP kort fyrir hvern hlut.

Grunnlínur. Starf okkar leysir multiview Þrívíddaruppbygging fyrir endurskinsfleti byggt á dreifðum skautuðum myndum. Þess vegna veljum við nýjustu þrívíddaruppbyggingaraðferðirnar sem miða að endurskinsflötum NeRO [3] og fáum views S-VolSDF [35]. Ofangreindar tvær aðferðir eru byggðar á RGB myndinntak. Fyrir multiview hljómtæki byggt á skautuðum myndum, við veljum PANDORA [9] og MVAS [6] sem grunnlínur okkar. NeRO [19] þarf ekki skuggamyndagrímur sem inntak. Fyrir sanngjarnan samanburð fjarlægjum við bakgrunninn í RGB myndunum með samsvarandi grímum áður en við setjum inn í NeRO [19]. Til að bera saman mismunandi aðferðir notum við Chamfer distance (CD) milli áætlaðra og GT möskva og meðalhornskekkju (MAE) milli áætlaðra og GT yfirborðsnormala við mismunandi views sem matsmælingar okkar.

Móta endurheimt á tilbúnu gagnasafni
Eins og sýnt er í töflu 1, tökum við saman formmatsvillu núverandi aðferða og okkar á SMVP3D. Aðferðin okkar nær minnstu Chamfer fjarlægð meðfram öllum 5 gervihlutunum. Byggt á sjónrænu formmatinu sem sýnt er á mynd 7, geta NeRO [19] og S-VolSDF [35] ekki endurheimt yfirborðsupplýsingar nákvæmlega eins og auðkennt er í lokuðu myndinni. views. Ein möguleg ástæða er sú að það er of krefjandi að sundra lögun og endurspeglun frá dreifðu myndunum fyrir þessar aðferðir sem byggjast aðeins á RGB upplýsingum. MVAS [6] og PANDORA [9] fjalla sérstaklega um rúmfræðilegar og ljósmælingar skautuðu myndanna. Hins vegar eru endurgerð endurskinsflatarformin enn ófullnægjandi vegna tvíræðni í rúmfræðilegum og ljósmælingum undir dreifðum vísbendingum. views stillingu. Eins og fram kemur í lokuðu views, sem nýtur góðs af bæði rúmfræðilegum og ljósmælingum vísbendingum, dregur aðferðin okkar úr lausnarrýminu við mat á lögun, sem leiðir til sanngjarnasta endurheimt formsins samanborið við GT formin.

Fyrir utan matið á endurgerða möskva, prófum við einnig eðlilegar yfirborðsmatsniðurstöður. Eins og sýnt er í töflu 2, tökum við saman meðaltalshornskekkjur áætluðum yfirborðsnormalum við 6 views frá mismunandi aðferðum. Í samræmi við matsniðurstöðurnar í töflu 1, nær NeRSP minnstu meðalhornskekkjum að meðaltali. Við sáum líka að niðurstöður frá NeRO [19], MVAS [6] og PANDORA [9] hafa stærri villur á hlutum með fínum smáatriðum, eins og DAVID og DRAGON hlutum. Sem fyrrverandiample, MVAS [6] hefur næstminnstu afrifunarfjarlægð sem sýnd er í töflu 1, en meðal hornvilla er yfir 20◦. Ein hugsanleg ástæða er að núverandi aðferðir gefa út slétt form í dreifðum views stillingu, þar sem yfirborðsupplýsingar eins og flögur DRAGONsins eru ekki vel endurheimtar.

Tafla 1. Samanburður á endurheimtum forms á tilbúnu gagnasafni metið með Chamfer distance (↓). Minnstu og næstminnstu villurnar eru feitletraðar og undirstrikaðar. „N/A“ táknar tilraunina þar sem ákveðin aðferð getur ekki gefið út sanngjarnar niðurstöður úr mati á lögun.

NeRSP-CVPR24-Neural-3D-Reconstruction-for-Reflective-Objects-Mynd- (22)

Rannsókn á brottnámi
Í þessum kafla gerum við brottnámsrannsókn til að prófa virkni rúmfræðilegra og ljósmælinga. Að taka DRAGON hlutinn sem fyrrverandiample, við framkvæmum aðferð okkar með og án ljósmælingatapsins Lp og rúmfræðilega tapsins Lg. Eins og sýnt er á mynd 8, teiknum við lögun og yfirborðs eðlilegt mat með því að slökkva á mismunandi tapskilmálum. Án ljósmælinga tapsins, lögun tvíræðni vegna dreifðar views á sér stað. Eins og sést af lokuðu views, lögun nálægt fótleggnum hefur íhvolfur artifact, þar sem það eru aðeins tveir sýnilegir views fyrir þetta svæði, ófær um að móta einstaka lausn fyrir lögunina eingöngu byggð á AoP kortunum [6]. Án rúmfræðilegs taps fáum við einnig brenglaðar lögunarniðurstöður þar sem dreifðar myndathuganir eru ekki nægjanlegar til að sundra lögun, endurkasti og lýsingu einstaklega. Með því að sameina ljósmælingar og landfræðilegt tap, dregur NeRSP okkar úr tvíræðni við endurheimt forms og áætlað lögun er nær GT, eins og fram kemur í lokuðu myndinni. views.

NeRSP-CVPR24-Neural-3D-Reconstruction-for-Reflective-Objects-Mynd- (23)

Mynd 8. Afnámsrannsókn á mismunandi tapskilmálum. Efstu og neðstu línurnar sýna áætlaða lögun og yfirborðsnormal, með Chamfer fjarlægð og meðal hornvillu merkt efst á hverri undirmynd, í sömu röð.

Móta bata á raunverulegum gögnum
Fyrir utan gervitilraunirnar sem sýndar eru í fyrri hlutanum, metum við einnig aðferð okkar á raunverulegum gagnasöfnum PANDORA gagnapakka [9] og RMVP3D til að prófa nothæfi þess í raunverulegum þrívíddaruppbyggingaratburðarásum.

Eigindlegt mat á PANDORA gagnapakkanum [9]. Eins og sýnt er á mynd 9, bjóðum við upp á eigindlegt mat á PAN-DORA gagnapakkanum [9]. Samanborið við útlit myndarinnar við áætlaðar niðurstöður frá S-VolSDF [35] og NeRO [19], er lögunin ekki að fullu sundurflækt frá endurkastinu, sem leiðir til ójafn yfirborðsforma sem eru nátengd endurkastsáferðinni. MVAS [6] og PANDORA [9] eru með of sléttar formáætlanir eða íhvolfa formgripi, vegna þess að taka aðeins á rúmfræðilegum eða ljósmælingum vísbendingum undir dreifðri tökustillingu. Niðurstöður lögunarmats okkar hafa enga slíka lögunargripi og passa vel við myndaathuganir.

NeRSP-CVPR24-Neural-3D-Reconstruction-for-Reflective-Objects-Mynd- (24)

Tafla 3. Megindlegt mat á RMVP3D með Chamfer-fjarlægð (↓). Aðferð okkar nær minnstu villunni að meðaltali.

Aðferð HUNDUR LJÓN FRÓSKUR BALLI Meðaltal
NeRO [19] 9.11 10.74 6.21 3.87 7.48
S-VolSDF [35] 9.93 7.39 7.91 18.4 10.91
MVAS [6] 9.23 7.51 9.90 4.77 7.86
PANDORA [9] 14.3 15.04 11.27 3.96 11.14
NeRSP (okkar) 8.80 5.18 6.70 3.84 6.13

Magnbundið mat á RMVP3D. Eins og sýnt er í töflu 3, kynnum við megindlegt mat á RMVP3D byggt á Chamfer fjarlægð. Í samræmi við gervitilraunina nær NeRSP okkar minnstu matsskekkju að meðaltali. Sjónrænu formin sem sýnd eru á mynd 10 sýna ennfremur að endurskinsfletir eru krefjandi fyrir S-VolSDF [35] til að aftengja lögunina frá endurspeglun, eins og auðkennt er með holóttu yfirborði FROG hlutarins í lokuðu uppi. views. NeRO [19] og PANDORA [9] hafa svipaðar matsvillur hjá okkur á einfalda BALL hlutnum. Fyrir flókin form eins og LION fást brengluð form endurheimt með þessum aðferðum vegna þess hversu fámennið er view stilling, á meðan okkar eru nær GT möskvunum, sem sýnir fram á árangur aðferðar okkar við raunverulegan endurskinsflatauppbyggingu undir dreifðum inntakum.

NeRSP-CVPR24-Neural-3D-Reconstruction-for-Reflective-Objects-Mynd- (25)

Niðurstaða

Við leggjum til NeRSP, tauga þrívíddaruppbyggingaraðferð fyrir endurskinsfleti undir dreifðum skautuðum myndum. Vegna áskorana um tvíræðni í form-geislun og flóknu endurkasti, glíma núverandi aðferðir við annað hvort endurkastandi yfirborð eða dreifðar views og getur ekki tekið á báðum vandamálum með RGB myndir. Við leggjum til að nota skautaðar myndir sem inntak. Með því að sameina rúmfræðilegar og ljósmælingar vísbendingar sem dregin eru út úr skautuðum myndum, minnkum við lausnarrými áætlaðrar lögunar, sem gerir kleift að endurheimta endurkastandi yfirborðið á áhrifaríkan hátt með allt að 6 views, eins og sýnt er fram á opinberlega aðgengilegar og gagnapakka okkar.

  • Takmörkun
    Ekki er tekið tillit til innbyrðis endurspeglunar og skautaðs umhverfisljóss í þessu verki, sem gæti haft áhrif á nákvæmni formuppbyggingarinnar. Við tókum eftir nýjustu verki NeISF [17] sem fjallar um þetta efni, og við höfum áhuga á að sameina dreifða skothæfileika okkar við þessa vinnu í framtíðinni.
  • Viðurkenning
    Þessi vinna var studd af Beijing Natural Science Foundation verkefni nr. Z200002, National Nature Science Foundation of China (styrkur nr. 62136001, 62088102, 62225601, U23B2052), nýsköpunarrannsóknarteymi ungmenna í BUPT nr. 2023KA the JNTHISKEN. (Styrknr. JP02K22 og JP17910H23). Við þökkum Youwei Lyu fyrir innsýnar umræður.

Heimildir

  1. Yunhao Ba, Alex Gilbert, Franklin Wang, Jinfa Yang, Rui Chen, Yiqin Wang, Lei Yan, Boxin Shi og Achuta Kadambi. Djúp lögun frá skautun. Í ECCV, bls. 554–571, ​​2020. 2
  2. Seung-Hwan Baek, Daniel S Jeon, Xin Tong og Min H Kim. Samtímis öflun skautaðra SVBRDF og normals. ACM TOG, 37(6):268–1, 2018. 2, 3, 4
  3. Jonathan T Barron, Ben Mildenhall, Matthew Tancik, Peter Hedman, Ricardo Martin-Brualla og Pratul P Srinivasan. Mip-NeRF: Fjölskala framsetning fyrir and-aliasing taugageislasvið. Í ICCV, bls. 5855–5864, 2021. 2
  4. Paul J Besl og Neil D McKay. Aðferð við skráningu 3-D form. Í Sensor fusion IV: control paradigms and data structures, bls. 586–606, 1992. 6
  5. Mark Boss, Varun Jampani, Raphael Braun, Ce Liu, Jonathan Barron og Hendrik Lensch. Neural-PIL: Neural forsamþætt lýsing fyrir niðurbrot endurkasts. Í NeurIPS, bls. 10691–10704, 2021. 1, 2
  6. Xu Cao, Hiroaki Santo, Fumio Okura og Yasuyuki Matsushita. Fjöl-View Azimuth Stereo í gegnum Tangent Space Consistency. Í CVPR, bls. 825–834, 2023. 2, 3, 4, 6, 7, 8
  7. Anpei Chen, Zexiang Xu, Fuqiang Zhao, Xiaoshuai Zhang, Fanbo Xiang, Jingyi Yu og Hao Su. MVSNeRF: Hröð alhæfanleg endurgerð útgeislunarsviðs frá fjöl-view hljómtæki. Í CVPR, bls. 14124–14133, 2021. 2
  8. Zhaopeng Cui, Jinwei Gu, Boxin Shi, Ping Tan og Jan Kautz. Polarimetric multi-view hljómtæki. Í CVPR, bls. 1558–1567, 2017. 2
  9. Akshat Dave, Yongyi Zhao og Ashok Veeraraghavan. Pandora: Skautun-studd tauga niðurbrot geisla. Í ECCV, bls. 538–556, 2022. 1, 2, 4, 6, 7, 8
  10. Kangle Deng, Andrew Liu, Jun-Yan Zhu og Deva Ra-manan. Dýptareftirlit NeRF: Færri views og hraðari þjálfun ókeypis. Í CVPR, bls. 12882–12891, 2022. 2
  11. Yuqi Ding, Yu Ji, Mingyuan Zhou, Sing Bing Kang og Jin-wei Ye. Polarimetric helmholtz stereopsis. Í ICCV, bls. 5037–5046, 2021. 2
  12. Yoshiki Fukao, Ryo Kawahara, Shohei Nobuhara og Ko Nishino. Polarimetric venjulegt hljómtæki. Í CVPR, bls. 682–690, 2021. 2
  13. Wenhang Ge, Tao Hu, Haoyu Zhao, Shu Liu og Ying-Cong Chen. Ref-NeuS: Tvíræðni-minnkað tauga óbeint yfirborðsnám fyrir fjöl-View Endurbygging með ígrundun. arXiv forprentun arXiv:2303.10840, 2023. 1
  14. Richard Hartley og Andrew Zisserman. Margfeldi view rúmfræði í tölvusjón. Cambridge University Press, 2003. 1
  15. Wenzel Jakob. Mitsuba renderer, 2010. 6
  16. Chenyang Lei, Chenyang Qi, Jiaxin Xie, Na Fan, Vladlen Koltun og Qifeng Chen. Móta út frá skautun fyrir flóknar senur í náttúrunni. Í CVPR, bls. 12632–12641, 2022. 2
  17. Chenhao Li, Taishi Ono, Takeshi Uemori, Hajime Mihara, Alexander Gatto, Hajime Nagahara og Yuseke Moriuchi. NeISF: Neural Incident Stokes Field fyrir rúmfræði og efnismat. arXiv forprentun arXiv:2311.13187, 2023. 8
  18. Zhaoshuo Li, Thomas M¨uller, Alex Evans, Russell H Taylor, Mathias Unberath, Ming-Yu Liu og Chen-Hsuan Lin. Neu-Colangelo: Endurbygging taugayfirborðs með hátryggð. Í CVPR, bls. 8456–8465, 2023. 2
  19. Yuan Liu, Peng Wang, Cheng Lin, Xiaoxiao Long, Jiepeng Wang, Lingjie Liu, Taku Komura og Wenping Wang. NeRO: Neural Geometry and BRDF Reconstruction of Reflective Objects from Multiview Myndir. arXiv forprentun arXiv:2305.17398, 2023. 1, 2, 4, 6, 7, 8
  20. Xiaoxiao Long, Cheng Lin, Peng Wang, Taku Komura og Wenping Wang. SparseNeuS: Hröð alhæfanleg endurbygging taugayfirborðs frá dreifðum views. Í ECCV, bls. 210–227, 2022. 2
  21. Youwei Lyu, Lingran Zhao, Si Li og Boxin Shi. Móta frá skautun með mati á lýsingu í fjarlægð. IEEE TPAMI, 2023. 2
  22. Ben Mildenhall, Pratul P Srinivasan, Matthew Tancik, Jonathan T Barron, Ravi Ramamoorthi og Ren Ng. NeRF: Sýnir senur sem taugageislunarsvið fyrir view nýmyndun. Í ECCV, bls. 405–421, 2020. 1, 2
  23. Miyazaki, Tan, Hara og Ikeuchi. Pólunartengd andhverfa flutningur frá einni view. Í ICCV, bls. 982–987, 2003. 2
  24. Michael Niemeyer, Lars Mescheder, Michael Oechsle og Andreas Geiger. Mismunandi rúmmálsflutningur: Að læra óbeina 3D framsetningu án 3D eftirlits. Í CVPR, bls. 3504–3515, 2020. 2
  25. Michael Niemeyer, Jonathan T Barron, Ben Mildenhall, Mehdi SM Sajjadi, Andreas Geiger og Noha Radwan. Reg-nerf: Reglugerð taugageislunarsvið fyrir view nýmyndun úr dreifðum aðföngum. Í CVPR, bls. 5480–5490, 2022. 2, 4
  26. Michael Oechsle, Songyou Peng og Andreas Geiger. UNISURF: Sameina óbeina fleti tauga og útgeislunarsvið fyrir fjöl-view endurbyggingu. Í ICCV, bls. 5589–5599, 2021. 2
  27. Jeong Joon Park, Peter Florence, Julian Straub, Richard Newcombe og Steven Lovegrove. DeepSDF: Að læra samfelldar undirritaðar fjarlægðaraðgerðir fyrir framsetningu forms. Í CVPR, bls. 165–174, 2019. 1
  28. Vincent Sitzmann, Julien Martel, Alexander Bergman, David Lindell og Gordon Wetzstein. Óbein taugaframsetning með reglubundnum virkjunaraðgerðum. Í NeurIPS, 2020. 1
  29. William AP Smith, Ravi Ramamoorthi og Silvia Tozza. Hæð-frá-skautun með óþekktri lýsingu eða albedo. IEEE TPAMI, 41(12):2875–2888, 2018. 2
  30. Dor Verbin, Peter Hedman, Ben Mildenhall, Todd Zickler, Jonathan T Barron og Pratul P Srinivasan. Ref-NeRF: Byggt view-háð útliti fyrir taugageislunarsvið. Í CVPR, bls. 5481–5490, 2022. 4, 5
  31. Bruce Walter, Stephen R Marschner, Hongsong Li og Ken-neth E Torrance. Örhliðarlíkön fyrir ljósbrot í gegnum gróft yfirborð. Í Proceedings of the 18th Eurographics conference on Rendering Techniques, bls. 195–206, 2007. 4
  32. Guangcong Wang, Zhaoxi Chen, Chen Change Loy og Ziwei Liu. SparseNeRF: Eiming dýptaröðunar fyrir skáldsögu með fáum skotum view nýmyndun. arXiv forprentun arXiv:2303.16196, 2023. 2
  33. Peng Wang, Lingjie Liu, Yuan Liu, Christian Theobalt, Taku Komura og Wenping Wang. NeuS: Learning Neural Implicit Surfaces by Volume Rendering for Multi-view Endurbygging. arXiv forprentun arXiv:2106.10689, 2021. 1, 2, 5
  34. Yiqun Wang, Ivan Skorokhodov og Peter Wonka. HF-NeuS: Bætt yfirborðsuppbygging með hátíðniupplýsingum. Í NeurIPS, bls. 1966–1978, 2022. 2
  35. Haoyu Wu, Alexandros Graikos og Dimitris Samaras. S-VolSDF: Sparse Multi-View Stereo Regularization of Neural Implicit Surfaces. arXiv forprentun arXiv:2303.17712, 2023. 1, 2, 4, 6, 7, 8
  36. Jiawei Yang, Marco Pavone og Yue Wang. FreeNeRF: Bætir taugaútgáfu með fáum skotum með ókeypis tíðnistjórnun. Í CVPR, bls. 8254–8263, 2023. 2
  37. Lior Yariv, Yoni Kasten, Dror Moran, Meirav Galun, Matan Atzmon, Basri Ronen og Yaron Lipman. Fjölbreyttview endurbygging taugayfirborðs með því að sundra rúmfræði og útliti. Í NeurIPS, blaðsíður 2492–2502, 2020. 2
  38. Lior Yariv, Jiatao Gu, Yoni Kasten og Yaron Lipman. Rúmmálsflutningur á óbeinum taugaflötum. Í NeurIPS, bls. 4805–4815, 2021. 1, 2
  39. Alex Yu, Vickie Ye, Matthew Tancik og Angjoo Kanazawa. pixelNeRF: Taugageislunarsvið frá einni eða fáum myndum. Í CVPR, bls. 4578–4587, 2021. 2
  40. Kai Zhang, Gernot Riegler, Noah Snavely og Vladlen Koltun. NeRF++: Að greina og bæta taugageislunarsvið. arXiv forprentun arXiv:2010.07492, 2020. 2
  41. Kai Zhang, Fujun Luan, Qianqian Wang, Kavita Bala og Noah Snavely. PhySG: Andhverf flutningur með kúlulaga Gauss fyrir efnisklippingu og endurlýsingu sem byggir á eðlisfræði. Í CVPR, bls. 5453–5462, 2021. 1, 2
  42. Xiuming Zhang, Pratul P Srinivasan, Boyang Deng, Paul De-bevel, William T Freeman og Jonathan T Barron. NeR-Factor: Taugaþáttun á lögun og endurkasti við óþekkta lýsingu. ACM TOG, 40(6):1–18, 2021. 2
  43. Jinyu Zhao, Yusuke Monno og Masatoshi Okutomi. Polarimetric multi-view öfug flutningur. IEEE TPAMI, 2022. 2

Ljósmælingar og rúmfræðilegar vísbendingar um NeRSP

Afleiðing rúmfræðilegra vísbendinga
Eins og sýnt er á mynd S1, gefið vettvangspunkt sem sést af mismunandi views, yfirborð þess eðlilegt við skotmarkið view hægt að tákna með azimut- og hæðarhorninu ϕ og θ í sömu röð, þ.e.

NeRSP-CVPR24-Neural-3D-Reconstruction-for-Reflective-Objects-Mynd- (26)

Sambandið milli azimuthorns og frumefnis yfirborðsnormalsins er hægt að móta sem

NeRSP-CVPR24-Neural-3D-Reconstruction-for-Reflective-Objects-Mynd- (27)

NeRSP-CVPR24-Neural-3D-Reconstruction-for-Reflective-Objects-Mynd- (28)

Yfirborðið eðlilegt við skotmarkið view er hægt að reikna út með því að snúa eðlilegu við upprunann view, þ.e. ˆn = Rn. Miðað við snúningsfylki frá kvörðuðu myndavélinni er R = [r1, r2, r3]⊤, Jöfnuður. (2) byggt á ˆn er hægt að móta sem

  • r⊤1 n cos ϕ − r⊤ 2 n sin ϕ = 0. (3)

Eftir MVAS [2] getum við endurraðað jöfnuði. (3) til að fá hornrétt samband milli yfirborðsnormals og varpaðs snertilvigurs t(ϕ) eins og skilgreint er hér að neðan,

NeRSP-CVPR24-Neural-3D-Reconstruction-for-Reflective-Objects-Mynd- (29)

Hægt er að útvíkka þessa niðurstöðu um azimut horn til skautunarhornsins (AoP). π tvíræðni má náttúrulega leysa sem jöfnuð. (4) stendur ef við leggjum ϕ saman við π. Hægt er að bregðast við π/2 tvíræðni með því að nota gervivarpaðan snertilvigur tˆ(ϕ) þannig að

NeRSP-CVPR24-Neural-3D-Reconstruction-for-Reflective-Objects-Mynd- (30)

Ef einn senupunktur x sést með f views, við getum stafla Eq. (4) og Eq. (5) byggt á mismunandi snúningum og mældum AoPs, sem leiðir til línulegs kerfis

  • T(x)n(x) = 0. (6)

Við meðhöndlum þetta línulega kerfi sem rúmfræðilega vísbendingu okkar fyrir fjöl-view skautuð 3D endurgerð.

Afleiðing ljósmælinga
Í samræmi við skautaða BRDF líkanið [1] er hægt að sundra úttaksstúka vektornum í dreifða og speglaða hluta sem eru mótaðir með Hd og Hs á samsvarandi hátt, þ.e.

NeRSP-CVPR24-Neural-3D-Reconstruction-for-Reflective-Objects-Mynd- (31)

Hægt er að útbúa dreifða stokes hluti undir einu ljósi sem

NeRSP-CVPR24-Neural-3D-Reconstruction-for-Reflective-Objects-Mynd- (32)

þar sem ρd táknar dreifða albedo, ϕn er azimuth horn innfallsljóss á planið hornrétt á yfirborðsnormal, T+i,o og T−i,o tákna útreikninga á Fresnel flutningsstuðlum [1] sem tengjast horn á milli view stefnu og yfirborð eðlilegt. Í samræmi við hugmyndirnar í PANDORA [3] endurskrifum við dreifða stokes vektorinn undir umhverfisljósi sem

NeRSP-CVPR24-Neural-3D-Reconstruction-for-Reflective-Objects-Mynd- (33)

hvarNeRSP-CVPR24-Neural-3D-Reconstruction-for-Reflective-Objects-Mynd- (49) er táknað sem dreifður útgeislun. Í stað þess að reikna út frá jöfnunni, er dreifður útgeislun sem staðbundin breytileg breytu kortlögð beint úr taugapunktareiginleika sem dregin er út með hnita-undirstaða MLP. Á hinn bóginn er hægt að skilgreina spegilmyndaðan stökkvigur undir einni ljósstefnu ω í skautaða BRDF líkaninu sem

NeRSP-CVPR24-Neural-3D-Reconstruction-for-Reflective-Objects-Mynd- (34)

þar sem ρs táknar spegla albedo; D og G tákna normaldreifingu og skuggahugtak í Microfacet líkaninu [8], sem hægt er að stjórna með yfirborðsgrófleika; R+ og R− tákna útreikninga á Fresnel endurkaststuðlunum [1], sem tengjast horninu á milli venjulegs yfirborðs og innfallsljóssstefnu; ϕh er innfalls azimut horn miðað við hálfvigurNeRSP-CVPR24-Neural-3D-Reconstruction-for-Reflective-Objects-Mynd- (35). Með hliðsjón af hugmyndunum í PANDORA [3] endurskrifum við spegilmyndandi stokes vektor undir umhverfisljósi sem

NeRSP-CVPR24-Neural-3D-Reconstruction-for-Reflective-Objects-Mynd- (36)

hvarNeRSP-CVPR24-Neural-3D-Reconstruction-for-Reflective-Objects-Mynd- (37) táknar spegla útgeislun. Með nálguninni á lekasummu [5] getum við áætlað Ls ≈ ρsDG/4n⊤v *fΩ L(ω) dω enn frekar. Sameining við dreifða stokes vektorinn sem sýndur er í Eq. (9), við byggjum ljósmælingabendinguna út frá eftirfarandi skautamyndarmyndunarlíkani

NeRSP-CVPR24-Neural-3D-Reconstruction-for-Reflective-Objects-Mynd- (38)

Upplýsingar um framkvæmd

Þessi hluti sýnir flutningsupplýsingarnar um gerviefni okkarview Skautað myndgagnasett SMVP3D og þjálfunarupplýsingar NeRSP.

Gagnasett
Við bjóðum upp á SMVP3D, sem inniheldur myndir af fimm tilbúnum endurskinshlutum undir náttúrulegri lýsingu. Fyrir hvern hlut myndum við 48 views og skrá samsvarandi jörð sannleika (GT) yfirborð eðlileg kort. Við notum Mit-suba3 [4] sem vinnsluvélina, með BRDF gerðinni stillt á skautað plastefni í flutningi okkar. Fyrir dif-fuse albedo ρd notum við staðbundna albedo áferð til að auka raunsæi flutningsniðurstaðna okkar. Á sama tíma höldum við spegilalbedo ρs á föstu gildinu 1.0 og setjum yfirborðsgrófleikann á 0.05. Þessi nálgun tryggir samræmda endurspeglun yfir yfirborð hlutanna. Skautuðu myndirnar sem myndast eru sýndar í upplausninni 512 × 512 dílar.

Þjálfun
Ofbreyturnar λg, λm og λe í tapfallinu okkar eru stilltar á 1, 1 og 0.1, í sömu röð. Í þjálfunarferlinu notum við upphitunarstefnu sem fylgir PAN-DORA [3], þar sem fyrstu 1 tímabilin tökum við aðeins tillit til óskautaðra upplýsinga í ljósmælingabendingunni og gerum ráð fyrir að spegilhluti hlutarins sé 000. Alls tilraunir, notum við upplausnina 0 × 512 fyrir þjálfun og prófun á SMVP512D og 3 × 512 fyrir raunverulegan gagnasöfn. Aðferðin okkar rennur almennt saman um 612 tímabil, sem tekur um 100 klukkustundir á Nvidia RTX 000 GPU, þar sem minnið eyðir um 6 MB.

NeRSP-CVPR24-Neural-3D-Reconstruction-for-Reflective-Objects-Mynd- (39) NeRSP-CVPR24-Neural-3D-Reconstruction-for-Reflective-Objects-Mynd- (40) NeRSP-CVPR24-Neural-3D-Reconstruction-for-Reflective-Objects-Mynd- (41) NeRSP-CVPR24-Neural-3D-Reconstruction-for-Reflective-Objects-Mynd- (42)

BRDF mat og endurútgáfu niðurstöður

Mynd S4 (efst) sýnir áætlanir okkar um grófleika, dreifða og speglaða hluti. Áætlanir eru svolítið háværar vegna þess að aðeins 6 views. Svipað og Ref-NeRF [7] þar sem lýsingu er óbeint stjórnað með IDE, getum við ekki framkvæmt endurlýsingartilraunir. Þess vegna sýnum við skáldsöguna view myndun niðurstöður í staðinn, eins og sést á mynd S4 (neðst). Í samanburði við núverandi aðferðir eru endurútgáfumyndirnar okkar nær samsvarandi raunverulegum athugunum.

NeRSP-CVPR24-Neural-3D-Reconstruction-for-Reflective-Objects-Mynd- (43)

Viðbótarniðurstöður á gagnapakkanum okkar

Í þessum hluta kynnum við viðbótarniðurstöður formendurbyggingar á SMVP3D og raunveruleikanumview Skautað myndgagnasett RMVP3D.

Mat á SMVP3D
Við kynnum eigindlegar enduruppbyggingarniðurstöður grunnlínuaðferða og nálgun okkar á mynd S2. Niðurstöðurnar úr MVAS [2] skortir smáatriði, þar sem ljósmælingabendingin er ekki tekin með í reikninginn. Þó NeRO [6] bjóði upp á endurbætur á lögun, tekst það ekki að veita áreiðanlegt yfirborð fyrir áferðarlausa hluti, eins og DAVID. S-VolSDF [9] notar gróft til fínt Multi-View Stereo (MVS) nálgun og sýnir aukið næmni fyrir upplýsingum um áferð á yfirborði hluta, sem stundum leiðir til rangtúlkunar á áferðarupplýsingum sem burðarvirki. PANDORA [3] á í erfiðleikum með að aðskilja albedo og spekingar upplýsingar á áhrifaríkan hátt, sem leiðir til óáreiðanlegra enduruppbyggingar. Aðferð okkar, NeRSP, nýtir á áhrifaríkan hátt bæði ljósmælingar og rúmfræðilegar vísbendingar, sem leiðir til endurbygginga sem endurspegla GT uppbyggingu nákvæmari.

Við birtum einnig eðlilegt mat á yfirborði og samsvarandi hornvilludreifingu á mynd S3, sem sýnir stöðugt að NeRSP nær betri niðurstöðum úr formuppbyggingu fyrir endurskinsfleti með dreifðum inntaki views.

Mat á RMVP3D
Í þessum hluta kynnum við aðra niðurstöðu endurbyggingar hluta á RMVP3D. Mynd S5 sýnir að NeRO [6], MVAS [2] og NeRSP geta endurbyggt einfaldan kúlulaga hlut með endurkastandi yfirborði nákvæmlega. Aftur á móti geta S-VolSDF [9] og PANDORA [3] ekki brotið niður albedo og spegilhluta yfirborðsins, sem leiðir til röskunar í formuppbyggingarferlinu. Til að greina á milli endurbyggingarniðurstaðna NeRO [6], MVAS [2] og NeRSP, sjáum við fyrir okkur Chamfer Distance fyrir möskvana sem endurgerð eru með hverri aðferð. Eins og sýnt er á mynd S6, gefur litur hvers punkts til kynna afrifunarfjarlægð hans, sem er klippt á milli 0 og 5 mm. Þessar myndir sýna að endurbyggingarvillan sem tengist NeRSP er minni miðað við hinar aðferðirnar tvær.

NeRSP-CVPR24-Neural-3D-Reconstruction-for-Reflective-Objects-Mynd- (44)

Ablation rannsókn á yfirborðsendurkasti

Aðferðin okkar miðar að endurbyggingu endurskins yfirborðs og einnig er hægt að beita henni til að endurheimta lögunina með grófu yfirborði. Sem fyrrverandiample, við endurgerum SNIL hlutinn með speglaða albedo ρs sem minnkar úr 1.0 í 0.1. Meðalhornvilla (MAE) áætlaðs yfirborðsnormals við 6 inntak views frá mismunandi aðferðum er sýnd í töflu S1. Eigindlegt mat á yfirborðsnormalmati og samsvarandi hornvilludreifingu mismunandi aðferða undir sama inntakinu view eru sýndar á mynd S7. Þessar tilraunir benda til þess að flestar aðferðir bæti endurbyggingargæði á grófu yfirborði samanborið við endurskinsflöt. Sérstaklega skilar aðferð okkar stöðugt áreiðanlegustu yfirborðsendurbyggingu hlutarins.

Afnámsrannsókn á #views

NeRSP okkar miðar að endurbyggingu endurskinsflata undir dreifðu inntaki views. Tilraunirnar sem sýndar eru í aðalritgerðinni taka 6 af skornum skammti views sem inntak. Til að meta aðferð okkar undir mismunandi fjölda inntaks views (þ.e. #views), gerum við tilraunir á raunverulegum hlut LION undir stillingunni 3, 6, 12 og 24 views. Mynd S8 sýnir endurheimt form, en eigindlegt mat með Chamfer Distance er sett fram í töflu S2.

Undir rýr inntak views, svo sem 3, núverandi aðferðir berjast við að endurheimta trúverðugar niðurstöður. Þetta er aðallega vegna þess að þeir einbeita sér annað hvort að ljósmælingar eða rúmfræðilegum vísbendingum. Að taka S-VolSDF [9] sem fyrrverandiample, áætlað lögun, eins og sést í nærmynd views, er undir miklum áhrifum frá samsvarandi áferð. Þetta leiðir til rangra forma vegna þess að lögun-geislun tvíræðni er lítil views. Með því að takast á við bæði rúmfræðilegar og ljósmælingar vísbendingar, dregur NeRSP okkar úr tvíræðni við dreifðar inntak. Fyrir vikið náum við sanngjarnari formuppbyggingu. Þessi athugun er enn í gildi þegar fjöldi inntaks views fer yfir 12. Eins og sýnt er í töflu S2, nær NeRSP okkar stöðugt minnstu afrakstursfjarlægð með auknum fjölda inntaks views. Þetta sýnir skilvirkni aðferðar okkar á endurskinsflötum á breitt úrval af views.

NeRSP-CVPR24-Neural-3D-Reconstruction-for-Reflective-Objects-Mynd- (45)

Tafla S2. Eigindlegt mat á LION mæld með Chamfer Distance (↓) undir mismunandi inntak views.

#Views NeRO [6] S-VolSDF [9] MVAS [2] PANDORA [3] NeRSP
3 34.48 31.50 23.96 24.44 24.01
6 10.74 7.39 7.51 15.04 5.18
12 5.50 6.80 5.31 12.1 4.29
24 4.96 6.14 5.32 12.5 4.11

Mat á polarimetric MVIR gagnapakkanum

Fyrir utan raunveruleikatilraunirnar á PANDORA gagnapakkanum [3] og RMVP3D okkar, bjóðum við einnig upp á mat á fjöl-view gagnasett skautaðra mynda til staðar í PMVIR [10]. Eins og sýnt er á mynd S9, sjáum við niðurstöðurnar fyrir endurheimt forms frá PANDORA [3] og okkar, með 6 dreifðum views sem inntak. Þar sem engin GT lögun er í þessu gagnasafni notum við niðurstöðurnar úr PMVIR [10] til viðmiðunar, sem tekur 31 og 56 views sem inntak fyrir myndavélina og bílsenuna, í sömu röð. Við sjáum að niðurstöður okkar eru sanngjarnari samanborið við þá sem nota PANDORA [3], sem sýnir fram á árangur aðferðar okkar við dreifða þrívíddaruppbyggingu.

Heimildir

  1. [1] Seung-Hwan Baek, Daniel S Jeon, Xin Tong og Min H Kim. Samtímis öflun skautaðra SVBRDF og normals. ACM TOG, 37(6):268–1, 2018. 2
  2. Xu Cao, Hiroaki Santo, Fumio Okura og Yasuyuki Matsushita. Fjöl-View Azimuth Stereo í gegnum Tangent Space Consistency. Í CVPR, bls. 825–834, 2023. 1, 3, 4, 5, 6
  3. Akshat Dave, Yongyi Zhao og Ashok Veeraraghavan. Pandora: Skautun-studd tauga niðurbrot geisla. Í ECCV, bls. 538–556, 2022. 2, 3, 4, 5, 6
  4. Wenzel Jakob, S´ebastien Speierer, Nicolas Roussel, Merlin Nimier-David, Delio Vicini, Tizian Zeltner, Baptiste Nicolet, Miguel Crespo, Vincent Leroy og Ziyi Zhang. Mitsuba 3 prentari, 2022. https://mitsuba-renderer.org. 2
  5. Brian Karis og Epic Games. Raunveruleg skygging í Unreal Engine 4. Proc. Physically Based Shading Theory Practice, 4(3):1, 2013. 2
  6. Yuan Liu, Peng Wang, Cheng Lin, Xiaoxiao Long, Jiepeng Wang, Lingjie Liu, Taku Komura og Wenping Wang. NeRO: Neural Geometry and BRDF Reconstruction of Reflective Objects from Multiview Myndir. arXiv forprentun arXiv:2305.17398, 2023. 3, 4, 5, 6
  7. Dor Verbin, Peter Hedman, Ben Mildenhall, Todd Zickler, Jonathan T Barron og Pratul P Srinivasan. Ref-NeRF: Byggt view-háð útliti fyrir taugageislunarsvið. Í CVPR, bls. 5481–5490, 2022. 3
  8. Bruce Walter, Stephen R Marschner, Hongsong Li og Ken-neth E Torrance. Örhliðarlíkön fyrir ljósbrot í gegnum gróft yfirborð. Í Proceedings of the 18th Eurographics conference on Rendering Techniques, bls. 195–206, 2007. 2
  9. Haoyu Wu, Alexandros Graikos og Dimitris Samaras. S-VolSDF: Sparse Multi-View Stereo Regularization of Neural Implicit Surfaces. arXiv forprentun arXiv:2303.17712, 2023. 3, 4, 5, 6
  10. Jinyu Zhao, Yusuke Monno og Masatoshi Okutomi. Polarimetric multi-view öfug flutningur. IEEE TPAMI, 2022. 5, 6

NeRSP-CVPR24-Neural-3D-Reconstruction-for-Reflective-Objects-Mynd- (46) NeRSP-CVPR24-Neural-3D-Reconstruction-for-Reflective-Objects-Mynd- (47)

Skjöl / auðlindir

NeRSP CVPR24 Tauga 3D endurbygging fyrir endurskinshluti [pdfLeiðbeiningarhandbók
CVPR24 Tauga 3D endurbygging fyrir endurskinshluti, CVPR24, taugaþrívídd endurbygging fyrir endurskinshluti, endurbygging fyrir endurskinshluti, endurskinshluti, hluti

Heimildir

Skildu eftir athugasemd

Netfangið þitt verður ekki birt. Nauðsynlegir reitir eru merktir *