NeRSP CVPR24 ການຟື້ນຟູ 3D Neural ສໍາລັບວັດຖຸສະທ້ອນ
ຂໍ້ມູນຜະລິດຕະພັນ
ຂໍ້ມູນຈໍາເພາະ:
- ຊື່ຜະລິດຕະພັນ: NeRSP: Neural 3D Reconstruction for Reflective Objects with Sparse Polarized Images
- ຜູ້ຂຽນ: Yufei Han, Heng Guo, Koki Fukai, Hiroaki Santo, Boxin Shi, Fumio Okura, Zhanyu Ma, Yunpeng Jia
- ສາຂາ: ມະຫາວິທະຍາໄລໄປສະນີໂທລະຄົມປັກກິ່ງ, ມະຫາວິທະຍາໄລ Osaka, ມະຫາວິທະຍາໄລປັກກິ່ງ
- ບົດຄັດຫຍໍ້: ຜະລິດຕະພັນ NeRSP ສະຫນອງຜົນໄດ້ຮັບການຟື້ນຟູຮູບຮ່າງທີ່ດີຂຶ້ນສໍາລັບພື້ນຜິວທີ່ສະທ້ອນໃຫ້ເຫັນເມື່ອທຽບກັບວິທີການທີ່ມີຢູ່ແລ້ວ.
ຄໍາແນະນໍາການນໍາໃຊ້ຜະລິດຕະພັນ
- ແນະນຳ
ຜະລິດຕະພັນ NeRSP ຖືກອອກແບບມາສໍາລັບການກໍ່ສ້າງ 3D ຂອງວັດຖຸສະທ້ອນຄືນໃຫມ່ໂດຍໃຊ້ຮູບພາບຂົ້ວໂລກເບົາບາງ. ມັນເອົາຊະນະສິ່ງທ້າທາຍທີ່ກ່ຽວຂ້ອງກັບການຊອກຫາຫຼາຍview ການສື່ສານແລະຮູບຮ່າງ disentangling ຈາກ radiance ພາຍໃຕ້ການຈົດຫມາຍສະບັບຈໍາກັດ. - ວຽກງານທີ່ກ່ຽວຂ້ອງ
NeRSP ໄດ້ຮັບການດົນໃຈໂດຍ Neural Radiance Fields (NeRF) ແລະວິທີການຟື້ນຟູ neural 3D ອື່ນໆ. ມັນສ້າງຮູບຊົງຂອງພື້ນຜິວໂດຍທາງອ້ອມຜ່ານທາງພາກສະຫນາມທີ່ມີລາຍເຊັນ (SDF) ແລະນໍາໃຊ້ການຕິດຕາມທາງຜ່ານທີ່ແຕກຕ່າງກັນແລະການສະແດງປະລິມານເພື່ອປັບປຸງຄຸນນະພາບການສ້າງຮູບຮ່າງ. - ຮູບແບບການສ້າງຮູບ Polarimetric
NeRSP ລວມເອົາຮູບແບບການສ້າງຮູບ polarimetric ເພື່ອເອົາຕົວຊີ້ບອກທາງ photometric ແລະ geometric ສໍາລັບການກໍ່ສ້າງຄືນໃຫມ່.
FAQ:
- ຖາມ: Advan ແມ່ນຫຍັງtage ຂອງການນໍາໃຊ້ NeRSP ສໍາລັບການຟື້ນຟູ 3D?
A: NeRSP ສະຫນອງຜົນໄດ້ຮັບການຟື້ນຟູຮູບຮ່າງທີ່ດີກວ່າສໍາລັບພື້ນຜິວທີ່ສະທ້ອນແສງເມື່ອທຽບກັບວິທີການທີ່ມີຢູ່ແລ້ວເນື່ອງຈາກວິທີການປະດິດສ້າງຂອງມັນໂດຍໃຊ້ຮູບພາບຂົ້ວໂລກເບົາບາງ. - Q: ຜະລິດຕະພັນ NeRSP ເຫມາະສໍາລັບຫນ້າດິນກະຈາຍບໍ?
A: ໃນຂະນະທີ່ NeRSP ຖືກອອກແບບມາເປັນຕົ້ນຕໍສໍາລັບພື້ນຜິວທີ່ສະທ້ອນແສງ, ມັນຍັງສາມາດສະຫນອງການຄາດຄະເນຮູບຮ່າງທີ່ຫນ້າເຊື່ອຖືສໍາລັບພື້ນຜິວທີ່ມີການແຜ່ກະຈາຍທີ່ຄວາມສອດຄ່ອງຂອງ photometric ແມ່ນຖືກຕ້ອງໃນທົ່ວ. views.
NeRSP:
Neural 3D Reconstruction ສໍາລັບວັດຖຸສະທ້ອນແສງທີ່ມີຮູບ Polarized sparse
Yufei Han1† Heng Guo1†∗ Koki Fukai2† Hiroaki Santo2 Boxin Shi3,4 Fumio Okura2 Zhanyu Ma1 Yunpeng Jia1
- ມະຫາວິທະຍາໄລໄປສະນີໂທລະຄົມປັກກິ່ງ
- ຈົບການສຶກສາວິທະຍາໄລຂໍ້ມູນຂ່າວສານວິທະຍາສາດແລະເຕັກໂນໂລຊີ, Osaka University
- ຫ້ອງທົດລອງທີ່ສໍາຄັນແຫ່ງຊາດສໍາລັບການປຸງແຕ່ງຂໍ້ມູນຂ່າວສານ Multimedia, ໂຮງຮຽນວິທະຍາສາດຄອມພິວເຕີ, ວິທະຍາໄລປັກກິ່ງ 4 ສູນຄົ້ນຄ້ວາວິສະວະກໍາແຫ່ງຊາດຂອງ Visual Technology, ໂຮງຮຽນວິທະຍາສາດຄອມພິວເຕີ, ວິທະຍາໄລປັກກິ່ງ
- {hanyufei, guoheng, mazhanyu}@bupt.edu.cn shiboxin@pku.edu.cn
- {santo.hiroaki, okura, fukai.koki}@ist.osaka-u.ac.jp xibei156@163.com.
ບົດຄັດຫຍໍ້
ພວກເຮົານຳສະເໜີ NeRSP, ເຕັກນິກການສ້າງຄືນໃຫມ່ຂອງ Neural 3D ສໍາລັບພື້ນຜິວສະທ້ອນແສງທີ່ມີຮູບ Polarized Sparse. ການກໍ່ສ້າງພື້ນຜິວສະທ້ອນຄືນໃຫມ່ແມ່ນມີຄວາມທ້າທາຍທີ່ສຸດຍ້ອນວ່າການສະທ້ອນທີ່ໂດດເດັ່ນ view-dependent ແລະດັ່ງນັ້ນຈຶ່ງລະເມີດຫຼາຍview ຄວາມສອດຄ່ອງສໍາລັບຫຼາຍview stereo. ໃນອີກດ້ານຫນຶ່ງ, ວັດສະດຸປ້ອນຮູບພາບທີ່ຮົກຮ້າງ, ເປັນການຕັ້ງຄ່າການຈັບພາບປະຕິບັດ, ໂດຍທົ່ວໄປແລ້ວເຮັດໃຫ້ຜົນໄດ້ຮັບບໍ່ຄົບຖ້ວນຫຼືບິດເບືອນເນື່ອງຈາກການຂາດການຈັບຄູ່ການຕິດຕໍ່. ເອກະສານສະບັບນີ້ຮ່ວມກັນຈັດການກັບສິ່ງທ້າທາຍຂອງວັດສະດຸປ້ອນທີ່ກະແຈກກະຈາຍແລະພື້ນຜິວສະທ້ອນໂດຍການໃຊ້ຮູບພາບທີ່ມີຂົ້ວ. ພວກເຮົາໄດ້ຮັບ cues photometric ແລະ geometric ຈາກຮູບແບບການສ້າງຮູບແບບ Polarimetric ແລະ multiview ຄວາມສອດຄ່ອງຂອງ azimuth, ເຊິ່ງຮ່ວມກັນປັບປຸງເລຂາຄະນິດຂອງພື້ນຜິວທີ່ສ້າງແບບຈໍາລອງໂດຍຜ່ານການສະແດງ neural implicit. ອີງໃສ່ການທົດລອງກ່ຽວກັບຊຸດຂໍ້ມູນສັງເຄາະແລະຕົວຈິງຂອງພວກເຮົາ, ພວກເຮົາບັນລຸຜົນໄດ້ຮັບການຟື້ນຟູພື້ນຜິວທີ່ທັນສະໄຫມດ້ວຍພຽງແຕ່ 6 ເທົ່ານັ້ນ. views ເປັນ input.
ແນະນຳ
ຫຼາຍview ການຟື້ນຟູ 3D ເປັນບັນຫາພື້ນຖານໃນການເບິ່ງເຫັນຄອມພິວເຕີ (CV) ແລະໄດ້ຮັບການສຶກສາຢ່າງກວ້າງຂວາງເປັນເວລາຫຼາຍປີ [14]. ດ້ວຍຄວາມກ້າວຫນ້າຂອງການເປັນຕົວແທນຂອງຫນ້າດິນ implicit [27, 28] ແລະພາກສະຫນາມ radiance neural [22], ຫຼາຍບໍ່ດົນມານີ້.view ວິທີການຟື້ນຟູ 3D [5, 33, 38, 41] ມີຄວາມກ້າວຫນ້າຢ່າງຫຼວງຫຼາຍ. ເຖິງວ່າຈະມີຜົນໄດ້ຮັບການຟື້ນຕົວຮູບຮ່າງທີ່ຫນ້າສົນໃຈ, ຫຼາຍທີ່ສຸດview ວິທີການສະເຕີລິໂອ (MVS) ຍັງອີງໃສ່ການຊອກຫາການຕອບຮັບລະຫວ່າງ views, ເຊິ່ງເປັນສິ່ງທ້າທາຍໂດຍສະເພາະສໍາລັບພື້ນຜິວທີ່ສະທ້ອນແສງແລະການປ້ອນຂໍ້ມູນແບບກະແຈກກະຈາຍ views.
ສໍາລັບພື້ນຜິວສະທ້ອນໃຫ້ເຫັນ, ໄດ້ view- ຫນ້າດິນຂຶ້ນກັບ ap-
ການປະກອບສ່ວນເທົ່າທຽມກັນ. ∗ ຜູ້ຂຽນທີ່ສອດຄ້ອງກັນ.
ໜ້າໂຄງການ: https://yu-fei-han.github.io/NeRSP-project/.
ຮູບທີ 1. ການຟື້ນຕົວຮູບຮ່າງຂອງພື້ນຜິວສະທ້ອນຈາກ 6 ຮູບຂົ້ວໂລກທີ່ຈັບພາບ (ແຖວເທິງ). NeRSP ຂອງພວກເຮົາບັນລຸຜົນໄດ້ຮັບການຟື້ນຟູຮູບຮ່າງທີ່ດີກວ່າເມື່ອປຽບທຽບກັບວິທີການທີ່ມີຢູ່ແລ້ວທີ່ບໍ່ວ່າຈະແກ້ໄຂການປ້ອນຂໍ້ມູນເລັກນ້ອຍ (S-VolSDF [35]) ຫຼືການສະທ້ອນສະທ້ອນ (PANDORA [9]).
Pearance ທໍາລາຍການສົມມຸດຕິຖານຄວາມສອດຄ່ອງຂອງ photometric ທີ່ໃຊ້ໃນການຄາດຄະເນການຕອບໂຕ້ໃນ MVS. ເພື່ອແກ້ໄຂບັນຫານີ້, ວິທີການຟື້ນຟູ neural 3D ທີ່ຜ່ານມາ (ຕົວຢ່າງ, Ref-NeuS [13], NeRO [19], ແລະ PANDORA [9]) ການສ້າງແບບຈໍາລອງການສະທ້ອນຢ່າງຊັດເຈນແລະພ້ອມກັນຄາດຄະເນການສະທ້ອນແລະແຜນທີ່ສະພາບແວດລ້ອມໂດຍຜ່ານການສະແດງຜົນກົງກັນຂ້າມ. ຢ່າງໃດກໍຕາມ, ການຊື້ຮູບພາບທີ່ຫນາແຫນ້ນພາຍໃຕ້ຄວາມຫຼາກຫຼາຍ views ແມ່ນຕ້ອງການຢ່າງສັດຊື່ເພື່ອຈັດການກັບສິ່ງທີ່ບໍ່ຮູ້ເພີ່ມເຕີມນອກຈາກຮູບຮ່າງ, ເຊັ່ນ: albedo, roughness, ແລະແຜນທີ່ສະພາບແວດລ້ອມ.
ຈາກ sparse input views, ມັນມັກຈະເປັນສິ່ງທ້າທາຍທີ່ຈະຊອກຫາຫຼາຍພຽງພໍview ຈົດໝາຍ. ໂດຍສະເພາະໃນເວລາທີ່ເປັນຕົວແທນ view-dependent reflectances, ມັນເປັນການຍາກທີ່ຈະ disentangle ຮູບຮ່າງຈາກ radiance ພາຍໃຕ້ຈໍານວນຈໍາກັດຂອງ correspondences, ເຮັດໃຫ້ຮູບຮ່າງ-radiance ambiguity [40]. ວິທີການຟື້ນຟູ neural 3D ທີ່ຜ່ານມາສໍາລັບການ sparse views (e. g. S-VolSDF [35] ແລະ SparseNeuS [20]) ຮຽກຮ້ອງໃຫ້ມີການປົກກະຕິໂດຍນໍາໃຊ້ຄວາມສອດຄ່ອງຂອງ photometric, ເຊິ່ງສາມາດຖືກລະເມີດສໍາລັບພື້ນຜິວສະທ້ອນ.
ເພື່ອແກ້ໄຂບັນຫາທັງສອງຢ່າງ, ພວກເຮົາສະເຫນີໃຫ້ໃຊ້ຮູບພາບຂົ້ວໂລກເລັກນ້ອຍແທນທີ່ຈະເປັນວັດສະດຸປ້ອນ RGB. ໂດຍສະເພາະ, ພວກເຮົາສະເຫນີ NeRSP, ວິທີການຟື້ນຟູ Neural 3D ທີ່ຈະຟື້ນຕົວຮູບຮ່າງຂອງພື້ນຜິວສະທ້ອນຈາກຮູບພາບທີ່ມີ Polarized Sparse. ພວກເຮົາໃຊ້ມຸມຂອງ polarization (AoP) ທີ່ມາຈາກຮູບພາບທີ່ມີຂົ້ວ, ເຊິ່ງສະທ້ອນໃຫ້ເຫັນໂດຍກົງກັບມຸມ azimuth ຂອງຮູບຮ່າງຫນ້າດິນເຖິງ π ແລະ π / 2 ຄວາມບໍ່ແນ່ນອນ. cue geometric ນີ້ແມ່ນເປັນທີ່ຮູ້ຈັກເພື່ອເປີດໃຊ້ຫຼາຍview ການຟື້ນຟູຮູບຮ່າງໂດຍບໍ່ຄໍານຶງເຖິງຄຸນສົມບັດການສະທ້ອນຂອງພື້ນຜິວ, ແຕ່ຮູບຮ່າງທີ່ຄາດຄະເນໂດຍອີງໃສ່ cue geometric ແມ່ນບໍ່ຊັດເຈນ [6] ພາຍໃຕ້ sparse. view ການຕັ້ງຄ່າ. ໃນທາງກົງກັນຂ້າມ, ຮູບຊົງຮູບຊົງຈາກຮູບແບບການສ້າງຮູບ polarimetric [2] ຊ່ວຍໃຫ້ການສ້າງພື້ນຜິວທາງປະສາດຄືນໃໝ່ (ຕົວຢ່າງ: PANDORA [9]) ໂດຍຫຼຸດຜ່ອນຄວາມແຕກຕ່າງລະຫວ່າງຮູບທີ່ສະແດງຄືນໃໝ່ ແລະ ຈັບພາບຂົ້ວໂລກ. ຢ່າງໃດກໍຕາມ, ຮູບຮ່າງທີ່ຄາດຄະເນໂດຍອີງໃສ່ພຽງແຕ່ cue photometric ແມ່ນບໍ່ດີ posed ພາຍໃຕ້ການປ້ອນຂໍ້ມູນ sparse ເນື່ອງຈາກຄວາມບໍ່ແນ່ນອນຂອງຮູບຮ່າງ - radiance. ບໍ່ເຫມືອນກັບວິທີການທີ່ອີງໃສ່ polarimetric ທີ່ມີຢູ່ແລ້ວ PANDORA [9] ພິຈາລະນາ cue photometric ເທົ່ານັ້ນ, NeRSP ຂອງພວກເຮົາສະແດງໃຫ້ເຫັນການລວມຕົວຂອງທັງສອງເລຂາຄະນິດແລະ photometric cues ແຄບລົງພື້ນທີ່ການແກ້ໄຂສໍາລັບຮູບຮ່າງຂອງຫນ້າດິນ, ສະແດງໃຫ້ເຫັນປະສິດທິພາບໃນການຟື້ນຟູພື້ນຜິວສະທ້ອນໂດຍອີງໃສ່ວັດສະດຸປ້ອນ sparse. , ດັ່ງທີ່ເຫັນໃນຮູບ 1.
ນອກເໜືອໄປຈາກ NeRSP ທີ່ໄດ້ສະເໜີໃຫ້ສຳລັບການສ້າງຄືນໃໝ່ 3D, ພວກເຮົາຍັງໄດ້ສ້າງ Real-world MultiView ຊຸດຂໍ້ມູນຮູບພາບ Polarized ປະກອບມີ 6 ວັດຖຸທີ່ມີຕາໜ່າງ 3D (GT) ທີ່ມີຊື່ RMVP3D. ແຕກຕ່າງຈາກຊຸດຂໍ້ມູນທີ່ມີຢູ່ແລ້ວເຊັ່ນຊຸດຂໍ້ມູນ PANDORA [9] ການສະຫນອງຮູບພາບທີ່ມີຂົ້ວໂລກເທົ່ານັ້ນ, ຕາຫນ່າງ GT ທີ່ສອດຄ່ອງກັນແລະພື້ນຜິວປົກກະຕິສໍາລັບແຕ່ລະຄົນ. view ອະນຸຍາດໃຫ້ມີການປະເມີນປະລິມານຫຼາຍview ການກໍ່ສ້າງ 3D ຂົ້ວໂລກ.
ເພື່ອສະຫຼຸບ, ພວກເຮົາກ້າວຫນ້າຫຼາຍview ການຟື້ນຟູ 3D ໂດຍການສະເໜີ
- NeRSP, ວິທີການທໍາອິດທີ່ສະເຫນີໃຫ້ນໍາໃຊ້ຂໍ້ມູນ polarmetric ສໍາລັບການຟື້ນຟູພື້ນຜິວສະທ້ອນໃຫ້ເຫັນພາຍໃຕ້ການກະແຈກກະຈາຍ. views;
- ການວິເຄາະທີ່ສົມບູນແບບຂອງ photometric ແລະ geometric cue ໄດ້ມາຈາກຮູບ polarized; ແລະ
- RMVP3D, ຫຼາຍໆອັນໃນໂລກທີ່ແທ້ຈິງທຳອິດview ຊຸດຂໍ້ມູນຮູບຂົ້ວໂລກທີ່ມີຮູບຮ່າງ GT ສໍາລັບການປະເມີນປະລິມານ.
ຫຼາຍview ການຟື້ນຟູ 3D ໄດ້ຖືກສຶກສາຢ່າງກວ້າງຂວາງສໍາລັບທົດສະວັດ. Neural Radiance Fields (NeRF) [3, 22, 40] ໄດ້ປະສົບຜົນສໍາເລັດອັນຍິ່ງໃຫຍ່ໃນນະວະນິຍາຍ view ການສັງເຄາະໃນຊຸມປີທີ່ຜ່ານມາ. ໄດ້ຮັບການດົນໃຈໂດຍ NeRF, ວິທີການຟື້ນຟູ neural 3D [24] ໄດ້ຖືກສະເຫນີ, ບ່ອນທີ່ຮູບຮ່າງຂອງຫນ້າດິນໄດ້ຖືກສ້າງແບບຈໍາລອງ implicitly ຜ່ານພາກສະຫນາມໄລຍະຫ່າງ (SDF). ເລີ່ມຕົ້ນຈາກ DVR [24], ວິທີການຕິດຕາມປັບປຸງຄຸນນະພາບການສ້າງຮູບຮ່າງຄືນໃຫມ່ໂດຍຜ່ານ sphere tracing ທີ່ແຕກຕ່າງກັນ [37], rendering ປະລິມານ [26, 33, 38], ຫຼືການສະແດງຮູບຮ່າງທີ່ປັບປຸງລາຍລະອຽດ [18, 34]. ວິທີການເຫຼົ່ານີ້ສາມາດບັນລຸການຄາດຄະເນຮູບຮ່າງທີ່ຫນ້າເຊື່ອຖືສໍາລັບພື້ນຜິວທີ່ແຜ່ກະຈາຍທີ່ຄວາມສອດຄ່ອງຂອງຮູບ - metric ແມ່ນຖືກຕ້ອງໃນທົ່ວ. views.
ການກໍ່ສ້າງຄືນໃຫມ່ສໍາລັບພື້ນຜິວສະທ້ອນແມ່ນມີຄວາມທ້າທາຍຍ້ອນວ່າຄວາມສອດຄ່ອງຂອງ photometric ບໍ່ຖືກຕ້ອງ. ວິທີການທີ່ມີຢູ່ແລ້ວ [5, 41, 42] ຢ່າງຊັດເຈນສ້າງແບບຈໍາລອງ view- ການສະທ້ອນແສງທີ່ຂຶ້ນກັບ ແລະ disentangle ຮູບຮ່າງ, ຄວາມແຕກຕ່າງລະຫວ່າງທາງກວ້າງຂອງແສງ il-luminations, ແລະຄຸນສົມບັດການສະທ້ອນເຊັ່ນ: albedo ແລະ roughness. ຢ່າງໃດກໍ່ຕາມ, ການຄາດຄະເນຂອງຕົວແປຂ້າງເທິງແມ່ນບໍ່ເປັນທີ່ພໍໃຈຍ້ອນວ່າຄວາມບໍ່ພໍໃຈແມ່ນມີຄວາມບໍ່ດີຫຼາຍ. NeRO [19] ສະເໜີໃຫ້ໃຊ້ການປະມານການແບ່ງຜົນລວມຂອງຮູບແບບການສ້າງຮູບພາບ ແລະປັບປຸງຄຸນນະພາບການສ້າງຮູບຊົງຕື່ມອີກໂດຍບໍ່ຈໍາເປັນຕ້ອງມີໜ້າກາກວັດຖຸ. ຢ່າງໃດກໍຕາມ, ວິທີການຂ້າງເທິງນີ້ປົກກະຕິຮຽກຮ້ອງໃຫ້ມີການຈັບພາບທີ່ຫນາແຫນ້ນເພື່ອຮັບປະກັນຜົນໄດ້ຮັບການຟື້ນຟູຮູບຮ່າງທີ່ເປັນໄປໄດ້ສໍາລັບພື້ນຜິວສະທ້ອນທີ່ທ້າທາຍ.
ການຟື້ນຟູດ້ວຍ sparse views ເປັນສິ່ງຈໍາເປັນສໍາລັບສະຖານະການປະຕິບັດທີ່ຕ້ອງການການຈັບພາບທີ່ມີປະສິດທິພາບ. ເນື່ອງຈາກບໍ່ມີການຕອບສະຫນອງຢ່າງພຽງພໍຈາກຈໍາກັດ views, ຄວາມບໍ່ແນ່ນອນຂອງຮູບຮ່າງ - radiance ບໍ່ສາມາດແກ້ໄຂໄດ້, ນໍາໄປສູ່ການຟື້ນຕົວຂອງຮູບຮ່າງທີ່ບໍ່ມີສຽງແລະບິດເບືອນ. ວິທີການທີ່ມີຢູ່ແລ້ວແກ້ໄຂບັນຫານີ້ໂດຍການເພີ່ມຄວາມເປັນປົກກະຕິເຊັ່ນ: ຄວາມລຽບເລຂາຄະນິດຂອງພື້ນຜິວ [25], ຄວາມເລິກຫຍາບກ່ອນ [10, 32], ຫຼືການຄວບຄຸມຄວາມຖີ່ຂອງການເຂົ້າລະຫັດຕໍາແຫນ່ງ [36]. ບາງວິທີ [7, 20, 39] ສ້າງໂຄງສ້າງ 3D ຄືນໃໝ່ເປັນບັນຫາທົ່ວໄປ 3 ມິຕິທີ່ມີເງື່ອນໄຂທີ່ຄຸນສົມບັດຂອງຮູບພາບທີ່ໄດ້ຮັບການຝຶກອົບຮົມມາກ່ອນແມ່ນໃຊ້ເປັນແບບທົ່ວໄປກ່ອນ. S-VolSDF [35] ໃຊ້ຫຼາຍແບບຄລາສສິກview ວິທີການ stereo ເປັນການເລີ່ມຕົ້ນແລະປົກກະຕິການເພີ່ມປະສິດທິພາບຂອງ neural rendering ທີ່ມີປະລິມານຄວາມເປັນໄປໄດ້. ຢ່າງໃດກໍ່ຕາມ, ມັນຍັງເປັນສິ່ງທ້າທາຍສໍາລັບວິທີການໃນປະຈຸບັນທີ່ຈະຟື້ນຕົວດ້ານສະທ້ອນໄດ້ຢ່າງຖືກຕ້ອງ.
ການສ້າງຄືນໃໝ່ໂດຍໃຊ້ຮູບພາບຂົ້ວໂລກເໜືອໄດ້ຮັບການສຶກສາສຳລັບທັງສອງແບບດຽວ.view ການຕັ້ງຄ່າ [1, 2, 16, 23, 29] ແລະຫຼາຍview ການຕັ້ງຄ່າ [6, 8, 9, 11, 12, 43]. ບໍ່ຄືກັບຮູບພາບ RGB, AoP ຈາກຮູບພາບຂົ້ວໂລກໃຫ້ສັນຍານໂດຍກົງສໍາລັບພື້ນຜິວປົກກະຕິ. ດຽວ-view ຮູບຮ່າງຈາກເຕັກນິກ polarization (SfP) ໄດ້ຮັບຜົນປະໂຫຍດຈາກຊັບສິນນີ້ແລະຄາດຄະເນພື້ນຜິວປົກກະຕິພາຍໃຕ້ແສງສະຫວ່າງຫ່າງໄກດຽວ [21, 29] ຫຼືແສງສະຫວ່າງທໍາມະຊາດທີ່ບໍ່ຮູ້ຈັກ [1, 16]. ຫຼາຍview ວິທີການ SfP [8, 43] ແກ້ໄຂຄວາມບໍ່ແນ່ນອນ π ແລະ π/2 ໃນ AoP ໂດຍອີງໃສ່ຫຼາຍ.view ການສັງເກດການ. PANDORA [9] ແມ່ນວິທີການຟື້ນຟູ neural 3D ທໍາອິດໂດຍອີງໃສ່ຮູບພາບ polarized, ສະແດງໃຫ້ເຫັນວ່າມີປະສິດທິພາບໃນການຟື້ນຟູຮູບຮ່າງຫນ້າດິນແລະການສະຫວ່າງ. MVAS [6] ຟື້ນຟູຮູບຮ່າງຫນ້າດິນຈາກຫຼາຍview ແຜນທີ່ azimuth, ທີ່ກ່ຽວຂ້ອງຢ່າງໃກ້ຊິດກັບແຜນທີ່ AoP ທີ່ມາຈາກ
ຮູບພາບ Polarized. ຢ່າງໃດກໍ່ຕາມ, ວິທີການເຫຼົ່ານີ້ບໍ່ໄດ້ສໍາຫຼວດການນໍາໃຊ້ຮູບພາບທີ່ມີຂົ້ວສໍາລັບການກໍ່ສ້າງພື້ນຜິວທີ່ສະທ້ອນຄືນໃຫມ່ພາຍໃຕ້ການສັກຢາ sparse.
ຮູບແບບການສ້າງຮູບ Polarimetric
ກ່ອນທີ່ຈະເຂົ້າໄປໃນວິທີການທີ່ສະເຫນີ, ພວກເຮົາທໍາອິດແນະນໍາຮູບແບບການສ້າງຮູບ polarimetric ແລະເອົາຮູບສັນຍາລັກຮູບພາບ - metric ແລະ cue geometric ໃນວິທີການຂອງພວກເຮົາ. ດັ່ງທີ່ສະແດງຢູ່ໃນຮູບທີ 2, ກ້ອງຖ່າຍຮູບຂົ້ວໂລກຈະບັນທຶກການສັງເກດຮູບພາບຢູ່ສີ່ມຸມ Polarization ທີ່ແຕກຕ່າງກັນ, ດ້ວຍຄ່າ pixels ລວງຂອງມັນຫມາຍເຖິງ {I0, I45, I90, I135}. ສີ່ຮູບເຫຼົ່ານີ້ເປີດເຜີຍສະພາບຂົ້ວຂອງແສງທີ່ໄດ້ຮັບ, ເຊິ່ງສະແດງເປັນ vector 4D Stokes s = [s0, s1, s2, s3] ຄິດໄລ່ເປັນ
ພວກເຮົາສົມມຸດວ່າບໍ່ມີແສງສະຫວ່າງ Polarized ເປັນວົງ, ດັ່ງນັ້ນການກໍານົດ s3 ເປັນ 0. vector Stokes ສາມາດຖືກນໍາໃຊ້ເພື່ອຄິດໄລ່ມຸມຂອງ polarization (AoP), ເຊັ່ນ:
ອີງໃສ່ vector AoP ແລະ Stokes, ພວກເຮົາມາຈາກ cues geometric ແລະ photometric ທີ່ສອດຄ້ອງກັນ.
ຄິວເລຂາຄະນິດ
ອີງຕາມ AoP ϕa, ມຸມ azimuth ຂອງພື້ນຜິວສາມາດເປັນ ϕa + π / 2 ຫຼື ϕa + π, ເອີ້ນວ່າ π ແລະ π/2 ຄວາມບໍ່ຊັດເຈນ ຂຶ້ນກັບວ່າພື້ນຜິວມີຄວາມຊັດເຈນ ຫຼື ກະຈາຍເດັ່ນ. ໃນພາກນີ້, ພວກເຮົາທໍາອິດແນະນໍາ cue geometric ໄດ້ນໍາເອົາໂດຍຫຼາຍview ແຜນທີ່ azimuth ແລະຫຼັງຈາກນັ້ນຂະຫຍາຍມັນໄປຫາກໍລະນີຂອງ AoP.
ປະຕິບັດຕາມ MVAS [6], ສໍາລັບຈຸດ scene x, ພື້ນຜິວຂອງມັນປົກກະຕິ n ແລະມຸມ azimuth ທີ່ຄາດຄະເນ ϕ ໃນກ້ອງຖ່າຍຮູບຫນຶ່ງ. view ປະຕິບັດຕາມການພົວພັນເປັນ
ບ່ອນທີ່ R = [r1, r2, r3]⊤ ແມ່ນເມຕຣິກການຫມຸນຂອງກ້ອງຖ່າຍ. ພວກເຮົາສາມາດຈັດ Eq ຄືນໃໝ່ໄດ້. (3) ເພື່ອໃຫ້ໄດ້ຮັບຄວາມສໍາພັນ orthogonal ລະຫວ່າງພື້ນທີ່ປົກກະຕິແລະຄາດຄະເນ vector t(ϕ) ຕາມທີ່ກໍານົດໄວ້ຂ້າງລຸ່ມນີ້,
π ambiguity ລະຫວ່າງ AoP ແລະມຸມ azimuth ສາມາດແກ້ໄຂໄດ້ຕາມທໍາມະຊາດເປັນ Eq. (4) ຢືນຖ້າພວກເຮົາຕື່ມ ϕ ໂດຍ π. ຄວາມບໍ່ຊັດເຈນ π/2 ສາມາດແກ້ໄຂໄດ້ໂດຍໃຊ້ pseudo-projected tangent vector tˆ(ϕ) ດັ່ງກ່າວ.
ຖ້າຈຸດຫນຶ່ງ scene x ຖືກສັງເກດເຫັນໂດຍ f views, ພວກເຮົາສາມາດ stack Eq. (4) ແລະ Eq. (5) ໂດຍອີງໃສ່ k ການຫມຸນທີ່ແຕກຕ່າງກັນແລະສັງເກດເຫັນ AoPs, ນໍາໄປສູ່ລະບົບເສັ້ນຊື່
- T(x)n(x) = 0. (6)
ພວກເຮົາປະຕິບັດຕໍ່ລະບົບເສັ້ນນີ້ເປັນ cue geometric ຂອງພວກເຮົາສໍາລັບການຫຼາຍview ການກໍ່ສ້າງ 3D ຂົ້ວໂລກ.
ຄິວຖ່າຍຮູບ
ສົມມຸດວ່າຄວາມສະຫວ່າງຂອງສະພາບແວດລ້ອມຂອງເຫດການແມ່ນບໍ່ມີຂົ້ວ, vector Stokes ຂອງທິດທາງແສງສະຫວ່າງ ω ສາມາດເປັນຕົວແທນໄດ້.
- si(ω) = L(ω)[1, 0, 0, 0]⊤, (7)
ບ່ອນທີ່ L(ω) ຫມາຍເຖິງຄວາມເຂັ້ມຂອງແສງ. ແສງອອກທີ່ບັນທຶກໂດຍກ້ອງຖ່າຍຮູບ Polarization ກາຍເປັນ Polarized ບາງສ່ວນເນື່ອງຈາກການສະທ້ອນ. ຂະບວນການນີ້ແມ່ນສ້າງແບບຈໍາລອງຜ່ານ 4 × 4 Muller matrix H. ພາຍໃຕ້ການສະຫວ່າງຂອງສະພາບແວດລ້ອມ, vector Stokes ທີ່ອອກມາດັ່ງນັ້ນສາມາດຖືກສ້າງເປັນຕົວປະກອບຂອງເຫດການ Stokes vector ຄູນກັບ Muller matrix, ie.
ບ່ອນທີ່ v ແລະ Ω ຫມາຍເຖິງ view ທິດທາງແລະໂດເມນລວມ. ປະຕິບັດຕາມແບບຈໍາລອງ BRDF (pBRDF) polarized [2], ຜົນຜະລິດ Stokes vector ສາມາດ decomposed ເຂົ້າໄປໃນພາກສ່ວນການແຜ່ກະຈາຍແລະ specular ແບບຈໍາລອງຜ່ານ Hd ແລະ Hs ທີ່ສອດຄ້ອງກັນ, ie.
ປະຕິບັດຕາມການມາຈາກ PANDORA [9], ພວກເຮົາສາມາດສ້າງ vector Stokes ຜົນຜະລິດຕື່ມອີກ.
ບ່ອນທີ່ Ld =fΩ ρL(ω)ω⊤n T+i T−i dω ຫມາຍເຖິງການແຜ່ກະຈາຍຄວາມສະຫວ່າງທີ່ກ່ຽວຂ້ອງກັບພື້ນຜິວປົກກະຕິ n, ຄ່າສໍາປະສິດສາຍສົ່ງ Fresnel [2] T+i,o ແລະ T−i,o, diffuse albedo ρ , ແລະມຸມ azimuth ຂອງແສງເຫດການ ϕn. Ls = fΩ L(ω) DG 4n⊤v dω ຫມາຍເຖິງລັດສະຫມີພາບທີ່ກ່ຽວຂ້ອງກັບຄ່າສໍາປະສິດການສະທ້ອນ Fresnel [2] R+ ແລະ R−, ມຸມ azimuth ເຫດການ ϕh wrt ເຄິ່ງ vector h = ω+v∥ω+v∥22, ແລະ ໄລຍະການກະຈາຍ ແລະເງົາຕາມປົກກະຕິ D ແລະ G ໃນຮູບແບບ Microfacet [31].
ກະລຸນາກວດເບິ່ງອຸປະກອນເສີມສຳລັບລາຍລະອຽດເພີ່ມເຕີມ. ອີງໃສ່ຮູບແບບການສ້າງຮູບ polarimetric ທີ່ສະແດງຢູ່ໃນ Eq. (10), ພວກເຮົາສ້າງ cue photometric.
ວິທີການທີ່ສະເຫນີ
NeRSP ຂອງພວກເຮົາໃຊ້ເວລາຫຼາຍ sparseview ຮູບພາບຂົ້ວໂລກ, ໜ້າກາກ silhouette ທີ່ສອດຄ້ອງກັນຂອງວັດຖຸເປົ້າໝາຍ, ແລະກ້ອງຖ່າຍເປັນການປ້ອນຂໍ້ມູນ ແລະສົ່ງຜົນໃຫ້ຮູບຮ່າງໜ້າດິນຂອງວັດຖຸທີ່ເປັນຕົວແທນໂດຍທາງ SDF. ພວກເຮົາເລີ່ມຕົ້ນດ້ວຍການສົນທະນາກ່ຽວກັບ cues photometric ແລະ geometric cues ໃນການແກ້ໄຂຄວາມບໍ່ແນ່ນອນຂອງການຟື້ນຟູຮູບຮ່າງ, ປະຕິບັດຕາມຄໍາແນະນໍາກ່ຽວກັບໂຄງສ້າງເຄືອຂ່າຍແລະຫນ້າທີ່ສູນເສຍຂອງ NeRSP ຂອງພວກເຮົາ.
ຄວາມບໍ່ແນ່ນອນໃນການກໍ່ສ້າງ 3D ເລັກນ້ອຍ
cue geometric ແລະ cue photometric ມີບົດບາດສໍາຄັນໃນການຫຼຸດຜ່ອນພື້ນທີ່ການແກ້ໄຂຂອງຮູບຮ່າງຫນ້າດິນພາຍໃຕ້ການກະແຈກກະຈາຍ. viewດ. ດັ່ງທີ່ສະແດງຢູ່ໃນຮູບທີ 3, ພວກເຮົາສະແດງການປະເມີນຮູບຮ່າງພາຍໃຕ້ 2 views ກັບ cues ທີ່ແຕກຕ່າງກັນ. ໃຫ້ພຽງແຕ່ຮູບພາບ RGB ເປັນການປ້ອນຂໍ້ມູນ (ທີ່ສອດຄ້ອງກັນກັບການຕັ້ງຄ່າໃນ NeRO [19] ແລະ S-VolSDF [35]), ການປະສົມປະສານທີ່ແຕກຕ່າງກັນຂອງຕໍາແຫນ່ງຈຸດ scene, ປົກກະຕິຂອງຫນ້າດິນ, ແລະຄຸນສົມບັດການສະທ້ອນເຊັ່ນ albedo ສາມາດນໍາໄປສູ່ການສັງເກດຮູບພາບດຽວກັນ, ນັບຕັ້ງແຕ່. ມີພຽງແຕ່ສອງການວັດແທກ RGB ສໍາລັບແຕ່ລະຈຸດ 3D ຕາມ ray ກ້ອງຖ່າຍຮູບ. ດ້ວຍ vectors Stokes ທີ່ສະກັດຈາກຮູບພາບຂົ້ວໂລກ, ຄິວ photometric ນໍາເອົາການວັດແທກ 6 ສໍາລັບແຕ່ລະຈຸດ 3D (Stokes vectors ມີ 3 ອົງປະກອບ), ຫຼຸດຜ່ອນພື້ນຜິວປົກກະຕິທີ່ບໍ່ເຫມາະສົມກັບຮູບແບບການສ້າງຮູບ polarmetric.
ໃນທາງກົງກັນຂ້າມ, ໂດຍອີງໃສ່ແຜນທີ່ AoP1 ຈາກຮູບພາບຂົ້ວໂລກ, ພວກເຮົາສາມາດກໍານົດພື້ນຜິວປົກກະຕິໄດ້ຢ່າງເປັນເອກະລັກເຖິງຄວາມບໍ່ຊັດເຈນ π ສໍາລັບທຸກໆຈຸດທີ່ມີເລນກ້ອງຖ່າຍຮູບ. ຢ່າງໃດກໍ່ຕາມ, ມັນຍັງບໍ່ຊັດເຈນທີ່ຈະຊອກຫາຕໍາແຫນ່ງທີ່ແສງກ້ອງຖ່າຍຮູບຕັດກັບພື້ນຜິວເວັ້ນເສຍແຕ່ວ່າຫນຶ່ງໃນສາມ. view ແມ່ນສະຫນອງໃຫ້ [6]. ເພາະສະນັ້ນ, ພາຍໃຕ້ການ sparse views ການຕັ້ງຄ່າ (ເຊັ່ນ: 2 views ໃນຮູບທີ 3), ການກໍານົດຕໍາແໜ່ງຈຸດ scene ໂດຍອີງຕາມຮູບເລຂາຄະນິດ ຫຼືຮູບຊົງແມ່ນຍັງມີຄວາມຊັດເຈນ.
ວິທີການຂອງພວກເຮົາລວມທັງສອງ cues ທີ່ໄດ້ມາຈາກຮູບພາບ polarized. ດັ່ງທີ່ເຫັນໃນສ່ວນລຸ່ມຂວາຂອງຮູບທີ 3, ຕຳແໜ່ງຈຸດສາກທີ່ຖືກຕ້ອງຄວນມີພື້ນຜິວປົກກະຕິຢູ່ໃນຈຸດຕັດກັນຂອງກຸ່ມຜູ້ສະໝັກປົກກະຕິທີ່ໄດ້ມາຈາກທັງສອງຮູບຊົງ ແລະເລຂາຄະນິດ. ໃນຖານະເປັນຫນ້າທໍາອິດທີ່ແຕກຕ່າງກັນ sampຈຸດ scene ນໍາພາແມ່ນເປັນເອກະລັກກໍານົດໂດຍ cues geometric, ພວກເຮົາໄດ້ຢ່າງງ່າຍດາຍສາມາດກໍານົດວ່າຈຸດແມ່ນຢູ່ໃນດ້ານໂດຍການຊ່ວຍເຫຼືອຂອງ cue photometric ໄດ້. ດ້ວຍວິທີນີ້, ພວກເຮົາຫຼຸດຜ່ອນພື້ນທີ່ການແກ້ໄຂຂອງການສ້າງພື້ນຜິວທີ່ສະທ້ອນແສງ sparse-shot.
NeRSP
ໂຄງສ້າງເຄືອຂ່າຍດັ່ງທີ່ສະແດງຢູ່ໃນຮູບທີ 4, NeRSP ຂອງພວກເຮົານໍາໃຊ້ໂຄງສ້າງເຄືອຂ່າຍທີ່ຄ້າຍຄືກັນກັບ PANDORA [9] ຕົ້ນສະບັບມາຈາກ Ref-NeRF [30]. ສໍາລັບ ray ແສງສະຫວ່າງທີ່ປ່ອຍອອກມາຈາກສູນກາງກ້ອງຖ່າຍຮູບ o ກັບທິດທາງ v, ພວກເຮົາ sample ຈຸດເທິງ ray ກັບໄລຍະການເດີນທາງ ti, ສະຖານທີ່ຂອງມັນແມ່ນ de-noted ຢູ່ xi = o + tiv. ຫຼັງຈາກການສະແດງປະລິມານທີ່ໃຊ້ໃນ NeRF [25], Stokes vector s(v) ທີ່ສັງເກດເຫັນສາມາດຖືກລວມເຂົ້າກັນໄດ້ໂດຍຄວາມຫນາແຫນ້ນຂອງປະລິມານ σi ແລະ vectors Stokes ຢູ່ s.ampຈຸດນໍາພາຕາມ ray ໄດ້, ie
ຢູ່ໃສ ໝາຍເຖິງການຖ່າຍທອດສະສົມຂອງ asampຈຸດນໍາພາ.
ໄດ້ຮັບການກະຕຸ້ນໂດຍວິທີການຟື້ນຟູ neural 3D ທີ່ຜ່ານມາ NeuS [33], ພວກເຮົາໄດ້ຮັບຄວາມຫນາແຫນ້ນຂອງປະລິມານຈາກເຄືອຂ່າຍ SDF ແລະຍັງສະກັດພື້ນຜິວປົກກະຕິຈາກການ gradient ຂອງ SDF. ເພື່ອຄິດໄລ່ so(xi, v) at sampຈຸດນໍາພາ, ພວກເຮົາປະຕິບັດຕາມຮູບແບບການສ້າງຮູບພາບ polarimetric ໃນ Eq. (10). ໂດຍສະເພາະ, ການແຜ່ກະຈາຍ radiance Ld ແມ່ນກ່ຽວຂ້ອງກັບຄ່າສໍາປະສິດສາຍສົ່ງຂອງ albedo ແລະ Fresnel ກະຈາຍ, ເຊິ່ງຂຶ້ນກັບຕໍາແຫນ່ງ scene ແຕ່ invariant ກັບ. view ທິດທາງ. ດັ່ງນັ້ນ, ພວກເຮົາໃຊ້ເຄືອຂ່າຍ radiance ກະຈາຍເພື່ອແຜນທີ່ Ld ຈາກລັກສະນະຂອງແຕ່ລະຈຸດ scene. Ls radiance specular ແມ່ນກ່ຽວຂ້ອງກັບ lobe specular ກໍານົດໂດຍ view ທິດທາງ, ພື້ນຜິວປົກກະຕິ, ແລະ roughness ດ້ານ. ດັ່ງນັ້ນພວກເຮົາຈຶ່ງໃຊ້ RoughnessNet ເພື່ອຄາດຄະເນຄວາມຫຍາບຂອງພື້ນຜິວ. ຮ່ວມກັບກ້ອງຖ່າຍຮູບ view ທິດທາງແລະຫນ້າດິນທີ່ຄາດຄະເນປົກກະຕິ, ພວກເຮົາຄາດຄະເນ radiance specular Ls fol-lowing ໂມດູນການເຂົ້າລະຫັດຕໍາແຫນ່ງປະສົມປະສານທີ່ສະເຫນີໂດຍ Ref-NeRF [30]. ການປະສົມປະສານ Ld ແລະ Ls, ພວກເຮົາສ້າງ vector Stokes ທີ່ສັງເກດເຫັນໃຫມ່ດັ່ງຕໍ່ໄປນີ້ Eq. (10).
ການສູນເສຍຫນ້າທີ່
ການສູນເສຍ photometric ແມ່ນກໍານົດເປັນໄລຍະ L1 ລະຫວ່າງການສັງເກດເຫັນ ˆs(v) ແລະ reconstructed Stokes vectors s(v), ie,
ບ່ອນທີ່ V ຫມາຍເຖິງຄີຫຼັງຂອງກ້ອງຖ່າຍຮູບທັງຫມົດທີ່ຖືກໂຍນອອກພາຍໃນຫນ້າກາກວັດຖຸທີ່ແຕກຕ່າງກັນ views. ສໍາລັບການສູນເສຍເລຂາຄະນິດ. ພວກເຮົາທໍາອິດຊອກຫາຈຸດ scene 3D x ຕາມ ray ກ້ອງຖ່າຍຮູບ v ຈົນກ່ວາການສໍາຜັດກັບຫນ້າດິນແລະຫຼັງຈາກນັ້ນຊອກຫາຕໍາແຫນ່ງ 2D-pixel ຄາດຄະເນທີ່ແຕກຕ່າງກັນ. viewດ. ການສູນເສຍເລຂາຄະນິດແມ່ນຖືກກໍານົດໂດຍອີງໃສ່ Eq. (6), ie.
ບ່ອນທີ່ X ຫມາຍເຖິງຈຸດຕັດກັນຂອງພື້ນຜິວ ray ພາຍໃນຫນ້າກາກວັດຖຸທີ່ແຕກຕ່າງກັນ viewດ. ນອກຈາກການສູນເສຍ photometric ແລະ geometric, ພວກເຮົາເພີ່ມການສູນເສຍຫນ້າກາກທີ່ຄວບຄຸມໂດຍຫນ້າກາກວັດຖຸແລະການສູນເສຍປົກກະຕິ Eikonal. ການສູນເສຍຫນ້າກາກແມ່ນຖືກກໍານົດເປັນ
ຢູ່ໃສ ເປັນຕົວແທນຂອງໜ້າກາກທີ່ຄາດຄະເນໄວ້ຢູ່ທີ່ k-th camera ray, ເຊິ່ງຄ່າໜ້າກາກ GT ແມ່ນໝາຍເຖິງ Mk. BCE ເປັນຕົວແທນຂອງການສູນເສຍຂ້າມ entropy binary.
ບ່ອນທີ່ ni,k ແມ່ນພື້ນຜິວປົກກະຕິທີ່ໄດ້ມາຈາກເຄືອຂ່າຍ SDF ຢູ່ທີ່ i-th sampຈຸດນໍາພາຕາມກ້ອງ k-th ray. NeRSP ຂອງພວກເຮົາຖືກເບິ່ງແຍງໂດຍການປະສົມປະສານຂອງເງື່ອນໄຂການສູນເສຍຂ້າງເທິງ, ie
ບ່ອນທີ່ λe, λm, ແລະ λp ເປັນຄ່າສໍາປະສິດສໍາລັບເງື່ອນໄຂການສູນເສຍທີ່ສອດຄ້ອງກັນ.
ຊຸດຂໍ້ມູນ RMVP3D
ເພື່ອປະເມີນວິທີການທີ່ສະເໜີມາໃນປະລິມານ, ພວກເຮົາເກັບເອົາ Multi-world Realview ຊຸດຂໍ້ມູນຮູບ Polarized ທີ່ມີຕາໜ່າງຄວາມຈິງທີ່ສອດຄ່ອງກັນ. ຮູບທີ 5 (ຊ້າຍ) ສະແດງໃຫ້ເຫັນເຖິງການຕັ້ງຄ່າການຈັບພາບຂອງພວກເຮົາ, ເຊິ່ງລວມມີກ້ອງຖ່າຍຮູບ Polarimetric, FLIR BFS-U3-51S5PC-C, ພ້ອມດ້ວຍເລນ 12 ມມ ແລະ ລາງລົດໄຟໝູນ. ພວກເຮົາໃຊ້ OpenCV ສໍາລັບ demosaicing ຂໍ້ມູນດິບແລະໄດ້ຮັບ 1224 × 1024 ຮູບພາບສີທີ່ມີມຸມ polarizer ຢູ່ 0, 45, 90, ແລະ 135 ອົງສາ. ໃນລະຫວ່າງການຈັບຂໍ້ມູນ, ພວກເຮົາວາງວັດຖຸເປົ້າຫມາຍຢູ່ກາງຂອງລາງລົດໄຟແລະການຖ່າຍຮູບ 60 ຮູບພາບຕໍ່ວັດຖຸໂດຍການຍ້າຍກ້ອງຖ່າຍຮູບຄູ່ມື. ພວກເຮົາເກັບເອົາວັດຖຸ 4 ອັນເປັນເປົ້າໝາຍຄື: DOG, FROG, LION, ແລະ BALL, ດັ່ງທີ່ສະແດງໃນຮູບທີ 5 (ກາງ). ສໍາລັບການປະເມີນຜົນດ້ານປະລິມານ, ພວກເຮົາຮັບຮອງເອົາເຄື່ອງສະແກນເລເຊີ Creaform HandySCAN BLACK ທີ່ມີຄວາມຖືກຕ້ອງຂອງ 0.01 ມມເພື່ອໃຫ້ໄດ້ຕາຫນ່າງຄວາມຈິງ. ເພື່ອຈັດວາງຕາຫນ່າງກັບຮູບພາບທີ່ບັນທຶກໄວ້ views, ທໍາອິດພວກເຮົານໍາໃຊ້ PANDORA [9] ເພື່ອຄາດຄະເນຮູບຮ່າງອ້າງອີງໂດຍໃຊ້ທັງຫມົດທີ່ມີຢູ່ views ແລະຫຼັງຈາກນັ້ນຈັດລຽງຕາຫນ່າງທີ່ສະແກນໄປຫາການຄາດຄະເນໂດຍຜ່ານລະບົບ ICP [4]. ນອກຈາກຮູບຮ່າງຄວາມຈິງພື້ນທີ່ແລະຫຼາຍview ຮູບພາບຕ່າງໆ, ພວກເຮົາຍັງບັນທຶກແຜນທີ່ສະພາບແວດລ້ອມໂດຍໃຊ້ກ້ອງຖ່າຍຮູບ 360 ອົງສາ THETA Z1, ເປັນປະໂຫຍດຕໍ່ການປະເມີນດ້ານປະລິມານໃນການຄາດຄະເນການສະຫວ່າງສໍາລັບວຽກງານການສະແດງຜົນທາງກົງກັນຂ້າມຂອງ neural ທີ່ກ່ຽວຂ້ອງ.
ການທົດລອງ
ພວກເຮົາປະເມີນ NeRSP ດ້ວຍສາມການທົດລອງ: 1) ການປຽບທຽບກັບຫຼາຍທີ່ມີຢູ່ແລ້ວview ວິທີການຟື້ນຟູ 3D ໃນປະລິມານໃນຊຸດຂໍ້ມູນສັງເຄາະ; 2) ການສຶກສາ ablation ກ່ຽວກັບການປະກອບສ່ວນຂອງການສູນເສຍ geometric ແລະ photometric ເງື່ອນໄຂ 3) ການປະເມີນຄຸນນະພາບແລະປະລິມານກ່ຽວກັບຊຸດຂໍ້ມູນທີ່ແທ້ຈິງ. ພວກເຮົາຍັງສະຫນອງ BRDF ແລະນະວະນິຍາຍ view ຜົນໄດ້ຮັບໃນອຸປະກອນເສີມ.
ຊຸດຂໍ້ມູນ & ພື້ນຖານ
ຊຸດຂໍ້ມູນ. ພວກເຮົາກະກຽມຊຸດຂໍ້ມູນຕົວຈິງສອງຊຸດຄື: ຊຸດຂໍ້ມູນ PAN-DORA [9] ແລະ RMVP3D ທີ່ສະເໜີຂອງພວກເຮົາ, ບ່ອນທີ່ຊຸດຂໍ້ມູນ PANDORA [9] ຖືກນໍາໃຊ້ພຽງແຕ່ສໍາລັບການປະເມີນຄຸນນະພາບຍ້ອນວ່າຕາຫນ່າງຄວາມຈິງພື້ນຖານບໍ່ໄດ້ຖືກສະຫນອງໃຫ້. ພວກເຮົາຍັງກະກຽມຫຼາຍສັງເຄາະview ຊຸດຂໍ້ມູນຮູບພາບຂົ້ວໂລກ SMVP3D ກັບເຄື່ອງຈັກການສະແດງຜົນ Mitsuba [15], ເຊິ່ງບັນຈຸ 5 ວັດຖຸທີ່ມີຄວາມແຕກຕ່າງກັນທາງດ້ານພື້ນທີ່ ແລະສະທ້ອນແສງສະທ້ອນ, ດັ່ງທີ່ເຫັນໃນຮູບທີ 6. ວັດຖຸດັ່ງກ່າວຖືກແສງໂດຍແຜນທີ່ສະພາບແວດລ້ອມ 2 ແລະ ຈັບພາບດ້ວຍ 6. views ແຈກຢາຍແບບສຸ່ມອ້ອມຮອບວັດຖຸ. ນອກຈາກການເຮັດໃຫ້ຮູບພາບ Polarized, ພວກເຮົາຍັງສົ່ງອອກ vectors stokes, ແຜນທີ່ປົກກະຕິພື້ນຜິວ GT, ແລະແຜນທີ່ AoP ສໍາລັບແຕ່ລະວັດຖຸ.
ພື້ນຖານ. ວຽກງານຂອງພວກເຮົາແກ້ໄຂຫຼາຍview ການສ້າງແບບ 3 ມິຕິຄືນໃໝ່ສຳລັບພື້ນຜິວທີ່ສະທ້ອນແສງໂດຍອ້າງອີງຈາກຮູບຂົ້ວໂລກບາງໆ. ດັ່ງນັ້ນ, ພວກເຮົາເລືອກວິທີການກໍ່ສ້າງ 3D ທີ່ທັນສະໃໝທີ່ກຳນົດເປົ້າໝາຍໃສ່ພື້ນຜິວທີ່ສະທ້ອນແສງ NeRO [19] ແລະເບົາບາງ. views S-VolSDF [35]. ສອງວິທີການຂ້າງເທິງນີ້ແມ່ນອີງໃສ່ການປ້ອນຂໍ້ມູນຮູບພາບ RGB. ສໍາລັບຫຼາຍview stereo ໂດຍອີງໃສ່ຮູບພາບ polarized, ພວກເຮົາເລືອກ PANDORA [9] ແລະ MVAS [6] ເປັນພື້ນຖານຂອງພວກເຮົາ. NeRO [19] ບໍ່ຕ້ອງການຫນ້າກາກ silhouette ເປັນການປ້ອນຂໍ້ມູນ. ສໍາລັບການປຽບທຽບທີ່ຍຸດຕິທໍາ, ພວກເຮົາເອົາພື້ນຫລັງໃນຮູບພາບ RGB ທີ່ມີຫນ້າກາກທີ່ສອດຄ້ອງກັນກ່ອນທີ່ຈະໃສ່ກັບ NeRO [19]. ເພື່ອປຽບທຽບວິທີການທີ່ແຕກຕ່າງກັນ, ພວກເຮົານໍາໃຊ້ໄລຍະຫ່າງ Chamfer (CD) ລະຫວ່າງການຄາດຄະເນແລະຕາຫນ່າງ GT, ແລະຄວາມຜິດພາດມຸມສະເລ່ຍ (MAE) ລະຫວ່າງການຄາດຄະເນແລະ GT ພື້ນຜິວປົກກະຕິທີ່ແຕກຕ່າງກັນ. views ເປັນ metrics ການປະເມີນຜົນຂອງພວກເຮົາ.
ການຟື້ນຕົວຮູບຮ່າງໃນຊຸດຂໍ້ມູນສັງເຄາະ
ດັ່ງທີ່ສະແດງຢູ່ໃນຕາຕະລາງ 1, ພວກເຮົາສະຫຼຸບຄວາມຜິດພາດຂອງການຄາດຄະເນຮູບຮ່າງຂອງວິທີການທີ່ມີຢູ່ແລ້ວແລະຂອງພວກເຮົາໃນ SMVP3D. ວິທີການຂອງພວກເຮົາບັນລຸໄລຍະຫ່າງ Chamfer ທີ່ນ້ອຍທີ່ສຸດຕາມທັງຫມົດຂອງ 5 ວັດຖຸສັງເຄາະ. ອີງຕາມການຄາດຄະເນຮູບຮ່າງທີ່ເປັນພາບທີ່ສະແດງຢູ່ໃນຮູບທີ 7, NeRO [19] ແລະ S-VolSDF [35] ບໍ່ສາມາດຟື້ນຕົວລາຍລະອຽດພື້ນຜິວໄດ້ຢ່າງຖືກຕ້ອງຕາມທີ່ເນັ້ນໄວ້ໃນຮູບປິດ. viewດ. ເຫດຜົນຫນຶ່ງທີ່ເປັນໄປໄດ້ແມ່ນວ່າຄວາມບໍ່ສອດຄ່ອງຂອງຮູບຮ່າງແລະການສະທ້ອນທີ່ສະທ້ອນຈາກຮູບພາບທີ່ຫນາແຫນ້ນແມ່ນມີຄວາມທ້າທາຍເກີນໄປສໍາລັບວິທີການເຫຼົ່ານີ້ໂດຍອີງໃສ່ຂໍ້ມູນ RGB ເທົ່ານັ້ນ. MVAS [6] ແລະ PANDORA [9] ກ່າວເຖິງ cues geometric ແລະ photometric ຂອງຮູບພາບ polarized, ແຍກຕ່າງຫາກ. ຢ່າງໃດກໍຕາມ, ຮູບຮ່າງຂອງພື້ນຜິວສະທ້ອນຄືນໃຫມ່ຍັງບໍ່ເປັນທີ່ພໍໃຈເນື່ອງຈາກຄວາມບໍ່ແນ່ນອນຂອງ geometric ແລະ photometric cues ພາຍໃຕ້ sparse. viewການຕັ້ງຄ່າ. ດັ່ງທີ່ໄດ້ຍົກໃຫ້ເຫັນໃນບົດປິດ views, ໄດ້ຮັບຜົນປະໂຫຍດຈາກທັງ cues geometric ແລະ photometric, ວິທີການຂອງພວກເຮົາຫຼຸດຜ່ອນການແກ້ໄຂພື້ນທີ່ຂອງການຄາດຄະເນຮູບຮ່າງ, ນໍາໄປສູ່ການຟື້ນຟູຮູບຮ່າງທີ່ສົມເຫດສົມຜົນທີ່ສຸດເມື່ອທຽບກັບຮູບຮ່າງ GT.
ນອກຈາກການປະເມີນຜົນຂອງຕາຫນ່າງທີ່ສ້າງຂຶ້ນໃຫມ່, ພວກເຮົາຍັງທົດສອບຜົນໄດ້ຮັບການຄາດຄະເນປົກກະຕິຂອງຫນ້າດິນ. ດັ່ງທີ່ສະແດງຢູ່ໃນຕາຕະລາງ 2, ພວກເຮົາສະຫຼຸບຄວາມຜິດພາດຂອງມຸມສະເລ່ຍຂອງການຄາດຄະເນຂອງພື້ນຜິວປົກກະຕິຢູ່ທີ່ 6. views ຈາກວິທີການທີ່ແຕກຕ່າງກັນ. ສອດຄ່ອງກັບຜົນການປະເມີນຜົນໃນຕາຕະລາງ 1, NeRSP ບັນລຸຄວາມຜິດພາດເປັນລ່ຽມທີ່ນ້ອຍທີ່ສຸດໂດຍສະເລ່ຍ. ພວກເຮົາຍັງໄດ້ສັງເກດເຫັນວ່າຜົນໄດ້ຮັບຈາກ NeRO [19], MVAS [6], ແລະ PANDORA [9] ມີຄວາມຜິດພາດທີ່ໃຫຍ່ກວ່າກ່ຽວກັບວັດຖຸທີ່ມີລາຍລະອຽດດີເຊັ່ນວັດຖຸ DAVID ແລະ DRAGON. ເປັນ example, MVAS [6] ມີໄລຍະຫ່າງ Chamfer ທີ່ນ້ອຍທີ່ສຸດທີສອງທີ່ສະແດງຢູ່ໃນຕາຕະລາງ 1, ແຕ່ຄວາມຜິດມຸມສະເລ່ຍແມ່ນຫຼາຍກວ່າ 20◦. ເຫດຜົນອັນໜຶ່ງທີ່ອາດເປັນໄປໄດ້ແມ່ນວິທີການທີ່ມີຢູ່ໃຫ້ຜົນຜະລິດຮູບຮ່າງລຽບໃນກະແຈກກະຈາຍ views ການຕັ້ງຄ່າ, ບ່ອນທີ່ລາຍລະອຽດດ້ານເຊັ່ນ: flakes ຂອງ DRAGON ແມ່ນບໍ່ໄດ້ຟື້ນຕົວໄດ້ດີ.
ຕາຕະລາງ 1. ການປຽບທຽບການຟື້ນຕົວຮູບຮ່າງກ່ຽວກັບຊຸດຂໍ້ມູນສັງເຄາະທີ່ປະເມີນໂດຍໄລຍະຫ່າງ Chamfer (↓). ຂໍ້ຜິດພາດທີ່ນ້ອຍທີ່ສຸດ ແລະອັນທີສອງແມ່ນຕິດປ້າຍຕົວໜາ ແລະຂີດກ້ອງ. “N/A” ໝາຍເຖິງການທົດລອງທີ່ວິທີການສະເພາະໃດໜຶ່ງບໍ່ສາມາດໃຫ້ຜົນໄດ້ຮັບການປະເມີນຮູບຮ່າງທີ່ສົມເຫດສົມຜົນ.
ການສຶກສາ Ablation
ໃນພາກນີ້, ພວກເຮົາດໍາເນີນການສຶກສາ ablation ເພື່ອທົດສອບປະສິດທິພາບຂອງ geometric ແລະ photometric cues. ເອົາວັດຖຸ DRAGON ເປັນ example, ພວກເຮົາດໍາເນີນການວິທີການຂອງພວກເຮົາດ້ວຍແລະບໍ່ມີການສູນເສຍ photometric Lp ແລະການສູນເສຍເລຂາຄະນິດ Lg. ດັ່ງທີ່ສະແດງຢູ່ໃນຮູບທີ 8, ພວກເຮົາວາງແຜນຮູບຮ່າງແລະພື້ນຜິວການຄາດຄະເນປົກກະຕິໂດຍການປິດການໃຊ້ເງື່ອນໄຂການສູນເສຍທີ່ແຕກຕ່າງກັນ. ໂດຍບໍ່ມີການສູນເສຍ photometric ໄດ້, ຮູບຮ່າງບໍ່ຊັດເຈນເນື່ອງຈາກການ sparse ໄດ້ views ເກີດຂຶ້ນ. ດັ່ງທີ່ສະແດງໃຫ້ເຫັນຈາກປິດ views, ຮູບຮ່າງຢູ່ໃກ້ກັບສ່ວນຂາມີປອມ concave, ຍ້ອນວ່າມີພຽງແຕ່ສອງສັງເກດເຫັນ views ສໍາລັບພາກພື້ນນີ້, ບໍ່ສາມາດສ້າງການແກ້ໄຂທີ່ເປັນເອກະລັກສໍາລັບຮູບຮ່າງພຽງແຕ່ອີງໃສ່ແຜນທີ່ AoP [6]. ໂດຍບໍ່ມີການສູນເສຍທາງເລຂາຄະນິດ, ພວກເຮົາຍັງໄດ້ຮັບຜົນຂອງຮູບຮ່າງທີ່ບິດເບືອນຍ້ອນວ່າການສັງເກດຮູບພາບເລັກນ້ອຍບໍ່ພຽງພໍທີ່ຈະທໍາລາຍຮູບຮ່າງ, ການສະທ້ອນ, ແລະການສ່ອງແສງຢ່າງເປັນເອກະລັກ. ໂດຍການລວມການສູນເສຍ photometric ແລະ geo-metric, NeRSP ຂອງພວກເຮົາຫຼຸດຜ່ອນຄວາມບໍ່ແນ່ນອນຂອງການຟື້ນຕົວຂອງຮູບຮ່າງແລະຮູບຮ່າງທີ່ຄາດຄະເນແມ່ນໃກ້ຊິດກັບ GT, ດັ່ງທີ່ເນັ້ນໃສ່ໃນຮູບປິດ. views.
ຮູບ 8. ການສຶກສາ Ablation ກ່ຽວກັບເງື່ອນໄຂການສູນເສຍທີ່ແຕກຕ່າງກັນ. ແຖວເທິງ ແລະລຸ່ມສະແດງພາບທີ່ຄາດຄະເນຮູບຮ່າງ ແລະພື້ນຜິວປົກກະຕິ, ໂດຍມີໄລຍະຫ່າງຂອງ Chamfer ແລະຄວາມຜິດພາດເປັນລ່ຽມສະເລ່ຍທີ່ຕິດສະຫຼາກຢູ່ເທິງສຸດຂອງແຕ່ລະຮູບຍ່ອຍ, ຕາມລໍາດັບ.
ການຟື້ນຕົວຮູບຮ່າງກ່ຽວກັບຂໍ້ມູນທີ່ແທ້ຈິງ
ນອກຈາກການທົດລອງສັງເຄາະທີ່ສະແດງໃນພາກກ່ອນ, ພວກເຮົາຍັງປະເມີນວິທີການຂອງພວກເຮົາໃນຊຸດຂໍ້ມູນ PANDORA dataset [9] ແລະ RMVP3D ເພື່ອທົດສອບການໃຊ້ງານຂອງມັນໃນສະຖານະການຟື້ນຟູ 3D ໃນໂລກທີ່ແທ້ຈິງ.
ການປະເມີນຄຸນນະພາບໃນຊຸດຂໍ້ມູນ PANDORA [9]. ດັ່ງທີ່ສະແດງຢູ່ໃນຮູບທີ 9, ພວກເຮົາສະຫນອງການປະເມີນຄຸນນະພາບຂອງຊຸດຂໍ້ມູນ PAN-DORA [9]. ເມື່ອປຽບທຽບກັບຮູບລັກສະນະຂອງຮູບພາບທີ່ມີຜົນໄດ້ຮັບທີ່ຄາດຄະເນຈາກ S-VolSDF [35] ແລະ NeRO [19], ຮູບຮ່າງບໍ່ຖືກຕັດອອກຢ່າງເຕັມສ່ວນຈາກການສະທ້ອນ, ເຮັດໃຫ້ມີຮູບຮ່າງຫນ້າດິນທີ່ມີຮອຍແຕກທີ່ມີຄວາມກ່ຽວຂ້ອງຢ່າງໃກ້ຊິດກັບໂຄງສ້າງການສະທ້ອນ. MVAS [6] ແລະ PANDORA [9] ມີການຄາດການຮູບຮ່າງທີ່ລື່ນກາຍ ຫຼືຮູບແຕ້ມຮູບຊົງ concave, ອັນເນື່ອງມາຈາກການບອກພຽງແຕ່ cues geometric ຫຼື photometric ພາຍໃຕ້ການຕັ້ງຄ່າ sparse capture. ຜົນການປະເມີນຮູບຮ່າງຂອງພວກເຮົາບໍ່ມີຮູບຊົງປອມ ແລະກົງກັບການສັງເກດຮູບພາບຢ່າງໃກ້ຊິດ.
ຕາຕະລາງ 3. ການປະເມີນປະລິມານກ່ຽວກັບ RMVP3D ດ້ວຍ Chamfer dis-tance (↓). ວິທີການຂອງພວກເຮົາບັນລຸຄວາມຜິດພາດທີ່ນ້ອຍທີ່ສຸດໂດຍສະເລ່ຍ.
ວິທີການ | ໝາ | ສິງໂຕ | FROG | ບານ | ສະເລ່ຍ |
NeRO [19] | 9.11 | 10.74 | 6.21 | 3.87 | 7.48 |
S-VolSDF [35] | 9.93 | 7.39 | 7.91 | 18.4 | 10.91 |
MVAS [6] | 9.23 | 7.51 | 9.90 | 4.77 | 7.86 |
PANDORA [9] | 14.3 | 15.04 | 11.27 | 3.96 | 11.14 |
NeRSP (ຂອງພວກເຮົາ) | 8.80 | 5.18 | 6.70 | 3.84 | 6.13 |
ການປະເມີນປະລິມານໃນ RMVP3D. ດັ່ງທີ່ສະແດງຢູ່ໃນຕາຕະລາງ 3, ພວກເຮົານໍາສະເຫນີການປະເມີນປະລິມານຂອງ RMVP3D ໂດຍອີງໃສ່ໄລຍະຫ່າງ Chamfer. ສອດຄ່ອງກັບການທົດລອງສັງເຄາະ, NeRSP ຂອງພວກເຮົາບັນລຸຄວາມຜິດພາດການຄາດຄະເນຂະຫນາດນ້ອຍສຸດໂດຍສະເລ່ຍ. ຮູບຮ່າງທີ່ເປັນພາບທີ່ສະແດງຢູ່ໃນຮູບທີ 10 ສະແດງໃຫ້ເຫັນຕື່ມອີກວ່າພື້ນຜິວທີ່ສະທ້ອນແສງແມ່ນທ້າທາຍກັບ S-VolSDF [35] ສໍາລັບການແຍກຮູບຮ່າງຈາກການສະທ້ອນ, ດັ່ງທີ່ເນັ້ນໃຫ້ເຫັນໂດຍຫນ້າດິນຂອງວັດຖຸ FROG ໃນປິດ. views. NeRO [19] ແລະ PANDORA [9] ມີຄວາມຜິດພາດໃນການຄາດຄະເນທີ່ຄ້າຍຄືກັນກັບພວກເຮົາກ່ຽວກັບວັດຖຸ BALL ງ່າຍດາຍ. ສໍາລັບຮູບຮ່າງທີ່ຊັບຊ້ອນເຊັ່ນ LION, ການຟື້ນຟູຮູບຮ່າງທີ່ບິດເບືອນແມ່ນໄດ້ຮັບຈາກວິທີການເຫຼົ່ານີ້ເນື່ອງຈາກການກະແຈກກະຈາຍ view ການຕັ້ງຄ່າ, ໃນຂະນະທີ່ພວກເຮົາໃກ້ຊິດກັບຕາຫນ່າງ GT, ສະແດງໃຫ້ເຫັນເຖິງປະສິດທິພາບຂອງວິທີການຂອງພວກເຮົາໃນການກໍ່ສ້າງພື້ນຜິວສະທ້ອນໃຫ້ເຫັນທີ່ແທ້ຈິງພາຍໃຕ້ການປ້ອນຂໍ້ມູນເລັກນ້ອຍ.
ສະຫຼຸບ
ພວກເຮົາສະເຫນີ NeRSP, ວິທີການຟື້ນຟູ neural 3D ສໍາລັບພື້ນຜິວສະທ້ອນພາຍໃຕ້ຮູບ polarized sparse. ເນື່ອງຈາກຄວາມທ້າທາຍຂອງຮູບຮ່າງ-radiance ambiguity ແລະການສະທ້ອນທີ່ຊັບຊ້ອນ, ວິທີການທີ່ມີຢູ່ແລ້ວຕໍ່ສູ້ກັບການສະທ້ອນດ້ານຫນ້າຫຼື sparse. views ແລະບໍ່ສາມາດແກ້ໄຂບັນຫາທັງສອງກັບຮູບພາບ RGB. ພວກເຮົາສະເໜີໃຫ້ໃຊ້ຮູບຂົ້ວໂລກເປັນວັດສະດຸປ້ອນ. ໂດຍການລວມເອົາ cues geometric ແລະ photometric ສະກັດຈາກຮູບພາບ polarized, ພວກເຮົາຫຼຸດຜ່ອນພື້ນທີ່ການແກ້ໄຂຂອງຮູບຮ່າງທີ່ຄາດຄະເນ, ອະນຸຍາດໃຫ້ສໍາລັບການຟື້ນຕົວປະສິດທິພາບຂອງພື້ນຜິວສະທ້ອນກັບຈໍານວນຫນ້ອຍເປັນ 6. views, ດັ່ງທີ່ສະແດງໃຫ້ເຫັນໂດຍສາທາລະນະແລະຊຸດຂໍ້ມູນຂອງພວກເຮົາ.
- ຂໍ້ຈຳກັດ
ການສະທ້ອນລະຫວ່າງກັນແລະແສງສະພາບແວດລ້ອມຂົ້ວໂລກບໍ່ໄດ້ຖືກພິຈາລະນາໃນວຽກງານນີ້, ເຊິ່ງສາມາດມີອິດທິພົນຕໍ່ຄວາມຖືກຕ້ອງຂອງການຟື້ນຟູຮູບຮ່າງ. ພວກເຮົາສັງເກດເຫັນວຽກງານທີ່ຜ່ານມາຫຼາຍທີ່ສຸດ NeISF [17] ສຸມໃສ່ຫົວຂໍ້ນີ້, ແລະພວກເຮົາມີຄວາມສົນໃຈໃນການສົມທົບການສັກຢາຂອງພວກເຮົາກັບວຽກງານນີ້ໃນອະນາຄົດ. - ການຮັບຮູ້
ວຽກງານນີ້ໄດ້ຮັບການສະຫນັບສະຫນູນຈາກໂຄງການພື້ນຖານວິທະຍາສາດທໍາມະຊາດປັກກິ່ງເລກ Z200002, ມູນນິທິວິທະຍາສາດທໍາມະຊາດແຫ່ງຊາດຂອງຈີນ (ການຊ່ວຍເຫຼືອລ້າ No. 62136001, 62088102, 62225601, U23B2052), ທີມງານຄົ້ນຄ້ວານະວັດຕະກໍາຂອງໄວຫນຸ່ມຂອງ BUPT No. 2023QEN the JNTSD02. (ການຊ່ວຍເຫຼືອລ້າ No. JP22K17910 ແລະ JP23H05491). ພວກເຮົາຂໍຂອບໃຈ Youwei Lyu ສໍາລັບການສົນທະນາທີ່ເລິກເຊິ່ງ.
ເອກະສານອ້າງອີງ
- Yunhao Ba, Alex Gilbert, Franklin Wang, Jinfa Yang, Rui Chen, Yiqin Wang, Lei Yan, Boxin Shi, ແລະ Achuta Kadambi. ຮູບຮ່າງເລິກຈາກການຂົ້ວ. ໃນ ECCV, ໜ້າ 554–571, 2020. 2
- Seung-Hwan Baek, Daniel S Jeon, Xin Tong, ແລະ Min H Kim. ການໄດ້ມາພ້ອມໆກັນຂອງ SVBRDF polarimetric ແລະປົກກະຕິ. ACM TOG, 37(6):268–1, 2018. 2, 3, 4
- Jonathan T Barron, Ben Mildenhall, Matthew Tancik, Peter Hedman, Ricardo Martin-Brualla, ແລະ Pratul P Srinivasan. Mip-NeRF: ການເປັນຕົວແທນຫຼາຍຂະໜາດສຳລັບຂົງເຂດການຕ້ານການ radiance neural aliasing. ໃນ ICCV, ໜ້າ 5855–5864, 2021. 2
- Paul J Besl ແລະ Neil D McKay. ວິທີການລົງທະບຽນຮູບ 3-D. ໃນ Sensor fusion IV: ການຄວບຄຸມ paradigms ແລະໂຄງສ້າງຂໍ້ມູນ, ໜ້າ 586–606, 1992. 6
- Mark Boss, Varun Jampani, Raphael Braun, Ce Liu, Jonathan Barron, ແລະ Hendrik Lensch. Neural-PIL: Neural pre-integrated lighting ສໍາລັບການ decomposition reflectance. ໃນ NeurIPS, ໜ້າ 10691–10704, 2021. 1, 2
- Xu Cao, Hiroaki Santo, Fumio Okura, ແລະ Yasuyuki Matsushita. ຫຼາຍView Azimuth Stereo ຜ່ານ Tangent Space Consistency. ໃນ CVPR, ໜ້າ 825–834, 2023. 2, 3, 4, 6, 7, 8
- Anpei Chen, Zexiang Xu, Fuqiang Zhao, Xiaoshuai Zhang, Fanbo Xiang, Jingyi Yu, ແລະ Hao Su. MVSNeRF: ການຟື້ນຟູພາກສະຫນາມ radiance ທົ່ວໄປໄດ້ໄວຈາກຫຼາຍ.view stereo. ໃນ CVPR, ໜ້າ 14124–14133, 2021. 2
- Zhaopeng Cui, Jinwei Gu, Boxin Shi, Ping Tan, ແລະ Jan Kautz. Polarimetric ຫຼາຍview stereo. ໃນ CVPR, ໜ້າ 1558–1567, 2017. 2
- Akshat Dave, Yongyi Zhao, ແລະ Ashok Veeraraghavan. Pandora: Polarization-ຊ່ວຍ decomposition neural ຂອງ radiance. ໃນ ECCV, ໜ້າ 538–556, 2022. 1, 2, 4, 6, 7, 8
- Kangle Deng, Andrew Liu, Jun-Yan Zhu, ແລະ Deva Ra-manan. NeRF ຄວບຄຸມຄວາມເລິກ: ໜ້ອຍລົງ views ແລະການຝຶກອົບຮົມໄວຂຶ້ນໂດຍບໍ່ເສຍຄ່າ. ໃນ CVPR, ໜ້າ 12882–12891, 2022. 2
- Yuqi Ding, Yu Ji, Mingyuan Zhou, Sing Bing Kang, ແລະ Jin-wei Ye. Polarimetric Helmholtz stereopsis. ໃນ ICCV, ໜ້າ 5037–5046, 2021. 2
- Yoshiki Fukao, Ryo Kawahara, Shohei Nobuhara, ແລະ Ko Nishino. Polarimetric stereo ປົກກະຕິ. ໃນ CVPR, ໜ້າ 682–690, 2021. 2
- Wenhang Ge, Tao Hu, Haoyu Zhao, Shu Liu, ແລະ Ying-Cong Chen. Ref-NeuS: ການຮຽນຮູ້ໃບໜ້າທາງ Neural Implicated Sur-face Learning for Multi-View ການຟື້ນຟູດ້ວຍການສະທ້ອນ. arXiv preprint arXiv:2303.10840, 2023. 1
- Richard Hartley ແລະ Andrew Zisserman. ຫຼາຍ view ເລຂາຄະນິດໃນວິໄສທັດຄອມພິວເຕີ. Cambridge University Press, 2003. 1
- Wenzel Jakob. Mitsuba renderer, 2010. 6
- Chenyang Lei, Chenyang Qi, Jiaxin Xie, Na Fan, Vladlen Koltun, ແລະ Qifeng Chen. ຮູບຮ່າງຈາກ polarization ສໍາລັບ scenes ສະລັບສັບຊ້ອນໃນທໍາມະຊາດ. ໃນ CVPR, ໜ້າ 12632–12641, 2022. 2
- Chenhao Li, Taishi Ono, Takeshi Uemori, Hajime Mihara, Alexander Gatto, Hajime Nagahara, ແລະ Yuseke Moriuchi. NeISF: Neural Incident Stokes Field ສໍາລັບ Geometry ແລະການຄາດຄະເນວັດສະດຸ. arXiv preprint arXiv:2311.13187, 2023. 8
- Zhaoshuo Li, Thomas M¨uller, Alex Evans, Russell H Taylor, Mathias Unberath, Ming-Yu Liu, ແລະ Chen-Hsuan Lin. Neu-Colangelo: ການຟື້ນຟູພື້ນຜິວເສັ້ນປະສາດທີ່ມີຄວາມສັດຊື່ສູງ. ໃນ CVPR, ໜ້າ 8456–8465, 2023. 2
- Yuan Liu, Peng Wang, Cheng Lin, Xiaoxiao Long, Jiepeng Wang, Lingjie Liu, Taku Komura, ແລະ Wenping Wang. NeRO: Neural Geometry ແລະ BRDF ການຟື້ນຟູວັດຖຸສະທ້ອນຈາກຫຼາຍview ຮູບພາບ. arXiv preprint arXiv:2305.17398, 2023. 1, 2, 4, 6, 7, 8
- Xiaoxiao Long, Cheng Lin, Peng Wang, Taku Komura, ແລະ Wenping Wang. SparseNeuS: ການສ້າງພື້ນຜິວ neural ທົ່ວໄປໄວຈາກ sparse viewດ. ໃນ ECCV, ໜ້າ 210–227, 2022. 2
- Youwei Lyu, Lingran Zhao, Si Li, ແລະ Boxin Shi. ຮູບຮ່າງຈາກ polarization ກັບການຄາດຄະເນແສງສະຫວ່າງຫ່າງໄກ. IEEE TPAMI, 2023. 2
- Ben Mildenhall, Pratul P Srinivasan, Matthew Tancik, Jonathan T Barron, Ravi Ramamoorthi, ແລະ Ren Ng. NeRF: ເປັນຕົວແທນຂອງ scenes ເປັນພາກສະຫນາມ radiance neural ສໍາລັບ view ການສັງເຄາະ. ໃນ ECCV, ໜ້າ 405–421, 2020. 1, 2
- Miyazaki, Tan, Hara, ແລະ Ikeuchi. ການສະແດງຜົນປີ້ນທີ່ອີງໃສ່ Polarization ຈາກອັນດຽວ view. ໃນ ICCV, ໜ້າ 982–987, 2003. 2
- Michael Niemeyer, Lars Mescheder, Michael Oechsle, ແລະ Andreas Geiger. ການສະແດງປະລິມານທີ່ແຕກຕ່າງໄດ້: ການຮຽນຮູ້ການເປັນຕົວແທນ 3D ທີ່ບໍ່ມີການຊີ້ນໍາ 3D. ໃນ CVPR, ໜ້າ 3504–3515, 2020. 2
- Michael Niemeyer, Jonathan T Barron, Ben Mildenhall, Mehdi SM Sajjadi, Andreas Geiger, ແລະ Noha Radwan. Reg-nerf: Regularizing neural radiance fields ສໍາລັບ view ການສັງເຄາະຈາກວັດສະດຸປ້ອນເລັກນ້ອຍ. ໃນ CVPR, ໜ້າ 5480–5490, 2022. 2, 4
- Michael Oechsle, Songyou Peng, ແລະ Andreas Geiger. UNISURF: ການໂຮມພື້ນຜິວທາງ neural implicit ແລະຂົງເຂດ radiance ສໍາລັບຫຼາຍ.view ການຟື້ນຟູ. ໃນ ICCV, ໜ້າ 5589–5599, 2021. 2
- Jeong Joon Park, Peter Florence, Julian Straub, Richard Newcombe, ແລະ Steven Lovegrove. DeepSDF: ການຮຽນຮູ້ຟັງຊັນໄລຍະຫ່າງທີ່ໄດ້ເຊັນຢ່າງຕໍ່ເນື່ອງສໍາລັບການເປັນຕົວແທນຮູບຮ່າງ. ໃນ CVPR, ໜ້າ 165–174, 2019. 1
- Vincent Sitzmann, Julien Martel, Alexander Bergman, David Lindell, ແລະ Gordon Wetzstein. ການເປັນຕົວແທນຂອງ neural implicit ກັບຟັງຊັນການກະຕຸ້ນແຕ່ລະໄລຍະ. ໃນ NeurIPS, 2020. 1
- William AP Smith, Ravi Ramamoorthi, ແລະ Silvia Tozza. ຄວາມສູງຈາກຂົ້ວໂລກທີ່ມີແສງທີ່ບໍ່ຮູ້ຈັກ ຫຼື albedo. IEEE TPAMI, 41(12):2875–2888, 2018. 2
- Dor Verbin, Peter Hedman, Ben Mildenhall, Todd Zickler, Jonathan T Barron, ແລະ Pratul P Srinivasan. Ref-NeRF: ໂຄງສ້າງ view- ຮູບລັກສະນະທີ່ອີງໃສ່ສໍາລັບຂົງເຂດ radiance neural. ໃນ CVPR, ໜ້າ 5481–5490, 2022. 4, 5
- Bruce Walter, Stephen R Marschner, Hongsong Li, ແລະ Ken-neth E Torrance. ຕົວແບບ Microfacet ສໍາລັບການສະທ້ອນແສງຜ່ານພື້ນຜິວທີ່ຫຍາບຄາຍ. ໃນການດຳເນີນກອງປະຊຸມ Eurographics ຄັ້ງທີ 18 ກ່ຽວກັບເຕັກນິກການສະແດງ, ໜ້າ 195–206, 2007. 4
- Guangcong Wang, Zhaoxi Chen, Chen ປ່ຽນ Loy, ແລະ Ziwei Liu. SparseNeRF: ການກັ່ນການຈັດອັນດັບຄວາມເລິກສໍາລັບນະວະນິຍາຍທີ່ຍິງບໍ່ຫຼາຍປານໃດ view ການສັງເຄາະ. arXiv preprint arXiv:2303.16196, 2023. 2
- Peng Wang, Lingjie Liu, Yuan Liu, Christian Theobalt, Taku Komura, ແລະ Wenping Wang. NeuS: ການຮຽນຮູ້ພື້ນຜິວທາງ neural implicit ໂດຍການສະແດງປະລິມານສໍາລັບຫຼາຍview ການຟື້ນຟູ. arXiv preprint arXiv:2106.10689, 2021. 1, 2, 5
- Yiqun Wang, Ivan Skorokhodov, ແລະ Peter Wonka. HF-NeuS: ປັບປຸງການສ້າງພື້ນຜິວຄືນໃໝ່ໂດຍໃຊ້ລາຍລະອຽດຄວາມຖີ່ສູງ. ໃນ NeurIPS, ໜ້າ 1966–1978, 2022. 2
- Haoyu Wu, Alexandros Graikos, ແລະ Dimitris Samaras. S-VolSDF: Sparse Multi-View Stereo Regularization of Neural Implicit Surfaces. arXiv preprint arXiv:2303.17712, 2023. 1, 2, 4, 6, 7, 8
- Jiawei Yang, Marco Pavone, ແລະ Yue Wang. FreeNeRF: ການປັບປຸງການສະແດງຜົນທາງ neural ໜ້ອຍໜຶ່ງດ້ວຍການປັບຄວາມຖີ່ຄວາມຖີ່ຟຣີ. ໃນ CVPR, ໜ້າ 8254–8263, 2023. 2
- Lior Yariv, Yoni Kasten, Dror Moran, Meirav Galun, Matan Atzmon, Basri Ronen, ແລະ Yaron Lipman. ຫຼາຍview ການຟື້ນຟູພື້ນຜິວ neural ໂດຍ disentangling ເລຂາຄະນິດແລະຮູບລັກສະນະ. ໃນ NeurIPS, ໜ້າ 2492–2502, 2020. 2
- Lior Yariv, Jiatao Gu, Yoni Kasten, ແລະ Yaron Lipman. ການສະແດງລະດັບສຽງຂອງພື້ນຜິວທີ່ບໍ່ກ່ຽວຂ້ອງທາງ neural. ໃນ NeurIPS, ໜ້າ 4805–4815, 2021. 1, 2
- Alex Yu, Vickie Ye, Matthew Tancik, ແລະ Angjoo Kanazawa. pixelNeRF: ພື້ນທີ່ radiance neural ຈາກຫນຶ່ງຫຼືສອງສາມຮູບ. ໃນ CVPR, ໜ້າ 4578–4587, 2021. 2
- Kai Zhang, Gernot Riegler, Noah Snavely, ແລະ Vladlen Koltun. NeRF++: ການວິເຄາະແລະປັບປຸງຂົງເຂດ radiance neural. arXiv preprint arXiv: 2010.07492, 2020. 2
- Kai Zhang, Fujun Luan, Qianqian Wang, Kavita Bala, ແລະ Noah Snavely. PhySG: ການສະແດງຜົນແບບປີ້ນກັບ Gaussians spherical ສໍາລັບການແກ້ໄຂວັດສະດຸໂດຍອີງໃສ່ຟີຊິກແລະ relighting. ໃນ CVPR, ໜ້າ 5453–5462, 2021. 1, 2
- Xiuming Zhang, Pratul P Srinivasan, Boyang Deng, Paul De-bevel, William T Freeman, ແລະ Jonathan T Barron. NeR-Factor: ປັດໄຈທາງ neural ຂອງຮູບຮ່າງແລະການສະທ້ອນພາຍໃຕ້ການສະຫວ່າງທີ່ບໍ່ຮູ້ຈັກ. ACM TOG, 40(6):1–18, 2021. 2
- Jinyu Zhao, Yusuke Monno, ແລະ Masatoshi Okutomi. Polarimetric ຫຼາຍview ການສະແດງຜົນກົງກັນຂ້າມ. IEEE TPAMI, 2022. 2
ຕົວຊີ້ບອກຮູບຊົງ ແລະເລຂາຄະນິດຂອງ NeRSP
ການມາຂອງ cue geometric
ດັ່ງທີ່ສະແດງຢູ່ໃນຮູບ S1, ໃຫ້ຈຸດ scene ທີ່ສັງເກດເຫັນໂດຍທີ່ແຕກຕ່າງກັນ views, ພື້ນຜິວຂອງມັນປົກກະຕິຢູ່ທີ່ເປົ້າຫມາຍ view ສາມາດຖືກສະແດງໂດຍ azimuth ແລະມຸມສູງ ϕ ແລະ θ ຕາມລໍາດັບ, ie,
ຄວາມສໍາພັນລະຫວ່າງມຸມ azimuth ແລະອົງປະກອບຂອງພື້ນຜິວປົກກະຕິສາມາດຖືກສ້າງເປັນ
ພື້ນຜິວປົກກະຕິຢູ່ທີ່ເປົ້າຫມາຍ view ສາມາດຄິດໄລ່ໄດ້ໂດຍການຫມຸນປົກກະຕິຢູ່ທີ່ແຫຼ່ງ view, ie ˆn = Rn. ເນື່ອງຈາກເມທຣິກການຫມູນວຽນຈາກກ້ອງທີ່ປັບຕັ້ງເປັນ R = [r1, r2, r3]⊤, Eq. (2) ອີງໃສ່ ˆn ສາມາດຖືກສ້າງເປັນ
- r⊤1 n cos ϕ − r⊤ 2 n sin ϕ = 0. (3).
ປະຕິບັດຕາມ MVAS [2], ພວກເຮົາສາມາດຈັດ Eq. (3) ເພື່ອໃຫ້ໄດ້ຮັບຄວາມສໍາພັນ orthogonal ລະຫວ່າງພື້ນທີ່ປົກກະຕິແລະຄາດຄະເນ vector tangent t(ϕ) ດັ່ງທີ່ກໍານົດຂ້າງລຸ່ມນີ້,
ບົດສະຫຼຸບນີ້ກ່ຽວກັບມຸມ azimuth ສາມາດຂະຫຍາຍໄດ້ເຖິງມຸມຂອງຂົ້ວ (AoP). π ambiguity ສາມາດແກ້ໄຂຕາມທໍາມະຊາດເປັນ Eq. (4) ຢືນຖ້າພວກເຮົາຕື່ມ ϕ ໂດຍ π. ຄວາມບໍ່ຊັດເຈນ π/2 ສາມາດແກ້ໄຂໄດ້ໂດຍໃຊ້ pseudo-projected tangent vector tˆ(ϕ) ດັ່ງກ່າວ.
ຖ້າຈຸດຫນຶ່ງ scene x ຖືກສັງເກດເຫັນໂດຍ f views, ພວກເຮົາສາມາດ stack Eq. (4) ແລະ Eq. (5) ອີງໃສ່ການຫມຸນທີ່ແຕກຕ່າງກັນແລະສັງເກດເຫັນ AoPs, ນໍາໄປສູ່ລະບົບເສັ້ນຊື່
- T(x)n(x) = 0. (6)
ພວກເຮົາປະຕິບັດຕໍ່ລະບົບເສັ້ນນີ້ເປັນ cue geometric ຂອງພວກເຮົາສໍາລັບການຫຼາຍview ການກໍ່ສ້າງ 3D ຂົ້ວໂລກ.
ທີ່ມາຂອງ photometric cue
ປະຕິບັດຕາມແບບຈໍາລອງ BRDF polarized [1], ຜົນຜະລິດ stokes vector ສາມາດ decomposed ເຂົ້າໄປໃນພາກສ່ວນກະຈາຍແລະ specular modeled ຜ່ານ Hd ແລະ Hs ທີ່ສອດຄ້ອງກັນ, ie,
ອົງປະກອບຂອງ stokes ກະຈາຍພາຍໃຕ້ແສງສະຫວ່າງດຽວສາມາດໄດ້ຮັບການປະກອບເປັນ
ບ່ອນທີ່ ρd ຫມາຍເຖິງການແຜ່ກະຈາຍຂອງ albedo, ϕn ແມ່ນມຸມ azimuth ຂອງແສງສະຫວ່າງທີ່ຕົກຢູ່ໃນຍົນຕັ້ງສາກກັບພື້ນຜິວປົກກະຕິ, T + i, o ແລະ T−i, o ຫມາຍເຖິງການຄິດໄລ່ຄ່າສໍາປະສິດການສົ່ງ Fresnel [1] ທີ່ກ່ຽວຂ້ອງກັບ ມຸມລະຫວ່າງ view ທິດທາງແລະຫນ້າດິນປົກກະຕິ. ປະຕິບັດຕາມແນວຄິດໃນ PANDORA [3], ພວກເຮົາຂຽນ vector stokes ກະຈາຍຄືນໃຫມ່ພາຍໃຕ້ແສງສະພາບແວດລ້ອມເປັນ.
ຢູ່ໃສ ແມ່ນຫມາຍເຖິງການແຜ່ກະຈາຍ radiance. ແທນທີ່ຈະຄິດໄລ່ຈາກສົມຜົນ, ການແຜ່ກະຈາຍ radiance ເປັນຕົວແປທີ່ມີການປ່ຽນແປງທາງຂວາງແມ່ນແຜນທີ່ໂດຍກົງຈາກຈຸດ neural ທີ່ສະກັດໂດຍ MLP ທີ່ອີງໃສ່ການປະສານງານ. ໃນທາງກົງກັນຂ້າມ, vector stokes specular ພາຍໃຕ້ທິດທາງແສງສະຫວ່າງດຽວωໃນຮູບແບບ BRDF polarimetric ສາມາດຖືກກໍານົດເປັນ.
ບ່ອນທີ່ ρs ຫມາຍເຖິງ albedo specular; D ແລະ G ຫມາຍເຖິງການແຜ່ກະຈາຍປົກກະຕິແລະ shadowing term ໃນຮູບແບບ Microfacet [8], ຊຶ່ງສາມາດຄວບຄຸມໄດ້ໂດຍ roughness ດ້ານ; R+ ແລະ R− ຫມາຍເຖິງການຄິດໄລ່ຄ່າສໍາປະສິດການສະທ້ອນຂອງ Fresnel [1], ເຊິ່ງກ່ຽວຂ້ອງກັບມຸມລະຫວ່າງພື້ນຜິວປົກກະຕິແລະທິດທາງແສງສະຫວ່າງຂອງເຫດການ; ϕh ແມ່ນມຸມ azimuth ເຫດການ wrt ເຄິ່ງ vector. ປະຕິບັດຕາມແນວຄິດໃນ PANDORA [3], ພວກເຮົາຂຽນ vector stokes specular ພາຍໃຕ້ແສງສະພາບແວດລ້ອມເປັນ.
ຢູ່ໃສ ຫມາຍເຖິງ radiance specular. ດ້ວຍຄ່າປະມານ spilt-sum [5], ພວກເຮົາສາມາດປະມານ Ls ≈ ρsDG/4n⊤v *fΩ L(ω) dω. ການສົມທົບກັບ vector stokes ກະຈາຍທີ່ສະແດງຢູ່ໃນ Eq. (9), ພວກເຮົາກໍ່ສ້າງ cue photometric ໂດຍອີງໃສ່ຮູບແບບການສ້າງຮູບແບບ polarmetric ດັ່ງຕໍ່ໄປນີ້
ລາຍລະອຽດການຈັດຕັ້ງປະຕິບັດ
ພາກນີ້ສະເຫນີລາຍລະອຽດການສະແດງຂອງ Synthetic Multi- ຂອງພວກເຮົາ.view ຊຸດຂໍ້ມູນຮູບພາບ Polarized SMVP3D ແລະລາຍລະອຽດການຝຶກອົບຮົມຂອງ NeRSP.
ຊຸດຂໍ້ມູນ
ພວກເຮົາສະຫນອງ SMVP3D, ເຊິ່ງປະກອບດ້ວຍຮູບພາບຂອງຫ້າສິ່ງສະທ້ອນແສງສັງເຄາະພາຍໃຕ້ການສະຫວ່າງທໍາມະຊາດ. ສໍາລັບແຕ່ລະວັດຖຸ, ພວກເຮົາສະແດງ 48 views ແລະບັນທຶກຄວາມຈິງພື້ນດິນທີ່ສອດຄ້ອງກັນ (GT) ແຜນທີ່ປົກກະຕິຂອງພື້ນຜິວ. ພວກເຮົາໃຊ້ Mit-suba3 [4] ເປັນເຄື່ອງຈັກໃນການສະແດງຜົນ, ດ້ວຍປະເພດ BRDF ທີ່ຕັ້ງເປັນວັດສະດຸພາດສະຕິກຂົ້ວໂລກໃນການສະແດງຂອງພວກເຮົາ. ສໍາລັບ dif-fuse albedo ρd, ພວກເຮົານໍາໃຊ້ໂຄງສ້າງ albedo ທີ່ມີຄວາມແຕກຕ່າງກັນທາງດ້ານພື້ນທີ່ເພື່ອເສີມຂະຫຍາຍຄວາມເປັນຈິງຂອງຜົນການສະແດງຂອງພວກເຮົາ. ໃນເວລາດຽວກັນ, ພວກເຮົາຮັກສາ specular albedo ρs ຢູ່ທີ່ຄ່າຄົງທີ່ຂອງ 1.0 ແລະກໍານົດຄວາມຫນາແຫນ້ນຂອງຫນ້າດິນເປັນ 0.05. ວິທີການນີ້ຮັບປະກັນການສະທ້ອນທີ່ເປັນເອກະພາບໃນທົ່ວຫນ້າດິນຂອງວັດຖຸ. ຜົນໄດ້ຮັບຂອງຮູບພາບ polarized ແມ່ນ rendered ໃນຄວາມລະອຽດ 512 × 512 pixels.
ການຝຶກອົບຮົມ
hyperparameters λg, λm, ແລະ λe ໃນຟັງຊັນການສູນເສຍຂອງພວກເຮົາຖືກຕັ້ງເປັນ 1, 1, ແລະ 0.1, ຕາມລໍາດັບ. ໃນລະຫວ່າງຂະບວນການຝຶກອົບຮົມ, ພວກເຮົາໃຊ້ຍຸດທະສາດການອົບອຸ່ນຂຶ້ນຕາມ PAN-DORA [3], ບ່ອນທີ່ສໍາລັບ 1 epochs ທໍາອິດ, ພວກເຮົາພິຈາລະນາພຽງແຕ່ຂໍ້ມູນທີ່ບໍ່ມີຂົ້ວໃນ cue photometric ແລະສົມມຸດວ່າອົງປະກອບ specular ຂອງວັດຖຸແມ່ນ 000. ໃນທັງຫມົດ. ການທົດລອງ, ພວກເຮົາໃຊ້ຄວາມລະອຽດ 0 × 512 ສໍາລັບການຝຶກອົບຮົມ ແລະການທົດສອບໃນ SMVP512D, ແລະ 3 × 512 ສໍາລັບຊຸດຂໍ້ມູນຕົວຈິງ. ວິທີການຂອງພວກເຮົາໂດຍທົ່ວໄປຈະ converges ປະມານ 612 epochs, ເຊິ່ງໃຊ້ເວລາປະມານ 100 ຊົ່ວໂມງໃນ Nvidia RTX 000 GPU, ມີຫນ່ວຍຄວາມຈໍາທີ່ບໍລິໂພກປະມານ 6, 3090 MB.
ການຄາດຄະເນ BRDF ແລະຜົນໄດ້ຮັບຄືນໃຫມ່
ຮູບ S4 (ເທິງ) ສະເຫນີການຄາດຄະເນຂອງພວກເຮົາກ່ຽວກັບຄວາມຫຍາບ, ການແຜ່ກະຈາຍ, ແລະອົງປະກອບ specular. ການຄາດຄະເນແມ່ນເປັນສິ່ງລົບກວນເລັກນ້ອຍເນື່ອງຈາກວ່າພຽງແຕ່ 6 viewດ. ຄ້າຍຄືກັນກັບ Ref-NeRF [7] ບ່ອນທີ່ illumination ຖືກຄວບຄຸມ implicitly ຜ່ານ IDE, ພວກເຮົາບໍ່ສາມາດດໍາເນີນການທົດລອງ relighting. ເພາະສະນັ້ນ, ພວກເຮົາສະແດງໃຫ້ເຫັນນະວະນິຍາຍ view ຜົນການສັງເຄາະແທນ, ດັ່ງທີ່ເຫັນໃນຮູບ S4 (ລຸ່ມ). ເມື່ອປຽບທຽບກັບວິທີການທີ່ມີຢູ່, ຮູບພາບການສະແດງຄືນໃຫມ່ຂອງພວກເຮົາແມ່ນໃກ້ຊິດກັບການສັງເກດການໃນໂລກທີ່ແທ້ຈິງທີ່ສອດຄ້ອງກັນ.
ຜົນໄດ້ຮັບເພີ່ມເຕີມໃນຊຸດຂໍ້ມູນຂອງພວກເຮົາ
ໃນພາກນີ້, ພວກເຮົາສະເຫນີຜົນໄດ້ຮັບເພີ່ມເຕີມຂອງການຟື້ນຟູຮູບຮ່າງໃນ SMVP3D ແລະ Real-world Multi-view ຊຸດຂໍ້ມູນຮູບພາບ Polarized RMVP3D.
ການປະເມີນຜົນກ່ຽວກັບ SMVP3D
ພວກເຮົານໍາສະເຫນີຜົນໄດ້ຮັບການຟື້ນຟູຄຸນນະພາບຂອງວິທີການພື້ນຖານແລະວິທີການຂອງພວກເຮົາໃນຮູບ S2. ຜົນໄດ້ຮັບຈາກ MVAS [2] ຂາດລາຍລະອຽດ, ຍ້ອນວ່າຮູບສັນຍາລັກ photometric ບໍ່ໄດ້ຖືກພິຈາລະນາ. ໃນຂະນະທີ່ NeRO [6] ສະຫນອງການປັບປຸງຮູບຮ່າງໃຫມ່, ມັນບໍ່ສາມາດສະຫນອງພື້ນຜິວທີ່ຫນ້າເຊື່ອຖືສໍາລັບວັດຖຸທີ່ບໍ່ມີໂຄງສ້າງ, ເຊັ່ນ DAVID. S-VolSDF [9] ໃຊ້ແບບຫຍາບຫາລະອຽດ Multi-View ວິທີການສະເຕີລິໂອ (MVS) ແລະສະແດງໃຫ້ເຫັນຄວາມອ່ອນໄຫວເພີ່ມຂຶ້ນຕໍ່ກັບຂໍ້ມູນໂຄງສ້າງເທິງພື້ນຜິວວັດຖຸ, ເຊິ່ງບາງຄັ້ງເຮັດໃຫ້ການຕີຄວາມຫມາຍຂອງໂຄງສ້າງທີ່ບໍ່ຖືກຕ້ອງເປັນລັກສະນະໂຄງສ້າງ. PANDORA [3] ມີຄວາມຫຍຸ້ງຍາກໃນການແຍກ albedo ແລະຂໍ້ມູນ specular ຢ່າງມີປະສິດທິຜົນ, ນໍາໄປສູ່ຜົນໄດ້ຮັບການຟື້ນຟູທີ່ບໍ່ຫນ້າເຊື່ອຖື. ວິທີການຂອງພວກເຮົາ, NeRSP, ນໍາໃຊ້ຢ່າງມີປະສິດທິພາບທັງ photometric ແລະ geometric cues, ສົ່ງຜົນໃຫ້ reconstructions ທີ່ສະທ້ອນໃຫ້ເຫັນເຖິງໂຄງສ້າງ GT ໄດ້ຢ່າງຖືກຕ້ອງ.
ພວກເຮົາຍັງສະແດງການຄາດຄະເນປົກກະຕິຂອງພື້ນຜິວແລະການແຈກຢາຍຄວາມຜິດພາດເປັນລ່ຽມທີ່ສອດຄ້ອງກັນໃນຮູບ S3, ເຊິ່ງສະແດງໃຫ້ເຫັນຢ່າງຕໍ່ເນື່ອງວ່າ NeRSP ບັນລຸຜົນການຟື້ນຟູຮູບຮ່າງທີ່ດີກວ່າສໍາລັບພື້ນຜິວທີ່ສະທ້ອນແສງທີ່ມີການປ້ອນຂໍ້ມູນເລັກນ້ອຍ. views.
ການປະເມີນຜົນກ່ຽວກັບ RMVP3D
ໃນພາກນີ້, ພວກເຮົາສະເຫນີຜົນໄດ້ຮັບການຟື້ນຟູວັດຖຸອື່ນໃນ RMVP3D. ຮູບ S5 ສະແດງໃຫ້ເຫັນວ່າ NeRO [6], MVAS [2], ແລະ NeRSP ສາມາດສ້າງວັດຖຸ spherical ງ່າຍດາຍຄືນໃຫມ່ໄດ້ຢ່າງຖືກຕ້ອງກັບພື້ນຜິວສະທ້ອນ. ໃນທາງກົງກັນຂ້າມ, S-VolSDF [9] ແລະ PANDORA [3] ບໍ່ສາມາດທໍາລາຍອົງປະກອບຂອງ albedo ແລະ specular ຂອງຫນ້າດິນ, ເຊິ່ງກໍ່ໃຫ້ເກີດການບິດເບືອນໃນຂະບວນການຟື້ນຟູຮູບຮ່າງ. ເພື່ອຈໍາແນກລະຫວ່າງຜົນໄດ້ຮັບການຟື້ນຟູຂອງ NeRO [6], MVAS [2], ແລະ NeRSP, ພວກເຮົາເບິ່ງເຫັນໄລຍະຫ່າງ Chamfer ສໍາລັບຕາຫນ່າງທີ່ສ້າງຂຶ້ນໃຫມ່ໂດຍແຕ່ລະວິທີການ. ດັ່ງທີ່ສະແດງຢູ່ໃນຮູບ S6, ສີຂອງແຕ່ລະຈຸດຊີ້ໃຫ້ເຫັນໄລຍະຫ່າງຂອງ Chamfer, ເຊິ່ງຖືກຕັດລະຫວ່າງ 0 ຫາ 5 ມມ. ຮູບແຕ້ມເຫຼົ່ານີ້ສະແດງໃຫ້ເຫັນວ່າຄວາມຜິດພາດຂອງການຟື້ນຟູທີ່ກ່ຽວຂ້ອງກັບ NeRSP ແມ່ນນ້ອຍກວ່າເມື່ອທຽບໃສ່ກັບສອງວິທີການອື່ນໆ.
ການສຶກສາ Ablation ກ່ຽວກັບການສະທ້ອນພື້ນຜິວ
ວິທີການຂອງພວກເຮົາມີຈຸດປະສົງໃນການຟື້ນຟູພື້ນຜິວທີ່ສະທ້ອນແສງ, ແລະມັນຍັງສາມາດຖືກນໍາໃຊ້ກັບການຟື້ນຟູຮູບຮ່າງທີ່ມີພື້ນຜິວທີ່ຫຍາບຄາຍ. ເປັນ exampດັ່ງນັ້ນ, ພວກເຮົາ render ວັດຖຸ SNAIL ກັບ specular albedo ρs ຫຼຸດລົງຈາກ 1.0 ຫາ 0.1. ຄວາມຜິດພາດທາງມຸມສະເລ່ຍ (MAE) ຂອງຫນ້າທໍາອິດຄາດຄະເນທີ່ 6 input views ຈາກວິທີການທີ່ແຕກຕ່າງກັນແມ່ນສະແດງຢູ່ໃນຕາຕະລາງ S1. ການປະເມີນຄຸນນະພາບຂອງການຄາດຄະເນປົກກະຕິຂອງພື້ນຜິວແລະການແຈກຢາຍຄວາມຜິດພາດເປັນລ່ຽມທີ່ສອດຄ້ອງກັນຂອງວິທີການທີ່ແຕກຕ່າງກັນພາຍໃຕ້ການປ້ອນຂໍ້ມູນດຽວກັນ view ແມ່ນສະແດງຢູ່ໃນຮູບ S7. ການທົດລອງເຫຼົ່ານີ້ຊີ້ໃຫ້ເຫັນວ່າວິທີການສ່ວນໃຫຍ່ປັບປຸງຄຸນນະພາບການກໍ່ສ້າງຄືນໃຫມ່ໃນພື້ນຜິວທີ່ຫຍາບຄາຍເມື່ອທຽບກັບຫນ້າດິນທີ່ສະທ້ອນແສງ. ໂດຍສະເພາະ, ວິທີການຂອງພວກເຮົາສະເຫມີສະຫນອງການຟື້ນຟູຫນ້າດິນທີ່ຫນ້າເຊື່ອຖືທີ່ສຸດຂອງວັດຖຸ.
ການສຶກສາ Ablation ໃນ #views
NeRSP ຂອງພວກເຮົາມີຈຸດປະສົງໃນການຟື້ນຟູຂອງພື້ນຜິວສະທ້ອນພາຍໃຕ້ການປ້ອນຂໍ້ມູນເລັກນ້ອຍ viewດ. ການທົດລອງທີ່ສະແດງຢູ່ໃນເອກະສານຕົ້ນຕໍໃຊ້ເວລາ 6 sparse views ເປັນ input. ເພື່ອປະເມີນວິທີການຂອງພວກເຮົາພາຍໃຕ້ຕົວເລກທີ່ແຕກຕ່າງກັນຂອງການປ້ອນຂໍ້ມູນ views (ເຊັ່ນ: #views), ພວກເຮົາດໍາເນີນການທົດລອງກ່ຽວກັບວັດຖຸທີ່ແທ້ຈິງຂອງ LION ພາຍໃຕ້ການຕັ້ງຄ່າຂອງ 3, 6, 12, ແລະ 24. views. ຮູບ S8 ສະແດງໃຫ້ເຫັນພາບຂອງຮູບຮ່າງທີ່ຟື້ນຕົວ, ໃນຂະນະທີ່ການປະເມີນຄຸນນະພາບດ້ວຍໄລຍະຫ່າງ Chamfer ແມ່ນນໍາສະເຫນີຢູ່ໃນຕາຕະລາງ S2.
ພາຍໃຕ້ການປ້ອນຂໍ້ມູນເລັກນ້ອຍ views, ເຊັ່ນ: 3, ວິທີການທີ່ມີຢູ່ແລ້ວຕໍ່ສູ້ເພື່ອຟື້ນຕົວຜົນໄດ້ຮັບທີ່ເປັນໄປໄດ້. ອັນນີ້ສ່ວນໃຫຍ່ແມ່ນຍ້ອນວ່າພວກເຂົາເນັ້ນໃສ່ຮູບຊົງ ຫຼືຮູບເລຂາຄະນິດ. ເອົາ S-VolSDF [9] ເປັນ example, ຮູບຮ່າງທີ່ຄາດຄະເນ, ດັ່ງທີ່ສັງເກດເຫັນໃນແບບໃກ້ຊິດ views, ມີອິດທິພົນຫຼາຍໂດຍໂຄງສ້າງທີ່ສອດຄ້ອງກັນ. ອັນນີ້ເຮັດໃຫ້ຮູບຮ່າງທີ່ບໍ່ຖືກຕ້ອງເນື່ອງຈາກຄວາມບໍ່ຊັດເຈນຂອງຮູບຮ່າງ-radiance ພາຍໃຕ້ sparse views. ໂດຍການແກ້ໄຂທັງທາງເລຂາຄະນິດແລະຮູບຊົງຕົວຊີ້, NeRSP ຂອງພວກເຮົາຫຼຸດຜ່ອນຄວາມບໍ່ແນ່ນອນພາຍໃຕ້ການປ້ອນຂໍ້ມູນເລັກນ້ອຍ. ດັ່ງນັ້ນ, ພວກເຮົາບັນລຸການຟື້ນຟູຮູບຮ່າງທີ່ສົມເຫດສົມຜົນກວ່າ. ການສັງເກດການນີ້ຍັງຄົງຖືກຕ້ອງໃນເວລາທີ່ຈໍານວນຂອງການປ້ອນຂໍ້ມູນ views ເກີນ 12. ດັ່ງທີ່ສະແດງຢູ່ໃນຕາຕະລາງ S2, NeRSP ຂອງພວກເຮົາບັນລຸໄດ້ໄລຍະຫ່າງ Chamfer ທີ່ນ້ອຍທີ່ສຸດຢ່າງຕໍ່ເນື່ອງດ້ວຍຈໍານວນການປ້ອນຂໍ້ມູນເພີ່ມຂຶ້ນ. viewດ. ນີ້ສະແດງໃຫ້ເຫັນປະສິດທິພາບຂອງວິທີການຂອງພວກເຮົາກ່ຽວກັບພື້ນຜິວສະທ້ອນໃຫ້ເຫັນໃນໄລຍະກ້ວາງຂອງ views.
ຕາຕະລາງ S2. ການປະເມີນຄຸນນະພາບກ່ຽວກັບ LION ທີ່ວັດແທກໂດຍໄລຍະຫ່າງ Chamfer (↓) ພາຍໃຕ້ການປ້ອນຂໍ້ມູນທີ່ແຕກຕ່າງກັນ views.
#Views | NeRO [6] | S-VolSDF [9] | MVAS [2] | PANDORA [3] | NeRSP |
3 | 34.48 | 31.50 | 23.96 | 24.44 | 24.01 |
6 | 10.74 | 7.39 | 7.51 | 15.04 | 5.18 |
12 | 5.50 | 6.80 | 5.31 | 12.1 | 4.29 |
24 | 4.96 | 6.14 | 5.32 | 12.5 | 4.11 |
ການປະເມີນຊຸດຂໍ້ມູນ MVIR ຂົ້ວໂລກ
ນອກເໜືອໄປຈາກການທົດລອງຕົວຈິງໃນຊຸດຂໍ້ມູນ PANDORA [3] ແລະ RMVP3D ຂອງພວກເຮົາ, ພວກເຮົາຍັງສະໜອງການປະເມີນຫຼາຍໆອັນ.view ຊຸດຂໍ້ມູນຮູບພາບຂົ້ວໂລກມີຢູ່ໃນ PMVIR [10]. ດັ່ງທີ່ສະແດງຢູ່ໃນຮູບ S9, ພວກເຮົາສະແດງຜົນການຟື້ນຕົວຂອງຮູບຮ່າງຈາກ PANDORA [3] ແລະຂອງພວກເຮົາ, ໃຊ້ເວລາ 6 ເລັກນ້ອຍ. views ເປັນ input. ເນື່ອງຈາກບໍ່ມີຮູບຮ່າງ GT ໃນຊຸດຂໍ້ມູນນີ້, ພວກເຮົາໃຊ້ຜົນໄດ້ຮັບຈາກ PMVIR [10] ເປັນການອ້າງອີງ, ເຊິ່ງໃຊ້ເວລາ 31 ແລະ 56. views ເປັນວັດສະດຸປ້ອນສໍາລັບກ້ອງຖ່າຍຮູບແລະ scene ລົດ, ຕາມລໍາດັບ. ພວກເຮົາສັງເກດເຫັນວ່າຜົນໄດ້ຮັບຂອງພວກເຮົາແມ່ນສົມເຫດສົມຜົນກວ່າເມື່ອທຽບກັບການນໍາໃຊ້ PANDORA [3], ສະແດງໃຫ້ເຫັນປະສິດທິພາບຂອງວິທີການຂອງພວກເຮົາໃນການຟື້ນຟູ 3D sparse.
ເອກະສານອ້າງອີງ
- [1] Seung-Hwan Baek, Daniel S Jeon, Xin Tong, ແລະ Min H Kim. ການໄດ້ມາພ້ອມໆກັນຂອງ SVBRDF polarimetric ແລະປົກກະຕິ. ACM TOG, 37(6):268–1, 2018. 2
- Xu Cao, Hiroaki Santo, Fumio Okura, ແລະ Yasuyuki Matsushita. ຫຼາຍView Azimuth Stereo ຜ່ານ Tangent Space Consistency. ໃນ CVPR, ໜ້າ 825–834, 2023. 1, 3, 4, 5, 6
- Akshat Dave, Yongyi Zhao, ແລະ Ashok Veeraraghavan. Pandora: Polarization-ຊ່ວຍ decomposition neural ຂອງ radiance. ໃນ ECCV, ໜ້າ 538–556, 2022. 2, 3, 4, 5, 6
- Wenzel Jakob, S'ebastien Speierer, Nicolas Roussel, Merlin Nimier-David, Delio Vicini, Tizian Zeltner, Baptiste Nicolet, Miguel Crespo, Vincent Leroy, ແລະ Ziyi Zhang. Mitsuba 3 renderer, 2022. https://mitsuba-renderer.org. 2
- Brian Karis ແລະ Epic ເກມ. ການຮົ່ມທີ່ແທ້ຈິງໃນ Unreal Engine 4. Proc. ການປະຕິບັດທິດສະດີການຮົ່ມທີ່ອີງໃສ່ທາງດ້ານຮ່າງກາຍ, 4(3): 1, 2013. 2
- Yuan Liu, Peng Wang, Cheng Lin, Xiaoxiao Long, Jiepeng Wang, Lingjie Liu, Taku Komura, ແລະ Wenping Wang. NeRO: Neural Geometry ແລະ BRDF ການຟື້ນຟູວັດຖຸສະທ້ອນຈາກຫຼາຍview ຮູບພາບ. arXiv preprint arXiv:2305.17398, 2023. 3, 4, 5, 6
- Dor Verbin, Peter Hedman, Ben Mildenhall, Todd Zickler, Jonathan T Barron, ແລະ Pratul P Srinivasan. Ref-NeRF: ໂຄງສ້າງ view- ຮູບລັກສະນະທີ່ອີງໃສ່ສໍາລັບຂົງເຂດ radiance neural. ໃນ CVPR, ໜ້າ 5481–5490, 2022. 3
- Bruce Walter, Stephen R Marschner, Hongsong Li, ແລະ Ken-neth E Torrance. ຕົວແບບ Microfacet ສໍາລັບການສະທ້ອນແສງຜ່ານພື້ນຜິວທີ່ຫຍາບຄາຍ. ໃນການດຳເນີນກອງປະຊຸມ Eurographics ຄັ້ງທີ 18 ກ່ຽວກັບເຕັກນິກການສະແດງ, ໜ້າ 195–206, 2007. 2
- Haoyu Wu, Alexandros Graikos, ແລະ Dimitris Samaras. S-VolSDF: Sparse Multi-View Stereo Regularization of Neural Implicit Surfaces. arXiv preprint arXiv:2303.17712, 2023. 3, 4, 5, 6
- Jinyu Zhao, Yusuke Monno, ແລະ Masatoshi Okutomi. Polarimetric ຫຼາຍview ການສະແດງຜົນກົງກັນຂ້າມ. IEEE TPAMI, 2022. 5, 6
ເອກະສານ / ຊັບພະຍາກອນ
![]() |
NeRSP CVPR24 ການຟື້ນຟູ 3D Neural ສໍາລັບວັດຖຸສະທ້ອນ [pdf] ຄູ່ມືການສອນ CVPR24 Neural 3D Reconstruction for Reflective Objects, CVPR24, Neural 3D Reconstruction for Reflective Objects, ການຟື້ນຟູສໍາລັບວັດຖຸສະທ້ອນ, ວັດຖຸສະທ້ອນ, ວັດຖຸສະທ້ອນ |