NeRSP CVPR24 ការបង្កើតឡើងវិញនូវសរសៃប្រសាទ 3D សម្រាប់វត្ថុឆ្លុះបញ្ចាំង
ព័ត៌មានអំពីផលិតផល
លក្ខណៈពិសេស៖
- ឈ្មោះផលិតផល៖ NeRSP: ការបង្កើតឡើងវិញនូវសរសៃប្រសាទ 3D សម្រាប់វត្ថុឆ្លុះបញ្ចាំងជាមួយនឹងរូបភាពប៉ូឡាស្យុង
- អ្នកនិពន្ធ៖ Yufei Han, Heng Guo, Koki Fukai, Hiroaki Santo, Boxin Shi, Fumio Okura, Zhanyu Ma, Yunpeng Jia
- សម្ព័ន្ធភាព៖ សាកលវិទ្យាល័យប៉េកាំង នៃប្រៃសណីយ៍ និងទូរគមនាគមន៍ សាកលវិទ្យាល័យអូសាកា សាកលវិទ្យាល័យប៉េកាំង
- អរូបី៖ ផលិតផល NeRSP ផ្តល់នូវលទ្ធផលកែលម្អរូបរាងឡើងវិញសម្រាប់ផ្ទៃឆ្លុះបញ្ចាំងបើប្រៀបធៀបទៅនឹងវិធីសាស្ត្រដែលមានស្រាប់។
ការណែនាំអំពីការប្រើប្រាស់ផលិតផល
- សេចក្តីផ្តើម
ផលិតផល NeRSP ត្រូវបានរចនាឡើងសម្រាប់ការបង្កើតឡើងវិញ 3D នៃវត្ថុដែលឆ្លុះបញ្ចាំងដោយប្រើរូបភាពរាងប៉ូលដែលបែកខ្ញែក។ វាយកឈ្នះលើបញ្ហាប្រឈមនានាទាក់ទងនឹងការស្វែងរកពហុview ការឆ្លើយឆ្លង និងការបំបែករូបរាងចេញពីរស្មីក្រោមការឆ្លើយឆ្លងមានកំណត់។ - ការងារពាក់ព័ន្ធ
NeRSP ត្រូវបានបំផុសគំនិតដោយ Neural Radiance Fields (NeRF) និងវិធីសាស្រ្តបង្កើតឡើងវិញនូវសរសៃប្រសាទ 3D ផ្សេងទៀត។ វាធ្វើគំរូរូបរាងផ្ទៃដោយប្រយោលតាមរយៈវាលចម្ងាយដែលបានចុះហត្ថលេខា (SDF) ហើយប្រើប្រាស់ការតាមដានស្វ៊ែរដែលអាចបែងចែកបាន និងការបង្ហាញកម្រិតសំឡេង ដើម្បីកែលម្អគុណភាពនៃការបង្កើតរូបរាងឡើងវិញ។ - គំរូបង្កើតរូបភាពប៉ូឡូរីម៉ែត្រ
NeRSP រួមបញ្ចូលគំរូនៃការបង្កើតរូបភាពប៉ូឡូម៉ែត្រ ដើម្បីទទួលបានរូបភាព និងធរណីមាត្រសម្រាប់ការស្ថាបនាឡើងវិញ។
សំណួរគេសួរញឹកញាប់៖
- សំណួរ៖ តើអ្វីជា advantage នៃការប្រើប្រាស់ NeRSP សម្រាប់ការកសាងឡើងវិញ 3D?
A: NeRSP ផ្តល់នូវលទ្ធផលនៃការបង្កើតឡើងវិញនូវរូបរាងកាន់តែប្រសើរឡើងសម្រាប់ផ្ទៃឆ្លុះបញ្ចាំងបើប្រៀបធៀបទៅនឹងវិធីសាស្ត្រដែលមានស្រាប់ ដោយសារវិធីសាស្រ្តច្នៃប្រឌិតរបស់វាដោយប្រើរូបភាពរាងប៉ូលស្តើង។ - សំណួរ៖ តើផលិតផល NeRSP សាកសមសម្រាប់ផ្ទៃដែលសាយភាយឬទេ?
A: ខណៈពេលដែល NeRSP ត្រូវបានរចនាឡើងជាចម្បងសម្រាប់ផ្ទៃឆ្លុះបញ្ចាំង វាក៏អាចផ្តល់នូវការប៉ាន់ស្មានរូបរាងដ៏គួរឱ្យជឿជាក់សម្រាប់ផ្ទៃដែលសាយភាយ ដែលភាពស៊ីសង្វាក់នៃរូបភាពមានសុពលភាពឆ្លងកាត់។ views.
NeRSP៖
ការបង្កើតឡើងវិញនូវសរសៃប្រសាទ 3D សម្រាប់វត្ថុឆ្លុះបញ្ចាំងជាមួយនឹងរូបភាពប៉ូឡាសៀ
Yufei Han1† Heng Guo1†∗ Koki Fukai2† Hiroaki Santo2 Boxin Shi3,4 Fumio Okura2 Zhanyu Ma1 Yunpeng Jia1
- សាកលវិទ្យាល័យប្រៃសណីយ៍ និងទូរគមនាគមន៍ប៉េកាំង
- មហាវិទ្យាល័យព័ត៌មានវិទ្យា និងបច្ចេកវិទ្យា សាកលវិទ្យាល័យអូសាកា
- មន្ទីរពិសោធន៍គន្លឹះជាតិសម្រាប់ដំណើរការព័ត៌មានពហុព័ត៌មាន សាលាវិទ្យាសាស្ត្រកុំព្យូទ័រ សាកលវិទ្យាល័យប៉េកាំង
- {hanyufei, guoheng, mazhanyu}@bupt.edu.cn shiboxin@pku.edu.cn
- {santo.hiroaki, okura, fukai.koki}@ist.osaka-u.ac.jp xibei156@163.com.
អរូបី
យើងធ្វើបទបង្ហាញ NeRSP ដែលជាបច្ចេកទេសបង្កើតឡើងវិញនូវ Neural 3D សម្រាប់ផ្ទៃឆ្លុះជាមួយនឹងរូបភាព Sparse Polarized។ ការស្ថាបនាឡើងវិញនូវផ្ទៃឆ្លុះគឺមានភាពលំបាកខ្លាំងដូចការឆ្លុះបញ្ចាំងជាក់លាក់ viewអាស្រ័យហេតុនេះ បំពានលើពហុview ភាពស្ថិតស្ថេរសម្រាប់ពហុview ស្តេរ៉េអូ។ ម៉្យាងវិញទៀត ការបញ្ចូលរូបភាពតិចតួច ជាការកំណត់ការថតជាក់ស្តែង ជាទូទៅបណ្តាលឱ្យមានលទ្ធផលមិនពេញលេញ ឬមានការបង្ខូចទ្រង់ទ្រាយ ដោយសារកង្វះការផ្គូផ្គងការឆ្លើយឆ្លង។ ក្រដាសនេះរួមគ្នាដោះស្រាយបញ្ហាប្រឈមនៃធាតុបញ្ចូលតូចៗ និងផ្ទៃឆ្លុះបញ្ចាំងដោយប្រើប្រាស់រូបភាពប៉ូឡា។ យើងទាញយករូបភាពតាមរូបមាត្រ និងធរណីមាត្រពីគំរូបង្កើតរូបភាពប៉ូឡូម៉ែត្រ និងពហុview ភាពស៊ីសង្វាក់នៃ azimuth ដែលរួមគ្នាបង្កើនប្រសិទ្ធភាពធរណីមាត្រលើផ្ទៃ ដែលយកគំរូតាម ការបង្ហាញសរសៃប្រសាទដោយប្រយោល។ ដោយផ្អែកលើការពិសោធន៍លើសំណុំទិន្នន័យសំយោគ និងពិតប្រាកដរបស់យើង យើងសម្រេចបាននូវលទ្ធផលនៃការបង្កើតឡើងវិញនូវផ្ទៃដែលទំនើបបំផុតដោយមានតែ 6 ប៉ុណ្ណោះ។ views ជាការបញ្ចូល។
សេចក្តីផ្តើម
ច្រើនview ការកសាងឡើងវិញ 3D គឺជាបញ្ហាមូលដ្ឋាននៅក្នុងចក្ខុវិស័យកុំព្យូទ័រ (CV) ហើយត្រូវបានសិក្សាយ៉ាងទូលំទូលាយអស់រយៈពេលជាច្រើនឆ្នាំ [14] ។ ជាមួយនឹងការរីកចម្រើននៃការតំណាងផ្ទៃដោយប្រយោល [27, 28] និងវាលរស្មីសរសៃប្រសាទ [22] ថ្មីៗជាច្រើនview វិធីសាស្រ្តកសាងឡើងវិញ 3D [5, 33, 38, 41] មានការរីកចម្រើនយ៉ាងខ្លាំង។ ថ្វីបើលទ្ធផលស្តាររូបរាងគួរឱ្យទាក់ទាញក៏ដោយក៏ភាគច្រើនមានច្រើន។view វិធីសាស្រ្តស្តេរ៉េអូ (MVS) នៅតែពឹងផ្អែកយ៉ាងខ្លាំងលើការស្វែងរកការឆ្លើយឆ្លងរវាង views ដែលមានបញ្ហាប្រឈមជាពិសេសសម្រាប់ផ្ទៃឆ្លុះបញ្ចាំងពន្លឺ និងការបញ្ចូលយ៉ាងតិច views.
សម្រាប់ផ្ទៃឆ្លុះបញ្ចាំង view- ផ្ទៃដែលអាស្រ័យ
ការរួមចំណែកស្មើគ្នា។ ∗ អ្នកនិពន្ធដែលត្រូវគ្នា។
ទំព័រគម្រោង៖ https://yu-fei-han.github.io/NeRSP-project/.
រូបភាពទី 1. ការស្តាររូបរាងឡើងវិញនៃផ្ទៃឆ្លុះបញ្ចាំងពីរូបភាព 6 រាងរាងប៉ូលដែលចាប់យក (ជួរខាងលើ)។ NeRSP របស់យើងសម្រេចបាននូវលទ្ធផលនៃការបង្កើតឡើងវិញនូវរូបរាងប្រសើរជាងបើប្រៀបធៀបទៅនឹងវិធីសាស្ត្រដែលមានស្រាប់ដែលដោះស្រាយការបញ្ចូលតិចតួច (S-VolSDF [35]) ឬការឆ្លុះបញ្ចាំងឆ្លុះបញ្ចាំង (PANDORA [9]) ។
Pearance បំបែកការសន្មត់ភាពជាប់លាប់ photometric ដែលប្រើនៅក្នុងការប៉ាន់ស្មានការឆ្លើយឆ្លងនៅក្នុង MVS ។ ដើម្បីដោះស្រាយបញ្ហានេះ វិធីសាស្ត្របង្កើតឡើងវិញនូវសរសៃប្រសាទ 3D នាពេលថ្មីៗនេះ (ឧ. Ref-NeuS [13], NeRO [19] និង PANDORA [9]) ធ្វើគំរូយ៉ាងច្បាស់ពីការឆ្លុះបញ្ចាំង និងប៉ាន់ស្មានក្នុងពេលដំណាលគ្នានូវផែនទីឆ្លុះបញ្ចាំង និងបរិស្ថានតាមរយៈការបង្ហាញបញ្ច្រាស។ ទោះជាយ៉ាងណាក៏ដោយការទទួលបានរូបភាពក្រាស់នៅក្រោមភាពចម្រុះ views ត្រូវបានទាមទារដើម្បីដោះស្រាយដោយស្មោះត្រង់នូវអ្វីដែលមិនស្គាល់បន្ថែមក្រៅពីរូបរាង ដូចជា albedo ភាពរដុប និងផែនទីបរិស្ថាន។
ពីការបញ្ចូលតិចតួច views វាច្រើនតែពិបាករកច្រើនគ្រប់គ្រាន់view ការឆ្លើយឆ្លង។ ជាពិសេសនៅពេលតំណាង view-ការឆ្លុះបញ្ចាំងដោយអាស្រ័យ វាពិបាកក្នុងការផ្តាច់រូបរាងពីរស្មីក្រោមចំនួនកំណត់នៃការឆ្លើយឆ្លង ដែលនាំឱ្យមានភាពមិនច្បាស់លាស់នៃរាង-រស្មី [40] ។ វិធីសាស្រ្តនៃការកសាងឡើងវិញនូវសរសៃប្រសាទ 3D ថ្មីៗសម្រាប់ sparse views (ឧ. S-VolSDF [35] និង SparseNeuS [20]) តម្រូវឱ្យមានការធ្វើឱ្យទៀងទាត់ដោយប្រើភាពស្ថិតស្ថេរនៃរូបភាពដែលអាចត្រូវបានរំលោភលើផ្ទៃឆ្លុះបញ្ចាំង។
ដើម្បីដោះស្រាយបញ្ហាទាំងពីរនេះ យើងស្នើឱ្យប្រើរូបភាពរាងប៉ូលតូច ជំនួសឱ្យការបញ្ចូល RGB ។ ជាពិសេស យើងស្នើរសុំ NeRSP ដែលជាវិធីសាស្ត្របង្កើតឡើងវិញនូវ Neural 3D ដើម្បីស្ដាររូបរាងផ្ទៃឆ្លុះបញ្ចាំងពីរូបភាព Sparse Polarized។ យើងប្រើមុំរាងប៉ូល (AoP) ដែលបានមកពីរូបភាពប៉ូល ដែលឆ្លុះបញ្ចាំងដោយផ្ទាល់ពីមុំ azimuth នៃរូបរាងផ្ទៃរហូតដល់ π និង π/2 មិនច្បាស់។ សញ្ញាធរណីមាត្រនេះត្រូវបានគេដឹងថាអាចបើកពហុview ការបង្កើតរូបរាងឡើងវិញដោយមិនគិតពីលក្ខណៈសម្បត្តិនៃការឆ្លុះបញ្ចាំងលើផ្ទៃ ប៉ុន្តែរូបរាងដែលបានប៉ាន់ប្រមាណដោយផ្អែកលើសញ្ញាធរណីមាត្រគឺមានភាពមិនច្បាស់លាស់ [6] view ការកំណត់។ ម៉្យាងវិញទៀត តម្រុយរូបភាពពីគំរូនៃការបង្កើតរូបភាពប៉ូឡាម៉ែត្រ [2] ជួយការបង្កើតឡើងវិញនូវផ្ទៃសរសៃប្រសាទ (ឧទាហរណ៍ PANDORA [9]) ដោយកាត់បន្ថយភាពខុសគ្នារវាងរូបភាពដែលបង្ហាញឡើងវិញ និងរូបភាពប៉ូឡារីសដែលបានថត។ ទោះជាយ៉ាងណាក៏ដោយ រូបរាងដែលបានប៉ាន់ប្រមាណដោយផ្អែកតែលើសញ្ញា photometric ប៉ុណ្ណោះ ក៏មិនមានភាពមិនច្បាស់លាស់នៅក្រោមការបញ្ចូលតិចតួចដែរ ដោយសារភាពមិនច្បាស់លាស់នៃរាង-រស្មី។ មិនដូចវិធីសាស្ត្រដែលមានមូលដ្ឋានលើរាងប៉ូលីម៉ែត្រដែលមានស្រាប់ PANDORA [9] ដោយពិចារណាលើសញ្ញារូបវិទ្យាតែប៉ុណ្ណោះ NeRSP របស់យើងបង្ហាញពីការរួមបញ្ចូលទាំងសញ្ញាធរណីមាត្រ និងរូបមាត្រ ធ្វើឱ្យបង្រួមទំហំដំណោះស្រាយសម្រាប់រូបរាងផ្ទៃ ដែលបង្ហាញថាមានប្រសិទ្ធភាពក្នុងការស្ថាបនាឡើងវិញនូវផ្ទៃឆ្លុះបញ្ចាំងដោយផ្អែកលើធាតុបញ្ចូលដ៏តូច។ ដូចដែលបានបង្ហាញក្នុងរូបភាពទី 1 ។
ក្រៅពី NeRSP ដែលបានស្នើសម្រាប់ការកសាងឡើងវិញ 3D យើងក៏បានសាងសង់ Real-world Multi ផងដែរ។View សំណុំទិន្នន័យរូបភាពរាងប៉ូលដែលមានវត្ថុ 6 ដែលមានសំណាញ់ 3D តម្រឹមដី (GT) ដែលមានឈ្មោះថា RMVP3D ។ ខុសគ្នាពីសំណុំទិន្នន័យដែលមានស្រាប់ ដូចជាសំណុំទិន្នន័យ PANDORA [9] ដែលផ្តល់រូបភាពប៉ូឡូញតែប៉ុណ្ណោះ សំណាញ់ GT ដែលបានតម្រឹម និងផ្ទៃធម្មតាសម្រាប់នីមួយៗ view អនុញ្ញាតឱ្យមានការវាយតម្លៃបរិមាណនៃពហុview ការកសាងឡើងវិញ 3D រាងប៉ូល
ដើម្បីសង្ខេបយើងឈានទៅមុខពហុview ការស្ថាបនាឡើងវិញ 3D ដោយការស្នើសុំ
- NeRSP ដែលជាវិធីសាស្រ្តដំបូងដែលស្នើឱ្យប្រើព័ត៌មាន poarimetric សម្រាប់ការស្ថាបនាផ្ទៃឆ្លុះបញ្ចាំងក្រោមការស្រពិចស្រពិល views;
- ការវិភាគដ៏ទូលំទូលាយនៃសញ្ញា photometric និងធរណីមាត្រដែលបានមកពីរូបភាពរាងប៉ូល; និង
- RMVP3D ដែលជាពហុពិភពពិតដំបូងគេview សំណុំទិន្នន័យរូបភាពប៉ូលជាមួយរាង GT សម្រាប់ការវាយតម្លៃបរិមាណ។
ច្រើនview ការកសាងឡើងវិញ 3D ត្រូវបានសិក្សាយ៉ាងទូលំទូលាយអស់ជាច្រើនទសវត្សរ៍មកហើយ។ Neural Radiance Fields (NeRF) [3, 22, 40] បានទទួលជោគជ័យដ៏អស្ចារ្យនៅក្នុងប្រលោមលោក view ការសំយោគក្នុងប៉ុន្មានឆ្នាំថ្មីៗនេះ។ ត្រូវបានបំផុសគំនិតដោយ NeRF វិធីសាស្ត្របង្កើតឡើងវិញនូវសរសៃប្រសាទ 3D [24] ត្រូវបានស្នើឡើង ដែលរូបរាងផ្ទៃត្រូវបានយកគំរូតាមដោយបង្កប់ន័យតាមរយៈវាលចម្ងាយដែលបានចុះហត្ថលេខា (SDF) ។ ចាប់ផ្តើមពី DVR [24] វិធីសាស្រ្តបន្តបន្ទាប់ធ្វើអោយប្រសើរឡើងនូវគុណភាពនៃការបង្កើតរូបរាងឡើងវិញតាមរយៈការតាមដានរាងស្វ៊ែរដែលអាចផ្លាស់ប្តូរបាន [37] ការបង្ហាញកម្រិតសំឡេង [26, 33, 38] ឬការតំណាងរូបរាងដែលបានកែលម្អលម្អិត [18, 34] ។ វិធីសាស្រ្តទាំងនេះអាចសម្រេចបាននូវការប៉ាន់ស្មានរូបរាងគួរឱ្យជឿជាក់សម្រាប់ផ្ទៃដែលសាយភាយ ដែលភាពស៊ីសង្វាក់នៃរូបភាពម៉ែត្រមានសុពលភាពនៅទូទាំង views.
ការស្ថាបនាឡើងវិញសម្រាប់ផ្ទៃឆ្លុះគឺមានការពិបាក ដោយសារភាពស៊ីសង្វាក់នៃរូបភាពមិនត្រឹមត្រូវ។ វិធីសាស្រ្តដែលមានស្រាប់ [5, 41, 42] បង្ហាញគំរូយ៉ាងច្បាស់ view-ការឆ្លុះបញ្ចាំងដោយអាស្រ័យ និងបំបែករូបរាង ពន្លឺប្រែប្រួលតាមលំហ និងលក្ខណៈនៃការឆ្លុះបញ្ចាំងដូចជា albedo និងភាពរដុប។ ទោះយ៉ាងណាក៏ដោយ ការប៉ាន់ប្រមាណនៃអថេរខាងលើគឺមិនពេញចិត្តទេ ដោយសារការមិនទុកចិត្តគ្នាគឺមានភាពមិនល្អខ្លាំង។ NeRO [19] ស្នើឱ្យប្រើការប៉ាន់ប្រមាណផលបូកនៃគំរូនៃការបង្កើតរូបភាព និងធ្វើអោយប្រសើរឡើងនូវគុណភាពនៃការបង្កើតរូបរាងឡើងវិញដោយមិនចាំបាច់ត្រូវការរបាំងមុខ។ ទោះជាយ៉ាងណាក៏ដោយ វិធីសាស្ត្រខាងលើជាធម្មតាទាមទារឱ្យមានការចាប់យករូបភាពក្រាស់ ដើម្បីធានានូវលទ្ធផលស្ដាររូបរាងដែលអាចជឿជាក់បានសម្រាប់ផ្ទៃឆ្លុះបញ្ចាំងដែលពិបាក។
ការស្ថាបនាឡើងវិញដោយប្រយោល។ views គឺចាំបាច់សម្រាប់សេណារីយ៉ូជាក់ស្តែងដែលទាមទារការចាប់យកប្រកបដោយប្រសិទ្ធភាព។ ដោយសារកង្វះការឆ្លើយឆ្លងគ្រប់គ្រាន់ពីកម្រិត views, ភាពមិនច្បាស់លាស់នៃរូបរាង-រស្មីមិនអាចដោះស្រាយបាន ដែលនាំឱ្យមានការស្តាររូបរាងឡើងវិញដែលមានសម្លេងរំខាន និងខូចទ្រង់ទ្រាយ។ វិធីសាស្រ្តដែលមានស្រាប់ដោះស្រាយបញ្ហានេះដោយបន្ថែមភាពទៀងទាត់ដូចជាភាពរលោងនៃធរណីមាត្រផ្ទៃ [25] ជម្រៅរដុបមុន [10, 32] ឬការគ្រប់គ្រងប្រេកង់នៃការអ៊ិនកូដទីតាំង [36] ។ វិធីសាស្រ្តមួយចំនួន [7, 20, 39] បង្កើតការស្ថាបនាឡើងវិញ 3D តិចតួចជាបញ្ហាទូទៅ 3D ដែលមានលក្ខខណ្ឌដែលលក្ខណៈពិសេសរូបភាពដែលត្រូវបានបណ្តុះបណ្តាលជាមុនត្រូវបានប្រើជាទម្រង់ទូទៅដែលអាចកែសម្រួលបាន។ S-VolSDF [35] អនុវត្តពហុបុរាណview វិធីសាស្ត្រស្តេរ៉េអូ ជាការចាប់ផ្តើម និងធ្វើឱ្យការធ្វើឱ្យប្រសើរនៃការបញ្ចេញសរសៃប្រសាទទៀងទាត់ជាមួយនឹងបរិមាណប្រូបាប៊ីលីតេ។ ទោះជាយ៉ាងណាក៏ដោយ វានៅតែជាបញ្ហាប្រឈមសម្រាប់វិធីសាស្រ្តបច្ចុប្បន្នក្នុងការស្តារផ្ទៃឆ្លុះបញ្ចាំងឱ្យបានត្រឹមត្រូវ។
ការកសាងឡើងវិញដោយប្រើរូបភាពប៉ូលត្រូវបានសិក្សាសម្រាប់ទាំងពីរview ការកំណត់ [1, 2, 16, 23, 29] និងពហុview ការកំណត់ [6, 8, 9, 11, 12, 43] ។ មិនដូចរូបភាព RGB ទេ AoP ពីរូបភាពរាងប៉ូលផ្តល់នូវសញ្ញាផ្ទាល់សម្រាប់ផ្ទៃធម្មតា។ នៅលីវ-view រូបរាងពីបច្ចេកទេសរាងប៉ូល (SfP) ទទួលបានអត្ថប្រយោជន៍ពីទ្រព្យសម្បត្តិនេះ ហើយប៉ាន់ស្មានផ្ទៃធម្មតានៅក្រោមពន្លឺឆ្ងាយតែមួយ [21, 29] ឬពន្លឺធម្មជាតិមិនស្គាល់ [1, 16] ។ ច្រើនview វិធីសាស្ត្រ SfP [8, 43] ដោះស្រាយភាពមិនច្បាស់ π និង π/2 នៅក្នុង AoP ដោយផ្អែកលើពហុview ការសង្កេត។ PANDORA [9] គឺជាវិធីសាស្ត្របង្កើតឡើងវិញនូវសរសៃប្រសាទ 3D ជាលើកដំបូងដោយផ្អែកលើរូបភាពប៉ូឡា ដែលបង្ហាញថាមានប្រសិទ្ធភាពក្នុងការស្តាររូបរាងផ្ទៃ និងការបំភ្លឺ។ MVAS [6] ស្តាររូបរាងផ្ទៃពីពហុview ផែនទី azimuth ដែលទាក់ទងយ៉ាងជិតស្និទ្ធទៅនឹងផែនទី AoP ដែលបានមកពី
រូបភាពប៉ូឡូញ។ ទោះជាយ៉ាងណាក៏ដោយ វិធីសាស្រ្តទាំងនេះមិនរុករកដោយប្រើរូបភាពប៉ូឡាសម្រាប់ការបង្កើតឡើងវិញនូវផ្ទៃឆ្លុះបញ្ចាំងក្រោមការបាញ់តិចៗនោះទេ។
គំរូបង្កើតរូបភាពប៉ូឡូរីម៉ែត្រ
មុននឹងចូលទៅក្នុងវិធីសាស្រ្តដែលបានស្នើឡើង យើងណែនាំគំរូនៃការបង្កើតរូបភាពប៉ូឡូម៉ែត្រជាមុនសិន ហើយទាញយករូបភាពម៉ែត្រគូប និងសញ្ញាធរណីមាត្រនៅក្នុងវិធីសាស្ត្ររបស់យើង។ ដូចដែលបានបង្ហាញក្នុងរូបទី 2 កាមេរ៉ាប៉ូឡារីសតដែលថតចម្លងបានកត់ត្រាការសង្កេតរូបភាពនៅមុំប៉ូឡារីសតចំនួនបួនផ្សេងគ្នា ជាមួយនឹងតម្លៃភីកសែលរបស់វាតំណាងឱ្យ {I0, I45, I90, I135} ។ រូបភាពទាំងបួននេះបង្ហាញពីស្ថានភាពរាងប៉ូលនៃពន្លឺដែលបានទទួល ដែលត្រូវបានតំណាងជាវ៉ិចទ័រ 4D Stokes s = [s0, s1, s2, s3] ដែលគណនាជា
យើងសន្មត់ថាមិនមានពន្លឺរាងជារង្វង់មូលទេ ដូច្នេះកំណត់ s3 ទៅជា 0។ វ៉ិចទ័រ Stokes អាចត្រូវបានប្រើដើម្បីគណនាមុំនៃបន្ទាត់រាងប៉ូល (AoP) ពោលគឺ
ដោយផ្អែកលើវ៉ិចទ័រ AoP និង Stokes យើងទទួលបានសញ្ញាធរណីមាត្រ និងរូបភាពតាមរូបភាពដែលត្រូវគ្នា។
សញ្ញាធរណីមាត្រ
ដែលបានផ្តល់ឱ្យ AoP ϕa មុំ azimuth នៃផ្ទៃអាចជា ϕa + π/2 ឬ ϕa + π ដែលគេស្គាល់ថាជា π និង π/2 ភាពមិនច្បាស់លាស់ អាស្រ័យលើថាតើផ្ទៃខាងលើមានលក្ខណៈជាក់លាក់ ឬសាយភាយលេចធ្លោ។ នៅក្នុងផ្នែកនេះ ដំបូងយើងណែនាំអំពីសញ្ញាធរណីមាត្រដែលនាំមកដោយពហុview ផែនទី azimuth ហើយបន្ទាប់មកពង្រីកវាទៅករណីនៃ AoP ។
តាម MVAS [6] សម្រាប់ចំនុច x ផ្ទៃរបស់វាធម្មតា n និងមុំ azimuth ϕ នៅក្នុងកាមេរ៉ាមួយ view អនុវត្តតាមទំនាក់ទំនងដូច
ដែល R = [r1, r2, r3]⊤ គឺជាម៉ាទ្រីសបង្វិលនៃកាមេរ៉ាថត។ យើងអាចរៀបចំ Eq ឡើងវិញបាន។ (3) ដើម្បីទទួលបានទំនាក់ទំនង orthogonal រវាងផ្ទៃធម្មតា និងវ៉ិចទ័រតង់សង់ដែលបានព្យាករ t(ϕ) ដូចដែលបានកំណត់ខាងក្រោម។
ភាពមិនច្បាស់πរវាង AoP និងមុំ azimuth អាចត្រូវបានដោះស្រាយដោយធម្មជាតិជា Eq ។ (4) ឈរប្រសិនបើយើងបន្ថែម ϕ ដោយ π ។ ភាពមិនច្បាស់លាស់ π/2 អាចត្រូវបានដោះស្រាយដោយប្រើ pseudo-projected tangent vector tˆ(ϕ) ដូចនេះ
ប្រសិនបើចំនុចមួយ x ត្រូវបានសង្កេតដោយ f views យើងអាចជង់ Eq ។ (4) និង Eq ។ (5) ដោយផ្អែកលើ k ការបង្វិលផ្សេងគ្នា និងបានសង្កេត AoPs ដែលនាំទៅដល់ប្រព័ន្ធលីនេអ៊ែរ
- T(x)n(x) = 0. (6)
យើងចាត់ទុកប្រព័ន្ធលីនេអ៊ែរនេះជាសញ្ញាធរណីមាត្ររបស់យើងសម្រាប់ពហុview ការកសាងឡើងវិញ 3D រាងប៉ូល
តម្រុយរូបភាព
ដោយសន្មត់ថាការបំភ្លឺនៃបរិយាកាសឧបទ្ទវហេតុគឺមិនមានប៉ូល វ៉ិចទ័រ Stokes នៃទិសដៅពន្លឺនៃឧប្បត្តិហេតុ ω អាចត្រូវបានតំណាងថាជា
- si(ω) = L(ω)[1, 0, 0, 0]⊤, (7)
ដែល L(ω) បង្ហាញពីអាំងតង់ស៊ីតេពន្លឺ។ ពន្លឺចេញដែលថតដោយម៉ាស៊ីនថតរាងប៉ូលបានក្លាយជារាងប៉ូលដោយផ្នែកដោយសារការឆ្លុះ។ ដំណើរការនេះត្រូវបានយកគំរូតាមម៉ាទ្រីស 4×4 Muller H. នៅក្រោមការបំភ្លឺបរិស្ថាន វ៉ិចទ័រ Stokes ចេញ ដូច្នេះអាចត្រូវបានបង្កើតជាអាំងតេក្រាលនៃឧប្បត្តិហេតុ Stokes វ៉ិចទ័រគុណនឹងម៉ាទ្រីស Muller ពោលគឺ
ដែល v និង Ω តំណាងឱ្យ view ទិសដៅ និងដែនអាំងតេក្រាល តាមគំរូ BRDF (pBRDF) រាងប៉ូល [2] វ៉ិចទ័រ Stokes លទ្ធផលអាចត្រូវបាន decomposed ចូលទៅក្នុងផ្នែក diffuse និង specular ដែលយកគំរូតាម Hd និង Hs ដែលត្រូវគ្នា ពោលគឺ
បន្ទាប់ពីការទាញយកមកពី PANDORA [9] យើងអាចបង្កើតវ៉ិចទ័រ Stokes លទ្ធផលបន្ថែមទៀតជា
ដែល Ld =fΩ ρL(ω)ω⊤n T+i T−i dω ត្រូវបានតំណាងថាជារស្មីសាយភាយទាក់ទងនឹងផ្ទៃធម្មតា n, មេគុណបញ្ជូន Fresnel [2] T+i,o និង T−i,o, diffuse albedo ρ និងមុំ azimuth នៃពន្លឺឧបទ្ទវហេតុ ϕn ។ Ls = fΩ L(ω) DG 4n⊤v dω តំណាងឱ្យរស្មីជាក់លាក់ទាក់ទងនឹងមេគុណនៃការឆ្លុះបញ្ចាំង Fresnel [2] R + និង R− មុំ azimuth បាតុភូត ϕh wrt វ៉ិចទ័រពាក់កណ្តាល h = ω+v∥ω+v∥22 និង ការចែកចាយធម្មតា និងពាក្យស្រមោល D និង G នៅក្នុងគំរូ Microfacet [31] ។
សូមពិនិត្យមើលសម្ភារៈបន្ថែមសម្រាប់ព័ត៌មានលម្អិត។ ដោយផ្អែកលើគំរូនៃការបង្កើតរូបភាពប៉ូឡូម៉ែត្រដែលបង្ហាញក្នុង Eq ។ (10) យើងបង្កើតតារាង photometric ។
វិធីសាស្រ្តដែលបានស្នើឡើង
NeRSP របស់យើងប្រើច្រើន sparseview រូបភាពរាងប៉ូល របាំងស្រមោលដែលត្រូវគ្នានៃវត្ថុគោលដៅ និងកាមេរ៉ាបង្ហាញជាធាតុបញ្ចូល និងបញ្ចេញរូបរាងផ្ទៃរបស់វត្ថុដែលតំណាងដោយប្រយោលតាមរយៈ SDF ។ យើងចាប់ផ្តើមជាមួយនឹងការពិភាក្សាលើសញ្ញា photometric និងសញ្ញាធរណីមាត្រក្នុងការដោះស្រាយភាពមិនច្បាស់លាស់នៃការបង្កើតរូបរាងឡើងវិញ បន្ទាប់មកដោយការណែនាំអំពីរចនាសម្ព័ន្ធបណ្តាញ និងមុខងារបាត់បង់នៃ NeRSP របស់យើង។
ភាពមិនច្បាស់លាស់នៅក្នុងការកសាងឡើងវិញ 3D តិចតួច
សញ្ញាធរណីមាត្រ និងសញ្ញារូបវិទ្យាដើរតួនាទីយ៉ាងសំខាន់ក្នុងការកាត់បន្ថយចន្លោះដំណោះស្រាយនៃរូបរាងផ្ទៃក្រោម។ viewស. ដូចដែលបានបង្ហាញក្នុងរូបទី 3 យើងបង្ហាញពីការប៉ាន់ប្រមាណរូបរាងនៅក្រោម 2 views ជាមួយនឹងសញ្ញាផ្សេងគ្នា។ បានផ្តល់តែរូបភាព RGB ជាការបញ្ចូល (ដែលត្រូវនឹងការកំណត់នៅក្នុង NeRO [19] និង S-VolSDF [35]) ការរួមបញ្ចូលគ្នាផ្សេងគ្នានៃទីតាំងចំណុចកន្លែងកើតហេតុ ភាពធម្មតានៃផ្ទៃ និងលក្ខណៈសម្បត្តិឆ្លុះបញ្ចាំងដូចជា albedo អាចនាំឱ្យមានការសង្កេតរូបភាពដូចគ្នា ចាប់តាំងពី មានតែការវាស់វែង RGB ពីរប៉ុណ្ណោះសម្រាប់ចំណុច 3D នីមួយៗតាមកាំរស្មីកាមេរ៉ា។ ដោយប្រើវ៉ិចទ័រ Stokes ដែលស្រង់ចេញពីរូបភាពប៉ូល សញ្ញា photometric នាំមកនូវការវាស់វែងចំនួន 6 សម្រាប់ចំណុច 3D នីមួយៗ (វ៉ិចទ័រ Stokes មាន 3 ធាតុ) កាត់បន្ថយផ្ទៃផ្ទៃដែលបេក្ខជនធម្មតាមិនសមនឹងគំរូនៃការបង្កើតរូបភាពប៉ូឡូម៉ែត្រ។
ម៉្យាងវិញទៀត ដោយផ្អែកលើ AoP maps1 ពីរូបភាពរាងប៉ូល យើងអាចកំណត់ដោយឡែកពីផ្ទៃធម្មតារហូតដល់ភាពមិនច្បាស់ π សម្រាប់គ្រប់ចំណុចនៃឈុតនៅតាមបណ្តោយកាំរស្មីកាមេរ៉ា។ ទោះយ៉ាងណាក៏ដោយ វានៅតែមានភាពស្រពិចស្រពិលក្នុងការស្វែងរកទីតាំងដែលកាំរស្មីកាមេរ៉ាកាត់ផ្ទៃខាងលើ លុះត្រាតែមួយភាគបី view ត្រូវបានផ្តល់ជូន [6] ។ ដូច្នេះនៅក្រោម sparse viewការកំណត់ (ឧ. ២ views ក្នុងរូបទី 3) ការកំណត់ទីតាំងចំណុចកន្លែងកើតហេតុ ដោយផ្អែកលើរូបភាពធរណីមាត្រ ឬរូបមាត្រនៅតែមិនច្បាស់លាស់។
វិធីសាស្រ្តរបស់យើងរួមបញ្ចូលគ្នានូវសញ្ញាទាំងពីរនេះបានមកពីរូបភាពរាងប៉ូល។ ដូចដែលបានមើលឃើញនៅក្នុងផ្នែកខាងក្រោមខាងស្តាំនៃរូបភាពទី 3 ទីតាំងចំណុចនៃឈុតត្រឹមត្រូវគួរតែមានផ្ទៃរបស់វាធម្មតានៅចំនុចប្រសព្វនៃក្រុមបេក្ខជនធម្មតាដែលមកពីការគូសរូបតាមរូបភាព និងធរណីមាត្រ។ ដូចជាផ្ទៃធម្មតានៅ s ផ្សេងគ្នាampចំនុចដែលដឹកនាំត្រូវបានកំណត់យ៉ាងពិសេសដោយសញ្ញាធរណីមាត្រ យើងអាចកំណត់បានយ៉ាងងាយស្រួលថាតើចំនុចនោះស្ថិតនៅលើផ្ទៃដោយជំនួយពី photometric cue ដែរឬទេ។ នៅក្នុងវិធីនេះ យើងកាត់បន្ថយចន្លោះដំណោះស្រាយនៃការបង្កើតឡើងវិញនូវផ្ទៃដែលឆ្លុះបញ្ចាំងពី sparse-shot ។
NeRSP
រចនាសម្ព័ន្ធបណ្តាញ ដូចដែលបានបង្ហាញក្នុងរូបទី 4 NeRSP របស់យើងអនុវត្តរចនាសម្ព័ន្ធបណ្តាញស្រដៀងគ្នាជាមួយ PANDORA [9] ដើមឡើយមកពី Ref-NeRF [30] ។ សម្រាប់កាំរស្មីពន្លឺដែលបញ្ចេញចេញពីមជ្ឈមណ្ឌលកាមេរ៉ា o ជាមួយនឹងទិសដៅ v យើង sample ចំណុចនៅលើកាំរស្មីជាមួយនឹងចម្ងាយធ្វើដំណើរ ti ទីតាំងរបស់វាត្រូវបានសម្គាល់នៅ xi = o + tiv ។ បន្ទាប់ពីការបង្ហាញកម្រិតសំឡេងដែលបានប្រើនៅក្នុង NeRF [25] វ៉ិចទ័រ Stokes s(v) ដែលបានសង្កេតអាចត្រូវបានរួមបញ្ចូលដោយភាពស្រអាប់នៃកម្រិតសំឡេង σi និងវ៉ិចទ័រ Stokes នៅ sampចំណុចនាំមុខនៅតាមបណ្តោយកាំរស្មី, ឧ
កន្លែងណា សម្គាល់ការបញ្ជូនបង្គរនៃ asampចំណុចដឹកនាំ។
ដោយមានការលើកទឹកចិត្តដោយវិធីសាស្ត្របង្កើតឡើងវិញនូវសរសៃប្រសាទ 3D នាពេលថ្មីៗនេះ NeuS [33] យើងទាញយកភាពស្រអាប់នៃកម្រិតសំឡេងពីបណ្តាញ SDF ហើយថែមទាំងទាញយកផ្ទៃធម្មតាចេញពីជម្រាលនៃ SDF ផងដែរ។ ដើម្បីគណនា so(xi, v) នៅ sampចំណុចនាំមុខ យើងធ្វើតាមគំរូនៃការបង្កើតរូបភាពប៉ូឡូម៉ែត្រនៅក្នុង Eq ។ (១០). ជាពិសេស កាំរស្មីដែលសាយភាយ Ld គឺទាក់ទងទៅនឹងមេគុណនៃការបញ្ជូន albedo និង Fresnel ដែលសាយភាយ ដែលអាស្រ័យលើទីតាំងកន្លែងកើតហេតុ ប៉ុន្តែផ្ទុយទៅនឹង view ទិសដៅ។ ហេតុដូច្នេះហើយ យើងប្រើបណ្តាញរស្មីសាយភាយ ដើម្បីគូសផែនទី Ld ពីលក្ខណៈពិសេសនៃចំណុចនីមួយៗ។ រស្មីជាក់លាក់ Ls គឺទាក់ទងទៅនឹង lobe specular ដែលកំណត់ដោយ view ទិសដៅ ផ្ទៃធម្មតា និងភាពរដុបលើផ្ទៃ។ ដូច្នេះយើងប្រើ RoughnessNet ដើម្បីទស្សន៍ទាយភាពរដុបលើផ្ទៃ។ រួមគ្នាជាមួយកាមេរ៉ា view ទិសដៅ និងផ្ទៃដែលបានព្យាករណ៍ជាធម្មតា យើងប៉ាន់ប្រមាណនូវរស្មីជាក់លាក់ Ls ដែលកាត់បន្ថយម៉ូឌុលការអ៊ិនកូដទីតាំងរួមបញ្ចូលគ្នាដែលស្នើឡើងដោយ Ref-NeRF [30] ។ ការរួមបញ្ចូលគ្នារវាង Ld និង Ls យើងបង្កើតវ៉ិចទ័រ Stokes ឡើងវិញបន្ទាប់ពី Eq ។ (១០).
មុខងារបាត់បង់
ការបាត់បង់ photometric ត្រូវបានកំណត់ជាចម្ងាយ L1 រវាងវ៉ិចទ័រ Stokes ដែលបានសង្កេត និងស្ថាបនាឡើងវិញ s(v) ពោលគឺ
ដែលជាកន្លែងដែល V តំណាងឱ្យកាំរស្មីកាមេរ៉ាទាំងអស់ដែលបញ្ចេញនៅក្នុងរបាំងវត្ថុនៅផ្សេងគ្នា viewស. សម្រាប់ការបាត់បង់ធរណីមាត្រ។ ដំបូងយើងរកឃើញចំណុច 3D scene x នៅតាមបណ្តោយកាមេរ៉ា ray v រហូតដល់ប៉ះផ្ទៃខាងលើ ហើយបន្ទាប់មករកទីតាំង 2D-pixel ដែលបានព្យាករនៅផ្សេងគ្នា។ viewស. ការបាត់បង់ធរណីមាត្រត្រូវបានកំណត់ដោយផ្អែកលើ Eq ។ (៦) ឧ.
ដែល X តំណាងឱ្យចំណុចប្រសព្វផ្ទៃកាំរស្មីទាំងអស់នៅខាងក្នុងរបាំងវត្ថុនៅផ្សេងគ្នា viewស. ក្រៅពីការបាត់បង់រូបមាត្រ និងធរណីមាត្រ យើងបន្ថែមការបាត់បង់របាំងដែលគ្រប់គ្រងដោយរបាំងវត្ថុ និងការបាត់បង់ភាពទៀងទាត់របស់ Eikonal ។ ការបាត់បង់របាំងត្រូវបានកំណត់ជា
កន្លែងណា តំណាងឱ្យរបាំងមុខដែលបានព្យាករណ៍នៅ k-th camera ray ដែលតម្លៃរបាំង GT ត្រូវបានតំណាងថាជា Mk ។ BCE តំណាងឱ្យការបាត់បង់ឆ្លង entropy គោលពីរ។
ដែល ni,k គឺជាផ្ទៃធម្មតាដែលបានមកពីបណ្តាញ SDF នៅ i-th sampចំណុចដឹកនាំតាមបណ្តោយកាំរស្មីកាមេរ៉ា k-th ។ NeRSP របស់យើងត្រូវបានគ្រប់គ្រងដោយការរួមបញ្ចូលគ្នានៃលក្ខខណ្ឌការបាត់បង់ខាងលើ ពោលគឺ
ដែល λe, λm, និង λp គឺជាមេគុណសម្រាប់លក្ខខណ្ឌនៃការបាត់បង់ដែលត្រូវគ្នា។
សំណុំទិន្នន័យ RMVP3D
ដើម្បីវាយតម្លៃបរិមាណនៃវិធីសាស្ត្រដែលបានស្នើឡើង យើងចាប់យក Real-world Multiview សំណុំទិន្នន័យរូបភាពដែលមានបន្ទាត់រាងប៉ូលជាមួយនឹងសំណាញ់ការពិតដែលបានតម្រឹម។ រូបភាពទី 5 (ឆ្វេង) បង្ហាញពីការរៀបចំការចាប់យករបស់យើង ដែលរួមមានកាមេរ៉ាប៉ូឡូម៉ែត្រ FLIR BFS-U3-51S5PC-C បំពាក់ដោយកញ្ចក់ 12 មីលីម៉ែត្រ និងផ្លូវដែកបង្វិល។ យើងប្រើ OpenCV សម្រាប់ demosaicing ទិន្នន័យឆៅ និងទទួលបានរូបភាពពណ៌ 1224×1024 ជាមួយនឹងមុំ polarizer នៅ 0, 45, 90 និង 135 ដឺក្រេ។ ក្នុងអំឡុងពេលនៃការចាប់យកទិន្នន័យ យើងដាក់វត្ថុគោលដៅនៅចំកណ្តាលផ្លូវដែក ហើយចាប់យករូបភាពចំនួន 60 ក្នុងមួយវត្ថុ ដោយផ្លាស់ទីកាមេរ៉ាដោយដៃ។ យើងប្រមូលវត្ថុចំនួន 4 ជាគោលដៅ៖ DOG, FROG, LION និង BALL ដូចដែលបានបង្ហាញក្នុងរូបទី 5 (កណ្តាល)។ សម្រាប់ការវាយតម្លៃតាមបរិមាណ យើងយកម៉ាស៊ីនស្កែនឡាស៊ែរ Creaform HandySCAN BLACK ដែលមានភាពត្រឹមត្រូវ 0.01 mm ដើម្បីទទួលបានសំណាញ់ការពិត។ ដើម្បីតម្រឹមសំណាញ់ទៅនឹងរូបភាពដែលបានថត views ដំបូងយើងអនុវត្ត PANDORA [9] ដើម្បីប៉ាន់ប្រមាណរូបរាងឯកសារយោងដោយប្រើទាំងអស់ដែលមាន views ហើយបន្ទាប់មកតម្រឹមសំណាញ់ដែលបានស្កេនទៅនឹងការប៉ាន់ប្រមាណតាមរយៈក្បួនដោះស្រាយ ICP [4]។ ក្រៅពីរូបរាងការពិត និងពហុview រូបភាព យើងក៏ចាប់យកផែនទីបរិស្ថានដោយប្រើកាមេរ៉ា 360 ដឺក្រេ THETA Z1 ដែលផ្តល់អត្ថប្រយោជន៍ដល់ការវាយតម្លៃបរិមាណលើការប៉ាន់ប្រមាណការបំភ្លឺសម្រាប់ការងារបង្ហាញបញ្ច្រាសសរសៃប្រសាទដែលពាក់ព័ន្ធ។
ការពិសោធន៍
យើងវាយតម្លៃ NeRSP ជាមួយនឹងការពិសោធន៍ចំនួនបី៖ 1) ការប្រៀបធៀបជាមួយពហុដែលមានស្រាប់view វិធីសាស្រ្តកសាងឡើងវិញ 3D តាមបរិមាណនៅលើសំណុំទិន្នន័យសំយោគ; 2) ការសិក្សា ablation លើការរួមចំណែកនៃការបាត់បង់ធរណីមាត្រ និង photometric លក្ខខណ្ឌ 3) ការវាយតម្លៃគុណភាព និងបរិមាណលើសំណុំទិន្នន័យជាក់ស្តែង។ យើងក៏ផ្តល់ BRDF និងប្រលោមលោកផងដែរ។ view លទ្ធផលនៅក្នុងសម្ភារៈបន្ថែម។
សំណុំទិន្នន័យ និងមូលដ្ឋាន
សំណុំទិន្នន័យ យើងរៀបចំសំណុំទិន្នន័យពិភពលោកពិតចំនួនពីរ៖ សំណុំទិន្នន័យ PAN-DORA [9] និង RMVP3D ដែលបានស្នើឡើងរបស់យើង ដែលសំណុំទិន្នន័យ PANDORA [9] ត្រូវបានប្រើសម្រាប់តែការវាយតម្លៃគុណភាពប៉ុណ្ណោះ ដោយសារសំណាញ់ការពិតមូលដ្ឋានមិនត្រូវបានផ្តល់ឱ្យ។ យើងក៏រៀបចំពហុសំយោគផងដែរ។view សំណុំទិន្នន័យរូបភាពរាងប៉ូល SMVP3D ជាមួយនឹងម៉ាស៊ីនបង្ហាញ Mitsuba [15] ដែលមានវត្ថុចំនួន 5 ដែលមានភាពខុសប្លែកគ្នាក្នុងលំហ និងឆ្លុះបញ្ចាំងដូចដែលមើលឃើញក្នុងរូបភាពទី 6 ។ វត្ថុត្រូវបានបំភ្លឺដោយផែនទីបរិស្ថាន 2 និងចាប់យកដោយ 6 views ត្រូវបានចែកចាយដោយចៃដន្យជុំវិញវត្ថុ។ ក្រៅពីរូបភាពដែលបង្ហាញរាងប៉ូល យើងក៏នាំចេញវ៉ិចទ័រ stokes ផែនទីធម្មតាផ្ទៃ GT និងផែនទី AoP សម្រាប់វត្ថុនីមួយៗ។
មូលដ្ឋាន។ ការងាររបស់យើងដោះស្រាយបញ្ហាជាច្រើន។view ការបង្កើតឡើងវិញ 3D សម្រាប់ផ្ទៃឆ្លុះបញ្ចាំងដោយផ្អែកលើរូបភាពដែលមានបន្ទាត់រាងប៉ូល។ ដូច្នេះហើយ យើងជ្រើសរើសវិធីសាស្ត្រកសាងឡើងវិញ 3D ដ៏ទំនើបបំផុត ដែលកំណត់គោលដៅលើផ្ទៃឆ្លុះបញ្ចាំង NeRO [19] និង sparse views S-VolSDF [35] ។ វិធីសាស្រ្តទាំងពីរខាងលើគឺផ្អែកលើការបញ្ចូលរូបភាព RGB ។ សម្រាប់ពហុview ស្តេរ៉េអូផ្អែកលើរូបភាពប៉ូឡារីស យើងជ្រើសរើស PANDORA [9] និង MVAS [6] ជាមូលដ្ឋានរបស់យើង។ NeRO [19] មិនតម្រូវឱ្យមានរបាំងមុខដូចការបញ្ចូលទេ។ សម្រាប់ការប្រៀបធៀបដោយយុត្តិធម៌ យើងដកផ្ទៃខាងក្រោយនៅក្នុងរូបភាព RGB ជាមួយនឹងរបាំងដែលត្រូវគ្នា មុនពេលបញ្ចូលទៅ NeRO [19] ។ ដើម្បីប្រៀបធៀបវិធីផ្សេងគ្នា យើងអនុវត្តចម្ងាយ Chamfer (CD) រវាងការប៉ាន់ប្រមាណ និងសំណាញ់ GT និងកំហុសមុំមធ្យម (MAE) រវាងការប៉ាន់ប្រមាណ និងផ្ទៃ GT ធម្មតានៅខុសគ្នា។ views ជារង្វាស់វាយតម្លៃរបស់យើង។
ការងើបឡើងវិញរូបរាងនៅលើសំណុំទិន្នន័យសំយោគ
ដូចដែលបានបង្ហាញក្នុងតារាងទី 1 យើងសង្ខេបកំហុសការប៉ាន់ស្មានរូបរាងនៃវិធីសាស្រ្តដែលមានស្រាប់ និងរបស់យើងនៅលើ SMVP3D ។ វិធីសាស្រ្តរបស់យើងសម្រេចបានចម្ងាយ Chamfer តូចបំផុតតាមគ្រប់វត្ថុសំយោគទាំង 5 ។ ដោយផ្អែកលើការប៉ាន់ប្រមាណរូបរាងដែលមើលឃើញដែលបង្ហាញក្នុងរូបភាពទី 7 NeRO [19] និង S-VolSDF [35] មិនអាចយកមកវិញនូវព័ត៌មានលម្អិតនៃផ្ទៃបានត្រឹមត្រូវដូចដែលបានបន្លិចនៅក្នុងរូបភាពបិទនោះទេ។ viewស. ហេតុផលមួយដែលអាចកើតមាននោះគឺថា ការមិនរួញរានៃរូបរាង និងការឆ្លុះបញ្ចាំងពីរូបភាពតូចៗគឺពិបាកពេកសម្រាប់វិធីសាស្រ្តទាំងនេះដោយផ្អែកលើតែព័ត៌មាន RGB ប៉ុណ្ណោះ។ MVAS [6] និង PANDORA [9] ប្រាប់ពីសញ្ញាធរណីមាត្រ និងរូបភាពនៃរូបភាពរាងប៉ូលដោយឡែកពីគ្នា។ ទោះជាយ៉ាងណាក៏ដោយ ទម្រង់ផ្ទៃឆ្លុះបញ្ចាំងដែលស្ថាបនាឡើងវិញនៅតែមិនពេញចិត្ត ដោយសារភាពមិនច្បាស់លាស់នៅក្នុងសញ្ញាធរណីមាត្រ និងរូបមាត្រ នៅក្រោមផ្នែកតូចៗ។ viewការកំណត់។ ដូចដែលបានគូសបញ្ជាក់នៅក្នុងការបិទ views ដោយទទួលបានអត្ថប្រយោជន៍ទាំងពីធរណីមាត្រ និងរូបវិទ្យា វិធីសាស្ត្ររបស់យើងកាត់បន្ថយចន្លោះដំណោះស្រាយនៃការប៉ាន់ប្រមាណរូបរាង ដែលនាំទៅដល់ការស្តាររូបរាងសមហេតុផលបំផុតបើប្រៀបធៀបជាមួយនឹងរាង GT ។
ក្រៅពីការវាយតម្លៃនៃសំណាញ់ដែលបានបង្កើតឡើងវិញ យើងក៏ធ្វើតេស្តលើលទ្ធផលការប៉ាន់ប្រមាណធម្មតាលើផ្ទៃផងដែរ។ ដូចដែលបានបង្ហាញក្នុងតារាងទី 2 យើងសង្ខេបកំហុសមុំមធ្យមនៃផ្ទៃធម្មតាប៉ាន់ស្មាននៅ 6 views ពីវិធីសាស្រ្តផ្សេងគ្នា។ ដោយអនុលោមតាមលទ្ធផលវាយតម្លៃក្នុងតារាងទី 1 NeRSP សម្រេចបាននូវកំហុសមុំតូចបំផុតជាមធ្យម។ យើងក៏បានសង្កេតឃើញថា លទ្ធផលពី NeRO [19], MVAS [6] និង PANDORA [9] មានកំហុសធំជាងលើវត្ថុដែលមានព័ត៌មានលម្អិតល្អ ដូចជាវត្ថុ DAVID និង DRAGON ។ ក្នុងនាមជាអតីតample, MVAS [6] មានចម្ងាយ Chamfer តូចបំផុតទីពីរដែលបង្ហាញក្នុងតារាងទី 1 ប៉ុន្តែកំហុសមុំមធ្យមគឺលើសពី 20◦។ ហេតុផលដ៏មានសក្តានុពលមួយគឺវិធីសាស្ត្រដែលមានស្រាប់ បញ្ចេញរាងរលោងក្នុងចន្លោះ viewការកំណត់ ដែលជាកន្លែងដែលព័ត៌មានលម្អិតនៃផ្ទៃដូចជា flakes នៃ DRAGON មិនត្រូវបានយកមកវិញបានយ៉ាងល្អ។
តារាងទី 1. ការប្រៀបធៀបនៃការងើបឡើងវិញនៃរូបរាងនៅលើសំណុំទិន្នន័យសំយោគដែលបានវាយតម្លៃដោយចម្ងាយ Chamfer (↓) ។ កំហុសតូចបំផុត និងតូចបំផុតទីពីរត្រូវបានដាក់ស្លាកជាដិត និងគូសបន្ទាត់ពីក្រោម។ “N/A” បង្ហាញពីការពិសោធន៍ដែលវិធីសាស្ត្រជាក់លាក់មួយមិនអាចផ្តល់លទ្ធផលប៉ាន់ស្មានរូបរាងសមហេតុផល។
ការសិក្សា Ablation
នៅក្នុងផ្នែកនេះ យើងធ្វើការសិក្សា ablation ដើម្បីសាកល្បងប្រសិទ្ធភាពនៃសញ្ញាធរណីមាត្រ និង photometric ។ យកវត្ថុ DRAGON ជាអតីតampដូច្នេះ យើងធ្វើវិធីសាស្រ្តរបស់យើងដោយមាន និងគ្មានការបាត់បង់ photometric Lp និងការបាត់បង់ធរណីមាត្រ Lg ។ ដូចដែលបានបង្ហាញក្នុងរូបភាពទី 8 យើងគូសរូបរូបរាង និងផ្ទៃការប៉ាន់ស្មានធម្មតាដោយបិទលក្ខខណ្ឌនៃការបាត់បង់ផ្សេងៗគ្នា។ បើគ្មានការបាត់បង់ photometric ទេនោះ រូបរាងមិនច្បាស់ដោយសារតែ sparse views កើតឡើង។ ដូចដែលបានបង្ហាញពីការបិទ views, រូបរាងនៅជិតផ្នែកជើងមានវត្ថុបុរាណ concave ដូចជាមានពីរដែលអាចមើលឃើញ views សម្រាប់តំបន់នេះ មិនអាចបង្កើតដំណោះស្រាយតែមួយគត់សម្រាប់រូបរាងដោយផ្អែកទៅលើផែនទី AoP [6] ទេ។ បើគ្មានការបាត់បង់ធរណីមាត្រទេ យើងក៏ទទួលបានលទ្ធផលនៃរូបរាងដែលខូចទ្រង់ទ្រាយផងដែរ ដោយសារការសង្កេតរូបភាពតូចចង្អៀតមិនគ្រប់គ្រាន់ដើម្បីបំបែករូបរាង ការឆ្លុះបញ្ចាំង និងការបំភ្លឺដោយឯកឯង។ តាមរយៈការរួមបញ្ចូលគ្នានៃការបាត់បង់រូបមាត្រ និងធរណីមាត្រ NeRSP របស់យើងកាត់បន្ថយភាពមិនច្បាស់លាស់នៃរូបរាងឡើងវិញ ហើយរូបរាងដែលបានប៉ាន់ស្មានគឺកាន់តែជិតទៅនឹង GT ដូចដែលបានគូសបញ្ជាក់នៅក្នុងរូបភាពបិទជិត views.
រូបភាពទី 8. ការសិក្សា Ablation លើលក្ខខណ្ឌនៃការបាត់បង់ផ្សេងៗគ្នា។ ជួរខាងលើ និងខាងក្រោមមើលឃើញរូបរាងដែលបានប៉ាន់ស្មាន និងផ្ទៃធម្មតា ជាមួយនឹងចម្ងាយ Chamfer និងកំហុសមុំមធ្យមដែលមានស្លាកនៅផ្នែកខាងលើនៃរូបរងនីមួយៗរៀងៗខ្លួន។
ការងើបឡើងវិញរូបរាងនៅលើទិន្នន័យពិត
ក្រៅពីការពិសោធន៍សំយោគដែលបានបង្ហាញនៅក្នុងផ្នែកមុន យើងក៏វាយតម្លៃវិធីសាស្រ្តរបស់យើងលើសំណុំទិន្នន័យពិភពលោកពិត PANDORA dataset [9] និង RMVP3D ដើម្បីសាកល្បងការអនុវត្តរបស់វានៅក្នុងសេណារីយ៉ូការកសាងឡើងវិញ 3D ពិភពពិត។
ការវាយតម្លៃគុណភាពលើសំណុំទិន្នន័យ PANDORA [9] ។ ដូចដែលបានបង្ហាញក្នុងរូបភាពទី 9 យើងផ្តល់នូវការវាយតម្លៃគុណភាពនៃសំណុំទិន្នន័យ PAN-DORA [9] ។ បើប្រៀបធៀបទៅនឹងរូបរាងរូបភាពជាមួយនឹងលទ្ធផលប៉ាន់ស្មានពី S-VolSDF [35] និង NeRO [19] រូបរាងមិនត្រូវបានគេកាត់ចេញទាំងស្រុងពីការឆ្លុះបញ្ចាំងនោះទេ ដែលនាំឱ្យរូបរាងផ្ទៃរដិបរដុបដែលទាក់ទងយ៉ាងជិតស្និទ្ធទៅនឹងវាយនភាពឆ្លុះបញ្ចាំង។ MVAS [6] និង PANDORA [9] មានការប៉ាន់ប្រមាណរូបរាងដែលរលោងហួសហេតុ ឬវត្ថុបុរាណរាងកោង ដោយសារការបញ្ជាក់តែរូបធរណីមាត្រ ឬរូបមាត្រនៅក្រោមការកំណត់ការចាប់យកតូច។ លទ្ធផលប៉ាន់ស្មានរូបរាងរបស់យើងមិនមានវត្ថុបុរាណរាងដូចនោះទេ ហើយត្រូវគ្នានឹងការសង្កេតរូបភាពយ៉ាងជិតស្និទ្ធ។
តារាងទី 3. ការវាយតម្លៃបរិមាណនៅលើ RMVP3D ជាមួយ Chamfer dis-tance (↓) ។ វិធីសាស្រ្តរបស់យើងសម្រេចបាននូវកំហុសតូចបំផុតជាមធ្យម។
វិធីសាស្រ្ត | ឆ្កែ | តោ | FROG | បាល់ | មធ្យម |
នេរ៉ូ [19] | 9.11 | 10.74 | 6.21 | 3.87 | 7.48 |
S-VolSDF [35] | 9.93 | 7.39 | 7.91 | 18.4 | 10.91 |
MVAS [6] | 9.23 | 7.51 | 9.90 | 4.77 | 7.86 |
PANDORA [9] | 14.3 | 15.04 | 11.27 | 3.96 | 11.14 |
NeRSP (របស់យើង) | 8.80 | 5.18 | 6.70 | 3.84 | 6.13 |
ការវាយតម្លៃបរិមាណនៅលើ RMVP3D ។ ដូចដែលបានបង្ហាញក្នុងតារាងទី 3 យើងបង្ហាញពីការវាយតម្លៃបរិមាណនៃ RMVP3D ដោយផ្អែកលើចម្ងាយ Chamfer ។ ស្របតាមការពិសោធន៍សំយោគ NeRSP របស់យើងសម្រេចបាននូវកំហុសប៉ាន់ស្មានតូចបំផុតជាមធ្យម។ រូបរាងដែលមើលឃើញដែលបង្ហាញក្នុងរូបភាពទី 10 បង្ហាញបន្ថែមទៀតថាផ្ទៃឆ្លុះបញ្ចាំងកំពុងប្រឈមនឹង S-VolSDF [35] សម្រាប់ការផ្តាច់រូបរាងពីការឆ្លុះបញ្ចាំង ដូចដែលបានគូសបញ្ជាក់ដោយផ្ទៃរដិបរដុបនៃវត្ថុ FROG នៅក្នុងការបិទជិត viewស. NeRO [19] និង PANDORA [9] មានកំហុសក្នុងការប៉ាន់ប្រមាណស្រដៀងគ្នាជាមួយយើងលើវត្ថុ BALL សាមញ្ញ។ សម្រាប់រូបរាងស្មុគ្រស្មាញដូចជា LION ការស្តាររូបរាងដែលខូចទ្រង់ទ្រាយត្រូវបានទទួលពីវិធីសាស្ត្រទាំងនេះ ដោយសារភាពតូចចង្អៀត view ការកំណត់ ខណៈពេលដែលយើងខិតទៅជិត GT Meshes បង្ហាញពីប្រសិទ្ធភាពនៃវិធីសាស្រ្តរបស់យើងលើការកសាងឡើងវិញនូវផ្ទៃឆ្លុះបញ្ចាំងពីពិភពពិតក្រោមការបញ្ចូលតិចតួច។
សេចក្តីសន្និដ្ឋាន
យើងស្នើរសុំ NeRSP ដែលជាវិធីសាស្ត្របង្កើតឡើងវិញនូវប្រព័ន្ធសរសៃប្រសាទ 3D សម្រាប់ផ្ទៃឆ្លុះបញ្ចាំងក្រោមរូបភាពរាងប៉ូលស្តើង។ ដោយសារបញ្ហាប្រឈមនៃភាពមិនច្បាស់លាស់នៃរាង-រស្មី និងការឆ្លុះបញ្ចាំងដ៏ស្មុគស្មាញ វិធីសាស្ត្រដែលមានស្រាប់ត្រូវតស៊ូជាមួយនឹងផ្ទៃដែលឆ្លុះបញ្ចាំង ឬមិនសូវច្បាស់។ views និងមិនអាចដោះស្រាយបញ្ហាទាំងពីរជាមួយរូបភាព RGB បានទេ។ យើងស្នើឱ្យប្រើរូបភាពរាងប៉ូលជាការបញ្ចូល។ ដោយការរួមបញ្ចូលសញ្ញាធរណីមាត្រ និងរូបវិទ្យាដែលស្រង់ចេញពីរូបភាពប៉ូល យើងបានកាត់បន្ថយចន្លោះដំណោះស្រាយនៃរូបរាងដែលបានប៉ាន់ប្រមាណ ដែលអនុញ្ញាតឱ្យមានការស្តារផ្ទៃឆ្លុះបញ្ចាំងប្រកបដោយប្រសិទ្ធភាពជាមួយនឹងចំនួន 6 ។ views ដូចដែលបានបង្ហាញដោយសាធារណៈ និងសំណុំទិន្នន័យរបស់យើង។
- ដែនកំណត់
ការឆ្លុះបញ្ចាំងអន្តរការី និងពន្លឺបរិស្ថានរាងប៉ូល មិនត្រូវបានពិចារណាក្នុងការងារនេះទេ ដែលអាចជះឥទ្ធិពលលើភាពត្រឹមត្រូវនៃការបង្កើតរូបរាងឡើងវិញ។ យើងបានកត់សម្គាល់ពីការងារថ្មីបំផុតមួយរបស់ NeISF [17] ដែលផ្តោតលើប្រធានបទនេះ ហើយយើងចាប់អារម្មណ៍ក្នុងការរួមបញ្ចូលគុណសម្បត្តិនៃការបាញ់ប្រហាររបស់យើងជាមួយនឹងការងារនេះនាពេលអនាគត។ - ការទទួលស្គាល់
ការងារនេះត្រូវបានគាំទ្រដោយគម្រោងមូលនិធិវិទ្យាសាស្ត្រធម្មជាតិទីក្រុងប៉េកាំងលេខ Z200002 មូលនិធិវិទ្យាសាស្ត្រធម្មជាតិជាតិនៃប្រទេសចិន (ជំនួយឥតសំណងលេខ 62136001, 62088102, 62225601, U23B2052) ដែលជាក្រុមស្រាវជ្រាវគំនិតច្នៃប្រឌិតយុវជននៃ BUPT No. 2023QEN the JNTSD02 (ជំនួយលេខ JP22K17910 និង JP23H05491) ។ យើងសូមអរគុណ Youwei Lyu សម្រាប់ការពិភាក្សាដ៏ស៊ីជម្រៅ។
ឯកសារយោង
- Yunhao Ba, Alex Gilbert, Franklin Wang, Jinfa Yang, Rui Chen, Yiqin Wang, Lei Yan, Boxin Shi និង Achuta Kadambi។ រាងជ្រៅពីបន្ទាត់រាងប៉ូល។ នៅក្នុង ECCV ទំព័រ 554–571, 2020
- Seung-Hwan Baek, Daniel S Jeon, Xin Tong និង Min H Kim។ ការទិញក្នុងពេលដំណាលគ្នានៃ SVBRDF រាងប៉ូលនិងធម្មតា។ ACM TOG, 37(6):268–1, 2018. 2, 3, 4
- Jonathan T Barron, Ben Mildenhall, Matthew Tancik, Peter Hedman, Ricardo Martin-Brualla, និង Pratul P Srinivasan ។ Mip-NeRF៖ តំណាងពហុមាត្រសម្រាប់វាលរស្មីសរសៃប្រសាទប្រឆាំងនឹងឈ្មោះក្លែងក្លាយ។ នៅក្នុង ICCV ទំព័រ 5855–5864, 2021. 2
- Paul J Besl និង Neil D McKay ។ វិធីសាស្រ្តនៃការចុះឈ្មោះទម្រង់ 3-D ។ នៅក្នុង Sensor fusion IV: control paradigms and data structures, page 586–606, 1992. 6
- Mark Boss, Varun Jampani, Raphael Braun, Ce Liu, Jonathan Barron និង Hendrik Lensch ។ Neural-PIL: ពន្លឺរួមបញ្ចូលគ្នាមុនសរសៃប្រសាទសម្រាប់ការបំផ្លាញការឆ្លុះបញ្ចាំង។ នៅក្នុង NeurIPS ទំព័រ 10691–10704 ឆ្នាំ 2021។ 1, 2
- Xu Cao, Hiroaki Santo, Fumio Okura, និង Yasuyuki Matsushita ។ ពហុView Azimuth Stereo តាមរយៈ Tangent Space Consistency ។ នៅក្នុង CVPR ទំព័រ 825–834, 2023។ 2, 3, 4, 6, 7, 8
- Anpei Chen, Zexiang Xu, Fuqiang Zhao, Xiaoshuai Zhang, Fanbo Xiang, Jingyi Yu និង Hao Su ។ MVSNeRF: ការកសាងឡើងវិញនូវវាលរស្មីទូទៅយ៉ាងឆាប់រហ័សពីពហុview ស្តេរ៉េអូ។ នៅក្នុង CVPR ទំព័រ 14124–14133, 2021. 2
- Zhaopeng Cui, Jinwei Gu, Boxin Shi, Ping Tan, និង Jan Kautz ។ ពហុមាត្រពហុview ស្តេរ៉េអូ។ នៅក្នុង CVPR ទំព័រ 1558–1567, 2017. 2
- Akshat Dave, Yongyi Zhao, និង Ashok Veeraraghavan ។ Pandora: ការបំបែកសរសៃប្រសាទដែលជួយដល់ការបំបែកពន្លឺនៃរស្មី។ នៅក្នុង ECCV ទំព័រ 538–556 ឆ្នាំ 2022។ 1, 2, 4, 6, 7, 8
- Kangle Deng, Andrew Liu, Jun-Yan Zhu និង Deva Ra-manan ។ NeRF ដែលគ្រប់គ្រងដោយជម្រៅ៖ តិចជាង views និងការបណ្តុះបណ្តាលលឿនជាងមុនដោយឥតគិតថ្លៃ។ នៅក្នុង CVPR ទំព័រ 12882–12891, 2022. 2
- Yuqi Ding, Yu Ji, Mingyuan Zhou, Sing Bing Kang និង Jin-wei Ye។ Polarimetric Helmholtz stereopsis ។ នៅក្នុង ICCV ទំព័រ 5037–5046, 2021. 2
- Yoshiki Fukao, Ryo Kawahara, Shohei Nobuhara, និង Ko Nishino ។ Polarimetric ស្តេរ៉េអូធម្មតា។ នៅក្នុង CVPR ទំព័រ 682–690, 2021. 2
- Wenhang Ge, Tao Hu, Haoyu Zhao, Shu Liu និង Ying-Cong Chen។ ឯកសារយោង NeuS: ភាពមិនច្បាស់លាស់-កាត់បន្ថយការរៀនលើផ្ទៃនៃសរសៃប្រសាទដោយភាពមិនច្បាស់លាស់សម្រាប់ពហុView ការកសាងឡើងវិញជាមួយនឹងការឆ្លុះបញ្ចាំង។ arXiv បោះពុម្ពជាមុន arXiv: 2303.10840, 2023. 1
- Richard Hartley និង Andrew Zisserman ។ ច្រើន។ view ធរណីមាត្រក្នុងចក្ខុវិស័យកុំព្យូទ័រ។ Cambridge University Press, 2003. ១
- លោក Wenzel Jakob ។ Mitsuba renderer, 2010. ៦
- Chenyang Lei, Chenyang Qi, Jiaxin Xie, Na Fan, Vladlen Koltun និង Qifeng Chen ។ រាងពីបន្ទាត់រាងប៉ូលសម្រាប់ឈុតស្មុគ្រស្មាញនៅក្នុងព្រៃ។ នៅក្នុង CVPR ទំព័រ 12632–12641, 2022. 2
- Chenhao Li, Taishi Ono, Takeshi Uemori, Hajime Mihara, Alexander Gatto, Hajime Nagahara, និង Yuseke Moriuchi ។ NeISF: Neural Incident Stokes Field សម្រាប់ធរណីមាត្រ និងការប៉ាន់ស្មានសម្ភារៈ។ arXiv បោះពុម្ពជាមុន arXiv: 2311.13187, 2023. 8
- Zhaoshuo Li, Thomas M¨uller, Alex Evans, Russell H Taylor, Mathias Unberath, Ming-Yu Liu និង Chen-Hsuan Lin។ Neu-Colangelo: ការកសាងផ្ទៃសរសៃប្រសាទដែលមានភាពស្មោះត្រង់ខ្ពស់។ នៅក្នុង CVPR ទំព័រ 8456–8465, 2023. 2
- Yuan Liu, Peng Wang, Cheng Lin, Xiaoxiao Long, Jiepeng Wang, Lingjie Liu, Taku Komura, និង Wenping Wang ។ NeRO: Neural Geometry និង BRDF ការបង្កើតឡើងវិញនូវវត្ថុឆ្លុះបញ្ចាំងពីពហុview រូបភាព។ arXiv preprint arXiv:2305.17398, 2023. 1, 2, 4, 6, 7, 8
- Xiaoxiao Long, Cheng Lin, Peng Wang, Taku Komura, និង Wenping Wang ។ SparseNeuS៖ ការស្ថាបនាផ្ទៃប្រសាទដែលងាយយល់បានឆាប់រហ័សពីភាពស្រពិចស្រពិល viewស. នៅក្នុង ECCV ទំព័រ 210–227, 2022
- Youwei Lyu, Lingran Zhao, Si Li, និង Boxin Shi ។ រូបរាងពីបន្ទាត់រាងប៉ូលជាមួយនឹងការប៉ាន់ស្មានពន្លឺឆ្ងាយ។ IEEE TPAMI, 2023. ២
- Ben Mildenhall, Pratul P Srinivasan, Matthew Tancik, Jonathan T Barron, Ravi Ramamoorthi និង Ren Ng ។ NeRF: តំណាងឱ្យឈុតឆាកជាវាលរស្មីសរសៃប្រសាទសម្រាប់ view ការសំយោគ។ នៅក្នុង ECCV ទំព័រ 405–421, 2020. 1, 2
- Miyazaki, Tan, Hara និង Ikeuchi ។ ការបង្ហាញបញ្ច្រាសដែលផ្អែកលើបន្ទាត់រាងប៉ូលពីមួយ view. នៅក្នុង ICCV ទំព័រ 982–987, 2003
- Michael Niemeyer, Lars Mescheder, Michael Oechsle, និង Andreas Geiger ។ ការបង្ហាញបរិមាណខុសគ្នា៖ ការរៀនតំណាង 3D ដោយគ្មានការត្រួតពិនិត្យ 3D ។ នៅក្នុង CVPR ទំព័រ 3504–3515, 2020. 2
- Michael Niemeyer, Jonathan T Barron, Ben Mildenhall, Mehdi SM Sajjadi, Andreas Geiger, និង Noha Radwan ។ Reg-nerf: ធ្វើឱ្យទៀងទាត់នូវវាលរស្មីសរសៃប្រសាទសម្រាប់ view ការសំយោគពីធាតុបញ្ចូលតិចតួច។ នៅក្នុង CVPR ទំព័រ 5480–5490, 2022. 2, 4
- Michael Oechsle, Songyou Peng, និង Andreas Geiger ។ UNISURF៖ ការបង្រួបបង្រួមផ្ទៃប្រសាទប្រសាទ និងវាលរស្មីសម្រាប់ពហុview ការកសាងឡើងវិញ។ នៅក្នុង ICCV ទំព័រ 5589–5599, 2021. 2
- Jeong Joon Park, Peter Florence, Julian Straub, Richard Newcombe និង Steven Lovegrove ។ DeepSDF៖ ការរៀនអនុគមន៍ចម្ងាយដែលបានចុះហត្ថលេខាជាបន្តសម្រាប់ការតំណាងរាង។ នៅក្នុង CVPR ទំព័រ 165–174, 2019. ១
- Vincent Sitzmann, Julien Martel, Alexander Bergman, David Lindell និង Gordon Wetzstein ។ តំណាងសរសៃប្រសាទដោយប្រយោលជាមួយនឹងមុខងារធ្វើឱ្យសកម្មតាមកាលកំណត់។ នៅក្នុង NeurIPS, 2020. ១
- William AP Smith, Ravi Ramamoorthi, និង Silvia Tozza ។ កម្ពស់ពីបន្ទាត់រាងប៉ូលជាមួយនឹងពន្លឺមិនស្គាល់ ឬអាល់បេដូ។ IEEE TPAMI, 41(12):2875–2888, 2018. 2
- Dor Verbin, Peter Hedman, Ben Mildenhall, Todd Zickler, Jonathan T Barron និង Pratul P Srinivasan។ Ref-NeRF: រចនាសម្ព័ន្ធ view- រូបរាងអាស្រ័យសម្រាប់វាលរស្មីសរសៃប្រសាទ។ នៅក្នុង CVPR ទំព័រ 5481–5490, 2022. 4, 5
- Bruce Walter, Stephen R Marschner, Hongsong Li, និង Ken-neth E Torrance។ ម៉ូដែល Microfacet សម្រាប់ចំណាំងបែរតាមរយៈផ្ទៃរដុប។ នៅក្នុងការបន្តនៃសន្និសីទ Eurographics លើកទី 18 ស្តីពីបច្ចេកទេសនៃការបង្ហាញ ទំព័រ 195–206, 2007 ។ 4
- Guangcong Wang, Zhaoxi Chen, Chen Change Loy និង Ziwei Liu ។ SparseNeRF៖ ចំណាត់ថ្នាក់ស៊ីជម្រៅសម្រាប់ប្រលោមលោកពីរបីគ្រាប់ view ការសំយោគ។ arXiv បោះពុម្ពជាមុន arXiv: 2303.16196, 2023. 2
- Peng Wang, Lingjie Liu, Yuan Liu, Christian Theobalt, Taku Komura និង Wenping Wang ។ NeuS: សិក្សាផ្ទៃប្រសាទដោយប្រយោគដោយការបញ្ចេញសំឡេងសម្រាប់ពហុview ការកសាងឡើងវិញ។ arXiv បោះពុម្ពជាមុន arXiv: 2106.10689, 2021. 1, 2, 5
- Yiqun Wang, Ivan Skorokhodov និង Peter Wonka ។ HF-NeuS៖ កែលម្អការស្ថាបនាផ្ទៃឡើងវិញដោយប្រើព័ត៌មានលំអិតអំពីប្រេកង់ខ្ពស់។ នៅក្នុង NeurIPS ទំព័រ 1966–1978, 2022
- Haoyu Wu, Alexandros Graikos, និង Dimitris Samaras ។ S-VolSDF៖ បំបែកពហុView ការធ្វើនិយ័តកម្មស្តេរ៉េអូនៃផ្ទៃប្រសាទ។ arXiv preprint arXiv:2303.17712, 2023. 1, 2, 4, 6, 7, 8
- Jiawei Yang, Marco Pavone និង Yue Wang។ FreeNeRF៖ ធ្វើអោយប្រសើរឡើងនូវការបង្ហាញសរសៃប្រសាទដែលថតបានតិចតួចជាមួយនឹងភាពទៀងទាត់នៃប្រេកង់ឥតគិតថ្លៃ។ នៅក្នុង CVPR ទំព័រ 8254–8263, 2023. 2
- Lior Yariv, Yoni Kasten, Dror Moran, Meirav Galun, Matan Atzmon, Basri Ronen និង Yaron Lipman ។ ច្រើនview ការកសាងផ្ទៃសរសៃប្រសាទឡើងវិញដោយការផ្តាច់ធរណីមាត្រ និងរូបរាង។ នៅក្នុង NeurIPS ទំព័រ 2492–2502, 2020. 2
- Lior Yariv, Jiatao Gu, Yoni Kasten, និង Yaron Lipman ។ ការបង្ហាញកម្រិតសំឡេងនៃផ្ទៃប្រសាទ។ នៅក្នុង NeurIPS ទំព័រ 4805–4815, 2021. 1, 2
- Alex Yu, Vickie Ye, Matthew Tancik និង Angjoo Kanazawa ។ pixelNeRF៖ វាលរស្មីសរសៃប្រសាទពីរូបភាពមួយ ឬពីរបី។ នៅក្នុង CVPR ទំព័រ 4578–4587, 2021. 2
- Kai Zhang, Gernot Riegler, Noah Snavely និង Vladlen Koltun ។ NeRF++៖ ការវិភាគ និងធ្វើឲ្យប្រសើរឡើងនូវវិស័យរស្មីសរសៃប្រសាទ។ arXiv preprint arXiv: 2010.07492, 2020. 2
- Kai Zhang, Fujun Luan, Qianqian Wang, Kavita Bala និង Noah Snavely ។ PhySG: ការបង្ហាញបញ្ច្រាសជាមួយ Gaussians ស្វ៊ែរសម្រាប់ការកែសម្រួល និងបំភ្លឺសម្ភារៈផ្អែកលើរូបវិទ្យា។ នៅក្នុង CVPR ទំព័រ 5453–5462, 2021. 1, 2
- Xiuming Zhang, Pratul P Srinivasan, Boyang Deng, Paul De-bevel, William T Freeman, និង Jonathan T Barron ។ NeR-Factor: កត្តាសរសៃប្រសាទនៃរូបរាង និងការឆ្លុះបញ្ចាំងនៅក្រោមការបំភ្លឺដែលមិនស្គាល់។ ACM TOG, 40(6):1–18, 2021. 2
- Jinyu Zhao, Yusuke Monno, និង Masatoshi Okutomi ។ ពហុមាត្រពហុview ការបង្ហាញបញ្ច្រាស។ IEEE TPAMI, 2022. ២
សញ្ញារូបភាព និងធរណីមាត្រនៃ NeRSP
ដេរីវេនៃសញ្ញាធរណីមាត្រ
ដូចដែលបានបង្ហាញក្នុងរូប S1 ដែលបានផ្ដល់ឱ្យនូវចំណុចកន្លែងកើតហេតុសង្កេតដោយភាពខុសគ្នា views, ផ្ទៃរបស់វាធម្មតានៅគោលដៅ view អាចត្រូវបានតំណាងដោយមុំ azimuth និង elevation ϕ និង θ រៀងគ្នា ពោលគឺ
ទំនាក់ទំនងរវាងមុំ azimuth និងធាតុនៃផ្ទៃធម្មតាអាចត្រូវបានបង្កើតជា
ផ្ទៃធម្មតានៅគោលដៅ view អាចត្រូវបានគណនាដោយការបង្វិលធម្មតានៅប្រភព viewពោលគឺ ˆn = Rn ។ ដែលបានផ្ដល់ឱ្យម៉ាទ្រីសបង្វិលពីកាមេរ៉ាដែលបានក្រិតតាមខ្នាតបង្ហាញជា R = [r1, r2, r3]⊤, Eq ។ (2) ផ្អែកលើ ˆn អាចត្រូវបានបង្កើតជា
- r⊤1 n cos ϕ − r⊤ 2 n sin ϕ = 0. (3)
តាម MVAS [2] យើងអាចរៀបចំ Eq ឡើងវិញបាន។ (3) ដើម្បីទទួលបានទំនាក់ទំនង orthogonal រវាងផ្ទៃធម្មតា និងវ៉ិចទ័រតង់សង់ដែលបានព្យាករ t(ϕ) ដូចដែលបានកំណត់ខាងក្រោម
ការសន្និដ្ឋាននេះនៅលើមុំ azimuth អាចត្រូវបានពង្រីកទៅមុំនៃបន្ទាត់រាងប៉ូល (AoP) ។ ភាពមិនច្បាស់លាស់ π អាចត្រូវបានដោះស្រាយដោយធម្មជាតិជា Eq ។ (4) ឈរប្រសិនបើយើងបន្ថែម ϕ ដោយ π ។ ភាពមិនច្បាស់លាស់ π/2 អាចត្រូវបានដោះស្រាយដោយប្រើ pseudo-projected tangent vector tˆ(ϕ) ដូចនេះ
ប្រសិនបើចំនុចមួយ x ត្រូវបានសង្កេតដោយ f views យើងអាចជង់ Eq ។ (4) និង Eq ។ (5) ដោយផ្អែកលើការបង្វិលផ្សេងគ្នា និងសង្កេត AoPs ដែលនាំទៅដល់ប្រព័ន្ធលីនេអ៊ែរ
- T(x)n(x) = 0. (6)
យើងចាត់ទុកប្រព័ន្ធលីនេអ៊ែរនេះជាសញ្ញាធរណីមាត្ររបស់យើងសម្រាប់ពហុview ការកសាងឡើងវិញ 3D រាងប៉ូល
ការចេញមកនៃសញ្ញា photometric
បន្ទាប់ពីគំរូ BRDF ប៉ូល [1] វ៉ិចទ័រ stokes លទ្ធផលអាចត្រូវបាន decomposed ចូលទៅក្នុងផ្នែក diffuse និង specular ដែលយកគំរូតាម Hd និង Hs ដែលត្រូវគ្នា ពោលគឺ
សមាសធាតុ stokes សាយភាយនៅក្រោមពន្លឺតែមួយអាចត្រូវបានបង្កើតជា
ដែល ρd បង្ហាញពី diffuse albedo, ϕn គឺជាមុំ azimuth នៃពន្លឺឧបទ្ទវហេតុទៅលើយន្តហោះដែលកាត់កែងទៅនឹងផ្ទៃធម្មតា T+i,o និង T-i,o បង្ហាញពីការគណនានៃមេគុណបញ្ជូន Fresnel [1] ដែលទាក់ទងនឹង មុំរវាង view ទិសដៅនិងផ្ទៃធម្មតា។ អនុវត្តតាមសញ្ញាណនៅក្នុង PANDORA [3] យើងសរសេរឡើងវិញនូវវ៉ិចទ័រ stokes សាយភាយក្រោមពន្លឺបរិស្ថានជា
កន្លែងណា ត្រូវបានគេបង្ហាញថាជាការបញ្ចេញរស្មី។ ជំនួសឱ្យការគណនាពីសមីការ រស្មីដែលសាយភាយជាអថេរប្រែប្រួលតាមលំហគឺត្រូវបានគូសផែនទីដោយផ្ទាល់ពីចំណុចប្រសាទដែលស្រង់ចេញដោយ MLP ដែលមានមូលដ្ឋានលើកូអរដោណេ។ ម្យ៉ាងវិញទៀត វ៉ិចទ័រ stokes specular នៅក្រោមទិសពន្លឺតែមួយ ω នៅក្នុងគំរូ BRDF រាងប៉ូលអាចត្រូវបានកំណត់ថាជា
ដែលជាកន្លែងដែល ρs តំណាងឱ្យ albedo specular; D និង G បង្ហាញពីការចែកចាយ និងស្រមោលធម្មតានៅក្នុងគំរូ Microfacet [8] ដែលអាចត្រូវបានគ្រប់គ្រងដោយភាពរដុបលើផ្ទៃ។ R+ និង R− បង្ហាញពីការគណនានៃមេគុណឆ្លុះបញ្ចាំង Fresnel [1] ដែលទាក់ទងទៅនឹងមុំរវាងផ្ទៃធម្មតា និងទិសដៅពន្លឺឧបទ្ទវហេតុ។ ϕh គឺជាឧប្បត្តិហេតុមុំ azimuth wrt វ៉ិចទ័រពាក់កណ្តាល. ដោយធ្វើតាមសញ្ញាណនៅក្នុង PANDORA [3] យើងសរសេរឡើងវិញនូវវ៉ិចទ័រ stokes specular នៅក្រោមពន្លឺបរិស្ថានជា
កន្លែងណា តំណាងឱ្យរស្មីពិសេស។ ជាមួយនឹងការប៉ាន់ស្មាន spilt-sum [5] យើងអាចប៉ាន់ស្មាន Ls ≈ ρsDG/4n⊤v *fΩ L(ω) dω ។ រួមបញ្ចូលគ្នាជាមួយវ៉ិចទ័រ stokes សាយភាយដែលបង្ហាញក្នុង Eq ។ (9) យើងបង្កើតតារាង photometric ដោយផ្អែកលើគំរូនៃការបង្កើតរូបភាពរាងប៉ូលខាងក្រោម
ព័ត៌មានលម្អិតនៃការអនុវត្ត
ផ្នែកនេះបង្ហាញពីព័ត៌មានលម្អិតនៃការបង្ហាញនៃ Synthetic Multi-view សំណុំទិន្នន័យរូបភាពប៉ូឡារីស SMVP3D និងព័ត៌មានលម្អិតនៃការបណ្តុះបណ្តាលរបស់ NeRSP ។
សំណុំទិន្នន័យ
យើងផ្តល់ជូន SMVP3D ដែលមានរូបភាពនៃវត្ថុឆ្លុះបញ្ចាំងសំយោគចំនួនប្រាំនៅក្រោមការបំភ្លឺធម្មជាតិ។ សម្រាប់វត្ថុនីមួយៗយើងបង្ហាញ 48 views និងកត់ត្រាការពិតដីដែលត្រូវគ្នា (GT) ផែនទីធម្មតាផ្ទៃ។ យើងប្រើ Mit-suba3 [4] ជាម៉ាស៊ីនបង្ហាញ ដោយប្រភេទ BRDF បានកំណត់ទៅជាសម្ភារៈផ្លាស្ទិចប៉ូលាក្នុងការបង្ហាញរបស់យើង។ សម្រាប់ dif-fuse albedo ρd យើងប្រើប្រាស់វាយនភាព albedo ប្រែប្រួលតាមលំហ ដើម្បីបង្កើនភាពប្រាកដនិយមនៃលទ្ធផលបង្ហាញរបស់យើង។ ក្នុងពេលជាមួយគ្នានេះ យើងរក្សា specular albedo ρs នៅតម្លៃថេរនៃ 1.0 ហើយកំណត់ភាពរដុបលើផ្ទៃទៅ 0.05 ។ វិធីសាស្រ្តនេះធានាបាននូវការឆ្លុះបញ្ចាំងឯកសណ្ឋាននៅទូទាំងផ្ទៃនៃវត្ថុ។ លទ្ធផលរូបភាពរាងប៉ូលត្រូវបានបង្ហាញក្នុងកម្រិតច្បាស់ 512 × 512 ភីកសែល។
ការបណ្តុះបណ្តាល
ប៉ារ៉ាម៉ែត្រខ្ពស់ λg, λm, និង λe នៅក្នុងមុខងារបាត់បង់របស់យើងត្រូវបានកំណត់ទៅ 1, 1 និង 0.1 រៀងគ្នា។ ក្នុងអំឡុងពេលដំណើរការបណ្ដុះបណ្ដាល យើងប្រើយុទ្ធសាស្ត្រកំដៅឡើងតាម PAN-DORA [3] ដែលសម្រាប់ 1 សម័យដំបូង យើងពិចារណាតែព័ត៌មានដែលមិនមានភាពច្របូកច្របល់នៅក្នុងតារាង photometric ហើយសន្មតថាសមាសធាតុ specular របស់វត្ថុគឺ 000 ។ ការពិសោធន៍ យើងប្រើគុណភាពបង្ហាញ 0 × 512 សម្រាប់ការបណ្តុះបណ្តាល និងការធ្វើតេស្តលើ SMVP512D និង 3 × 512 សម្រាប់សំណុំទិន្នន័យពិភពលោកពិត។ វិធីសាស្រ្តរបស់យើងជាទូទៅបង្រួបបង្រួមប្រហែល 612 សម័យ ដែលចំណាយពេលប្រហែល 100 ម៉ោងនៅលើ Nvidia RTX 000 GPU ជាមួយនឹងអង្គចងចាំប្រើប្រាស់ប្រហែល 6 MB ។
ការប៉ាន់ស្មាន BRDF និងលទ្ធផលបង្ហាញឡើងវិញ
រូបភាព S4 (ខាងលើ) បង្ហាញពីការប៉ាន់ប្រមាណរបស់យើងអំពីភាពរដុប ការសាយភាយ និងសមាសធាតុជាក់លាក់។ ការប៉ាន់ប្រមាណមានការរំខានបន្តិចដោយសារតែមានតែ 6 viewស. ស្រដៀងទៅនឹង Ref-NeRF [7] ដែលការបំភ្លឺត្រូវបានគ្រប់គ្រងដោយប្រយោលតាមរយៈ IDE យើងមិនអាចធ្វើការពិសោធន៍បំភ្លឺបានទេ។ ដូច្នេះហើយ យើងបង្ហាញប្រលោមលោក view លទ្ធផលនៃការសំយោគជំនួសវិញ ដូចដែលបានបង្ហាញក្នុងរូប S4 (ខាងក្រោម)។ បើប្រៀបធៀបជាមួយវិធីសាស្ត្រដែលមានស្រាប់ រូបភាពដែលបង្ហាញឡើងវិញរបស់យើងគឺខិតទៅជិតការសង្កេតក្នុងពិភពពិតដែលត្រូវគ្នា។
លទ្ធផលបន្ថែមលើសំណុំទិន្នន័យរបស់យើង។
នៅក្នុងផ្នែកនេះ យើងបង្ហាញលទ្ធផលបន្ថែមនៃការបង្កើតរូបរាងឡើងវិញនៅលើ SMVP3D និង Real-world Multi-view សំណុំទិន្នន័យរូបភាពប៉ូឡារីស RMVP3D ។
ការវាយតម្លៃលើ SMVP3D
យើងបង្ហាញលទ្ធផលស្ថាបនាឡើងវិញប្រកបដោយគុណភាពនៃវិធីសាស្ត្រមូលដ្ឋាន និងវិធីសាស្រ្តរបស់យើងនៅក្នុងរូបភាព S2 ។ លទ្ធផលពី MVAS [2] ខ្វះព័ត៌មានលម្អិត ដោយសារសញ្ញារូបភាពមិនត្រូវបានគេយកមកពិចារណា។ ខណៈពេលដែល NeRO [6] ផ្តល់នូវការកែលម្អរូបរាងឡើងវិញ វាបរាជ័យក្នុងការផ្តល់នូវផ្ទៃដែលអាចទុកចិត្តបានសម្រាប់វត្ថុដែលគ្មានវាយនភាព ដូចជា DAVID ជាដើម។ S-VolSDF [9] ប្រើ Coarse-to-fine Multi-View វិធីសាស្រ្តស្តេរ៉េអូ (MVS) និងបង្ហាញពីភាពប្រែប្រួលកាន់តែខ្លាំងចំពោះព័ត៌មានវាយនភាពលើផ្ទៃវត្ថុ ដែលជួនកាលនាំឱ្យមានការបកស្រាយព័ត៌មានលម្អិតវាយនភាពខុសជាលក្ខណៈរចនាសម្ព័ន្ធ។ PANDORA [3] មានការលំបាកក្នុងការបំបែក albedo និងព័ត៌មានជាក់លាក់ប្រកបដោយប្រសិទ្ធភាព ដែលនាំទៅដល់លទ្ធផលនៃការសាងសង់ឡើងវិញដែលមិនគួរឱ្យទុកចិត្ត។ វិធីសាស្រ្តរបស់យើង NeRSP ប្រើប្រាស់ទាំងរូបភាព និងធរណីមាត្រយ៉ាងមានប្រសិទ្ធភាព ដែលបណ្តាលឱ្យមានការស្ថាបនាឡើងវិញដែលឆ្លុះបញ្ចាំងពីរចនាសម្ព័ន្ធ GT កាន់តែត្រឹមត្រូវ។
យើងក៏បង្ហាញការប៉ាន់ស្មានផ្ទៃធម្មតា និងការចែកចាយកំហុសជ្រុងដែលត្រូវគ្នានៅក្នុងរូបភាព S3 ដែលបង្ហាញជាប់លាប់ថា NeRSP សម្រេចបាននូវលទ្ធផលនៃការបង្កើតឡើងវិញនូវរូបរាងប្រសើរជាងមុនសម្រាប់ផ្ទៃឆ្លុះបញ្ចាំងជាមួយនឹងការបញ្ចូលតិចតួច។ views.
ការវាយតម្លៃលើ RMVP3D
នៅក្នុងផ្នែកនេះ យើងបង្ហាញលទ្ធផលនៃការសាងសង់វត្ថុមួយផ្សេងទៀតនៅលើ RMVP3D ។ រូបភាព S5 បង្ហាញថា NeRO [6], MVAS [2] និង NeRSP អាចបង្កើតវត្ថុរាងស្វ៊ែរសាមញ្ញឡើងវិញបានយ៉ាងត្រឹមត្រូវជាមួយនឹងផ្ទៃឆ្លុះបញ្ចាំង។ ផ្ទុយទៅវិញ S-VolSDF [9] និង PANDORA [3] មិនអាចរំលាយសមាសធាតុ albedo និង specular នៃផ្ទៃដែលបណ្តាលឱ្យមានការបង្ខូចទ្រង់ទ្រាយនៅក្នុងដំណើរការនៃការបង្កើតរូបរាងឡើងវិញ។ ដើម្បីបែងចែករវាងលទ្ធផលនៃការកសាងឡើងវិញនៃ NeRO [6], MVAS [2] និង NeRSP យើងស្រមៃមើលចម្ងាយ Chamfer សម្រាប់សំណាញ់ដែលត្រូវបានសាងសង់ឡើងវិញដោយវិធីសាស្ត្រនីមួយៗ។ ដូចដែលបានបង្ហាញក្នុងរូប S6 ពណ៌នៃចំណុចនីមួយៗបង្ហាញពីចម្ងាយ Chamfer របស់វា ដែលត្រូវបានកាត់ចន្លោះពី 0 ទៅ 5 mm។ រូបភាពទាំងនេះបង្ហាញថា កំហុសក្នុងការកសាងឡើងវិញដែលទាក់ទងនឹង NeRSP គឺតូចជាងបើប្រៀបធៀបទៅនឹងវិធីសាស្ត្រពីរផ្សេងទៀត។
ការសិក្សា Ablation លើការឆ្លុះបញ្ចាំងលើផ្ទៃ
វិធីសាស្រ្តរបស់យើងមានគោលបំណងក្នុងការស្ថាបនាឡើងវិញនូវផ្ទៃដែលឆ្លុះបញ្ចាំង ហើយវាក៏អាចត្រូវបានអនុវត្តចំពោះការស្តាររូបរាងជាមួយនឹងផ្ទៃរដុបផងដែរ។ ក្នុងនាមជាអតីតampដូច្នេះ យើងបង្ហាញវត្ថុ SNAIL ឡើងវិញជាមួយនឹង albedo ρs ជាក់លាក់របស់វា ដែលកាត់បន្ថយពី 1.0 ទៅ 0.1។ កំហុសមុំមធ្យម (MAE) នៃផ្ទៃប៉ាន់ស្មានធម្មតានៅ 6 បញ្ចូល views ពីវិធីសាស្រ្តផ្សេងគ្នាត្រូវបានបង្ហាញនៅក្នុងតារាង S1 ។ ការវាយតម្លៃគុណភាពនៃការប៉ាន់ប្រមាណផ្ទៃធម្មតា និងការចែកចាយកំហុសមុំដែលត្រូវគ្នានៃវិធីសាស្រ្តផ្សេងគ្នាក្រោមការបញ្ចូលដូចគ្នា view ត្រូវបានបង្ហាញក្នុងរូប S7 ។ ការពិសោធន៍ទាំងនេះបង្ហាញថាវិធីសាស្រ្តភាគច្រើនធ្វើអោយប្រសើរឡើងនូវគុណភាពនៃការសាងសង់ឡើងវិញលើផ្ទៃរដុបបើប្រៀបធៀបទៅនឹងផ្ទៃឆ្លុះបញ្ចាំង។ ជាពិសេស វិធីសាស្រ្តរបស់យើង ផ្តល់នូវការស្ថាបនាឡើងវិញនូវផ្ទៃដែលអាចទុកចិត្តបំផុតនៃវត្ថុ។
ការសិក្សាលើ #views
NeRSP របស់យើងមានគោលបំណងក្នុងការកសាងឡើងវិញនូវផ្ទៃឆ្លុះបញ្ចាំងក្រោមការបញ្ចូលតិចតួច viewស. ការពិសោធន៍ដែលបង្ហាញក្នុងក្រដាសមេយក 6 វិសាលភាព views ជាការបញ្ចូល។ ដើម្បីវាយតម្លៃវិធីសាស្រ្តរបស់យើងនៅក្រោមលេខផ្សេងគ្នានៃការបញ្ចូល views (ឧ.views) យើងធ្វើការពិសោធន៍លើវត្ថុពិភពពិត LION ក្រោមការកំណត់នៃ 3, 6, 12, និង 24 viewស. រូបភាព S8 មើលឃើញរូបរាងដែលបានទទួលមកវិញ ខណៈដែលការវាយតម្លៃគុណភាពជាមួយនឹងចម្ងាយ Chamfer ត្រូវបានបង្ហាញនៅក្នុងតារាង S2 ។
នៅក្រោមការបញ្ចូលតិចតួច views, ដូចជា 3, វិធីសាស្រ្តដែលមានស្រាប់តស៊ូដើម្បីទាញយកលទ្ធផលដែលអាចជឿជាក់បាន។ នេះគឺជាចម្បងដោយសារតែពួកគេផ្ដោតទាំងលើសញ្ញា photometric ឬសញ្ញាធរណីមាត្រ។ ការយក S-VolSDF [9] ជាអតីតample, រូបរាងប៉ាន់ស្មាន ដូចដែលបានសង្កេតឃើញនៅកៀក views ត្រូវបានជះឥទ្ធិពលយ៉ាងខ្លាំងដោយវាយនភាពដែលត្រូវគ្នា។ នេះនាំឱ្យមានរូបរាងមិនត្រឹមត្រូវដោយសារតែភាពមិនច្បាស់លាស់នៃរូបរាង - រស្មីនៅក្រោម sparse viewស. តាមរយៈការដោះស្រាយទាំងធរណីមាត្រ និងសញ្ញារូបវិទ្យា នោះ NeRSP របស់យើងកាត់បន្ថយភាពមិនច្បាស់លាស់នៅក្រោមការបញ្ចូលតិចតួច។ ជាលទ្ធផល យើងសម្រេចបាននូវការស្ថាបនាឡើងវិញនូវរូបរាងសមហេតុផលបន្ថែមទៀត។ ការសង្កេតនេះនៅតែមានសុពលភាពនៅពេលដែលចំនួននៃការបញ្ចូល views លើសពី 12។ ដូចដែលបានបង្ហាញក្នុងតារាង S2 NeRSP របស់យើងសម្រេចបាននូវចម្ងាយ Chamfer តូចបំផុតជាប់លាប់ជាមួយនឹងការកើនឡើងចំនួននៃការបញ្ចូល viewស. នេះបង្ហាញពីប្រសិទ្ធភាពនៃវិធីសាស្រ្តរបស់យើងលើផ្ទៃឆ្លុះបញ្ចាំងលើជួរដ៏ធំទូលាយមួយ។ views.
តារាង S2 ។ ការវាយតម្លៃគុណភាពលើ LION ដែលវាស់វែងដោយចម្ងាយ Chamfer (↓) ក្រោមការបញ្ចូលផ្សេងៗគ្នា views.
#Views | នេរ៉ូ [6] | S-VolSDF [9] | MVAS [2] | PANDORA [3] | NeRSP |
3 | 34.48 | 31.50 | 23.96 | 24.44 | 24.01 |
6 | 10.74 | 7.39 | 7.51 | 15.04 | 5.18 |
12 | 5.50 | 6.80 | 5.31 | 12.1 | 4.29 |
24 | 4.96 | 6.14 | 5.32 | 12.5 | 4.11 |
ការវាយតម្លៃនៃសំណុំទិន្នន័យ MVIR ប៉ូលីម៉ែត្រ
ក្រៅពីការពិសោធន៍ក្នុងពិភពពិតលើសំណុំទិន្នន័យ PANDORA [3] និង RMVP3D របស់យើង យើងក៏ផ្តល់នូវការវាយតម្លៃនៃពហុview សំណុំទិន្នន័យរូបភាពប៉ូលដែលមាននៅក្នុង PMVIR [10] ។ ដូចដែលបានបង្ហាញក្នុងរូប S9 យើងស្រមៃមើលលទ្ធផលស្ដាររូបរាងពី PANDORA [3] និងរបស់យើង ដោយយក 6 តិចៗ views ជាការបញ្ចូល។ ដោយសារមិនមានរូបរាង GT នៅក្នុងសំណុំទិន្នន័យនេះ យើងប្រើលទ្ធផលពី PMVIR [10] ជាឯកសារយោង ដែលចំណាយពេល 31 និង 56 views ជាការបញ្ចូលសម្រាប់កាមេរ៉ា និងទិដ្ឋភាពរថយន្តរៀងគ្នា។ យើងសង្កេតឃើញថាលទ្ធផលរបស់យើងគឺសមហេតុផលជាងបើប្រៀបធៀបទៅនឹងអ្នកដែលប្រើ PANDORA [3] ដែលបង្ហាញពីប្រសិទ្ធភាពនៃវិធីសាស្ត្ររបស់យើងលើការកសាងឡើងវិញ 3D តិចតួច។
ឯកសារយោង
- [1] Seung-Hwan Baek, Daniel S Jeon, Xin Tong និង Min H Kim។ ការទិញក្នុងពេលដំណាលគ្នានៃ SVBRDF រាងប៉ូលនិងធម្មតា។ ACM TOG, 37(6):268–1, 2018. 2
- Xu Cao, Hiroaki Santo, Fumio Okura, និង Yasuyuki Matsushita ។ ពហុView Azimuth Stereo តាមរយៈ Tangent Space Consistency ។ នៅក្នុង CVPR ទំព័រ 825–834, 2023. 1, 3, 4, 5, 6
- Akshat Dave, Yongyi Zhao, និង Ashok Veeraraghavan ។ Pandora: ការបំបែកសរសៃប្រសាទដែលជួយដល់ការបំបែកពន្លឺនៃរស្មី។ នៅក្នុង ECCV ទំព័រ 538–556 ឆ្នាំ 2022។ 2, 3, 4, 5, 6
- Wenzel Jakob, S'ebastien Speierer, Nicolas Roussel, Merlin Nimier-David, Delio Vicini, Tizian Zeltner, Baptiste Nicolet, Miguel Crespo, Vincent Leroy និង Ziyi Zhang ។ អ្នកបង្ហាញ Mitsuba 3 ឆ្នាំ 2022 ។ https://mitsuba-renderer.org. ១
- Brian Karis និង Epic Games ។ ការដាក់ស្រមោលពិតប្រាកដនៅក្នុង Unreal Engine 4. Proc. ការអនុវត្តទ្រឹស្ដីការដាក់ស្រមោលដោយផ្អែកលើរូបវិទ្យា, 4(3): 1, 2013. 2
- Yuan Liu, Peng Wang, Cheng Lin, Xiaoxiao Long, Jiepeng Wang, Lingjie Liu, Taku Komura, និង Wenping Wang ។ NeRO: Neural Geometry និង BRDF ការបង្កើតឡើងវិញនូវវត្ថុឆ្លុះបញ្ចាំងពីពហុview រូបភាព។ arXiv បោះពុម្ពជាមុន arXiv:2305.17398, 2023. 3, 4, 5, 6
- Dor Verbin, Peter Hedman, Ben Mildenhall, Todd Zickler, Jonathan T Barron និង Pratul P Srinivasan។ Ref-NeRF: រចនាសម្ព័ន្ធ view- រូបរាងអាស្រ័យសម្រាប់វាលរស្មីសរសៃប្រសាទ។ នៅក្នុង CVPR ទំព័រ 5481–5490, 2022. ៣
- Bruce Walter, Stephen R Marschner, Hongsong Li, និង Ken-neth E Torrance។ ម៉ូដែល Microfacet សម្រាប់ចំណាំងបែរតាមរយៈផ្ទៃរដុប។ នៅក្នុងការបន្តនៃសន្និសីទ Eurographics លើកទី 18 ស្តីពីបច្ចេកទេសនៃការបង្ហាញ ទំព័រ 195–206, 2007 ។ 2
- Haoyu Wu, Alexandros Graikos, និង Dimitris Samaras ។ S-VolSDF៖ បំបែកពហុView ការធ្វើនិយ័តកម្មស្តេរ៉េអូនៃផ្ទៃប្រសាទ។ arXiv បោះពុម្ពជាមុន arXiv:2303.17712, 2023. 3, 4, 5, 6
- Jinyu Zhao, Yusuke Monno, និង Masatoshi Okutomi ។ ពហុមាត្រពហុview ការបង្ហាញបញ្ច្រាស។ IEEE TPAMI, 2022. 5, 6
ឯកសារ/ធនធាន
![]() |
NeRSP CVPR24 ការបង្កើតឡើងវិញនូវសរសៃប្រសាទ 3D សម្រាប់វត្ថុឆ្លុះបញ្ចាំង [pdf] សៀវភៅណែនាំ CVPR24 Neural 3D Reconstruction for Reflective Objects, CVPR24, Neural 3D Reconstruction for Reflective Objects, ការបង្កើតឡើងវិញសម្រាប់វត្ថុឆ្លុះបញ្ចាំង, វត្ថុឆ្លុះបញ្ចាំង, វត្ថុ |