تشخیص تعاملات انسان و شیء بر مبنای ویژگی های استخراج شده از داده های عمیق با استفاده از شبکه عصبی سیامی

نوع مقاله : مقاله پژوهشی

نویسندگان

1 دانشجوی دکتری دانشکده مهندسی کامپیوتر، دانشگاه یزد، یزد، ایران

2 دانشیاردانشکده مهندسی کامپیوتر، دانشگاه یزد، یزد، ایران

چکیده

تشخیص تعامل انسان و شیء (HOI) مجموعه‌ای از سه تایی‌‌های (انسان، شیء، تعامل) از یک تصویر را استخراج می‌‌کند. این حوزه، یکی از زمینه‌‌های تحقیقاتی رو به رشد در بینایی کامپیوتر است. علاوه بر اطلاعات دو بعدی مانند ظاهر انسان و اشیاء و موقعیت مکانی آن‌‌ها، وضعیت سه بعدی به خصوص در پیکربندی بدن انسان می‌‌تواند نقش مهمی در یادگیری تعاملات میان انسان و شیء داشته باشد. در این مقاله، مشخصه‌‌های بصری انسان‌، زمینه‌ و شیء که به ترتیب از وضعیت‌‌های انسانی و پیکربندی‌های فاصله‌‌ای انسان و شیء به‌‌ دست می‌‌آید، استخراج می‌شود. علاوه بر این، یک شبکه سیامی برای یادگیری ویژگی‌های ساختاری جفت‌های انسان- شیء استفاده می‌شود. شبکه سیامی بهبود یافته برای استخراج ویژگی‌های مشابه هدف، از ابرهای نقطه پیشنهاد می‌‌شود. شبکه سیامی بهبود یافته برای یافتن شباهت دو ورودی و استخراج ویژگی‌های مربوط به انسان و شیء پیشنهاد شده است این شبکه، توانایی تمایز را برای مرحله دوم که مرحله تشخیص تعاملات است، بهبود می‌بخشد. ما از یک بازنمایی داده بر اساس نگاشت سه بعد به دو بعد به صورت چند دیدی استفاده می‌کنیم، سپس از شبکه سیامی برای استخراج ویژگی‌های مربوط به این نگاشت به همراه جعبه شیء در یک توصیف‌گر محلی 32 بعدی استفاده می‌کنیم. نتایج آزمایش‌ها روی مجموعه داده HICO-DET نشان می‌دهد که روش ما توانسته است نتیجه تعاملات را بهبود بخشد و معیار mAP را نسبت به روش DJ-RN به میزان 78/2 افزایش دهد





 

کلیدواژه‌ها


e Kaiming ,Girshick Ross ,Dollár Piotr ,Lin Yi-Tsung 1.
 .Comput .Conf IEEE .Proc in ,detection object for worksnet pyramid Feature , Belongie Serge ,Hariharan Bharath
,2017. 2125–2117 .pp ,Recognit Pattern and Vision
 role semantic Visual ,Malik Jitendra and ,Saurabh ,Gupta 2.
2015. :1505.04474,arXiv preprint arXiv .,labeling
 .,Y ,Wang .,X ,Wang .,Z ,Huang .,S ,Zhang .,Z ,Qing 3.
:2207.11660,2022.ivarX preprint arXiv .recognition action efficient for ersautoencod Masked :Mar .,N ,Sang and .C ,Gao .,Y ,Lv
 ,Kim Sol-Eun ,Kang Jaewoo ,Lee Junhyun ,Bumsoo ,Kim 4.
 of Proceedings In .transformers with detection teractionin object-human end-to-End :Hotr ,Kim .J Hyunwoo and
2021. 74-83. .pp ,Recognition ternPat and Vision Computer on Conference CVF/IEEE the
 In .points interaction using detection interaction objecthuman Learning ,Sun Jian and ,Zhang Xiangyu ,Khan bazShah Fahad ,Danelljan Martin ,Yang Tong ,Tiancai ,Wang 5.
 Computer on Conference CVF/IEEE the of Proceedings
2020. 4116-4125. .pp ,Recognition Pattern and Vision
 and Vision .Comput .Conf IEEE .Proc in ,interactions jectob-human recognizing and Detecting .,al et Gkioxari .G 6.
2018. 8367,–8359 .pp .,Recognit Pattern
 centric-instance :ICAN ,Huang .B.-J and ,Zou .Y ,Gao .C 7.
 ,detection interaction object-human for network attention
2018. /1808.10437,abs/org.arxiv://http
in object-human detect to Learning .,al et Chao .W.-Y 8.
2018. 389,–381 .pp ,IEEE ,)WACV(
 Pose ,Yu Ruiyun and ,Xie Qing ,Wang Yuting ,Zhan ,Su 9.
2022. 53-62, .pp476, Neurocomputing .tiondetec interaction object-human for network parsing graph
 ,Lu Cewu and ,Tai Wing-Yu ,Cao Jinkun ,Shu-Hao ,Fang 10.
 object-human recognizing for attention part-body Pairwise
 conference European the of Proceedings In .interactions
2018. 51-67. .pp ,)ECCV (vision computer on
 .Int th28 .Proc in ,networks proposal region with tectionde object time-real towards :CNN-R Faster .,al et Ren .S 11.
2015. 99,–91 .pp .,Syst .Process .Inf Neural .Adv .Conf
 Ross and ,Dollár Piotr ,Gkioxari Georgia ,Kaiming ,He 12.
 2961-2969, .pp ,vision computer on conference nationalinter IEEE the of Proceedings In .cnn-r Mask ,Girshick
2017.
2015. /1505.04474,abs/org.arxiv://pshtt ,labeling role semantic Visual ,Malik .J and Gupta .S 13.
 .Comput .Conf CVF/IEEE .Proc in ,interaction object-manhu for representation joint D-3D2 Detailed .,al et Li .L.-Y 14.
.(2020) 10175–10166 .pp .,Recognit Pattern and Vision
 .Lect ,detector multibox shot single :SSD .,al et Liu .W 15.
2016. 37,–21 9905, .Sci .Comput Notes
 for knowledge interactiveness Transferable .,al et Li .L.-Y 16.
 CVF/IEEE .Proc in ,detection interaction object-human
–3585 .pp .,Recognit Pattern and Vision .Comput .Conf
2019. 3594,
 for network feature level-multi aware-Pose .,al et Wan .B 17.
 CVF/IEEE .Proc in ,detection interaction object human
2019. 9478,–9469 .pp ,Vision .Comput .Conf .Int
 Haroon and ,Javed Kashif ,Jafri Fareed ,Humza ,Naveed 18.
 .interaction object human and pose of features tiotemporalspa learning by recognition activity Driver .Babri Atique
2021. 77, .Vol ,tionRepresenta Image and Communication Visual of Journal
 parsing graph Pose .,R ,Yu and .Q ,Xie .,Y ,Wang .,Z ,Su 19.
2022. .53-62,pp 476, ,computingNeuro .detection interaction object-human for network
 and ,Su Fei ,Zhao Zhicheng ,Chen Guanyu ,Wenhao ,Yang 20.
 2022. 98-109, .pp 502, rocomputingNeu .detection interaction object-human for network ingpars graph centric-Interaction :iCGPN .Meng Hongying
 ,Shen Jianbing ,Jia Baoxiong ,Wang Wenguan ,Qi Siyuan 21.
 interactions object-human Learning .Zhu Chun-Song and
 2018. ,ECCV In .networks neural parsing graph by
 Contextual .Yingbiao Ling and ,Zheng shi-Wei ,Wang Hai 22.
2020. :2010.10001,arXiv preprint arXiv .tioninterac object-human for network graph heterogeneous
 object human detecting for network attention spatial :NetVSG ,Manjunath .S .B and ,Iftekhar .M .S .A ,Ulutan .O 23.
 CVF/IEEE .Proc in ,convolutions graph using interactions
–13617 .pp .,Recognit Pattern and Vision .Comput .Conf
2020. 13626,
 .,K.C ,Tang and .C ,Lu .,W.Y ,Tai .,X ,Wu .,L.Y ,Li .,X ,Liu 24.
 In .Interactions Object-Human in Field Interactiveness
 Computer on Conference CVF/IEEE the of Proceedings
2022. 20113-20122, .pp ,Recognition Pattern and Vision
 .Conf Winter IEEE in ,learning shot-zero through nitionrecog interaction object-human Scaling .,al et Shen .L 25.
,–1568 .pp ,IEEE ,)WACV (Vision .Comput .Appl
2018.
 arXiv .graphs affordance via recognition interaction jectob-human shot-Zero .Mu Tingting and ,Alessio ,Sarullo 26.
2020. :2009.01039,arXiv preprint
 .Yoshinaga Tomoaki and ,Ohashi Hiroki ,Tamura Masato 27.
2021. 10419,–10410 pages ,Recognition Pattern and sionVi Computer on Conference CVF/IEEE the of ceedingsPro In .information contextual wide-image with tectionde interaction object-human pairwise based-Query :Qpic
 Yu ,Wu Qian ,Liu Junqi ,Hu Yue ,Wang Bohan ,Zou Cheng 28.
 with detection interaction object human end-to-End ,WeiYichen ,Zhang Chi ,Zhang Chenguang ,Li Boxun ,Zhao
 .pp ,Recognition Pattern and Vision Computer on enceConfer CVF/IEEE the of Proceedings In .transformer hoi
2021. 11834, –11825
 ,Wang Fei ,Chen Zhiyuan ,Liu Si ,Liao Yue ,Chen Mingfei 29.
 adaptive as detection hoi Reformulating .Qian Chen and
 .pp ,Recognition Pattern and Vision Computer on enceConfer CVF/IEEE the of Proceedings In .prediction set
2021. 9013, –9004
 Bowen and ,Xiang Bing ,Schütze Hinrich ,Yin Wenpeng 30.
 Neural Convolutional Based-Attention :ABCNN ,Zhou
–259 .pp ,TACL .pairs sentence Modeling for Network
 2016. 272,
 .Chu Jun and ,Leng Lu ,Tu Xuji ,Qin Peixuan ,Kai ,Huang 31.
 Object for Network Siamese Time-Real A :SiamCAM
 2022. 3931, 8, .no 12, .Vol ,Sciences pliedAp .Mechanism Attention Compensating with Tracking
 .Zeng Wenjun and ,Tian Xinmei ,Luo Chong ,Anfeng ,He 32.
 .tracking object time-real for network siamese twofold A
 vision computer on conference IEEE the of Proceedings In
2018. 4834-4843. .pp ,recognition pattern and
 Computer on Conference IEEE of Proceedings In .cationverifi face to application with ,discriminatively metric itysimilar a Learning ,LeCun .Y and ,Hadsell .R ,Chopra .S 33.
–539 .pp 1, .Vol ,)CVPR (Recognition Pattern and Vision
2005. 546,
 estimation pose D2 person-multi Realtime .,al et Cao .Z 34.
2017. 7299,–7291 .pp .,Recognit Pattern and sionVi .Comput .Conf IEEE .Proc in ,fields affinity part using
 ,hands D3 :capture body Expressive .,al et Pavlakos .G 35.
 CVF/IEEE .Proc in ,image single a from body and ,face
–10975 .pp .,Recognit Pattern and Vision .Comput .Conf
2019. 10985,
 1, .No 2, .vol ,workshop learning deep ICML In .nitionrecog image shot-one for networks neural Siamese .novSalakhutdi Ruslan and ,Zemel Richard ,Gregory ,Koch 36.
2015.
 in objects common :COCO Microsoft .,al et Lin .Y.-T 37.
 755,–740 .pp 8693, .Sci .Comput Notes .Lect ,context
2014.
 Pattern and Vision .Comput .Conf IEEE .Proc in ,nitionrecog image for learning residual Deep .,al et He .K 40. 38.
2016. 778,–770 .pp .,Recogn