第14卷第8期2009年8月中国图象图形学报JournalofImageandGraphicsVol.14,No.8Aug.,2009基于手持相机的文档图像拼接算法苗立刚(东北大学秦皇岛分校,秦皇岛066004)摘要为了把手持相机拍摄的多幅文档图像拼接成一幅大的图像,提出了一种基于全局对准模型的文档图像拼接算法。该算法首先通过估计文档图像的消隐点坐标来校正透视失真,使相邻图像的几何关系可以用仿射变换表示;然后采用随机采样方法调整特征点之间的距离,使其尽可能均匀地分布在整个重叠区域内;接着利用所有重叠图像对的局部对准约束通过建立文档图像拼接的全局对准模型来有效地消除误差积累;最后利用二值函数对图像进行剪切,以减小重叠区内的对准误差。实验结果表明,该方法无需事先标定摄像机的内外参数和限制相机的位置,不仅具有较高的对准精度,且可有效地拼接手持相机拍摄的各种文档图像。关键词文档图像拼接图像对准误差积累透视失真中图法分类号:TP39114文献标识码:A文章编号:100628961(2009)0821656207Hand2heldCameraBasedDocumentImageMosaicingAlgorithmMIAOLi2gang(DepartmentofAutomation,NortheasternUniversityatQinhuangdao,Qinhuangdao066004)AbstractThispaperpresentsaglobalalignmentmodelbasedimagemosaicingmethodforcamera2captureddocumentimages,anditcanbeusedtocombinemultipleoverlappingdocumentimagesintoonelargeimage1Itcorrectstheperspectivedistortionwiththeestimatedvanishingpoints,andthereexistsonlyanaffinetransformbetweentwoadjacentimages1Then,itadjuststhedistanceoffeaturepointstodistributethemasevenlyaspossibleintheoverlappingregions1Thirdly,ituseslocalalignmentconstraintsofalltheoverlappingimagepairstoconstructglobalalignmentmodel,thus,toeliminatetheerroraccumulation1Inordertoreducealignmenterrorofoverlappingarea,abinaryweightedfunctionisusedtoblendtheoverlappingregionofimagepairs1Thismethodisuniquebecauseitdoesnotrequirethecalibrationoftheinternal/externalcameraparametersinadvanceanddoesnotrestrictingthecameraposition,thusallowinggreaterflexibilitythanscanner2basedorfixed2camera2basedapproaches.Itcanproduceahighresolutionandaccuratefullpagemosaicfromsmallimagepatchesofadocument1Keywordsdocumentimagemosaicing,imagealignment,erroraccumulation,perspectivedistortion收稿日期:2007212226;改回日期:2008205207第一作者简介:苗立刚(1974~),男,讲师。2007年获中国科学院自动化研究所工学博士学位。主要研究方向为图像处理、模式识别、计算机视觉等。E2mail:ligangmiao@yahoo.com.cn;miaolg@hotmail.com1引言扫描仪是获取数字文档图像的一种传统方式,其特点是光照稳定,并具有较高的成像分辨率。近年来,手持成像设备的普及程度越来越高,如数码照相机、数码摄像机、摄像头、个人数字助理(PDA),以及可拍照手机等,它们具有便于携带、成像简单、快速,以及非接触等特点。目前,基于手持相机的文档图像分析已经成为光学字符识别(OCR)技术的一个重要的研究方向[1],并且在许多手持设备中得到了越来越多的应用。普通扫描仪和手持相机的视场范围相对有限,而对于幅面较大的文档,如工程图纸、新闻报纸、地图等,则无法一次获取大幅面的高分辨率文档图像。但在许多应用中,可以通过扫描多幅图像来覆盖整个文档页面,并把它们拼接成一幅高分辨率的文档图像。相对于自然场景图像的拼接来说,文档图像拼接对精度的要求比较高。文献[2]、[3]的拼接方法主要针对平台式扫描仪获取的文档图像,由于光照比较均匀,并且可以用2维欧氏变换来表示相邻图像的几何关系,因此容易取得较高的拼接精度。Mirmehdi等人通过限定相机的位置来获取文档图像[4],并假定相邻图像的几何关系为平移变换。Nakao等人把摄像头安装在鼠标上,先使成像平面正面朝向文档,然后通过在页面上拖动摄像头来获取文档图像序列[5]。Zappala等人则把摄像机固定在文档的正上方,通过在桌面上移动文档来采集图像[6]。这些方法由于通过硬件的支持,避免了文档图像的尺度变化和透视失真...