房屋租赁合同扫描提取数据

该项目是一个租房的公司有一些影映版本的房屋租赁合同, 他们需要从合同的pdf中提取出一写文字的数据. 比如客户姓名,地址之类, 他们不停的有新的租房合同, 希望能有一个工具能帮他们自动扫描租房合同, 并且把数据提取到一个excel中.

项目方要求不能使用在线的api, 担心数据泄露, 因此我们只能采用离线的ocr来识别.该项目使用的ocr引擎是RapidOcr.

客户的pdf文件中, 有几页有身份证, 需要把身份证里面的信息也识别出来. 其难点在于影映版的身份证, 有很多时候会有一些模糊不清的地方, 并且身份证还不一定是和pdf文档一个方向, 有可能有90, 180, 270好几个角度的旋转, 或者一些 轻微的其它旋转.

并且还要一个点在于客户的身份证页面不是固定某一页, 而是在几页上下浮动, 并且可能有多个身份证页面.

这些地方都会对ocr的识别产生很大的干扰, 所以我会采用可能是身份证页面的页面, 通过把页面旋转4个角度, 都进行一次ocr, 并且提取出最好的能识别出身份证地址和姓名还有号码的数据, 以便得出最好的效果.

project image