房屋租赁合同扫描提取数据
该项目是一个租房的公司有一些影映版本的房屋租赁合同, 他们需要从合同的pdf中提取出一写文字的数据. 比如客户姓名,地址之类, 他们不停的有新的租房合同, 希望能有一个工具能帮他们自动扫描租房合同, 并且把数据提取到一个excel中.
项目方要求不能使用在线的api, 担心数据泄露, 因此我们只能采用离线的ocr来识别.该项目使用的ocr引擎是RapidOcr.
客户的pdf文件中, 有几页有身份证, 需要把身份证里面的信息也识别出来. 其难点在于影映版的身份证, 有很多时候会有一些模糊不清的地方, 并且身份证还不一定是和pdf文档一个方向, 有可能有90, 180, 270好几个角度的旋转, 或者一些 轻微的其它旋转.
并且还要一个点在于客户的身份证页面不是固定某一页, 而是在几页上下浮动, 并且可能有多个身份证页面.
这些地方都会对ocr的识别产生很大的干扰, 所以我会采用可能是身份证页面的页面, 通过把页面旋转4个角度, 都进行一次ocr, 并且提取出最好的能识别出身份证地址和姓名还有号码的数据, 以便得出最好的效果.