就业专项资金的审计思路和方法 |
发布日期:2024-10-09 来源:常州市审计局 |
面对就业审计中遇到的培训花名册、签到表等纸质材料,审计人员尝试用OpenCV+OCR技术进行图像到文本的识别,将非结构化数据转化为特定数据结构。同时利用SQL查询语句围绕就业补助资金和失业保险基金,发现就业资金使用管理过程中存在的问题,分析目前实施就业政策的执行效果,给出具体的意见和建议,使得就业优先政策和就业专项资金在今后经济新常态背景下更好地发挥维护民生、推动经济社会健康平稳运行的重要作用。 一、就业资金发放的业务流程 就业补助资金的发放按照“谁出资培训,谁享受补贴”的原则,个人出资培训的,直补个人;企业自主开展技能认定的,补贴至企业;培训机构免费开展企业职工培训的,补贴至机构。某市就业补贴的具体核拨程序如下: 1.申请。通过资格认证、报名确认的个人和培训机构,可自证书核发之日起12个月内,通过江苏智慧人社APP或江苏省一体化信息服务平台申请补贴。 2.受理。网上申报系统将对补贴申请进行校验,对是否受理成功给予提示。 3.审核。人社经办部门于每个季度后10日内(逢节假日顺延)完成网上审核。审核不通过的,将及时告知申请人。审核通过的,进入公示环节。 4.公示。市人社部门通过人社官网公示通过人员名单,公示时间为5个工作日。公示有异议的,人社经办部门将开展调查并完成异议处理。经调查不符合补贴条件的,将及时告知申请人;公示无异议的,或有异议但经调查异议不成立的,进入拨付环节。 5.支付。公示结束后,人社部门按规定程序及时将补贴资金拨付至申请人的社会保障卡银行账户或培训机构的银行账户。 二、审计所涉系统及数据特点 本次审计大数据分析主要涉及到的信息系统包括人社系统的以前年度自建的金保系统以及省平台建立后的人社一体化系统,数据分析的难点在于需解决新老系统交接数据迁移后的数据质量问题,同时大量引入外部数据包括:各培训机构的台账数据、财政供养人员数据、失业保险数据、社保参保数据、公积金贷款数据、就业困难人员登记数据、特困对象人员数据、新增就业指标数据、企业工商数据等。本次审计涉及到的主要是SQL Server、Oracle数据库的结构化数据以及一些视频、图片、文件等非结构化数据。 三、审计思路和方法 (一)针对虚假培训骗取套取培训补贴情况审查 利用大数据对培训机构和企业进行全面核查,聚焦疑点集中的机构,从资质、竞标、场地、师资、培训对象、内容、时长和补贴申领、资金流向等进行穿透式审计。不仅对重点群体职业培训、企业新型学徒制培训等问题易发领域骗取补贴的操作手法、补贴金额、虚假培训人数等情况进行全面核查,还要追查虚假培训背后的内外勾结、以权谋私问题。 具体利用人社系统后台培训考勤数据,审查是否存在同一课堂(180分钟内),同一人出现在不同培训机构打卡培训的情况,形成虚假培训的疑点数据。这一步分析涉及到人社系统新老平台的交替,原自建金保工程老系统有2种打卡方式,一是利用社保卡刷卡记录,二是利用手机app扫码打卡,2种方式自主选择的不定性也带来了漏洞和风险,新建省平台一体化系统上线后均利用人社app同一种方式进行打卡。在得到虚假培训的疑点数据后,进而比对培训补贴数据,看虚假培训人员最后是否获补,骗取套取培训补贴。 针对原自建金保工程老系统以及新建省平台一体化系统数据,利用SQL语句分别建立模型,同一人在不同机构打卡间隔时间小于180分钟(课程安排每半天4学时,每学时45分钟),形成疑点数据。将新老系统分析形成的疑点合并,形成虚假培训疑点数据表,与全市培训补贴明细表关联,查询虚假培训人员是否获补,形成最终的虚假培训获补疑点数据表。 (二)针对职业培训补贴发放不合规情况审查 将各培训机构职业技能培训机构培训补贴申报花名册和签到表的纸质材料扫描成图片,使用OpenCV+OCR技术进行图像到文本的识别,并转化为特定数据结构。OCR导入数据后,通过手工检查和补录签到表中明显识别错误的文本和额外手写的姓名,保障源数据的质量,通过各培训机构花名册汇总成全市培训数据,同时通过历次签到表的签字情况统计签字次数,推导出每位学员的实际出勤率。 1.数据清洗,利用OCR技术汇总形成全市培训补贴明细表。 步骤一:采用OCR等相关技术采集纸质材料的信息,利用.NET的WinForm技术编写桌面应用外观; 步骤二:使用OpenCV视觉技术处理扫描图片,首先将图片内容进行去噪,使用图片的灰度通道进行二值化,将图片内容分为黑白两色;
步骤三:使用图像处理的卷积技术,设置识别横线和竖线的卷积核,侵蚀和膨胀图像,得到扫描图片的表格框架; 步骤四:使用图像处理的叠加技术,叠加横线和竖线获得图像中表格的框架,进而得到所有的相交点、图片内容的边缘轮廓、图片的文本部分;
步骤五:使用图像处理技术和该功能的业务逻辑获得图像的表格框架坐标,生成用于裁切图片的位置信息,并切割原始的图片,形成一个一个单元格的小图;
步骤六:使用OCR技术,识别每一个小图中的文字内容,并拼接成Excel格式,随后汇总生成全市培训补贴明细表,供后续使用;
同时,本次审计采用的图像识别采用的是开源的Tesseract-OCR技术,此技术也支持使用模型进行机器学习和训练,为提高识别精度针对此次模型用到的底稿和字体进行模型使用jTessBoxEditorFX软件进行训练。 2.重复发放职业培训补贴情况审查。根据《关于做好职业技能提升行动专账资金使用管理工作》(苏人社发〔2020〕26号)中“符合条件的劳动者在户籍地、常住地、培训地、求职就业地参加培训后取得证书……原则上每人每年可享受不超过3次,但同一职业同一等级一年内不可重复享受”的规定,利用全市培训补贴明细数据关联证书库数据,审查是否存在向同一职业同一等级一年内重复发放职业培训补贴的情况。 利用SQL语句对全市培训补贴明细表进行分析,计算获补名单中同一证书编号出现次数,将同一证书编号出现2次的记录形成重复获补疑点。 3.享受职业培训补贴次数超上限情况审查。根据《关于做好职业技能提升行动专账资金使用管理工作》(苏人社发〔2020〕26号)中“符合条件的劳动者在户籍地、常住地、培训地、求职就业地参加培训后取得证书……原则上每人每年可享受不超过3次,但同一职业同一等级一年内不可重复享受”的规定,利用证书库、全市培训补贴明细数据数据,审查是否存在享受职业培训补贴次数超上限的情况。 利用SQL语句对全市培训补贴明细表进行分析,计算获补名单中一年内同一人取证次数,将一年内同一人取证超过3次的的记录形成补贴超上限疑点。 4.违规向财政供养人员发放职业培训补贴情况审查。根据《关于做好职业技能提升行动专账资金使用管理工作》(苏人社发〔2020〕26号)中“各类企业职工参加岗前培训、安全技能培训、在岗培训、岗位技能提升培训、转岗转业培训、脱产培训,参加线上技能培训、通用职业素质等综合性培训……按规定给予职业培训补贴”以及《关于用好职业技能提升行动专账资金提高职业技能培训质效》(苏人社函〔2021〕98号)中“强化培训资金监管,充分发挥专账资金使用效益”的规定,引入外部数据全市财政供养人信息,比对证书库、全市培训补贴明细数据,审查是否存在违规向财政供养人员发放职业培训补贴的情况。 利用SQL语句对全市培训补贴明细表进行分析,引入外部数据财政供养人员信息,将获补名单中财政供养人员记录形成违规发放疑点。 5.向出勤率不达标人员发放职业培训补贴。根据《常州市职业技能培训补贴实施办法》(常人社规〔2019〕2号)中“原则上对个人参加培训出勤率不足60%的,不予培训补贴”的规定,利用OCR识别汇总出考勤数据,与培训明细表比对,审查是否存在向出勤率不达标人员发放职业培训补贴的情况。 步骤一:根据花名册计算签到表中人员签到的次数。根据OCR识别结果,汇总出历次培训中签到次数; 步骤二:对纸质内容中通过笔墨手写的部分在电子材料中更正。在签到表中存在部分信息由于实际填写时存在笔墨涂鸦,这部分无法实现内容的OCR识别,需要依靠后期在Excel中人工补录方可校准。包括存在身份证号码错误、实际授课时有非名单内的人员参与听课签字、涂改导致的识别出错等; 步骤三:使用SQL查询检测出勤率。通过导入的数据,使用数据库的查询功能,导出出勤率分布情况,并参考该分布最终形成结果。
(三)针对高证考低证获补,未充分发挥专账资金使用效能情况审查 根据《关于拓宽职业技能培训资金使用范围提升使用效能》(人社部发〔2021〕69号)“六、强化培训质量和资金监管力度。各级人力资源社会保障部门要严格培训质量,强化过程监管,进一步提高培训针对性和有效性。……各级人力资源社会保障、财政部门要切实履行专账资金使用管理责任,将培训资金监管作为风险防控的重要内容,依法依规依纪,管好管严管实,切实保障资金安全和使用效能”的规定,利用证书库数据,审查是否存在参加培训取得高级证书获得补贴之后,继续参加同工种低等级培训并获证享受补贴,造成专账资金浪费的情况。 利用SQL语句对全市培训补贴明细表进行分析,获取名单中同一人同一工种多次取证获补的情况,利用获证时间分析出高等级证书在低等级证书之前的疑点数据。 四、审计成效 本次审计通过OCR技术以及上述多种数据分析方法,结合现场核查,发现通过虚假培训骗取套取培训补贴36人,同一职业同一等级一年内重复发放职业培训补贴26人次,违规向财政供养人员发放职业培训补贴44人次,以及享受职业培训补贴次数超上限、向出勤率不达标人员发放职业培训补贴、高证考低证获补未充分发挥专账资金使用效能等多个问题。OCR技术擅长将审计人员难以处理的非结构化数据转化为熟知的结构化数据,而此类分析方法也适用于分析各类专项资金以及补贴发放等领域。(任馨) |
主办单位:常州市审计局
地址:龙城大道1280号1号楼B座12楼
电话:0519-85682658 网站地图
技术支持电话:0519-85685023(工作日9:00-17:00)
网站支持IPV6 推荐使用1024*768或以上分辨率,并使用IE9.0或以上版本浏览器