作者:唐鹏 数旗智酷创始人
12月5日,安徽省作为全国首个省级政府机构发布了首批数字政府大模型场景应用清单,清单包括政务咨询、辅助办理、城市治理、机关运行、辅助决策、专业工具等6类共18个场景应用。从数旗智酷近一年来通过国内外政策分析、产品应用测试调研以及行业专家访谈形成对数字政府大模型的整体研究结论来看,安徽省目前公布的数字政府大模型场景及其公开披露的相关应用信息,从应用价值来看,与OECD、IBM、微软、波士顿、德勤、彭博等发布的研究报告分析结论与预测基本吻合,同时,与包含美国(波士顿、圣何塞、西雅图、新泽西、华盛顿等州和城市)、加拿大、澳大利亚(新南威尔士)等发布的公共部门生成式AI应用指南涵盖的“建议用例”基本类似。数旗智酷作为关注和跟踪研究新技术介入政府治理与服务变革的智库机构,结合目前安徽发布的公开信息主要有以下观察——
01.为什么是安徽?是否意味数字政府创新引力中心“中移”?
从数字政府上一个周期的建设进程来看,以CPU为核心的云时代的数字政府创新,基本是以北京、深圳、上海、杭州等为中心,无论是政务服务平台、政务服务APP还是政务服务小程序建设,还是基于以上平台的一网通办、秒批、无感申办、免申即享等创新服务发展,其背后都隐约站着以BAT为代表的平台型数字经济企业,它们在云计算资源、平台建设、用户体验等不同维度,为数字政府在云时代的创新提供巨大的推动作用。
从CPU的云时代转向以GPU为核心的智算时代,安徽打响数字政府大模型的“第一枪”,是否意味着以讯飞为代表的人工智能厂商开始以语音解决方案的优势切入大语言模型时代?甚至,数字政府大模型场景在安徽的首次发布是否意味着数字政府创新引力中心开始“中移”——从“平台即服务”转向“模型即服务”?尚有待时间验证。
02.安徽首批数字政府大模型应用场景的评价
以“通用能力+场景建设”的方式,安徽数字政府大模型计划部署于电子政务外网,与互联网的隔离保障了数字政府大模型应用和数据的安全性。从应用场景的具体内容来看,除了专业工具包含直接面向企业和群众提供服务的应用,政务咨询、辅助办理、城市治理、机关运行和辅助决策5类都是以公务人员的办公辅助与决策支撑为主。
从大模型的能力特征和应用场景成熟度的角度来看,首先,财务与法律都是非常专业的领域,大模型的应用都需要首先从数据底层以专业语料来抑制其泛化能力与“AI幻觉”,因此围绕这两个领域的政策问答与咨询应该比较成熟,且人性化的生成式语言交互比以往的NLP语料库模式肯定体验会更好。
其次,政策质检与任务督查应用,其本质是保证“同样的政策、同样的执行”,以及通过对工作进度数据的推理逻辑来检查是否贯彻执行文件及完成度情况,这与新西兰曾经出现的“法律即代码”案例类似。
再次,12345智能热线可能是未来最具获得感的应用,无论对于接线员、咨询市民、执行部门以及决策管理者,大模型对文字、语音、图片、视频等多模态数据融合应用,对应对社会治理的不确定性问题与场景具有重要支撑辅助价值,大模型对用户端的事件判断与识别以及管理端的工单生成、派单以及后期督办等环节,都可能会重塑以往在城市网格化工作范畴的应用体验模式。但是,“处置”可能存在大模型无法逾越的难点。
第四,“无差别综合窗口助手”应该是通过大模型打造“自适应窗口”(非单独设置综合窗口,而是通过对办事人流、业务和数据的识别,自动调整窗口办事服务能力),实现“一人通全岗”或“AI通全岗”的最佳范例。大模型可以极大地降低人员的培训成本,将政务办事的知识进行高效应用,而非依靠某个“老法师”,大模型与“数字人”的结合也将在重复性、规律性的工作流程中体现“数字劳动力”的价值。
在公开发布的18个场景中,需要注意的是公文写作与执法行为支撑的相关场景。作为内部公文写作的支撑,需要考虑两点,一是公文语料、数据参数量是否够得上以及配得上大模型应用?比如几百万字的公文语料是否需要一个大模型来作为助手,甚至,在个别场景应用中是否会遭遇“巧妇难为无米之炊”的尴尬?
二是利用公文写作助手的公务人员是否知道自己在做什么以及应该做什么?比如将内部会议、私下头脑风暴的未公开信息进行了输入,是否会存在泄密风险?另外就是大模型应用于生态环境业务的执法助手。从国外多个国家及城市的应用示例来看,均不涉及执法场景(以及预测性警务)。安徽推出的执法场景的特殊之处在于,是围绕生态环保领域的执法——也就说,可能因为偏见或歧视风险被不当使用的技术被用于一个可被客观审视与评价的自然场景中,而非一个社会性的价值立场判断场景中。
03.大模型或重新校验数字政府建设的生态位
在国务院发布的《关于加强数字政府建设的指导意见》(国发〔2022〕14号)中明确提出,数字政府的角色是”助推数字经济发展、引领数字社会建设、营造良好数字生态”。安徽省数据资源管理局副局长王爱学认为,“大模型等新技术是推进政府履职模式创新的催化剂、加速器,数字政府领域场景应用又是促进大模型等新技术发展的试验场、孵化器”。而这种观点与美国Govtech100所推崇的价值理念殊途同归,即数字政府建设本身不会因为其涉及领域和对象的特殊性而成为市场竞争的隐形门槛,而成为一个技术创意涌现、企业公平竞争以及商业模式验证的数字经济创新平台,成为一个“一人企业”可以与超级数字经济巨头同台比武的竞技场。
从数字经济发展现状来看,移动互联网早已成为红海,成为一种依靠流量黑洞的资本游戏,而非以产品与技术取胜的智力竞赛。将数字政府大模型应用场景清单打造成为一种吸引创新企业、创新团队和创新人才的“机会清单”,不仅符合以合肥为代表的安徽近年来推动营商环境优化、打造硬科技创新高地的品牌形象,同时也是以讯飞为代表的人工智能标杆企业牵引大模型产业生态的重要契机。人工智能的发展无法忽略处于最低层“教育机器”如何识别世界的给数据打标签的人,安徽此次发布政府大模型应用场景清单实质是将政府公务人员与治理服务场景开放成为了大模型产业发展的最底层。
04.关于数字政府大模型的一些思考及建议
顶层设计方面:目前安徽省公布的18个场景覆盖了多个治理、服务与执法领域,如何明确数字政府大模型应用在政府数字化转型进程中的作用、价值与地位?如何明确数字政府大模型的“能”与“不能”、“可”与“不可”?作为一个省的数字政府大模型,数据训练是以什么为基准?是以目标场景领域和行业的所有数据资料为基础,还是以政府班子的履职周期,或一个垂直行业的政策周期(涉及法律法规制度废止)为基础?如何将数字政府大模型的能力与使用者的认知进行对齐?
操作落地性方面:数字政府大模型的模型够不够大、数据量够不够大、数据质量够不够好、数据训练时间能否满足需求……这些都是决定大模型是否有存在必要性的问题。此外,从OpenAI的公开信息来看,ChatGPT大模型每年调试更新一次,数据训练每周迭代更新一次。这些动作的背后意味着:我们的算力能否满足需求,基于模型的优化能否解决算力问题。与其他数字政府应用不同的是,其他应用是可以提前审核检查确保万无一失再上线发布,而数字政府大模型可能需要面对的是让用户在应用中检验服务的有效性,或是边应用边校验,对用户反馈的持续化运营跟踪非常必要。
实践规范性方面:目前数旗智酷研究过的全球13个国家地区和城市应用指南及道德框架,对“如何使用”都提出了很具体的要求与提示,包括“禁止用例”、“建议用例”、如何提问以及针对生成内容采用的注意事项。而值得注意的是,围绕撰写总结摘要、语言翻译、公众咨询问答、代码编程、决策辅助等场景,不同的国家或城市在“禁止”和“建议”的选择上存在部分冲突,不同政府对大模型应用的认识与政策要求并不一致。但是在价值准则设定方面,保持公平安全使用,明确责任主体判定,以及对结果的可追溯与解释性,这些几乎都是每个政府机构对大模型应用的根本性诉求。
从数字政府的当前发展要求来看,政务大模型无疑正在成为影响数字政府从“体验优先”走向“效能优先”的重要因子,成为提升公众获得感以及进一步突破数字政府改革瓶颈的辅助性杠杆。安徽省已打响了数字政府大模型的“第一枪”,政务大模型的应用与发展将走向何方?国家层面的顶层设计如何部署与地方如何试点创新突破?我们保持谨慎乐观继续观察。