聚焦人工智能发展的前沿问题,8月19日,虹口区人民法院举办审委会扩大学习会暨数字法院讲堂第三讲,为进一步深化数字改革赋能,助推法院工作质量变革、效率变革、动力变革,武装头脑,赋能实践。全体党组成员、中层以上领导干部、数字法院建设青年突击队全体队员参加活动,活动由虹口区人民法院党组成员、副院长冯静主持。
本期数字法院讲堂特邀阿里巴巴通义实验室技术总监孙常龙,围绕“人工智能的发展及在法律行业的应用探索”的主题进行授课,解读人工智能到新一代人工智能的发展,阿里大模型的发展,以及法律大模型的构建和应用探索等相关理论和实践前沿问题。
感悟·体会
新一代人工智能是我国的一项重大发展战略,影响深远。
智能是学习的能力,以及解释、解决智力问题的能力;人工智能是脱离生命体的智能,是人类智能的体外延伸,简单来说,是对人的意识、思维的信息过程的模拟;人工智能可面向不同的情境,通过不断学习,积累本领,与时俱进地成长。
作为推进数字法院建设的突击先锋,数字法院建设青年突击队队员们在本次数字讲堂活动中开阔了视野,收获良多,他们说:
王瑜
孙常龙老师的分享让我深受启发,他不仅详细阐述了人工智能从萌芽到蓬勃发展的历程,更重点探讨了这一前沿技术在法律行业的广泛应用与深远影响。人工智能于法院而言,不仅是技术上的革新,更是司法理念的深刻转变,是推动法院工作质量、效率、动力全面变革的重要力量。上海作为全国乃至全球的数字化高地,其数字法院建设正引领着司法领域的数字化浪潮。作为法院干警,我们要紧跟时代步伐,充分利用人工智能等先进技术,推动审判流程智能化、诉讼服务便捷化、司法管理精细化,为人民群众提供更加优质、高效、便捷的司法服务。
周亚婷
随着以大模型为代表的新技术加速迭代,人工智能产业呈现出创新技术群体突破、行业应用融合发展等特点。人工智能和数字法院建设的融合是司法领域信息化智能化的必然趋势。现阶段上海法院建设的应用场景也是人工智能融合数字法院建设的表现,数助便民类场景助力在应用层方面赋能,促进交互式系统完善;内部监管类场景在能力层方面预防差错、提示预警;而要素式审判也朝着大模型建设完善方向努力。人工智能的不断发展给数字法院建设带来新的机遇和挑战,也助力数字法院锚定新发展方向,推动司法工作向现代化和智能化迈进。
殷杰
人工智能的发展与运用已然深入社会与生活的各个领域,改变了人们的认知方式。讲授内容中对于自然语言处理大模型的技术原理以及发展趋势的解析都让我大开眼界。司法治理不仅要加强专利权等知识产权的保护力度,也要以公正高效的司法制度保护新型产品销售者与新型服务提供商的合法权益,保障新质生产力的发展,更要积极推动司法数字赋能,以新思维解决新问题,充分利用司法数据的资源提升社会治理能力,充分运用数据处理与人工智能技术提升司法质效,充分挖掘司法数据潜能有效衔接个案审判与类案治理,加强司法审判工作的社会效应,在数字社会实现数字司法,为司法办案人员减负,为人民群众提升司法获得感与幸福感增效。
陈宇超
如今人工智能领域成为社会关注热点,法律行业也必然受到人工智能的影响,法院作为法律研究、应用、宣传的主阵地,数字技术的发展与应用,势必将改变现有法院工作模式。但科技带来便利与快捷的同时也应当关注其内在风险与挑战。近年来上海加快推进数字法院建设,5.0办案系统从立案、办案、结案多领域、多角度实现全流程网上办案,尤其在庭审记录、签章审核、归档阅卷、文书送达等方面简化办理流程,提高办案效率。而场景应用的构建与推广,以事前预防提醒为主,事后监督整改为辅,提升办案质量,大场景、决策类场景应用促进部门间信息共享、多元治理,以及辅助办案、助力决策。但带来法院工作质效提升的同时不能放松对信息安全的关注,尤其在传输和保存问题上,应继续加强信息保密管理,避免信息泄漏或更改。确保在安全、稳定的前提下充分发挥信息技术的优势和利好。
接下来,撷取孙常龙总监的讲授要点,一起体会人工智能发展的魅力。
人工智能到新一代人工智能的发展
人工智能的发展经历了几起几落,当技术的发展和社会的需求趋于一致时,往往能够驱动技术的推进,反之则会有各种阻碍。2012年后,大数据、算法和算力的快速发展将人工智能推向了新的高度,AlexNet基于深度网络学习模型在图像识别领域大方异彩,出现一系列成果。google在人工智能发展过程中发挥了至关重要的作用,如2013年word2vec诞生,2014年收购deepmind,2016年阿尔法狗战胜人类围棋冠军,2017年 Transformer架构诞生。在中国,2017年国务院印发《新一代人工智能发展规划》,2018年bert和 GPT1.0出现,2019年GPT2.0、2020年GPT3.0、2022年GPT3.5接连诞生,人工智能进入新一代人工智能时代。
生成式人工智能快速发展,人工智能正在发挥通用技术的能力。将来,它可能会如蒸汽机、电一样在生活中无处不在。同时,人工智能还引发科学研究范式变革,推动人类从继实验观测、理论推导和仿真模拟之后迈向以数据密集型为核心的数据洪流型(Data Torrent)第四范式发展。当前,人工智能与各行各业结合并取得阶段性成效,但需要看到制约人工智能发展的因素仍然存在,如算力、模型和数据。其中,数据是燃料、模型是引擎,算力是加速器,只有在这些方面进一步突破,人工智能才能产生更大的价值和意义。
法律大模型的构建和应用探索
随着阿里云在法律科技领域的持续深耕,我们也意识到:尽管通用大模型效率高,能够解决诸多法律难题,但仍存在一些问题:
其一,知识更新问题。大模型知识更新速度无法与法律知识迭代速度契合,可能出现回答不准确或回答错误的情形。
其二,业务对齐问题。大模型很难深入理解我国法律行业价值观,例如通用大模型可能会用日本民法理论回答中国民法问题。
其三,产品形态问题。司法系统难以在人工智能平台上嵌入其现有数据并投入使用。
因此,我们开始尝试构建法律大模型。一方面,法律大模型可以更切实地理解用户的法律问题,并进行问题分发,以提高效率;另一方面,法律大模型可以充分利用数据,并将其转化为可接受的数据库。虽尚有一些新问题亟待解决,但在目前的法律范围内,法律大模型能够迅速给出初步的回答结果。
在训练垂直领域的法律大数据模型时,团队采取了如下建设思路:
在训练阶段,在基座模型构建方面,基于通义生成式预训练基座模型,使用精选的法律无监督数据,构建法律领域生成式预训练大模型。同时,为强化法律问题回答的专业性,基于司法下游有监督任务,使用精标的法律有监督数据以及通用有监督数据,进行模型指令微调。
在推理阶段,基于反馈的强化学习训练进行模型指令微调,利用现有的不同模型本身质量差异来构建RM训练数据。同时,为消除法律大模型存在的幻觉类问题,还需挂接司法知识库,包括自有知识库(法律法规检索、案例检索、司法图谱检索),以及私有化场景第三方API(例如:智能送达、智能运维、文书上网)。
基于以上训练,法律大模型已经可以对法律问题进行深度理解和分析,因此提升回答结果的可应用性是进一步的要务,即Agent能力建设。其中,新的大模型即蕴含通用知识与司法行业知识的法律专业领域大模型,外部知识库常见类型包括搜索引擎、数据库、知识图谱、API接口等。通过技术创新,细化到每个业务场景中。例如,在使用法律大模型进行类案检索时,模型理解问题后即可生成类案对应的诸多类似关键词、争议焦点和案情描述。基于此方法,可以找到库中对应的各种维度,将这些信息从检索引擎中筛选出来,再统一提交给大模型;大模型进一步生成结果,并说明引用了哪些案例库和法条,从而使结果具有较好的可解释性。