4095 字
20 分钟
论文选读:基于LLM的中国街道与社区犯罪时空分布数据集

介绍#

我在之前的博客从最近的恶性事件看类《看门狗》中CtOS犯罪评估系统的可能性中曾经介绍过,现代犯罪预测领域中最核心的两个模型分别是“近重复理论(Near Repeat Theory)”和“风险地形建模(Risk Terrain Modeling)”,对具体理论内容感兴趣的读者,可以点击超链接查看详细介绍,这里就不再赘述。

不过,无论是近重复理论还是风险地形建模,它们在实际应用时都面临着同一个基础性要求:高质量、细粒度的犯罪时空数据集。然而,受限于隐私保护、数据收集难度与信息敏感性,中国目前公开可得的犯罪数据通常只能精确到城市或区县级,街道乃至社区层面的数据几乎是一片空白。这种局限不仅削弱了犯罪风险的精准识别能力,也制约了微观层面上预防与干预措施的制定。

来自武大/港中文的张岩博士的论文《A dataset on the spatiotemporal distributions of street and neighborhood crime in China》就非常有趣,这篇论文/数据集做的事简而言之就是爬取了中国裁判文书网大约一百万条犯罪记录,使用大模型从海量的非结构化司法文本中提取社区乃至建筑尺度的犯罪事件,最终构建出了一个开放的、覆盖街道与社区尺度的犯罪时空数据库。

论文与数据集链接

你也可以在这里查看论文原文、翻译后的双语PDF文件和我自己托管的ChinaCrimeDatasets数据集

一、论文速览#

1.数据来源#

研究者的主要数据来源是中国裁判文书网 (China Judgments Online)。这个由最高人民法院运营的平台公布了超过一亿份经过匿名化处理的全国范围内的刑事案件判决书。这些文书格式高度标准化,经过司法程序核实,包含了丰富的案件细节(时间、地点、案情等),具有全国一致性和公开可访问性。

然而,这些信息是以非结构化的文本形式存在的。想象一下,要从数百万份、每份都可能长达数页的判决书中,手动提取精确到“某某街道某某小区几号楼”的犯罪地点和具体到“某年某月某日几点几分”的案发时间,工作量无疑是巨大的,几乎不可能完成。

这么庞大的工作量哪怕全部外包给黑叔叔都有点不太可能

于是,这就提现到大模型的好了。研究者使用了LLM进行数据的清洗与提取:

  • 筛选与检索: 首先,使用“抢劫 (robbery)”、“抢夺 (snatching)”、“盗窃 (theft)”等关键词,从海量文书中检索出超过200万份与街头和社区犯罪相关的判决书。
  • LLM信息抽取: 接着,研究人员选用了 Google的Gemini-1.5-Flash模型API(在输出质量和API定价间取得了较好平衡),设计了特定的指令(Prompt),让LLM扮演“专业的法律文书分析助手”。LLM负责阅读每份判决书的文本,并按照预设的JSON格式,自动提取关键信息,包括:
    • 案件编号 (case_number)
    • 法院名称及地点 (court_name, court_location)
    • 案件类型 (case_type)
    • 判决日期 (judgment_date)
    • 案发时间 (incident_time)
    • 案发地点 (incident_location)
    • 当事人信息(被告、受害人等,已做脱敏处理)(party_info)
  • 地理编码 (Geocoding): 提取出的文本格式的案发地点(例如:“武汉市洪山区珞喻路129号”)还需要转换为精确的地理坐标。研究团队使用了百度地图API的地理编码服务,将这些地址文本转化为经纬度 (longitude, latitude)。对于涉及多个地点的案件,优先提取第一个地点作为主要犯罪位置。
  • 时间标准化: 同样,从文本中提取的案发时间(可能包含“上午”、“傍晚”等模糊描述)也需要标准化。研究团队设计了基于正则表达式的解析方法,将其统一转换为ISO 8601标准格式(例如:“2024-01-05 10:00”),方便后续进行时序分析。

2.数据集概览#

通过上述流程,研究团队最终构建了一个包含约100万条街头和社区犯罪记录的数据集,总容量约为7GB。 这个数据集具有几个显著特征:首先,在空间粒度上,数据精确到街道、社区,甚至是建筑级别,提供了前所未有的微观细节;其次,每条记录都附有标准化处理的案发时间戳,确保了时序分析的可行性;在覆盖范围上,数据横跨中国大陆31个省级行政区、222个地级市与548个县级/区级单位,具备广泛的地域代表性;此外,除了核心的时空信息外,数据中还包含了案件类型、法院信息及部分脱敏的案件详情描述,信息维度丰富;最后,整个数据集以CC BY 4.0许可协议在Figshare平台上开放发布,供研究人员和公众免费下载与使用,极大地促进了后续研究与应用的可能性。

3.比较有趣的几个初步发现#

时间分布 可以看到一天内的犯罪可能会集中在上午9点,中午12点,下午3点和晚上8点

当然,这也可能是数据集选取策略导致的() 很多案件报告会采用相对模糊的时间表述,常用“上午”和“下午”等术语指代犯罪事件,所以模型会直接匹配到9、12、3、8等时间点。

我们还可以看到数据主要集中在13-19年

这是因为大规模数据上网也就集中在这个时间段,19年之后文书获取相对受限;另一个重要原因是电子支付的普及减少了现金携带⾏为,可能影响了特定犯罪类型。

因素 作者以2016年数据为例,分析了城市层面的犯罪数量与年平均人口、人均GDP、平均工资、城镇登记失业人数、第三产业就业人数等社会经济指标的关系。研究发现犯罪数量与城市人口、失业人数呈显著正相关,而与人均GDP、平均工资的关系呈倒U型曲线,与第三产业劳动力的相关性则呈现正U型

总结一下,这篇论文/数据集的核心贡献在于:

  • 方法创新: 成功演示了如何利用LLM技术从大规模、非结构化的公开法律文本中高效、低成本地提取细粒度的结构化信息。
  • 数据填补: 构建并公开了一个在中国背景下前所未有的、覆盖街道/社区尺度的犯罪时空数据库,极大地填补了该领域的数据空白。
  • 应用潜力: 为犯罪学、社会学、地理学、城市规划、公共政策等多个领域的研究者提供了宝贵的实证数据,有助于更深入地理解中国城市犯罪的时空动态,并为更精准的犯罪预测和预防策略提供数据支撑。

二、数据集的价值与意义#

1.填补关键数据空白,推动微观犯罪研究#

正如前文所述,在中国获取公开、细粒度的犯罪时空数据一直是一个巨大的挑战。在以往的中国城市犯罪研究中,研究者们往往不得不依赖粗粒度的数据(如年度犯罪率、区县级别统计),这极大限制了理论模型的验证与微观机制的探索。而本数据集首次将分析单位下沉至街道乃至建筑尺度,让很多在国际上广泛应用但在中国长期无法验证的理论(例如近重复犯罪模式环境犯罪学社会无序假说)有了实证测试的可能。

我们终于可以:

  • 在微观尺度上检验犯罪的热点、时序模式以及扩散规律。
  • 更精确地分析特定社区环境(如POI分布、路网结构、建筑密度、社会经济构成)与犯罪风险之间的复杂关系。
  • 为理解中国城市内部犯罪分布的异质性提供坚实的实证基础。

2.展示LLM在社会科学研究中的巨大潜力#

该研究是利用大型语言模型处理海量、非结构化法律文本以进行社会科学数据挖掘的典范应用。传统上,从数百万份判决书中提取结构化信息需要耗费巨大的人力物力,成本高昂且效率低下。通过引入LLM,研究团队实现了自动化、规模化、低成本的信息提取,极大地提高了研究效率和可行性。这不仅为犯罪学研究开辟了新路径,也为其他依赖文本分析的社会科学领域(如政策分析、历史研究、舆情分析等)提供了重要的方法论启示:LLM可以成为解锁隐藏在海量文本数据中社会现象规律的强大工具。

3.推动循证的犯罪预防与城市治理#

精确的数据是现代社会制定有效公共政策的前提,数据集最不应该被忽视的是它在公共安全与社会治理领域的潜在意义。有了街道和社区级别的犯罪数据,地方政府、公安部门以及社区管理者可以:

  • 更精准地识别犯罪高风险区域和时段,从而优化警力部署、巡逻路线和治安资源配置,实现“精确打击”和“靶向预防”。
  • 评估特定干预措施(如增加照明、安装监控、社区警务活动)的实际效果,为政策调整提供数据支持。
  • 在城市规划和社区设计中融入犯罪预防的考量(CPTED - Crime Prevention Through Environmental Design),例如,通过改善空间可 K 视性、增强领域感等方式降低犯罪机会。
  • 提升城市安全治理的科学化、精细化水平,增强居民的安全感。

最后,该数据集以CC BY 4.0协议开放共享,伟大无需多言。

三、可能的几个研究方向与应用#

1.犯罪学与社会学视角#

城市犯罪的空间分布特征 利用高精度经纬度信息,可以系统性分析:

  • 犯罪是否呈现热点聚集效应(Hotspot Clustering)
  • 不同类型的街道布局(主干道、支路、城中村)是否对应不同的犯罪风险?
  • 犯罪发生的时空模式,比如“午后入室盗窃”“夜晚抢劫”是否有一致性的时间窗口? 这些分析可以进一步验证或挑战国际上已有的犯罪地理理论,比如“环境设计减少犯罪(CPTED)”理念在中国城市是否同样有效。

社会经济因素与犯罪的关系建模 结合城市级别的人口、收入、失业率、教育水平等统计数据,可以探索:

  • 哪些社会经济变量对街头犯罪有显著影响?
  • 贫富差距扩大是否真的对应局部区域犯罪率上升?
  • 人口流动性、租房比例等指标在犯罪分布中扮演什么角色?

2.城市科学与公共政策应用#

城市空间规划与风险管理 基于犯罪数据叠加POI(如地铁站、酒吧、学校等兴趣点),可以绘制出城市高风险区域热力图。这在以下场景非常有用:

  • 优化摄像头布控照明设施配置
  • 指导新建住宅小区商业区选址时考虑安全因素;
  • 帮助警方制定更具针对性的巡逻路线和时段安排。 如果进一步引入人口密度变化、节假日效应等动态因素,还可以做更精细的动态风险预测

公共安全干预政策效果评估

  • 比如,在某个区域引入新的警务措施后(如“热点警力加强巡逻”),可以通过对比前后犯罪数据变化,评估干预效果是否显著。
  • 也可以尝试反事实推断(Counterfactual Inference),模拟在没有干预的情况下,犯罪数量可能的演变趋势。 这类实证检验,有助于推动公共安全领域从经验主义向数据驱动转型。

3.机器学习#

犯罪时空预测建模 利用现有数据,配合时序建模技术(如LSTM、Transformer),可以尝试建立短期犯罪风险预测模型,比如:

  • 给定当前时间、地理位置,预测未来24小时内某街区的犯罪发生概率。
  • 识别出不同犯罪类型在空间和时间上的演化趋势。

文本挖掘与自然语言处理(NLP) 由于原始数据是从非结构化判决文书中提取的,研究者可以进一步探索:

  • 设计更高效的Prompt或微调专用LLM,优化法律文书中的信息抽取任务。
  • 分析文书叙事风格与案件类型的潜在关联,比如某些用词、描述细节是否能帮助案件自动分类。
  • 建立法律知识图谱(Legal Knowledge Graph),挖掘案件之间潜在的关系网络。

这种跨界融合,可以让传统法律文本挖掘更进一步迈向智能化、系统化。

最后总结一下#

说实话,看到这份数据集我是非常惊喜的。

长期以来,在中国语境下进行微观层面的犯罪时空分析,一直受限于数据的可得性,许多精细化的研究方法和理论验证都如同空中楼阁。我们知道问题可能存在于街道、社区,甚至某个特定的角落,但缺乏足够的数据去精确地描绘、量化和分析它

在中国这样一个对数据隐私、信息披露相对谨慎的环境下,能有研究者以如此创新的方式,基于公开渠道,结合大模型技术,构建出细粒度、高质量、而且开放共享的犯罪时空数据库,真的非常难得。在它之前,很多关于城市犯罪动态、微观社会治理的研究设想,往往只能停留在“如果有合适数据的话就能做”的假设阶段;而现在,这样的数据终于变成了可以触摸、可以下载、可以真正展开实证研究的现实。

当然,正如任何数据一样,这份数据集本身也有它的局限,比如:

  • 来源于判决文书,可能存在案件选取偏差(严重犯罪案件的记录更全面,轻微案件则可能遗漏);
  • 地理编码过程中存在一定误差;
  • 时间范围主要集中在2013-2019年,可能不完全反映当前的犯罪态势。

但瑕不掩瑜。对于国内城市犯罪空间研究、社会治理建模、甚至AI法律应用探索来说,这都是一个巨大的前进步伐。

如果说,数据科学在很多领域早已可以肆意驰骋,那么在犯罪学、社会学这些与人性、制度、环境高度交织的复杂领域,每一份这样真实、细致的数据,都格外值得珍惜。

希望未来能有更多这样的项目,让我们在理解世界、改善世界的路上,走得更远一点,也走得更踏实一点。

论文选读:基于LLM的中国街道与社区犯罪时空分布数据集
https://www.lapis.cafe/posts/ai--deep-learning/dataset-china-crime-spacetime/
作者
时歌
发布于
2025-04-27
许可协议
CC BY-NC-SA 4.0