国际期刊投稿平台
登录 | 注册
当前位置: 首页 > 科学研究与应用 > 赣州中心城区工业功能区识别研究——基于自然语言处理与工商登记数据
科学研究与应用

科学研究与应用

Journal of Scientific Research and Applications

  • 主办单位: 
    未來中國國際出版集團有限公司
  • ISSN: 
    3079-7071(P)
  • ISSN: 
    3080-0757(O)
  • 期刊分类: 
    科学技术
  • 出版周期: 
    月刊
  • 投稿量: 
    5
  • 浏览量: 
    786

相关文章

暂无数据

赣州中心城区工业功能区识别研究——基于自然语言处理与工商登记数据

Identification Study of Industrial Functional Zones in the Central Urban Area of Ganzhou —Based on Natural Language Processing and Business Registration Data

发布时间:2026-04-21
作者: 李文彪 ,周治发 :江西理工大学 江西赣州;
摘要: 在产业集聚与城市精细化治理背景下,准确识别产业功能区对于理解城市空间结构与优化产业布局具有重要意义。以赣州中心城区为研究对象,融合345433条工商登记数据与Place2Vec语义嵌入模型,在,067个自然街区尺度上构建产业功能区识别框架。通过语义向量聚合与K-means聚类方法,结合肘部法与轮廓系数确定最优分类结构,并基于频率密度与类别因子判定主导功能属性。结果表明:赣州中心城区整体识别率达85.8%,形成8类专业化功能区与1类综合区;空间格局呈现“中心服务核心—外围产业集群”的结构特征,其中综合区、制造业供应和生活服务为主要类型。南康家具产业集群展现出高度空间连续性,并与物流与制造业供应区形成协同布局,体现出显著的产业链空间整合特征。研究表明,基于语义嵌入的功能区识别方法能够有效揭示产业间潜在关联结构与空间组织特征,为中等城市产业空间优化与精细化治理提供技术路径与实证依据。
Abstract: Under the context of industrial agglomeration and refined urban governance, accurately identifying industrial functional zones is crucial for understanding urban spatial structure and optimizing industrial layouts. Taking the central urban area of Ganzhou as the research subject, this study integrates 345,433 business registration records with the Place2Vec semantic embedding model to construct an industrial functional zone identification framework at the scale of 1,067 natural neighborhoods. Through semantic vector aggregation and K-means clustering methods, the optimal classification structure is determined using the elbow method and silhouette coefficient, while dominant functional attributes are identified based on frequency density and category factors. The results show that the overall recognition rate in Ganzhou's central urban area reaches 85.8%, forming 8 specialized functional zones and 1 comprehensive zone. The spatial pattern exhibits a "central service core—peripheral industrial cluster" structural characteristic, with the comprehensive zone, manufacturing supply, and life service being the primary types. The Nankang furniture industry cluster demonstrates high spatial continuity and forms a synergistic layout with logistics and manufacturing supply zones, reflecting distinct industrial chain spatial integration features. The study demonstrates that the semantic embedding-based functional zone identification method can effectively reveal potential inter-industry structural associations and spatial organizational characteristics, providing technical pathways and empirical support for industrial spatial optimization and refined governance in medium-sized cities.
关键词: 自然语言处理(NLP);Place2Vec;城市功能区识别;产业集群;赣州
Keywords: natural language processing; Place2Vec; urban functional zone identification; industrial clusters; Ganzhou

引言

城市是高度复杂的空间经济系统,工业活动构成其结构基础。现代经济地理学指出,在报酬递增与局部外部性作用下,企业倾向于空间集聚并形成可测度的产业集中格局,其动力来源于劳动力池化、投入共享与知识溢出等机制。在中国情境下,产业集聚还受到制度环境与发展路径影响,贺灿飞等指出制造业集聚深刻重塑城市空间结构与区域分工体系。因此,从空间尺度识别产业功能区,是理解城市经济结构与产业组织的重要前提。随着城市扩张与结构转型加速,我国城市治理逐步转向以规划单元为基础的精细化管控,赣州市在新一轮国土空间规划中亦强调单元化治理与“15分钟社区生活圈”建设。然而,现有功能区识别多依赖POI或人群流动数据,虽具效率优势,但在刻画产业链结构与专业化特征方面存在不足;杨学习等基于多源大数据的研究亦指出传统数据难以揭示产业协同关系。为弥补这一局限,空间语义嵌入方法在Word2Vec框架基础上引入地理邻接关系,实现产业相似性与空间邻近性的协同表达;相关实证研究已验证其在功能区识别中的可行性。基于此,本文以赣州中心城区为对象,融合工商登记数据与Place2Vec模型,在规划单元尺度识别产业功能区,以揭示家具产业等产业集群的空间格局及其协同特征,为中等城市产业优化与精细化治理提供实证依据。

图1研究区概况

1研究区域、数据与研究方法

1.1研究区域与空间单元划分

研究范围为赣州中心城区,覆盖章贡区、南康区、赣县区、经开区及蓉江新区,总面积约1196.87平方公里(图1)。该区域既包含历史建成区,也涵盖产业新区与功能拓展区,空间结构类型多样,是研究中等城市产业功能分布特征的典型样本。

为解析商业空间布局,本研究基于OpenStreetMap路网数据将研究区划分为“自然街区”。相较于以行政单元或统计分区为基础的传统划分方式,基于道路网络构建的自然街区能够更真实地反映城市空间形态与功能边界,避免行政边界与实际空间组织之间的不匹配问题。道路网络作为城市空间结构的骨架,其围合单元通常对应相对独立的社会经济活动空间,是开展微观功能识别的重要空间载体。

在具体技术路径上,采用分层筛选策略提取骨架路网结构,保留高速公路、主干道、次干道及支路等主要交通廊道,剔除人行道与内部服务道路,以避免空间单元过度碎片化带来的统计偏差。随后实施全面的拓扑修复处理:通过设置10–20米阈值合并被分割道路,截断长度低于50米的冗余短小路段,并对断裂路段进行延伸以构建闭合网络。该过程确保了道路网络的拓扑一致性与空间连续性,提升了街区单元的完整性与空间表达精度。

最终构建形成1,067个自然街区单元。这些单元在尺度上介于社区与城市分区之间,既能够反映局部产业集聚特征,又避免了过大尺度带来的功能异质性干扰,为后续基于工商登记数据的产业语义分析提供了适宜的空间框架。相关研究表明,基于路网构建的街区单元在城市形态测度与功能识别中具有较高的稳定性与可重复性,且能够有效支撑基于大数据的“社会感知”分析,从而为精细尺度的空间分析提供可靠载体。

1.2 数据来源与预处理

核心数据集来源于爱企查平台,涵盖赣州中心城区企业工商登记记录,包括企业名称、经营范围、注册资本及地理位置坐标等关键属性信息。相较于传统POI数据主要反映消费与服务终端信息,工商登记数据能够更全面地刻画企业生产属性与产业类别结构,尤其在识别制造业、生产性服务业及产业链上下游关系方面具有明显优势。因此,该数据更适用于产业功能区与专业化结构的空间分析。

为确保数据质量与分析可靠性,本研究构建了系统化的数据清洗流程。首先,剔除吊销执照、注销、经营异常及地址缺失等无效样本;其次,对存在重复注册信息或坐标异常偏移的记录进行去重与空间校正。经筛选后获得有效企业主体数据,用以反映研究区真实产业结构格局。

在行业分类方面,依据《国民经济行业分类(GB/T4754—2017)》标准,对企业所属行业进行规范化编码与归类,确保产业类别划分的权威性与可比性。通过标准化分类,可以在宏观统计框架下刻画产业结构,同时为后续语义嵌入模型的训练提供稳定的类别标签体系。

在模型训练前,对行业类别频次分布进行统计检验,验证其符合幂律分布特征(图2)。既有研究表明,现实经济系统中产业类别往往呈现“少数高频类别与大量低频类别并存”的长尾结构特征,这种分布形态有利于嵌入模型学习类别间的层级关系与语义相似性。对于Place2Vec模型而言,幂律分布能够保证高频类别在语境学习中获得充分训练,同时保留低频类别的语义区分能力,从而提升嵌入向量的表达质量。因此,频次分布检验不仅是数据描述性分析步骤,也是确保模型有效性的关键前提。

通过上述数据预处理与结构检验,本研究构建了具有较高真实性、完整性与结构稳定性的产业基础数据集,为后续空间语义建模与功能区识别奠定了可靠的数据基础。

图2 行业类别频数的幂律分布检验

1.3 基于 Place2Vec 的语义向量化

本研究采用Place2Vec框架,旨在捕捉商业类型与其空间语境之间的复杂关联。通过匹配邻近商业主体构建文本训练数据集,以增强模型中地理邻近性的影响权重。具体而言,研究采用连续词袋(CBOW)模型生成各产业类别对应的50维语义向量,该方法在处理大规模数据集方面具有显著效率优势。

通过引入空间增强因子并运用KD-tree算法实现高效邻近配对,模型成功学习到能够同时表征企业产业属性与地理区位特征的语义嵌入向量。

1.4 功能区识别与标注逻辑

产业功能区的识别基于各研究单元语义特征向量的空间聚类实现。每个自然街区被视为独立空间分析单元,其语义向量通过对单元内所有工商登记对象的嵌入向量进行加权平均得到,权重依据企业数量或类别频次设定,使高密度产业类型在单元语义表达中占据更大比重。该方法实现了从企业个体层面向街区尺度的语义聚合,在保持嵌入空间结构稳定性的同时,刻画街区层面的产业功能特征。这种“语义聚合—空间映射”机制,将分布式表示理论引入城市空间分析框架,使空间单元具备可量化的产业语义属性。

在聚类阶段,采用K-means算法对街区语义向量进行无监督分类。该算法通过最小化簇内平方误差(SSE)实现高维向量空间中的类别划分,适用于连续型嵌入特征数据。由于Place2Vec生成的语义向量具有欧氏空间可度量特征,因此能够有效识别语义相似度较高的街区单元。

最优聚类数(k值)通过肘部法则确定,即识别SSE曲线的拐点(图3)。在该临界点之后,SSE下降幅度明显减缓,表明模型复杂度与解释能力之间达到相对平衡。为增强结果稳健性,进一步采用轮廓系数进行验证。轮廓系数综合衡量簇内紧密性与簇间分离度,取值越高说明聚类结构越清晰。

其中,表示第个聚类中产业类别的数量,表示产业类别在整个研究区域的总量。CF值越高,表明该产业类别在相应功能区内的功能优势度越显著。这一双指标方法,结合自然语言处理生成的语义证据,能够精确且细致地描绘出赣州的产业空间结构。

图3 最佳聚类数选择的手肘法与轮廓系数图

2结果与分析

2.1识别结果统计分析

本研究遵循基于自然语言处理(NLP)的语义挖掘与主导功能识别框架,在赣州市1067个自然街区尺度上开展了城市功能区识别研究。识别过程深度挖掘了包含345433条工商登记数据的大规模数据集,实现了街区层面平均377.5条数据的高密度覆盖,为捕捉城市空间的潜在功能特征提供了坚实的实证基础。在具体识别流程中,首先根据手肘法(Elbow Method)结合轮廓系数评估,确定统计学意义上的最佳聚类数为9类;随后,基于城市规划实务与语义特征,将初始聚类结果精炼并合并为8类专业化功能区与1类综合功能区。在主导功能判定规则上,本研究引入类别因子(CF)指标:若单元内某一特定功能类型的权重阈值超过25%,则将其划定为该类主导功能区;若无任何类别超过此阈值,则统一界定为综合区。

统计结果显示(见表1),整体识别率(剔除无功能单元后)达到85.8%,表明该框架在处理大规模、复杂城市大数据方面具有显著的有效性。在各类功能区构成中,综合型功能区分布最为广泛,占比16.4%(175个街区);制造业供应型与生活服务型紧随其后,占比分别为15.0% 和14.9%。值得注意的是,作为赣州市核心产业支柱的家具产业占比达8.2%(88个街区),专业化功能区(如制造业供应、家具产业、物流仓储)的显著存在,直观反映了赣州中心城区极高的产业专业化水平与明显的空间异质性特征。

表1赣州中心城区识别出的功能区统计分布
功能类别 街区块数量 百分比(%)
综合区 175 16.4%
制造业供应 160 15.0%
生活服务 159 14.9%
无功能单元 152 14.2%
生产性服务业 118 11.1%
家具产业 88 8.2%
物流仓储 79 7.4%
商业与信息服务 61 5.7%
公共与商业服务 55 5.2%
轻工业 20 1.9%
总计 1,067 100.0%

2.2 空间分布特征与集聚模式

2.2.1 核心居住中心与功能过渡

生活区主要集聚于赣州历史核心城区章贡区,呈现显著的圈层式扩张特征,为密集的城市人口构建了成熟的“15分钟社区生活圈”。生活区的高度空间集聚,凸显了核心城区在提升居民可达性与服务质量方面的核心作用。

与该历史核心区域相邻的生产性服务业功能区,则主要布局于经开区与蓉江新区。这些功能区充当了连接居住核心与产业外围的空间“桥梁”,为本地企业提供关键的技术与信息支持。此外,综合型功能区在所有行政区均有普遍分布,其占识别街区总量的16.4%,表明这些区域功能高度复合,居住、商业与工业活动深度融合,这反映了赣州快速城镇化进程中土地使用的多样化特征。

2.2.2 南康家具产业集群与空间协同

本研究的一个独特发现是,在南康区识别出一个大规模且连续分布的家具产业集群。与许多普通制造业城市呈现的碎片化产业布局不同,赣州的家具产业展现出高度组织化的空间结构。该集群在空间上与制造业供应功能区、物流仓储功能区紧密衔接,形成了“供应—生产—分销”的空间协同体系,显著降低了产业链内部的交易成本,这反映了本研究通过NLP语义证据所捕捉到的高度演进的产业生态系统。这种空间专业化与相关产业多样化,被广泛认为是区域经济绩效的关键驱动力。

图4赣州中心城区产业功能区空间分布图

3结论与讨论

通过整合自然语言处理(Place2Vec)和工商登记数据,本研究构建了一个针对赣州中心城区工业功能区的稳健识别框架。通过对1,067个自然街区内的345,433个产业主体进行深度挖掘,基于主导功能丰富度原则,将城市空间划分为8类专业化功能类型和1类混合功能类别(综合区)。

研究结果显示,赣州呈现出由“中心服务核心与外围产业集群”定义的显著空间结构特征,其中综合区(16.4%)、制造业供应(15.0%)和生活服务(14.9%)构成了主要的空间单元。特别是南康家具产业集群(8.2%)展现了卓越的空间连续性,并与物流和供应部门具有高度的功能协同。经手肘法优化的识别过程证明了该框架提取潜在产业语义并精确划定专业化工业空间的能力,为优化产业布局和提升土地利用效率提供了科学基准。

参考文献:

  1. [1] Ellison G, Glaeser E L. Geographic concentration in U.S. manufacturing industries: A dartboard approach[J].Journal of political economy,1997,105(05):889-927.
  2. [3] 李伟,贺灿飞.城市新产业与城市经济增长:演化经济地理学视角[J].城市发展研究,2020,27(06):51-61.
  3. [4] Audirac I. Shrinking cities: An unfit term for American urban policy?[J].Cities,2018,75:12-19.
  4. [5] Mallach A, Haase A, Hattori K. The shrinking city in comparative perspective: Contrasting dynamics and responses to urban shrinkage[J].Cities,2017,69:102-108.
  5. [6] 张京祥,夏天慈.治理现代化目标下国家空间规划体系的变迁与重构[J].自然资源学报,2019,34(10):2040-2050.
  6. [7]赣州市人民政府.赣州市国土空间总体规划(2021—2035年)[R].赣州:赣州市人民政府,2023.
  7. [8] Luo G, Ye J, Wang J, et al. Urban functional zone classification based on POI data and machine learning[J].Sustainability,2023,15(05):4631.
  8. [10] 杨学习,邓敏,刘瑜.社会感知与地理空间智能的研究动态与展望——"社会感知与地理空间智能"专栏导读[J].地理与地理信息科学,2022,38(01):1-4.
  9. [11] 郑至键,郑荣宝,徐嘉源,等.基于POI数据和Place2vec模型的城市功能区识别研究[J].地理与地理信息科学,2020,36(04).
  10. [12] Boeing G. OSMnx: New methods for acquiring, constructing, analyzing, and visualizing complex street networks[J].Computers, environment and urban systems,2017,65:126-139.
  11. [13] Rousseuw P J. Silhouettes: A graphical aid to the interpretation and validation of cluster analysis[J].Journal of computational and applied mathematics,1987,20:53-65.
  12. [14] Frenken K, Van Ooort F, Verburg T. Related Variety, Unrelated Variety and Regional Economic Growth[J].Regional studies,2007,41(05):685-697.
联系我们
人工客服,稿件咨询
投稿
扫码添加微信
客服
置顶