从索引性到自动化幻象：论AI生成影像的可见性

刘欣琰

当前位置：首页 > 中国文学与艺术 > 从索引性到自动化幻象：论AI生成影像的可见性

中国文学与艺术

Journal of Chinese Literature and Arts

主办单位:
未來中國國際出版集團有限公司
ISSN:
3079-3688（P）
ISSN:
3079-9104（O）
期刊分类:
文学艺术
出版周期:
月刊
投稿量:
3
浏览量:
375

从索引性到自动化幻象：论AI生成影像的可见性

From Indexicality to Automated Illusion: On the Visibility of AI-Generated Images

发布时间：2026-03-30

作者: 刘欣琰 :四川美术学院重庆;

摘要: 人工智能生成影像的兴起，标志着视觉文化从摄影的因果性逻辑走向基于算法与概率的合成机制。不同于传统摄影依赖于光学媒介与现实之间的索引关系，AI影像以庞大的训练集为基础，将已有图像与语义标签进行拼合重组，从而产生看似真实却脱离现实因果链条的视觉效果。这种生成逻辑不仅改变了影像的本体属性，也使影像的“真实性”转化为统计意义上的模拟与预测。与此同时，数据集在积累与分类过程中延续了档案逻辑，却不可避免地再生产社会偏见，成为新的治理装置；而隐藏在自动化表象之下的大量低薪标注与审核劳动，则揭示了所谓“智能”背后复杂的劳动分工与运作机制。AI影像的可见性因此并不局限于表层视觉，而深植于算法权力、数据逻辑与劳动关系的交织之中。它既是权力分配与社会秩序的再现机制，也是当代控制社会中知识生产与主体建构的重要环节。在这一语境下，AI影像的“可见性”不仅关乎影像如何生成，更关乎谁被显现、谁被遮蔽，以及影像如何作为治理与抵抗的场域而存在。

Abstract: The rise of AI-generated imagery marks a shift in visual culture from photography’s causal logic to a synthetic regime grounded in algorithms and probability. Unlike traditional photography, which relies on an indexical link between optical media and reality, AI images are produced from large-scale training datasets that recombine existing images with semantic labels, yielding visuals that appear realistic yet are severed from any real-world causal chain. This generative logic not only reconfigures the ontology of the image but also transforms “truth” into a matter of statistical simulation and prediction. Meanwhile, the accumulation and classification of datasets reproduce archival logics and inevitably re-inscribe social bias, functioning as a new apparatus of governance. Beneath the veneer of automation, extensive low-paid labor for data labeling and content moderation exposes the exploitative infrastructure behind so-called “intelligence.” Consequently, the visibility of AI imagery is not confined to surface appearance; it is embedded in the entanglement of algorithmic power, data rationalities, and labor relations. AI-generated images operate both as mechanisms that reproduce distributions of power and social order, and as key nodes in knowledge production and subject formation within contemporary societies of control. In this context, the “visibility” of AI imagery concerns not only how images are generated, but also who is made visible or rendered invisible, and how images become contested sites of governance and resistance.

关键词: AIGC;数字影像;“幽灵劳工”

Keywords: AIGC; digital imagery; “ghost work”

引言

在当代视觉文化中，人工智能生成影像的快速扩张，不仅改变了影像的生产方式，也动摇了人们对影像真实性与权威性的既有认知。我们所面对的，不再是单纯关于“看见什么”的问题，而是关于“何以被看见”的问题。随着算法逐渐介入影像的生成、流通与观看，影像与主体、与世界之间的关系正在被重新定义。这种转变带来的不确定性，使得影像不再是自明的表征，而成为权力、劳动与技术交织的场域。

一、从索引性到算法合成：机器视觉的生成逻辑与可见性

摄影自十九世纪诞生以来，其最重要的本体特征在于索引性（indexicality），即图像与其所指涉的现实对象之间的因果联系。正如罗兰·巴特（Roland Barthes）所强调的，照片所传达的是“此曾在”（ça a été）的事实性承诺。这种因果性与物理性，使摄影区别于绘画与其他再现形式，构成了影像在现代社会中作为“证据”的权威。然而，随着人工智能生成图像的出现，这种与现实的契约开始动摇。

在当下，Midjourney、Runway、DALL·E、Stable Diffusion等平台生成的大量图像常被称为“AI摄影”。但从媒介本体论角度看，这一称谓是存疑的。如果说摄影的本质在于索引性，那么“AI摄影”的问题正在于它切断了这一链条。其生成图像并不直接对应任何现实中的对象，它们既不依赖光学相机的取景过程，也没有感光介质的记录痕迹，更非现场拍摄的结果，它的“指涉”来自训练集的统计结果与语义建模，其现实性是一种模拟的现实性，只是在数据的拼合与重组中生成了一种伪造的指涉。尽管如此，AI摄影在视觉效果上往往与传统摄影高度相似，因而在传播与接受的层面上，仍与摄影被并置比较。对此，弗雷德·里钦（Fred Ritchin）在其书中就提出了“照相写实式影像”(photo-realistic images) 的命名，用以强调这种影像虽具备照片般的写实外观，却并非现实的证据，而是模拟与合成的产物。I摄影既不是再现现实的索引，也不是艺术家身体劳动的结晶，而是一种基于算法的超写实模拟。这一论断并不意味着AI摄影缺乏价值，相反，正是在其“非摄影性”中，我们得以重新理解影像的多重维度：影像可以不再依赖现实指涉，而转向虚构、叙事与社会建构。

AI影像不仅改变了摄影的索引逻辑，更揭示了“观看”的深刻转向。与人类视觉不同，机器视觉并不依赖眼睛、神经与身体经验，而是依靠算法、算力与训练集。机器理解图像的方式通常依赖卷积神经网络（Convolutional Neural Network, CNN）与扩散模型（Diffusion Model）等技术，这些模型会将图像分解为若干特征层，例如边缘、线条、纹理，再逐步组合为更复杂的结构。不同于人类直观整体把握，机器的识别是通过概率计算得出的，这种差异导致了机器视觉的一个重要特征：它并不为人类观看而存在。当今世界上绝大多数图像并非为人类生产，而是服务于机器——它们流通于、卫星影像、安检系统、数据训练集等环节，却从未进入人类的视野。视觉文化的主体已发生转移：人类不再是图像的唯一观众。

传统的摄影观看，依赖于对现实的确认与追溯，观者总是以“照片所指向的现实”为参照，然而，在AI影像中，这一参照被消解，观众不再追问“它记录了什么”，而是追问“它如何被生成”。这种转向表明，AI影像迫使人类重新学习观看，进入一种与算法协商的视觉模式。威廉·弗卢塞尔（Vilém Flusser）在《摄影哲学》中指出，摄影装置本身就是一种“黑箱”(Black Box)，“其中包含的多种可能性一定超越了试图耗尽这些可能性的功能执行者的能力”。摄影者虽然操作着装置，知道这个盒子的输入物，但无法破解这个黑盒子运行的神秘性，因为他们并不知道装置内部发生了什么，“功能执行者通过对它的外在之物（输入与输出）进行控制来支配装置，但又因为装置内在的不透明性而被装置支配”。而AI的生成机制更是将这一“黑箱化”推向极端，观看的焦点从“图像内容”转向“图像如何生成”，而这种生成逻辑的不可见性，成为新的美学经验的一部分。

这种“去人类中心化”的观看，既可能带来新的美学经验，也可能引发伦理上的危机。我们不得不面对一种图像权力——其运作不依赖于人类的情感、判断或偏好，而是通过数据流、训练集和程序逻辑塑造世界的呈现方式。在这一层面上，图像不仅反映世界，也主动塑造世界，它揭示了视觉表征体系正日益转变为一种机器可读的操作性界面，其功能从再现世界转向了结构化地控制行为、分配资源与价值。正如特雷弗·帕格伦（Trevor Paglen）所言，“由于图像操作在不可见的层面上运作，并不依赖于人类的观看主体（因此其意识形态特征不像拿破仑巨幅画像那样明显），它们更难被辨认其本质：它们是极其强大的社会调节杠杆，服务于特定人群，同时又将自身呈现为客观”。

二、数据集考古学：机器视觉的当代建构

在当下的AIGC语境中，生成图像的过程常被描述为“从文本到图像的无缝转化”：输入一句提示词，AI即可生成符合语义的画面。然而，这种表象性的简洁恰恰遮蔽了关键的中介环节——数据训练集（dataset）。数据训练集由数百万张已存在的图像与相应的文字标签构成，通过不断比对与优化这些图像，模型才得以建立起文本与图像之间的对应关系。

图像无法自我描述，它深深依赖于训练集的积累、分类与应用方式，尽管人们普遍认为人工智能及其所依赖的数据能够客观、科学地对世界进行分类，但思想偏见以及历史中各种主观因素无处不在。所谓“机器视觉”并不是一种自然的技术能力，而是特定历史、制度与劳动条件的产物。因此，理解AI影像的关键不在于将其视作单纯的算法生成，而在于揭示其背后的社会建构性。

数据训练集是人工智能系统识别和解释世界的核心，特雷弗·帕格伦提出的“数据集考古学”（archeology of datasets）为我们提供了重要的方法论。帕格伦和人工智能研究员凯特·克劳福德（Kate Crawford）合作开发了ImageNet Roulette，使用了ImageNet开放数据库中常见的分类标签，以一种戏谑的方式揭示了系统性偏见如何通过训练算法由人类传递给机器。

ImageNet最初由斯坦福大学的研究人员于2009年编制，作为最具代表性的训练集之一，其建立被视为推动机器深度学习的重要里程碑。然而，从今天回看，这个数据集存在着明显的问题，例如，“人体”这一类别被归入“自然物>身体>人体”这一分支，它的子类别按生理特征与年龄阶段进行简单划分。这种分类方式反映出数据集创建者在标签体系设计上的随意性与潜在的认知偏见（该标签已于2019年被删除）。类似的问题在训练集的图像层——图片和标签的怪异或贬义的结合中也存在。部分公众人物的图像被贴上不好的标签，普通人的图像则出现将特定外貌特征与社会身份或行为倾向进行不当关联的情况，其背后折射出标注者自身的文化偏见、标注指南的设计缺陷，以及众包劳动模式下缺乏专业训练的客观现实。

随着克帕格伦和劳福德的项目受到关注，ImageNet的研究人员宣布，他们将删除数据集中“人物”类别中超过一半的图片。然而改变人口结构、删除冒犯性词汇等，并不能轻易地从技术上“解决问题”。收集图像并对其进行分类与标记的过程，本身也是一种意义建构的实践，其中涉及由谁来界定图像的解释框架，以及这些图像在特定社会与文化语境中所产生的影响。正如帕格伦所言，“创造一个类所言别或命名事物，就是将一个几乎无限复杂的宇宙分割成一个个独立的现象。将秩序强加于一个未分化的群体，将现象归入一个类别——也就是命名一个事物——反过来，也是一种将该类别的存在具体化的方式。”一个数据集本身已经是一种解释，表明某些要素被包括，而另一些被排除。AI 系统通过学习这些分类体系，不仅复制了既有偏见，而且在生成图像时将其自然化，甚至放大化。数据集在技术表面上呈现为“客观统计”，但其背后依然是社会价值观与制度偏见的再生产。

三、作为治理工具的均值影像：面相学历史与档案逻辑

黑特·史德耶尔（Hito Steyerl）在《均值影像》（Mean Images）中指出，由机器学习工具生成的视觉图像，本质上是统计学意义上的再现，而非对实际存在之物的描绘。它们将关注点从摄影的指示性（indexicality）转移到了随机的区分（stochastic discrimination）。这些图像不再指向事实，更遑论真理，而是指向概率。AI影像是概率性的而非事实性的，是“平均值的影像”。但这种“均值”并非无害，黑特强调，“mean”一词既指“平均”，也指“卑劣的、恶意的”。AI影像所生成的“平均图像”，往往在不知不觉中复写社会偏见：它们趋向于同质化，排除了差异性的存在。正是在此意义上，这些由机器学习网络生成的模糊影像呈现出一个历史维度：统计学。就如同19世纪英国心理测量学家弗朗西斯·高尔顿（Francis Galton）通过复合肖像（Composite Portraiture）试图描绘“平均面孔”，影像被动员为社会达尔文主义与优生学（eugenics）服务，今天的数据集同样通过“平均化”的逻辑延续了这种伪科学的生产分类方式。

自1839年诞生以来，摄影便不仅仅是再现现实的艺术媒介，它同时承担着知识生产和社会治理的功能。在照相机进入现代国家机器的过程中，影像被赋予了前所未有的“档案价值”，成为管理人口、分类差异、固化秩序的重要工具，为各种颅相学（phrenology）、面相学（physiognomy）和优生学注入了活力，并赋予了它们“科学”的外衣。正是在这一意义上，理解AI影像的社会建构性必须追溯到摄影与权力结合的历史谱系。

在19世纪的欧洲，人类学与犯罪学的兴起与摄影的发展几乎同步。摄影被认为是一种能够“客观”捕捉个体特征的媒介，被广泛用于人类学田野调查、殖民地治理以及犯罪学研究之中。意大利犯罪学家切萨雷·龙布罗梭（Cesare Lombroso）的理论尤为典型，他认为犯罪行为是遗传的，而“天生犯罪人”可以通过身体（先天性）缺陷来识别。而此时的摄影成为了验证面相学与颅相学假说的理想工具，“二者都认为身体外表，尤其是面部和头部，是内在人格（character）的外化符号”，这实际上将人的行为简化成由生物学先天的器质性组合，艾伦·塞库拉（Allan Sekula）在《身体与档案》（The Body and the Archive）中指出，这种对人的界定方法实际上是“助长了一种越来越依赖于阶层分工的资本主义、一种将自身进步归功于个人的机智与诡诈之果实的资本主义意识霸权。”

19世纪80年代，作为一位社会科学、统计学和优生学的先驱，弗朗西斯·高尔顿所做的是用视觉的方式证明遗传论的可信性，进而通过公共政策对人类繁衍进行优生学干预。高尔顿通过分次曝光的方式、来让不同人的肖像最终呈现出某种经过叠像后的、模糊的平均人像，“人的显著的、唯一的、独异的特质，都在欠曝的暗夜中逐渐消失，剩下的就是整个样本中共有特征组成的模糊的、紧张的构形（configuration）”，最终呈现出所谓特定“类型”的复合肖像。可以说统计学的呈现为这一过程增添了一种近乎神奇的视觉效果，由于“类型”似乎是从数据本身中自然浮现出来的，它们便获得了一种客观显现的权威。原本应以抽象形式表达的平均值，在这里被具象化为肖像，从而让社会分类与优生学偏见伪装成客观的自然事实。可以说，摄影从诞生起就与一种“档案逻辑”紧密相连，即通过测量、归档和比对，摄影使个体身体能够被纳入到庞大的数据库式体系之中，正是在这一点上，摄影成为现代治理的一部分。塞库拉提出将高尔顿式合成图像视为档案的浓缩版本，在这种模糊的呈现形式中，档案试图以一幅强有力的单一图像存在，而这单一图像则试图获得档案、一般抽象命题所具有的权威性。

将这一逻辑放入当代语境，可以看到AI影像并非全新的断裂，而是对这种“档案逻辑”的延续与强化。从面相学到摄影档案，再到今天的数据集，影像始终作为治理的工具在运作。它在不同的历史阶段以不同的形式呈现：19世纪是通过身体特征的记录与分类，20世纪是通过指纹、身份证件与监控影像，而21世纪则通过AI训练集与算法模型。AI训练集与19世纪的面相学档案都依赖于大规模的收集、分类和标签化，都试图通过图像来建构一种“世界的秩序”。不同之处在于，过去的摄影档案是物理性的、有限的，而今天的训练集则是数字化、指数级扩张的。在摄影档案里，个体至少还以“照片”的形式存在于记录中；而在AI数据集中，个体彻底消失，只留下“标签化特征”的集合，AI的档案逻辑比19世纪更抽象、更去人称化。

四、“幽灵劳工”：AI自动化幻象与隐形劳动

AI影像往往以“自动生成”的姿态出现，似乎脱离了人类的直接参与。然而，这种“自动化幻象”（automation illusion）掩盖了一个不可忽视的事实：机器视觉的运行依赖于大量低薪、隐形的人类劳动。从训练集的收集与清理，到图像的标注与审核，再到系统运行中的内容监管，无数看不见的劳工支撑了AI影像的生产，却在最终的成品中被彻底抹除。正是在这一意义上，AI影像的可见性不仅是技术问题，也是劳动与政治经济学的问题。平台劳动中的人类可见性是相对于当前的媒介技术架构（譬如平台、算法）而言的，这种“可见性”是一种关于什么能被看见、什么被隐匿的社会过程机制。

为了让算法能够识别和生成图像，原始数据必须经过精细的分类与标注。大量所谓的“微任务”平台（如 Amazon Mechanical Turk、Appen等）为这一过程提供了劳动力，这些平台上的劳工通常来自全球南方，以极低的报酬从事重复性工作，例如判断图片中是否有人脸、标记物体边界、删除不合适内容。除了数据标注之外，AI系统还依赖于大量的内容审核劳动，内容审核工作被外包给第三方公司，雇佣工人筛查可能涉及暴力或仇恨言论的图像，这类劳动不仅待遇低廉，而且伴随着严重的心理负担。这些劳动并不直接可见，而是隐藏在数字系统背后，成为看似自动化服务的隐匿部分，但事实上这些不可见、也难以被察知的劳动却是数字设备和智能系统能够平滑运行的基础和关键。那些由低薪工人负责过滤、校正或标注文本、图像、视频和声音的工作的历史，几乎与人工智能和深度学习的发展一样悠久。毫不夸张地说，如果没有这些劳工的存在，我们就不会迎来当前这股“人工智能”的浪潮。这种不可见的劳动被玛丽·L·格雷和西达尔特·苏里称为“幽灵劳动”（ghost work）以强调其去身份化和非物质化特征，“幽灵劳动”概念的理论价值和现实意义在于，它通过“机器里的幽灵”这个隐喻强调了平台劳动研究中视觉关系（ophthalmic relationship）的重要性及其背后所折射出的权力结构的不平等问题。

在AI影像的语境中，“幽灵劳工”的存在揭示了影像政治的另一维度：所谓“自动化”，它通过抹除劳动来制造技术的神秘性与权威性。其危险之处在于，它让人误以为机器能够自主运作，从而削弱了对社会后果的追责。事实上，每一张AI生成的图像背后，都凝结着被低估的劳动与结构性不平等；而这些“中立”图像所掩盖的，不仅是训练集的偏见，也是与资本主义劳动分工高度契合的剥削逻辑。以Mechanical Turk为例，其主要服务于公司利益，这些有特定称呼的工人，报酬通常较低，时常低于每小时1美元，且缺乏传统的劳动保障与集体议价机制。平台将工人置于一个高度竞争的全球劳动力市场中，任务价格在竞标中不断下探，这一群体折射出平台经济下新型劳动关系的典型特征。而平台资本主义剥削的所谓剩余劳动力往往是被传统就业市场边缘化的群体，包括经济危机中的受害者到难民和贫民窟居民，谷歌和脸书等公司将这些劳动力保持在劳动力市场的边缘，让其成为永久的隐藏劳动力储备，被雇用了一分钟完成“教会算法识别行人”的任务，然后又回到劳动力储备之中，寻找另一个任务。可以说，Mechanical Turk所代表的微任务模式，预示了21世纪工作形态的一种新可能，但其背后也引发了关于劳动价值与全球分配正义的讨论。据Wired报道，委内瑞拉的标注者每月收入约280美元，往往低于当地法定最低工资标准。这种全球范围内的劳动力协作模式，因参与双方在经济地位、议价能力上的显著不对等，引发了全球范围内广泛的伦理反思。

对此，艺术实践为我们提供了批判性的回应。在《聚合幽灵》（Aggregated Ghost，2020）中，波兰艺术家艾格尼茨卡·库兰特（Agnieszka Kurant）要求亚马逊土耳其机器人众包平台上的一万名在线工作者每人向她发送一幅自画像。然后，她使用神经网络将这些图像融合成一幅“合成自画像”，从每幅图像中提取一行像素，制作出这个新工人阶级的集体众包图像。此刻“均值影像”中看似如幽灵般浮现的面孔，成为了那些隐匿的微劳动者的画像。更为重要的是，库兰特向参与者支付图像费用，并在艺术品售出一份时将利润重新分配给他们。库兰特不仅在形式上把隐匿的劳动转译为可见的“集体肖像”，她通过支付稿酬和利润再分配的方式，打破了平台经济中单向度的剥削逻辑，在经济层面进行了一种象征性的再分配实验，从而将被动的幽灵劳动转化为带有反叛性的集体实践。这种艺术操作把AI影像中“幽灵劳动”显影出来，并构建出一种可能的替代性政治经济学——在自动化神话之下，让劳动者重新获得形象与权利。

五、结语

AI影像的出现，并未真正与摄影传统割裂，而是将十九世纪以来影像与权力、档案与治理的逻辑，以算法与数据的形式重新演绎。它切断了索引性链条，却借助统计学与训练集获得新的合法性；它掩盖了支撑其运行的“幽灵劳动”，却在自动化的神话中加深了资本主义分工与全球不平等。权力运作的核心在于“可见性”的分配：什么被显现，什么被隐匿，决定了知识与治理的边界。在当下，AI影像通过数据集与算法对世界进行“再现—再生产”，其本质正是一种新的可见性。而在德勒兹所谓“控制社会”的语境中，AI影像与平台、算法、资本相互勾连，形成一种无处不在、柔性却高效的治理机制。在这一意义上，艺术实践不仅是美学回应，更是社会批判。通过揭示和重构被抹除的劳动与数据痕迹，它为自动化神话撕开裂缝，使我们得以重新思考影像与权力、主体与算法之间的关系。

参考文献：

[1] 罗兰·巴特著. 许绮玲译. 明室:摄影札记[M].中国台湾地区摄影工作室,1997.
[2] Ritchin F. The synthetic eye: Photography transformed in the age of AI[M]. London: Thames & Hudson,2025.
[3] 威廉·弗卢塞尔著.毛卫东,丁君君译.摄影哲学的思考[M].北京: 中国民族摄影出版社,2017.
[4] Paglen T. Invisible images: Your pictures are looking at you[J]. Architectural Design,2019,89(01):22–27.
[5] Crawford K, Paglen T. Excavating AI: The politics of images in machine learning training sets[J]. AI & Society,2021,36(04):1105–1116.
[6] Steyerl H. Mean images[J]. New Left Review,2023, (140–141):82–97.
[7] Sekula A. The body and the archive[J]. October,1986, (39):3–64.
[8] 周葆华.算法、可见性与注意力分配：智能时代舆论基础逻辑的历史转换[J].西南民族大学学报(人文社会科学版),2022,43(01):143-152.
[9] 玛丽·Ｌ.格雷、西达尔特·苏里著.左安浦译.销声匿迹:数字化工作的真正未来[M].上海:上海人民出版社，2020.
[10] 姚建华,丁依然.“幽灵劳动”是新瓶装旧酒吗？——幽灵劳动及其概念的传播政治经济学省思[J].新闻记者,2022(12):30-40.

中国文学与艺术

Journal of Chinese Literature and Arts

相关文章

从索引性到自动化幻象：论AI生成影像的可见性

From Indexicality to Automated Illusion: On the Visibility of AI-Generated Images

引言

一、 从索引性到算法合成：机器视觉的生成逻辑与可见性

二、数据集考古学：机器视觉的当代建构

三、作为治理工具的均值影像：面相学历史与档案逻辑

四、“幽灵劳工”：AI自动化幻象与隐形劳动

五、结语

参考文献：

一、从索引性到算法合成：机器视觉的生成逻辑与可见性