自动驾驶背景下行人轨迹预测方法关键问题与展望_交互

一导读

行人轨迹预测旨在利用观察到的人类历史轨迹和周围环境信息来预测目标行人未来的位置信息，该研究具有重要应用价值，可以降低自动驾驶车辆在社会交互下的碰撞风险。然而，传统的模型驱动的行人轨迹预测方法难以在复杂高动态的场景下对行人进行轨迹预测。相比之下，数据驱动的行人轨迹预测方法依靠大规模数据集平台，可以更好地捕捉和建模更复杂的行人交互关系，进而取得较精准的行人轨迹预测效果，成为自动驾驶、机器人导航和视频监控等领域的研究热点。为了宏观把握行人轨迹预测方法的研究现状及关键问题，安徽大学王晓教授及其团队以行人轨迹预测技术和方法分类为切入进行综述。首先，本文详述行人轨迹预测已有方法研究进展并归纳了其目前存在的关键问题与挑战；其次，根据行人轨迹预测模型的建模差异，将现有方法分为模型驱动和数据驱动的行人轨迹预测方法，同时总结了不同方法的优缺点及适用场景；然后，对行人轨迹预测任务中使用到的主流数据集进行了归纳总结，并对比了不同算法的性能指标；最后，针对行人轨迹预测的未来发展方向进行了展望。该综述形成了名为“行人轨迹预测方法关键问题分析：现状及展望”的论文成果，已被《智能科学与技术学报》期刊接受并发表在2023年第5卷第2期。

引用格式：

杜泉成, 王晓, 李灵犀, 宁焕生. 行人轨迹预测方法关键问题研究: 现状及展望[j]. 智能科学与技术学报, 2023, 5(2): 143-162.
du quancheng, wang xiao, li lingxi, ning huansheng. key problems and progress of pedestrian trajectory prediction methods: the state of the art and prospects[j]. chinese journal of intelligent science and technology, 2023, 5(2): 143-162.
全文链接: https://www.infocomm-journal.com/znkx/en/10.11959/j.issn.2096-6652.202315

二论文介绍

1引言

交通安全问题一直是当前社会关注的焦点问题，安全的道路环境是自动驾驶车辆在社会交互下行驶的必要条件。根据世界卫生组织（who）发布的“全球道路安全现状报告”，每年全球道路死亡人数已达到史无前例的135万人。其中，超过一半的事故受害者是弱势道路交通参与者（vulnerable road users ，vru）[1]，如道路行人、骑行者和摩托车驾驶者等。因此，对vru群体的道路行驶安全问题需要重点关注。另外，行人作为交通场景中的重要参与者，也是交通事故中最大的受害者，对其未来运动轨迹进行合理推理及预测，对自动驾驶决策规划和道路交通安全具有重要意义。

行人轨迹预测的应用受到多个领域的关注，其中包括自动驾驶[2]、智能交通[3]、机器人导航[4]、视频监控[5]等领域。例如，自动驾驶感知系统需要精准预测行人轨迹以提高车辆行驶安全性；在机器人导航应用中，机器人只有准确预测智能体的轨迹信息才能避免碰撞；在人流较多的公共领域，通过视频监控对行人轨迹进行预测，可以避免在紧急状况下的踩踏事件发生。因此，在上述应用背景下，对行人轨迹预测进行研究变得越发重要。

近年来，国内外学者对行人轨迹预测方法的研究与日俱增，该类方法从传统的基于模型驱动的方法逐渐转向基于数据数据驱动的深度学习方法。与此同时，学习社会交互关系也成为行人轨迹预测中最受关注的热点话题。在实际场景中，人们在行走时通常不是独立的，他们的行动可能会受到周围其他人的干扰和制约。例如，当行人穿过拥挤的人群时，他们可能会调整速度和方向以避免与其他人碰撞或干扰他们的行动。因此，考虑社会交互关系在行人轨迹预测中是必不可少的，可以提高预测准确性和真实性，为智能驾驶、机器人导航和其他相关领域的应用提供更好的决策基础。

为了全面了解行人轨迹预测领域的相关方法，需要进行综述和梳理。同其他行人轨迹预测相关的综述文献[6-8]相比，本文的区别和主要贡献在于我们以行人轨迹预测技术和方法分类为切入点，对行人轨迹预测方法在数据驱动和模型驱动两种方式下存在的关键问题进行研究，并综述了相关文章的解决方案和思路。而其他文献[6-8]则更多只关注单一的驱动方式，对行人轨迹预测方法的关键问题解析以及归纳内容的整体性上不够全面。本文的组织架构如下：第2节介绍了行人轨迹预测的相关工作，包括行人轨迹预测方法介绍和关键问题分析。第3节对行人轨迹预测方法进行分类对比与优缺点总结，同时对不同方法适用场景进行分析。第4节介绍了行人轨迹预测领域所涉及到的数据集及评价指标，并比较了不同算法的网络性能。第5节总结了全文并展望了行人轨迹预测技术的发展趋势。

2 行人轨迹预测方法研究进展及其关键问题分析

行人轨迹预测是车辆与周边环境进行社会交互并采取安全高效决策规划的重要保障。自动驾驶车辆通过预测行人的具体位置进而规划出合理的路线，能够有效降低因行人轨迹突变而造成的碰撞风险[9]。本节将介绍行人轨迹预测方法，并从建模角度将其分类为基于模型驱动和基于数据驱动的方法。此外，考虑到行人的行动会受到周围其他行人和物体的交互影响，我们还会结合社会交互关系对行人轨迹预测的约束性质，对该领域中的关键问题进行阐述。

2.1行人轨迹预测方法研究进展概述

行人轨迹预测是指基于给定的行人历史轨迹信息预测行人未来几秒内的运动轨迹[10]。根据建模方式的差异性，可以将行人轨迹预测方法分为基于模型驱动和基于数据驱动的方法。传统的基于模型驱动的行人轨迹预测方法主要是通过复杂的数学统计模型来表征行人的运动特征[11]。其中，社会力模型[12-14]和运动学模型[15-17]是两类常见的模型。早期的工作中，helbing等人[12]首次提出社会力模型，通过能量势场（排斥力与吸引力）来描述行人之间的交互关系。kooij等人[17]将贝叶斯滤波器和运动学模型相结合，建立基于上下文的动态贝叶斯网络用于预测行人轨迹。schneider等人[18]将运动学模型（如常量速度模型）和卡尔曼滤波算法结合来对行人轨迹进行预测。传统的基于模型驱动的行人轨迹预测方法具有严格的数学证明与假设，需要依赖手工定义规则及能量势场对模型进行严谨的数学建模以提取社会交互信息，进而获取行人运动轨迹。因此，该类方法的应用局限性较强，需要依赖领域专家的知识，对复杂场景适应性较差。

近年来，随着深度学习技术的不断发展，基于数据驱动的深度学习预测方法已经成为行人轨迹预测的研究热点[19-21]。与传统的基于模型驱动方法相比，深度学习方法不需要手工定义规则及能量势场等复杂模型，而是直接从数据中学习行人的社会交互关系。通过训练大量的数据样本，深度神经网络可以更新网络参数并自适应地学习出更加合理的映射关系，从而实现精准的行人轨迹预测。总体而言，相比模型驱动方式，基于数据驱动的深度学习方法具有更高的灵活性和泛化性，能够适应不同场景下的行人运动模式并实现更加精准的轨迹预测，因此具有更广阔的研究前景。

目前，基于数据驱动的行人轨迹预测方法主要分为四类，包括基于长短时记忆网络（social long short-term memory，lstm）[22]、基于生成对抗网络（generative adversarial network，gan）[21]、基于图卷积神经网络（graph convolution network，gcn）[54]和基于transformer[20]的方法。其中，基于lstm的方法是最为常见和经典的一种方法，其通过对历史轨迹序列进行编码，再将编码后的信息输入lstm中进行学习和预测。而基于gan的方法则是通过对抗博弈思想将生成的轨迹与真实轨迹进行区分和优化，来提高轨迹预测的准确性。基于gcn的方法则是将行人与周围环境建立图网络结构，通过gcn对图上的节点和边进行卷积运算来提取行人运动时的上下文信息，以实现更精确的预测。基于transformer的方法则是近年来迅速发展起来的一种新方法，通过引入多头自注意力机制来对历史轨迹进行建模，并利用解码器生成未来轨迹。总之，基于数据驱动的轨迹预测方法在完成行人轨迹预测任务时，能够充分利用大规模的数据样本来提高模型的预测性能，并且能够适应不同的场景和更复杂的环境。

基于数据驱动的轨迹预测方法对行人轨迹进行预测时，可以将整个预测过程分为以下五个阶段，即输入阶段、特征提取阶段、编码阶段、解码阶段和输出阶段，具体流程如图1所示。下面对这五个阶段分别介绍。

输入阶段：该阶段的主要任务是获取输入数据，即行人历史轨迹数据。通常情况下，历史轨迹数据是以序列的形式输入深度学习模型中的，因此需要将轨迹数据转化为适合深度学习模型输入的格式，例如向量、矩阵或张量等。此外，在输入阶段，模型需要对接收的历史轨迹信息进行解析，以及处理与行人运动相关的各种交互特征信息。以上所指信息包括行人坐标信息、场景交互信息、语义信息、速度信息和位姿信息等，这些信息可以被用来描述行人的运动行为和社会交互关系，对后续的特征提取和编码阶段的进行至关重要。
特征提取阶段：该阶段的主要任务是从输入数据中提取特征，以便模型能够更好地理解轨迹数据。在行人轨迹预测中，常用的特征提取模型包括卷积神经网络（convolutional neural network，cnn）和循环神经网络（recurrent neural network，rnn）等。考虑到cnn能够从图像中提取空间信息，而rnn则能够从序列数据中提取时间信息，因此这两种方法也常常结合使用。
编码阶段：该阶段的主要任务是将特征信息编码成一个中间状态，以便后续解码阶段生成轨迹时使用。编码阶段的实现方式不尽相同，例如可以使用lstm、gru等循环神经网络，也可以使用gan、transformer等网络进行编码处理。
解码阶段：该阶段的主要任务是根据编码阶段生成的中间状态进行解析，进而预测未来的轨迹。解码阶段通常使用类似于自回归模型的方式进行轨迹生成，即利用前一个时刻生成的点作为输入，随后再生成下一个点。解码阶段也可以使用lstm、gru等循环神经网络，或者transformer等结构进行解码处理。
输出阶段：该阶段的主要任务是将解码阶段生成的轨迹输出为最终结果。输出的形式可以是轨迹的坐标点（包括单轨迹、多轨迹形式），也可以是概率分布（如双变量高斯分布形式）。在输出阶段，通常会使用一些评估指标来衡量模型的预测性能，例如平均位移误差（average displacement error，ade）和最终位移误差（final displacement error，fde）等[22]。

2.2行人轨迹预测的关键问题

行人轨迹预测问题的本质可以看作为一个序列决策问题，即通过数据集中行人位置信息、历史序列信息等来推理（决策）出行人在未来固定时刻的位置坐标及轨迹[23]。已有的基于模型驱动和数据驱动的轨迹预测工作中，通常会面临预测结果不准确的问题，这主要是由以下三个关键因素造成的：

1）行人与目标之间动态的社会交互关系难以建模

在行人轨迹预测问题中，行人与目标之间的动态社会交互关系是一个关键因素，因为它会很大程度上影响行人的运动轨迹。在同一场景中，不同行人与目标行人之间的交互关系是动态变化的，这种交互力量被称为“社会力”[12]。对目标行人进行轨迹预测的同时也会受到其他行人的运动趋势影响，因此在算法中需要考虑行人之间的社会交互关系和相互影响，以增加预测的准确性。此外，动态的社会交互关系往往具有复杂性和抽象性，仅仅通过简单的规则建模来体现行人之间的交互关系并不容易，因为这种交互关系难以量化和建模，进而增加了轨迹预测的难度。因此，研究人员需要探索更加先进的模型来捕捉这种复杂的动态交互关系，从而提高轨迹预测的准确性。

2）行人与场景之间静态的社会交互关系难以描述

行人的运动轨迹不仅受到行人个体的时序特征影响，也受到周围场景中其他实体的影响。在复杂场景中，行人在前行的过程中遇到障碍物时会本能地选择不同的策略来改变自己的运动方向。场景中的障碍物可以分为静态障碍物和动态障碍物两类，静态障碍物包括建筑物、草坪、路边停放的汽车等，而动态障碍物则包括行驶而来的汽车、骑行者等。在遇到静态障碍物时，目标行人会本能地选择避开障碍物绕行；而在遇到动态障碍物时，行人会预先估算出动态障碍物的行驶速度以及是否会对自身前行路径造成影响，进而会选择原地停止运动或者减速慢行[11]。因此，如何准确地描述场景变化特征，进而去深度刻画行人的时序特征信息与交互特征信息，是复杂场景下行人轨迹预测的一个关键问题。

3）行人意图及其与环境中其他主体的变化关系难以确定

在现实中，相对于自行车、汽车等运动学模型，行人运动方式更加灵活多变，预测其轨迹更加困难。行人的运动轨迹通常会受到行人意图、心理状态等情感因素的影响。因此，推理行人意图及确定其与环境中其他主体的变化关系也是行人轨迹预测的关键问题之一。现有的行人轨迹预测模型通常使用客观测量数据集进行训练实验，即模型只关心行人运动的最终结果，很少关注行人意图推理的层面，因此会导致模型对行人意图把握不准确。例如，正在加速奔跑的行人可能会突然停下或者突然掉头再跑，而此时的预测模型只关心行人最终的动作是停在原地还是跑到另一个位置，而不是推理行人为什么会这样做。这使得在极端场景（corner case）下，行人轨迹预测模型经常会出现预测不准确的情况[24]。

3 行人轨迹预测方法分类

行人轨迹预测方法可以从建模角度上分为两大类：基于模型驱动的行人轨迹预测方法和基于数据驱动的行人轨迹预测方法。其中，基于模型驱动的方法主要是基于社会力模型、运动学模型等对行人运动规律和社会交互关系进行数学建模，然后使用预测模型进行行人轨迹预测。这种方法借助于复杂的数学模型，可以较为准确地描述行人的运动规律和社会交互关系，但需要提前进行模型建立和参数调整，且对场景的适应性较差。而基于数据驱动的方法则是通过大规模数据集进行训练，通过学习数据集中的行人运动行为和社会交互关系建立预测模型，进而实现行人轨迹预测。这种方法以深度神经网络为主，其不需要进行模型建立和参数调整，对场景具有很强的泛化性，但会存在对数据集的质量和数量要求较高等问题。综上所述，以上两种方法各有优缺点，具体的应用需根据场景和数据情况进行选择。基于上文内容，本文对行人轨迹预测方法进行了详细分类，分类结果如图2所示，下面对以上分类所涉及到的文献方法及思路分别进行详述。

3.1 基于模型驱动的行人轨迹预测方法

3.1.1 基于社会力模型的行人轨迹预测方法

基于社会力模型的行人轨迹预测方法是一种基于人类社会行为学的模型，它模拟了行人在行走过程中的相互作用和群体行为。该模型通过描述行人之间的社会力和群体动力学行为来预测行人的未来动作和轨迹。具体来说，社会力模型将每个行人视为一个受力体，考虑行人之间的相互作用和周围环境的影响，通过计算合力来对行人进行轨迹预测。常用的社会力模型包括helbing模型[12]、social force模型[14,25]、粒子群算法[26-27]等。

helbing模型[12]是最早提出的基于社会力模型的方法之一，它是一种基于微观力学的模型，用于描述行人运动的动态行为，其中行人之间相互影响的力被建模为排斥力和吸引力。在模型中，行人试图避免相互碰撞并保持一定的速度和方向，而模型的主要目标是预测行人流的行为，例如拥堵和瓶颈等。social force模型则是对helbing模型的改进，它将行人的运动视为受到一个包括人与人之间和人与环境之间相互作用的合力影响，并通过建立相互作用模型来预测行人的轨迹。在过去的几十年中，上述开创性工作已经通过多种方法进行扩展和改进[28-30]。yan等人[13]基于社会力模型和局部行为模型来预测人类社交行为，并应用于行人跟踪任务中。其中，社会力模型主要用于建模行人与行人之间的交互作用，通过估计每个行人对周围环境的影响来预测其未来的移动轨迹。该方法结合了运动学模型和社会交互模型的优点，能够更准确地预测行人的轨迹和行为，实现较好的跟踪效果。rudenko等人[31]提出一种基于规划的社会力模型方法来实现人体运动的长期预测任务。该方法将社会力模型和规划方法相结合，首先使用社会力模型来预测每个行人的运动轨迹，然后将这些轨迹用于规划行人之间的交互，通过联合预测方式来长期捕获人体运动。trautman等人[32]提出了一种用于机器人导航的动态交互人群模型，旨在通过在人群中使用交互模型来预测和规划机器人行动，从而实现在密集人群中安全、有效地导航。该模型基于人-人交互作用力的概念，通过将人与机器人之间的交互建模为相互作用的动态力场来描述人群的行为。作者通过实验验证了该方法的有效性和准确性，并展示了该模型在处理密集人群中的机器人导航方面的优越性。

具体来说，基于社会力模型的行人轨迹预测方法将每个行人视为一个受力体，考虑行人之间的相互作用和周围环境的影响，通过计算合力对行人进行轨迹预测。该方法的优点在于它能够较好地捕捉到行人之间的协同行为，如群体移动、分散、聚集等，并且能够应对复杂的场景，如拥挤的人群、突发事件等。不过，基于社会力模型的轨迹预测方法也存在一些缺点。首先，该模型需要大量的参数调整，因此在实际应用中可能存在一定的难度。其次，社会力模型的计算复杂度较高，需要考虑大量的变量，导致计算效率低下，因此无法应用到对实时性要求很高的无人驾驶场景。此外，该模型在处理行人个体之间的交互关系时可能存在一定的误差，无法完全捕捉到行人的个体特征和行为习惯。综上所述，基于社会力模型的行人轨迹预测方法具有一定的优点和缺点，需要根据具体场景进行选择和应用。

3.1.2 基于运动学模型的行人轨迹预测方法

基于运动学模型的行人轨迹预测方法是一种基于物理学原理的模型驱动方法。它通常采用行人运动学模型来描述行人的运动过程，以推导出行人的运动轨迹。运动学模型通常包括行人的位置、速度和加速度等运动状态，以及行人与周围环境之间的交互作用，这些模型可以基于行人的运动规律和行人在场景中的行为模式来构建。

在行人轨迹预测领域，基于运动学模型的方法通常需要先通过观察行人的历史轨迹数据来估计其当前的状态（位置、速度、加速度等），然后通过行人运动学模型来预测其未来的运动轨迹。常用的预测方法包括基于常量速度模型（cv model）[33]、常量加速度模型（ca model）[34]、常量转向率模型（ct model）[29]、动态窗口模型（dw model）[17]等。这些方法可以通过对行人未来运动的方向、速度、加速度等进行估计，进而预测行人的未来位置和轨迹。

早期的工作中，karamouzas等人[34]提出一种基于长加速度模型的行人避碰方法，用于模拟行人在拥挤环境中的运动。该模型结合了运动学和社会力模型，可以预测行人的运动方向和速度，并避免与其他行人和障碍物的碰撞。zhou等人[35]提出一种基于运动学模型的行人-智能体混合模型（mixture model of dynamic pedestrian-agents，mda）来理解集体人群交互行为。该模型包括三个方面的变量：行人轨迹、行人个体属性和行人之间的交互关系。mda基于贝叶斯框架进行推断，并且采用了一个粒子滤波器来对模型进行训练和预测。实验结果表明，该模型能够准确地预测行人的轨迹和行为，同时也能够帮助我们更好地理解行人群体的行为模式，比如行人的拥挤程度、走路速度等等。kooij等人[17]将贝叶斯滤波器和运动学模型相结合来预测行人路径。该模型将姿态感知、事件紧急程度和场景上下文空间布局作为潜在状态嵌入到切换线性动力系统（switched linear dynamical system，slds）[36]模型顶部进而去控制slds的切换状态以实现更精准的行人路径预测。best等人[37]提出一种基于贝叶斯推理的意图推断模型，将观察到的行动轨迹和先验知识融合在一起，从而推断行人的目标位置和未来行动。该方法通过将人类行动过程建模为马尔可夫决策过程来实现预测。实验结果表明，该模型可以自动识别行人的行为意图，具有较高的预测精度，并且可以应用于复杂的人类运动场景。但是该模型需要大量的训练数据进行模型的训练，且计算复杂度较高。xie等人[38]提出一种基于深度神经网络和运动学模型相结合的方法，用于学习和推断视频中人类行为的“暗物质”，以预测人类在复杂场景中的运动轨迹和意图。论文中模型结构采用基于循环神经网络（rnn）和卷积神经网络（cnn）的方法来对人类行为进行建模，进而在人类行为预测任务上具有较高的准确性。但是该模型比较复杂，需要大量的训练数据和计算资源，并且对于场景中存在大量的遮挡、重叠、交叉等情况时预测效果可能会降低。

综上所述，基于运动学模型的行人轨迹预测方法是一种基于物理学和运动学原理的预测方法，利用行人运动的速度、加速度、方向等信息，通过数学模型对行人未来的运动轨迹进行预测。这种方法可以准确地预测行人的运动轨迹，适用于密集人流的公共场所，如地铁站、商场、车站等室内场景，可以用于人员管理、安全监控等领域。但是，该方法存在一些局限性阻碍其进一步发展，例如模型假设不准确、建模相对简单、预测范围有限等问题，这些问题可能会导致预测的精度下降。因此，需要在应用中根据实际情况进行调整和优化。以下是基于模型驱动的行人轨迹预测方法的相关文献对比，并按照发表时间排序，详见表1。

1 基于模型驱动的行人轨迹预测方法对比

方法	发表年份	文献标题	输入信息	网络结构	优缺点
helbing等[12]	1998	social force model for pedestrian dynamics	行人自身状态和周围环境信息	基于社会力模型结构	优点：模型简单有效、适用性强缺点：参数敏感、缺少对行人不确定性建模
karamouzas等[34]	2009	a predictive collision avoidance model for pedestrian simulation	行人位置、速度、加速度等信息以及场景信息	基于运动学模型和社会力模型的混合模型	优点：长期预测缺点：训练成本较高，推理速度较慢
trautman等[32]	2010	unfreezing the robot: navigation in dense, interacting crowds	历史轨迹信息	基于社会力模型和高斯模型结合	优点：泛化性强缺点：实时性较低、模型复杂度较高
zhou等[35]	2012	understanding collective crowd behaviors: learning a mixture model of dynamic pedestrian-agents	行人历史轨迹数据	基于混合高斯模型的无监督模型结构	优点：高准确性、实时性缺点：依赖大量数据、可解释性较差
kooij等	2014	context-based pedestrian path prediction	历史轨迹数据和环境上下文信息	基于贝叶斯滤波器和运动学模型	优点：全局建模、多模态输入、精度高缺点：计算量大、需要大量训练数据
best等[17]	2015	bayesian intention inference for trajectory prediction with an unknown goal destination	行人历史轨迹信息、场景上下文信息	基于运动学模型和贝叶斯模型结合	优点：可预测性强、可解释性好缺点：计算复杂、依赖先验知识
yan等[13]	2014	modeling local behavior for predicting social interactions towards human tracking	历史轨迹数据信息	基于运动学模型和社会力模型相结合	优点：实时性高、灵活性好、可解释性强缺点：网络结构复杂、训练难度大
xie等[38]	2017	learning and inferring “dark matter” and predicting human intents and trajectories in videos	行人位置、姿态、方向信息以及场景上下文信息	基于循环神经网络和卷积神经网络以及运动学模型相结合	优点：建模精准、多模态融合缺点：模型复杂、需要大量的训练数据和计算资源
rudenko等[31]	2018	joint long-term prediction of human motion using a planning-based social force approach	地图、行人速度、位置以及环境信息	基于社会力模型和循环神经网络模型结合	优点：多模型组合、长期预测、扩展性好缺点：计算复杂

3.2 基于数据驱动的行人轨迹预测方法

基于数据驱动的行人轨迹预测方法是近年来发展较快的一类方法，该类方法通过收集和分析历史轨迹数据，利用机器学习和深度学习等数据驱动技术建立模型，以预测未来行人轨迹。相较于基于模型驱动的方法，数据驱动方法可以更好地处理复杂的环境和行人交互行为，该方法不需要对环境进行特定的建模，而是直接从数据中学习模型。基于数据驱动的行人轨迹预测方法主要包括基于lstm的行人轨迹预测方法、基于gan的行人轨迹预测方法、基于gcn的行人轨迹预测方法、基于transformer的行人轨迹预测方法。以上类比方法的模型在训练完成后对同类型数据输入具有很好的适用性，拥有较高的轨迹预测精度，成为近些年来行人轨迹预测任务的研究热点。下面对这四类行人轨迹预测方法进行详细介绍。

3.2.1 基于lstm的行人轨迹预测方法

基于lstm的行人轨迹预测方法是一种常见的数据驱动方法，可用于对行人轨迹进行建模和预测。lstm是一种递归神经网络，能够处理序列数据和捕捉长期依赖关系，比较适用于行人运动轨迹预测任务。在行人轨迹预测领域，基于lstm的轨迹预测方法利用lstm模型来建模行人轨迹的时间序列数据，并根据历史轨迹数据来预测未来轨迹的运动方向和位置。通常，模型的输入数据包括历史位置和速度等信息，输出数据为未来的位置等信息。模型的训练通常采用监督学习方法，即通过比较预测轨迹和真实轨迹之间的误差来更新模型参数。鉴于lstm模型方法的巨大优势，大量研究者将其应用在行人轨迹预测的任务上。

alahi等人[22]首次将lstm模型应用到行人轨迹预测任务中，提出一种s-lstm（social long short-term memory，s-lstm）网络用于社会交互空间下的行人轨迹预测。相较于以往工作中存在的两个难点：手工构造能量函数而不能通过数据驱动方式来捕获社会交互关系，以及只考虑近距离情景而不能涵盖更远距离可能发生的社会交互场景，s-lstm模型通过采用数据驱动方式建模行人之间复杂的社会交互行为，进而能够更好的捕捉行人之间的社会交互关系。具体地，模型首先为场景中的每个行人配备一个独立的lstm网络来提取各自的运动特征信息。其次，通过社交池（social-pooling）层相互连接来提取空间上隐藏的交互特征信息，以此来计算周围行人交互产生的影响，最后生成无冲突的行人轨迹。s-lstm模型中基于社交池化机制来共享空间信息的想法为基于数据驱动方式进行行人运动交互建模奠定了基础，大量的研究者在随后的工作中提出了类似结构，在公用的行人轨迹预测数据集上测试结果不断提升[24,39-40]。

hasan[41]等人提出一种mx-lstm网络模型，通过对已有的社交池化机制进行优化来获取行人预测轨迹。该方法中，作者考虑到行人在交互过程中只能注意到人头朝向的扇形区域的其他行人的事实，因此模型通过社交池对扇形区域的可视化范围内行人进行池化处理，借助标准头部姿势估计器和基于注意力的社交池来增加模型长期轨迹预测的能力。文献[42]和文献[43]提出通过人为规定邻域范围去选取参与交互的对象或者通过定义一个函数式的群组进而去筛选交互对象的模型，通过社交池化操作来融合池化特征的方式获得行人社会交互特征。以上方式能够成功获取行人的运动轨迹，但是在复杂的动态场景下，人为设定的规则不能总是涵盖全部的场景状况，并且人为计算交互方式在很大程度上增加了模型计算量。为此，zhu等人[44]提出了一种starnet神经网络模型，通过建模行人之间的全局交互来实现高效的行人轨迹预测。该模型中心网络节点将参与交互的所有行人共同计算为一个集合交互特征，随后再分配给场景中的所有行人，从而节省了网络对交互方式的计算量。模型中的hub network模块是基于lstm的全局时序交互计算网络，用于获取所有行人的观测轨迹。而host network是基于lstm的轨迹预测网络，每个host network对应一个行人，通过参考描述信息对未来轨迹进行预测。该模型在行人轨迹预测主流数据集eth/ucy[29,45]上的实验表明，在80%的场景下模型方法效果都优于其他算法，并具有较高的实时性。

综上所述，基于lstm的方法是一种常见的行人轨迹预测方法。该方法通过手工定义规则对池化对象进行更细化的定义，并利用社交池化层对交互对象进行融合，以获取社会交互特征。这类方法主要解决行人本身对轨迹的影响问题，然后根据社会交互模型的结论来修正目标预测轨迹，从而获得更准确的预测结果。然而，基于lstm的轨迹预测方法中池化机制无法显式地获取场景中所有行人对交互场景的影响程度。此外，该方法主要通过隐藏状态函数来存储历史时刻的特征信息，当历史信息数据量较大时，可能会出现数据丢失现象，从而导致预测不准确。最后，由于lstm是一种seq2seq的时序结构，网络无法实现并行计算，这也大大降低了网络的性能。因此，随着时间的推移，研究者们逐渐发展了基于gan、基于gcn以及基于transformer的新型行人轨迹预测方法。表2按照论文发表时间顺序对基于lstm的行人轨迹预测方法进行汇总。

表2 基于lstm的行人轨迹预测方法

方法	发表年份	文献标题	输入信息	网络结构	数据集
s-lstm[22]	2016	social lstm: human trajectory prediction in crowded spaces	行人历史轨迹信息	基于lstm网络和社交池机制结合	eth/ucy
mx-lstm[41]	2018	mx-lstm: mixing tracklets and vislets to jointly forecast trajectories and head poses	行人历史轨迹和姿态信息	基于lstm网络、注意机制和社交池化机制	eth/ucy、kitti
group lstm[42]	2018	group lstm: group trajectory prediction in crowded scenarios	历史轨迹信息	基于lstm模型于社交池化机制	eth/ucy
social-grid lstm[43]	2018	pedestrian trajectory prediction via the social-grid lstm model	社会交互信息、时序上下文信息	基于社交池化与lstm相结合	eth/ucy
ss-lstm[39]	2018	ss-lstm: a hierarchical lstm model for pedestrian trajectory prediction	历史轨迹、上下文场景信息	基于lstm编解码结构	eth/ucy
scene-lstm[40]	2018	scene-lstm: a model for human trajectory prediction	场景上下文、行人轨迹点信息	基于lstm网络和cnn网络结合	eth/ucy
shi等[24]	2019	pedestrian trajectory prediction in extremely crowded scenario	历史轨迹信息	基于社交池化机制	gcdc/mot17
starnet[44]	2019	starnet: pedestrian trajectory prediction using deep neural network in star topology	行人历史轨迹信息	基于lstm和社交池化机制	eth/ucy
sns-lstm[22]	2019	social and scene-aware trajectory prediction in crowded spaces	场景上下文、社会交互信息	基于lstm网络和池化机制	eth/ucy

3.2.2基于gan的行人轨迹预测方法

基于gan的行人轨迹预测方法利用gan的生成能力，从历史轨迹数据中学习行人移动的规律并生成未来的轨迹。该网络通常包含生成器和判别器两个部分。生成器从历史轨迹数据中学习行人交互行为并生成未来的轨迹，判别器则判断生成的轨迹数据是否与真实轨迹数据相似，以判断真假性。相较于基于lstm等循环神经网络的方法，基于gan的方法能更好地处理轨迹中的不确定性和多模态性，并生成具有多样性的轨迹结果。在行人轨迹预测领域，基于gan的代表性工作包括social gan[21]、sophie[46]、social way[47]、sti-gan[48]和aee-gan[49]等方法。

gupta[21]等人首次将gan方法引入行人轨迹预测任务中，提出一种基于生成对抗网络（socia-gan）的行人轨迹预测方法。与传统方法不同的是，该方法利用了gan的生成对抗思想，通过lstm构建生成对抗网络模型，对行人轨迹进行预测。具体来说，该方法首先利用“运动编码器模块”处理时间信息，其次通过“位置编码器模块”对空间交互信息进行建模，最后通过生成对抗网络的生成器和判别器相互博弈来不断更新模型参数，进而生成更加规范的行人轨迹。该方法将行人抽象为地图上的点，并利用gan网络特征实现了行人多模态轨迹预测，但它未充分考虑目标周围的视觉特征和场景上下文等语义信息，仅考虑了行人之间的交互关系，这会导致模型缺少可解释性，且可能产生违背生活规律的预测结果。因此，该方法还需要进一步改进以提高预测准确性和可解释性。近期的研究中，sophie[46]设计了一种基于生成对抗网络的可解释架构，该架构在模型中添加了社会注意力和物理注意力机制模块，用于为周围的行人和场景分配不同的注意力权重，进而提取与路径相关的图像显著特征信息（深层特征信息）。最后，利用gan生成样本来捕捉行人行为轨迹的不确定性。实验结果表明，该方法能够实现更加鲁棒的行人轨迹预测效果，相比之前的方法具有更好的可解释性。social-bigat[50]采用了类似文献[21,46]中基于行人社会交互机制的想法，设计一种基于图的生成对抗网络模型。该模型通过图注意力网络[51]对场景上下文信息和行人的多模态交互行为进行编码，利用lstm的隐藏状态和图注意力网络来建模社会交互关系，并通过对抗训练的方式生成更加真实的行人运动轨迹。为了验证该方法的有效性，作者在当前主流数据集（eth/ucy）上进行了实验。实验结果表明，该方法能够有效地预测行人的运动轨迹。

传统的gan网络存在模式崩溃和模式下降等问题，这极大地影响了网络的稳定性和训练效果。为了解决这些问题，amirian等人[47]提出了一种social way网络架构，该架构通过引入info-gan[52]结构来改进多模式轨迹预测，从而避免了gan出现的模式崩溃和模式下降问题。该方法是在social lstm和social gan模型的基础上进一步提升，通过引入注意力机制使模型能够自主分配交互信息的注意权重。在模型结构方面，social way舍弃了l2代价函数，引入基于互信息的information loss，从而使网络在多模态行人轨迹预测任务上具有更好的预测效果。fang等人[53]提出了一种基于注意力机制的生成对抗网络模型（atten-gan）来进行行人轨迹预测。该模型利用注意力机制来提取输入轨迹的时空特征，然后在gan的框架下进行轨迹生成。实验结果表明，该方法相对于其他方法具有更好的预测性能。

综上所述，相比于基于lstm等循环神经网络的方法，基于gan的方法通过生成器与判别器之间的相互博弈来训练模型，能够更好地处理轨迹中的不确定性和多样性，并且能够生成具有多样性的轨迹结果。然而，该方法也存在一些缺点影响其进一步运用的空间。其主要缺点如下：（1）网络训练不稳定，训练过程中存在模式崩塌问题，即生成器网络只能生成部分数据的情况。（2）gan训练过程相对较慢，需要更长的时间和更多的计算资源。（3）网络难以处理长期依赖关系，预测结果可能存在短期内的偏差。（4）gan模型的可解释性较差，难以理解模型是如何生成轨迹的。这也是近些年来基于gan的方法很少应用在轨迹预测领域的原因。表3按照论文发表时间顺序对基于gan的行人轨迹预测方法进行汇总。

表3 基于gan的行人轨迹预测方法对比

方法	发表年份	文献标题	输入信息	网络结构	数据集
social-gan[21]	2018	social gan: socially acceptable trajectories with generative adversarial networks	行人历史轨迹信息	基于lstm的编解码器结构	eth/ucy
sophie[46]	2019	sophie: an attentive gan for predicting paths compliant to social and physical constraints	历史轨迹和上下文场景信息	基于gan网络和注意机制相结合	eth/ucy和sdd
social-bigat[50]	2019	social-bigat: multimodal trajectory forecasting using bicycle-gan and graph attention networks	行人动态特征、场景上下文信息	基于gcn和gan结合	eth/ucy
social way[47]	2019	social ways: learning multi-modal distributions of pedestrian trajectories with gans	历史轨迹信息	基于info-gan和注意机制相结合	eth/ucy
aee-gan[49]	2020	trajectory prediction in heterogeneous environment via attended ecology embedding	场景上下文、历史轨迹	基于infogan网络和lstm网络架构结合	eth/ucy和sdd
sti-gan[48]	2021	sti-gan: multimodal pedestrian trajectory prediction using spatiotemporal interactions and a generative adversarial network[	历史轨迹信息	基于gan和图注意机制网络结合	eth/ucy
atten-gan[53]	2022	atten‑gan: pedestrian trajectory prediction with gan based on attention mechanism	历史轨迹信息、场景图信息	基于gan和双向循环神经网络结合	eth/ucy

3.2.3 基于gcn的行人轨迹预测方法

基于gcn的行人轨迹预测方法是近年来提出的一种方法。该方法利用gcn对行人之间的空间关系进行建模，从而捕捉社会交互信息和环境特征，进而实现行人轨迹预测。具体来说，该方法首先将行人视为节点，并将它们之间的关系表示为图网络结构。其次，通过gcn对图网络结构进行卷积操作，从而学习节点之间的相互作用。然后，将每个节点的位置、速度等信息作为节点特征，通过gcn进行特征学习和传播，最后预测出每个行人的未来位置。目前，已经有许多学者提出了基于gcn的行人轨迹预测方法，如social stgcnn [54]、stgat[55]、sgcn[56]等。这些方法在不同的数据集和场景下进行了验证，并取得了较好的轨迹预测效果。

mohamed等人[54]在stgcn模型[57]基础上进行改进，提出的社会时空图卷积神经网络（social spatio-temporal graph convolutional neural network，social stgcnn）是在行人轨迹预测领域中使用gcn网络的代表性工作。该网络通过将行人之间的社会交互关系嵌入到邻接矩阵中，建模为图网络结构，并通过核函数对邻接矩阵进行处理，以捕捉空间和时间信息。这种方法能够优化社会交互行为模型，减少网络所需参数并提高网络计算速度，进而实现更高效的轨迹预测效果。sun[58]等人提出一种递归社交行为图（recursive social behavior graph，rsbg）的方法来进行行人轨迹预测。其通过将具有相似行为、目的地的行人分组，并对组内行人进行关系标注，进而对整个场景中的行人关系进行详尽的抽取。rsbg网络通过递归的方式对交互范围内的个体特征进行不断更新，进而获取更好的实时交互关系，最后通过lstm解码器生成准确的预测结果。shi等人[56]提出一种用于行人轨迹预测的稀疏图卷积网络模型（sparse graph convolution network，sgcn），解决了已有工作中行人密集无向交互中存在的建模冗余以及忽略行人轨迹运动趋势的问题。该模型使用稀疏有向空间图对行人交互关系进行建模；使用稀疏有向时间图来建模运动趋势，便于对观测方向进行预测；最后将上述两种稀疏图进行融合，推理出用于轨迹预测的双变量高斯分布参数进行行人轨迹预测。sgcn模型在eth/ucy数据集上实现了精准的行人轨迹预测结果。但是该方法需要固定参数进行阈值设定，无法适应不同交互场景，从而缺乏对复杂场景中行人动态交互关系的捕捉能力，因此也很难在无人驾驶场景中展开使用。在行人社会交互过程中存在的过度避碰问题上，bae[59]等人提出一种解耦多关系图卷积网络（disentangled multi-relational graph convolutional network，dmrgcn），其利用一组子图来表示行人复杂的社会交互关系，进而构建出基于社会关系的图卷积网络来提取场景中复杂的社会交互行为；此外，模型通过时间卷积网络（temporal convolutional network，tcn）设计一个全局的时间聚合（graph attention networks, gat）[51]函数用于补偿因过度避碰造成的轨迹累积误差。实验结果表明，该模型能够纠正由于过度避碰而导致的预测误差，实现了较好的轨迹预测结果。此外，在行人穿行意图推理上，cadena等人[60]提出一种pedestrian graph+模型用于估计行人穿越马路的意图，该模型通过考虑行人位姿信息和上下文场景信息作为输入数据，通过gcn建模其交互关系，进而在行人预测数据集上实现了更快、更准确的性能。

在行人轨迹预测领域，基于注意机制的图卷积神经网络也得到了广泛的应用。在行人交互过程中，容易受到静态障碍物（例如墙壁、树木和建筑物等）和动态障碍物（例如其他行人、自行车和汽车等）的影响而改变行人的运动轨迹。因此，考虑到不同物体的影响力，将其分配不同的权重并参与行人轨迹预测是必要的。先前的研究工作中，社会力模型[12]和基于池化机制[21-22]的方法通过获取行人之间的欧式距离来计算交互关系的强度，但这些方法不能直观地解释不同物体在行人交互过程中的影响力。相比之下，图注意力网络[51]作为一种新型网络架构，通过在图结构上运行网络，能够隐式地为图网络邻域中的不同节点分配不同的权重。图注意网络利用自注意层的掩码计算不同物体的影响力，能够更加准确地捕捉到物体之间的交互关系，进而提高行人轨迹预测的准确性。

基于此，huang等人[55]在行人轨迹预测领域引入了时空图注意网络（spatial-temporal graph attention network，stgat）用于聚合场景内不同智能体的运动特征。stgat是一种seq2seq序列架构，通过图注意机制捕获每个时刻行人的空间交互行为信息，并采用lstm网络对行人的时间交互信息进行编码，从而实现较好的多模态轨迹预测结果。实验结果表明，图注意网络中的注意机制能够隐式地为节点分配不同权重，并根据邻居的运动状态为其分配合理的重要性，进而提高网络的预测精度。lv等[61]提出一种社会软注意力图卷积网络模型（social soft attention graph convolution network，ssagcn）。该模型能够同时处理行人之间的社会交互关系以及行人与周围环境之间的物理场景交互信息。对于社会交互信息，在社交软注意函数和gcn作用下聚合社交特征；对于物理交互信息，使用坐标构建的初始图与顺序场景进行合并；最终通过tcn获得预测的行人轨迹。受mohamed等人[54]的启发，zhou等人[62]提出一种ast-gnn模型用于交互感知行人的轨迹预测。该模型在social stgcnn中的时空图卷积层中加入了注意力机制，提升了网络对行人社交行为的时空推理能力。具体来说，ast-gnn模型中s-gnn网络和t-gnn网络替换原有的时空图卷积网络，通过在图神经网络中引入注意力机制，从而在一定程度上提升了行人轨迹的预测精度。

综上所述，基于gcn的行人轨迹预测方法具有许多优点，如能够建模复杂的空间和时间关系、具有良好的可扩展性、能够自适应地为每个节点分配不同的权重、具有较高的预测准确度等。然而，该方法也存在一些缺点，如计算复杂度高、对数据质量的要求较高、可解释性较差、难以应用于实时场景等。总的来说，该方法在行人轨迹预测领域具有广泛的应用前景，但仍需要进一步研究和改进。表4按照论文发表时间顺序对基于gcn的行人轨迹预测方法进行汇总。

表4 基于gcn的行人轨迹预测方法对比

方法	发表年份	文献标题	输入信息	网络结构	数据集
stgat[55]	2019	stgat: modeling spatial-temporal interactions for human trajectory prediction	历史轨迹信息、场景图像信息	基于gcn网络、lstm网络和gat网络结合	eth/ucy
rsbg[58]	2020	recursive social behavior graph for trajectory prediction	历史轨迹信息	基于gcn网络和lstm网络、cnn网络结合	eth/ucy
social-stgcnn[54]	2020	social-stgcnn: a social spatio-temporal graph convolutional neural network for human trajectory prediction	历史轨迹信息	基于gcn网络和cnn网络结合	eth/ucy
sgcn[56]	2021	sgcn: sparse graph convolution network for pedestrian trajectory prediction	历史轨迹信息、速度、加速度信息	基于稀疏有向图建模时空关系	eth/ucy
dmrgcn[59]	2021	disentangled multi-relational graph convolutional network for pedestrian trajectory prediction	历史轨迹信息、行人速度信息	基于gcn和注意机制相结合	eth/ucy
ssagcn[61]	2021	ssagcn: social soft attention graph convolution network for pedestrian trajectory prediction	历史轨迹信息	基于gcn、tcn和注意机制相结合	eth/ucy、sdd
ast-gnn[62]	2021	ast-gnn: an attention-based spatio-temporal graph neural network for interaction-aware pedestrian trajectory prediction	历史轨迹信息	基于gcn和注意机制相结合	eth/ucy
pedestrian graph +[60]	2022	pedestrian graph +: a fast pedestrian crossing prediction model based on graph convolutional networks	行人位姿、场景上下文信息、车辆速度信息	基于gcn网络和卷积神经网络结合	jaad/pie

3.2.4 基于transformer的行人轨迹预测方法

基于transformer的方法已经成为深度学习任务发展的一个趋势[63]。该方法最初使用在自然语言处理（natural language processing，nlp）[64-66]任务中，之后在计算机视觉领域迅速发展[67-69]。在行人轨迹预测领域，基于transformer的行人轨迹预测方法将行人轨迹看作是时间序列数据，利用transformer模型进行建模和预测。与基于lstm、gan和gcn等模型相比，transformer模型具有并行计算和长程依赖建模的优势，能够更好地处理轨迹数据中的长程依赖和多模态性。具体来说，该方法将行人轨迹中的位置、速度等信息视为输入序列，利用transformer模型对序列进行编码和解码，从而预测行人的未来位置。在编码过程中，该方法通过多头自注意力机制学习序列之间的相互关系，并使用位置编码对序列中的位置信息进行建模。在解码过程中，该方法利用预测过程中得到的信息对序列进行逐步生成，以此得到未来的轨迹。基于transformer的行人轨迹预测方法可分为单模态预测和多模态预测两类。单模态预测是指在预测行人轨迹时，只考虑行人当前的位置、速度等单一模态的信息，不考虑多种可能的情况。多模态预测则考虑了不同模态（上下文信息、空间关系和位姿信息等）之间的关系，通过对可能的模态进行建模，得到多个不同的预测结果，并通过模型的可信度进行融合，提高预测的准确性。

在单模态轨迹预测方法上，giuliari等人[20]利用transformer模型实现单模态行人轨迹预测任务。模型基于transformer的编码器和解码器结构加入当前和过去时刻的位置信息进行训练和测试，用于预测未来的行人轨迹。该方法较好的实现了单模态轨迹预测效果，但是未考虑解码器输出的时序性会造成预测结果级联错误的问题。为此，yao等[70]提出了一种基于transformer的端到端的轨迹预测算法，通过在解码器的训练集中加入适当的偏差（噪声），迫使网络实现自纠错的能力，避免了文献[20]中出现的轨迹预测结果级联错误问题。yu等人[71]提出了一种基于空间-时间图transformer网络（spatio-temporal graph transformer networks）的单模态行人轨迹预测方法。该方法使用空间-时间图来表示行人轨迹数据，然后利用图卷积神经网络和transformer结构对行人轨迹进行建模和预测。其中，图卷积神经网络用于提取行人轨迹数据中的空间关系，transformer用于学习序列中的时间关系，从而更好地对行人轨迹数据进行建模和预测。saleh等人[72]提出一种基于上下文增强transformer网络的单模态行人轨迹预测方法。该方法使用历史轨迹数据以及环境上下文信息（例如地图）来预测未来的行人轨迹。其中，历史轨迹数据通过位置编码和时间编码输入到transformer网络中，而环境上下文信息则通过卷积神经网络编码并与历史轨迹数据的编码进行结合。最后，通过transformer解码器输出未来的轨迹预测。该方法在多个数据集（eth/ucy）上进行了实验验证，取得了较好的预测性能。

在多模态轨迹预测方法上，yin等人[73]考虑到cnn或rnn在捕捉行人和自车之间的高动态运动交互特征方面存在的缺陷，设计一种多模态transformer网络架构（multimodal transformer network ，mtn），通过引入光流来补偿自车和行人之间的高动态运动特征进而来预测行人多模态轨迹。实验结果表明，该方法能够很好的应用在无人驾驶场景中。li等人[74]结合基于图的空间transformer和记忆重放机制实现对空间交互信息的全面利用，并且纠正了轨迹预测中的时间不一致问题。该方法在多个行人轨迹预测数据集上进行了实验，并与多种基准模型进行了比较，实验结果表明该方法能够在多模态轨迹预测任务中取得优秀的性能。su等[75] 提出一种基于交叉模态transformer的生成框架来进行行人轨迹预测。该模型将视觉、语义和时空信息集成到同一模型中，实现了对多模态数据的处理。实验结果表明，该模型在多个数据集上均取得了最优或接近最优的效果，证明了其在多模态轨迹预测任务中的有效性。

综上所述，基于transformer的行人轨迹预测方法可以根据预测输入的信息分为单模态预测和多模态预测两类。在单模态预测中，只考虑行人自身的历史轨迹信息进行预测，而在多模态预测中，还会考虑环境信息和其他行人的信息等多种输入。总体而言，无论是单模态还是多模态预测，基于transformer的行人轨迹预测方法能够显现出强大的长程依赖建模能力、并行计算能力、位置编码能力，以及具有多头自注意力机制等模型优点。但是，该方法同样也存在着对短序列的处理效果可能不如传统模型、以及模型本身结构较为复杂等缺点。此外，基于transformer的方法对于大规模的数据集及模型依赖性较强，模型受限于正常的数据序列，很难将其推广到结构化数据（序列）中，例如图序列等，这也是该方法在该领域未来需要研究的问题。表5按照论文发表时间顺序对基于transformer的行人轨迹预测方法进行汇总。

表5 基于transformer的行人轨迹预测方法

方法	发表年份	文献标题	输入信息	网络结构	数据集
saleh等[72]	2020	pedestrian trajectory prediction using context-augmented transformer networks	历史轨迹、上下文信息	基于transformer的编解码结构	eth/ucy
star[71]	2021	spatio-temporal graph transformer networks for pedestrian trajectory prediction	历史轨迹信息	基于图卷积（gcn）和transformer结构相结合	eth/ucy
giuliari等[20]	2021	transformer networks for trajectory forecasting	历史轨迹信息	基于transformer的编解码结构	eth/ucy、sdd
yin等[73]	2021	multimodal transformer network for pedestrian trajectory prediction	历史轨迹、上下文信息	基于transformer的编解码结构	jaad/pie
yao等[70]	2022	end-to-end pedestrian trajectory forecasting with transformer network	历史轨迹信息	基于端到端的transformer编解码结构	eth/ucy
li等[74]	2022	graph-based spatial transformer with memory replay for multi-future pedestrian trajectory prediction	历史轨迹信息、rgb图像信息、场景语义信息	基于图卷积网络和transformer网络相结合	eth/ucy、virat/actev
su等[75]	2022	crossmodal transformer based generative framework for pedestrian trajectory prediction	历史轨迹信息、行人速度和加速度信息	基于交叉模态的transformer网络架构	jaad/pi

4数据集及性能比较

4.1数据集介绍

数据集是神经网络模型训练或测试必不可少的组成部分。为了研究和推进行人轨迹预测算法的发展，许多主流的数据集应运而生。这些数据集涵盖了各种不同的场景和情况，例如室内和室外环境、不同时间段、不同人群等。本文接下来将介绍行人轨迹预测方法中所涉及到的数据集，它们被广泛应用于行人轨迹预测算法的研究和评估。

eth[29]和ucy[45]数据集是一种开源的公共数据集，广泛用于行人轨迹的预测及评估。其中，eth数据集包含eth和hotel两个场景，ucy数据集包含三个场景，分别是univ、zarae1和zarae2。以上5个场景视频中共有5075帧，涉及超过1600条行人运动轨迹，并每隔0.4秒对行人具体位置坐标进行标注。每个场景都包括一个或多个视频序列，涵盖了不同的时间段、天气条件和人流量。每个视频序列都提供了高质量的注释数据，包括行人的位置、速度、方向和行走方式等。该数据集被广泛应用于计算机视觉和机器学习领域的研究，成为许多行人轨迹预测算法的基准数据集之一。

斯坦福无人机数据集（stanford drone dataset，sdd）[76]是一种用于行人轨迹预测与目标追踪的大规模数据集。该数据集由斯坦福大学计算机科学系开发，包括视频、图像和注释数据。它通过无人机以鸟瞰图的角度获取斯坦福大学校园的一系列不同的场景，包括街道、公园、广场等。该数据集被分为训练集和测试集，其中测试集仅提供行人的初始位置和出现时间，用于预测智能体未来的运动轨迹。此外，数据集中提供了大学校园区域内大约19000条agent轨迹，并且行人的位置每隔0.4秒被注释一次。该数据集中的标注信息包括目标类别（如行人、车辆、自行车等）、位置和尺寸等信息，可以用于训练目标检测和跟踪模型。sdd已经成为无人机视觉领域中广泛使用的数据集之一，对于研究无人机视频分析算法和应用具有重要意义。

actev/virat [77]是两个用于视频活动事件检测和识别的基准数据集。其中，actev数据集包含超过180小时的视频，共包括接近3000个视频剪辑，涵盖了许多不同的场景和活动类型，包括室内和室外环境中的人类活动、车辆行驶、运动员比赛等。virat数据集包括超过100小时的视频和相应的元数据和注释，包括时间戳、gps位置、对象类别和行为注释等。该数据集涵盖了许多活动类型，如人类活动、车辆、船只、飞机等。它还包括一些任务，如目标跟踪、行为分析、事件检测等。这些数据集的发布推动了视频中活动识别和相关领域的研究发展，也为开发和评估视频分析算法提供了重要的基础。

caltech pedestrian数据集[78]是一个用于行人检测和行人跟踪任务的数据集。该数据集由美国加州理工学院开发，通过车载相机获取实际场景中的行人图像。caltech pedestrian数据集包含大约10小时的高分辨率视频，视频中每个图像都被标注为行人或非行人，并且行人的历史位置也都已经被标记。此外，数据集还包含了行人运动轨迹的注释，使得该数据集非常适合进行行人跟踪和行人轨迹预测的研究。

pets 2009(performance evaluation of tracking and surveillance) [79]数据集是用于计算机视觉中视频跟踪和监视性能评估的一个具有挑战性的数据集，该数据集由6个不同的视频序列组成，其中包括在室内和室外拍摄的行人和车辆等不同类型的目标。这些序列具有不同的挑战性，例如包含光照变化，目标重叠和部分遮挡等情况。该数据集还包含了手动标注的目标位置，以供跟踪算法评估使用。pets 2009数据集是学术界和工业界广泛使用的数据集之一，用于评估和比较行人跟踪和监视算法的性能。

crowdhuman[80]是一个大规模的自然场景下的行人检测数据集，由香港中文大学多位研究人员于2019年发布。该数据集包含超过15000张图像和超过470000个标注的行人框。这些图像是在各种自然场景中拍摄的，如街道、商场、火车站等。数据集对人群中的行人进行了精细的标注，包括对行人遮挡、多个行人之间的相互干扰等场景的标注。数据集的发布旨在推动计算机视觉领域对自然场景下行人检测算法的研究和发展。

随着传感器技术的不断发展，大量新型的数据集不断涌现。近些年来，最新出现的数据集中，ind（intersection drone dataset，ind）[81]数据集是一个大规模的空中视频和图像数据集，用于目标检测和跟踪。数据集中视频时长10小时，共计约13500条轨迹。数据集包括来自六个城市交叉路口的高分辨率图像和视频。每个交叉路口包含多个摄像机。由于拍摄的角度和距离不同，因此数据集具有丰富的场景内容。数据集中的目标类别包括行人、自行车、汽车、公交车、货车等。数据集中还包含各种天气条件下的场景，例如晴朗、阴天、雨天等。该数据集的发布推动了无人机自主驾驶技术的发展，为无人机应用提供了基础研究和评估工具。

jaad[82]和pie[83]数据集是用于研究交通场景中行人行为的两个大型公共自然数据集。jaad数据集是一个包含了视频和图像序列的数据集，其中包括了各种不同的交通场景和行人行为，例如行人穿越街道、十字路口等待、穿越斑马线等。该数据集包含了超过400个视频和100000帧图像，其中每个视频长度约为5分钟。此外，数据集还提供了基于视频中的车辆和行人的注释标签。pie数据集是一个由北京理工大学提供的行人图像和视频数据集，其中包含超过40000张图片和1200个视频。该数据集涵盖了各种不同的行人行为，包括行走、奔跑、上下楼梯、穿行马路等。此外，数据集还提供了对每个图像和视频的详细注释，包括行人的位置、姿态、行为、属性等。以上两个数据集都提供了行人穿越马路意图的图像信息和注释信息，其中jaad更关注行人穿行意图信息，pie主要提供在马路旁所有人的注释，标识出谁可能会或可能不会试图在此车辆前面穿过马路。jaad和pie数据集为行人行为识别和理解的研究提供了有价值的资源，并且被广泛应用于行人姿态估计和行人重识别等领域。

stcrowd[84]是一个拥挤场景的大型多模态数据集，主要用于行人检测和目标跟踪任务。该数据集中共有219000个行人，视频中平均每帧20人，在极度拥挤的场景下，每帧包括30人，并且每一帧图像具有不同程度的遮挡。该数据集采集了9个不同场景的数据，涵盖了不同的天气、光照条件和路况。凭借丰富的注释信息，stcrowd能够适用于不同的任务，包括仅lidar、仅图像和基于传感器融合的行人检测与跟踪任务。表6呈现了数据集相关对比信息并按照发布时间进行了排序。

表6 数据集预览

数据集	发布时间	agent	场景数量	传感器	时长	位置
ucy[29]	2007	行人	3	相机	29.5 min	校园、城市街道
eth[45]	2009	行人	2	相机	25 min	大学入口、人行道、酒店入口
pets 2009[79]	2009	行人	10	相机	20h	公共场所、室外场景
caltech pedestrian[78]	2009	行人	7	车载相机	10h	城市道路
sdd[76]	2016	车辆、行人	20	相机	-	校园
jaad[82]	2017	行人	346	车载相机	240h	城镇地区、城乡地区
actev/vir[77]	2018	行人、车辆、船只等	12	高清相机	280h	路口场景、街道
crowd human[80]	2018	行人	15000	相机	-	城市路口、商场街道
ind[81]	2019	车辆、行人、自行车	4	相机	10h	城市路口
pie[83]	2019	行人、车辆	-	车载相机	6h	城镇地区、城乡地区
stcrowd[84]	2022	行人	9	激光雷达、相机	-	交通路口

4.2评价指标

行人轨迹预测模型的评价指标主要用于估计未来预测轨迹与真实轨迹的偏差，常用的评价指标概括如下：

（1）平均位移误差（average displacement error，ade）和最终位移误差（final displacement error，fde）。ade指每个预测位置和每个真值位置之间的平均欧式距离差值，代表了模型在轨迹上的平均预测性能。fde代表终点预测位置和终点真值位置之间的平均欧式距离差值。以上两个指标的数值越小，预测精度越高。相应的公式如式（1）和式（2）所示：

4.3性能比较

在以往的研究工作中，eth/ucy数据集被广泛应用于行人轨迹预测领域的性能测试。因此，本文重点比较了基于该数据集的不同行人轨迹预测算法在ade和fde两个指标上的表现，具体结果如图3和图4所示。通过分析图3和图4的趋势可以看出，基于数据驱动的行人轨迹预测方法（s-lstm[22]、group-lstm[42]、sgan[21]、social-stgcnn[54]、ssagcn[61]和star[71]等）能够实现一个较好的预测结果，其预测精度远高于基于模型驱动的行人轨迹预测方法（lstm(linear)[22]）。基于lstm的行人轨迹预测方法（s-lstm[22]、group-lstm[42]和starnet[44]等）通过lstm本身特有的网络结构，能够处理序列数据和捕捉长期依赖关系，因此能够获取较好的轨迹预测结果。值得注意的是，所对比的方法中，ssagcn[61]在ade和fde上取得了最好的性能指标。它之所以能够取得优异的性能，是因为它不仅能够生成多条轨迹样本，更重要的是模型将图卷积网络和软注意机制结合起来进行学习。图卷积网络能够对社交网络中的节点和边进行建模，软注意机制可以动态地学习和调整节点和边的重要性。该模型同时考虑了行人之间的社交互动和行人与环境之间的场景互动，从而实现了较好的行人轨迹预测效果。基于gan的行人轨迹预测方法（sgan[21]、sophie[46]和social way[47]等）通过gan的对抗博弈思想来促使网络生成更加真实的轨迹样本，进而将行人轨迹预测的准确度有了很大的提升。此外，基于transformer的方法则是近年来迅速发展起来的一种新方法，通过图中的趋势可以看出，基于transformer的模型（star[71]等）在处理行人密度较高的数据集场景（univ、zara1和zara2）上有更好的表现。与rnn不同，transformer模型能够处理长期依赖关系，并且能够进行大批量并行训练，这也是该方法在行人轨迹预测中的亮点之一。总体而言，基于数据驱动的轨迹预测方法借助于大规模数据集和深度神经网络的结构特征，能够精确地预测行人未来的运动轨迹。

图3 eth/ucy上的ade对比

图4 eth/ucy上的fde对比

4总结与展望

行人轨迹预测是计算机视觉和人工智能领域的研究热点，目前已经在自动驾驶、智能交通、机器人导航、智慧城市以及智能安防等领域得到广泛应用。近年来，随着深度学习技术的不断发展，行人轨迹预测技术也得到了广泛关注和研究。本文对近年来行人轨迹预测方法进行了研究，以分类任务作为切入点，对目前已有工作中的行人轨迹预测方法进行了综述，对轨迹预测中现存的关键问题进行了分析，同时对不同方法的优缺点进行了总结与归纳。结合行人轨迹预测技术的发展趋势可以看出，伴随着大量数据集平台的推陈出新，基于数据驱动的行人轨迹预测算法能够实现相对于模型驱动方法更好的轨迹预测效果。未来，随着技术的不断进步和人工智能算法的不断优化，行人轨迹预测技术将呈现以下几个发展趋势：

1. 更高的预测准确度：随着深度学习算法的不断优化和硬件的提升，行人轨迹预测的准确度将不断提高。同时，越来越多的数据集和模型将被开发，以帮助改进行人轨迹预测算法的性能。

2. 更高的智能化：未来，行人轨迹预测技术将更加智能化。例如，基于大数据和人工智能算法，系统可以分析行人的历史行为，以预测未来的行为。这将为行人的行动提供更多的细节和上下文信息，并帮助系统更准确地预测其行动轨迹。

3. 更广泛的应用场景：未来，行人轨迹预测算法将在更广泛的应用场景中发挥作用。例如，在智慧城市领域，系统可以预测人群在不同时间和地点的分布，以帮助城市规划者更好地管理交通和城市设施。在机器人导航领域，行人轨迹预测算法可以帮助机器人更好地避让行人，进而更安全地与人类交互。

4. 更多的交互式应用：未来，行人轨迹预测将变得更加交互式。例如，在智能安防领域，系统可以根据行人的行为预测来警告安保人员。在游戏和虚拟现实领域，例如在元宇宙中，行人轨迹预测可以用于创建更逼真的虚拟人物，并提高用户沉浸式体验。

总之，随着技术的不断发展和应用场景的不断扩大，行人轨迹预测方法将在未来得到更广泛的应用和更深度的发展，为人们的生产和生活带来更大的便利和安全。

自动驾驶背景下行人轨迹预测方法关键问题与展望

2024年08月05日 • 交互 •我要评论

一导读

二论文介绍

1引言