书城社科数字媒体资产管理系统
9664100000025

第25章 文件格式(2)

目前正在制定不同的操作模式。对MXF操作模式1a(单项、单包)的建议在Devlin(2002)中给出。它含有表示KLV编码分区包的文件开始的序言部分。头部元数据包含直接访问文件的结构化元数据和描述性元数据。文件体包含在单个素材元素中(也可能是被交叉访问的素材元素)。在文件尾,结尾部分用KLV分区包来结束文件。文件尾部也能包含文件元数据的重复随机素材包,它定义了指向文件中不同部分的指针。

除了MXF操作模式1a,其他的直到3c的操作模式正在具体确定。操作模式2a被定义为组合素材对象应用于类似列表单方式编辑的节目,而操作模式3a允许将只剪辑编辑应用于源包。在这些情况下,视频和音频总是交叉的。操作模式1b到3b类似于操作模式1a到3a,它们之间的差别在于操作模式1b到3b可以访问多源包,即允许非交叉的视频和音频。操作模式1c到3c通过允许在可替换源包间的选择来加强这种功能,即在单个MXF文件中提供多种语言版本。

5.2高级制作格式

高级制作格式(Advanced Authoring Format, AAF)也是在行业驱动下提出的,以利于跨平台多媒体文件格式的发展。已成立的AAF协会致力于促进和开发AAF技术。该协会的创建成员是Avid、BBC、CNN、Discreet、Matrox、Microsoft、Sony、Turner Entertainment Networks和inter alia。

AAF是一种通用的多媒体文件格式,用于跨平台的数字媒体(即素材)和元数据的交换,以及在系统和与AAF相容的应用程序之间的交换。它并没有被设计成流素材格式。它既考虑到本机的捕获和回放过程,也支持大数据对象的灵活存储。AAF专门考虑了内容的创建和制作过程的要求。在这种情况下,非常重要的是,能同时访问一个或多个源素材文件,也能容易地对素材进行操作或编辑,并能对产生的结果按顺序存储在AAF相容的文件中。在这个过程中会产生元数据,该元数据必须与创建的多媒体项目一起存储在AAF文件中。

AAF面向的应用是电视演播室系统(包括非线性编辑、服务器、效果处理器、自动化系统和内容管理系统)、后期制作系统(包括离线编辑器、图片和生成系统、图像操作应用程序、含有多声道混合器和采样器的音频制作系统)和高级多媒体制作工具(例如3D生成工具、内容重装应用程序等)。

AAF支持素材和(某种类型的)元数据的互换。因此,AAF指明了一个表示内容对象的结构化的容器。容器的素材部分可以包含音频、视频、静态图像、图形、文本、动画、音乐和其他多媒体数据。AAF的元数据部分与如何结合和修改所包含的素材组成的信息有关,也与素材的创建及所包含的有关素材特征的附加信息的方式有关。组合信息准确地描述了音频、视频或静态图像在表示内容对象时是如何被结合或修改的,这被看成是创建性元数据的一部分。创建过程的历史记录被保留在AAF文件中(包括时间、日期和版本)。在AAF文件中,也能特别声明某种素材是如何从其他(原始)资料中得到的。在这种情况下,在AAF文件中保留对其他外部文件的参考也是至关重要的。

与多媒体内容和电影的创建相关的是可扩充的视频和音频效果结构,它包括一系列内在的基础效果扩展集合,这些效果通常用于视听材料的编辑过程。

5.2.1AAF文件结构

一个AAF文件包含一个头部对象(与相关对象)、包(由不同的对象组成)和素材数据。

每个文件只有一个头部对象,该对象用于说明在文件中存储数据的字节顺序、最后一次修改的日期和时间、AAF标准所涉及的版本号、一个字典对象(存储所有定义)和一个内容存储对象。

字典中包含类的定义、属性定义、类型定义、数据定义、参数定义和效果定义。在AAF描述说明中没有定义的必须在字典中加以定义。AAF也允许扩展定义,例如对新的效果、新的元数据类型和新的素材类型进行扩展定义。

AAF文件中的包是一个具有唯一标识符的对象,它描述了素材和素材成分之间的关系,即它由与素材相关的元数据组成。

包有一个或多个槽,每个槽都与一种类型的素材有关,每个槽都是分开标识的。每一种槽定义了一种具体的素材数据和时间之间的关系。有用于离散媒体的静态槽(如静态图像和文本)、用于连续媒体带有固定时间参考的时间线槽(如音频、视频、时码)和用于描述不规则时间关系的事件槽(如GPI或交互事件)。

在AAF中对不同包的类型都进行了详细的说明。物理源包描述了素材的起始源(即素材成分获得的源头)。文件源包描述了数字素材数据(如MPEG-2、WAVE和JPEG)。资料包用于文件源包定位,也用于描述应该如何对单个素材元素同步或交叉操作。组合包中含有素材应该如何表示的创造性决策,例如,它包括素材成分的顺序和位置、修改或组合素材成分的效果;又例如,它能在组合包中详细说明在2个素材片段之间的迁移。

5.2.2AAF中的素材

一个AAF文件能存储多种类型的素材。这些素材类型包括:

·不同格式的视频编码,如MPEG、RGBA和YCbCr。

·不同格式的音频编码,如Broadcast WAVE。

·不同格式的静态图像,如JPEG、GIF和TIFF。

·MIDI音乐素材。

·不同格式的文本。

·复合格式,如DV、MPEG传输流。

素材描述符(在源包中)描述了素材格式的细节。一个素材描述符是一个抽象类,用于描述素材数据的格式。素材描述符用于描述存储在素材数据对象或引用的非容器文件中(所谓的文件描述符)的素材,也用于描述物理媒体源。

对于连续媒体,时码对于素材的描述至关重要。在AAF文件中,时码要么用来作为一个参考点的起始时码,要么包含在一个时码数据流中。也允许使用非连续时码,这在复合媒体对象环境中特别重要。

5.2.3AAF类模型和类层次

AAF的功能描述是面向对象的。在AAF的功能描述中,定义了类层次和类模型,它们用来描述多媒体成分和数据。其主要目的是提供封装多种类型的素材和元数据机制。

一个AAF类通过定义可能包含的信息种类以及它应该如何被使用和解释来说明一个对象。AAF的类可以继承,但一个类只能从一个直接的超类中继承。

在AAF的类层次中规定了2个根类,即交换类(Interchange Class)和元定义类(Meta Definition Class)。基础AAF类的扩展可以在文件的AAF头部对象的类字典和定义中进行定义。

5.3BWF和其他的多媒体文件格式

在多媒体领域中,有多种(多是专有的)文件格式。大多数文件格式集中在素材能以某种结构化方式存储在某种系统环境下。例如AVI(用于存储视频)、Quick Time(用于回放和流媒体)、Adobe Photoshop格式(主要用于存储静态图片)、MS DirectX(用于3D图像的优化)、AVID的开放媒体框架(Open Media Framework, OMF)和高级流格式(Advanced Streaming Format, ASF)等。目前还没有适合于所有多媒体应用的通用文件格式。例如AVI不支持组合信息和辅助信息(如时码信息)的存储,其他格式不允许存储压缩的素材数据等。专有格式的缺点是它们只考虑某些需求,并且有时并不公开。内容管理系统必须能够存储和处理这些文件,但是处理和提取它们中存储的信息又是一个必须针对每种格式单独完成的特定工作。

内容管理系统必须能够处理上面已经介绍过的主要用于专业环境中的格式,还要处理用于音频的BWF格式和许多其他的开放多媒体文件格式。微软与IBM合作一起定义了资源交换文件格式(Resource Interchange File Format, RIFF)用来作为一个基础的标记文件结构,许多多媒体文件格式都是基于该文件结构的。RIFF专门考虑了记录和回放多媒体数据以及在不同平台之间交换多媒体数据的需求。RIFF的基本构建模块是由含有编码媒体数据的元数据和实际编码素材本身的块组成,而且用注册表表单定义RIFF的格式。这张表单包含PAL(一种表示逻辑色板的文件格式)、RDIB(RIFF设备独立位图格式)、RMID(RIFF MIDI格式)、RMMP(RIFF多媒体电影文件格式)和WAVE(原始的波形音频格式)。富文本格式(Rich Text Format, RTF)定义了使用7比特ASCII码字符的编码格式文本和图片的标准方法,RTF格式也属于RIFF兼容文件格式的系列。

大多数多媒体文件格式都带有元数据。然而,在大多数情况下,这些元数据是用来描述素材编码和处理过程的。因此,许多这样的格式可能只适用于已定义的专门用途,而不能作为素材交换和描述性元数据扩展集的通用多媒体文件格式。

5.3.1广播波形音频文件格式

波形音频文件格式(Waveform Audio File Format, WAVE)最初是由微软和IBM共同定义的。由EBU定义的广播波形音频文件格式(Broadcast Wave Format, BWF)是基于这个最初定义得到的。WAVE是一种用于从微软RIFF中提取音频数据的文件格式。BWF针对原始的格式,定义了一些专用于广播的扩展格式。

BWF文件中的2种编码类型已有明确的规定,即脉冲编码调制(Pulse Code Modulation, PCM)音频和MPEG-1音频。前者是无损编码的CD音质,而后者是标准的MPEG-1编码音频。在BWF文件中也可以使用其他的编码类型。因此,一个扩展的波形格式结构被用来对这些编码类型的某些参数和特征加以详细说明。

BWF文件的基本构建模块包含具体的信息:一个标识域和一个长度域。在BWF文件中,有用于不同信息位的不同种类的块。

〈fmt-ck〉是必需的WAVE格式块,它定义了波形数据的格式。在这个块中,规定了格式类别、声道号、采样率、缓存估算和数据块对齐方式。在BWF中定义了2种格式类别,即PCM和MPEG-1。至多有2个声道:声道0表示立体音频的左声道,声道1表示右声道。缓冲估算说明了每秒钟应该传送波形数据的字节数。

〈fact-ck〉和〈mpeg-audio-extension〉是MPEG的专有模块。除了PCM以外,〈fact-ck〉对所有的WAVE格式都是必需的。与〈fmt-ck〉的扩展一起,〈fact-ck〉说明了需要确定MPEG编码选项的信息。〈fact-ck〉包含有关〈wave-data chunk〉内容的文件依据的信息,对于MPEG,它说明了数据样本的长度。〈mpeg-audio-extension〉块给出了声音文件的附加信息,如MPEG-1音频层和辅助数据长度。在MPEG编码的数据中,逐帧描述某种元数据是可能的。这方面包括版权和保护信息。

BWF文件还包含广播音频扩展块,这个块专门用来定义广播机构间的资料交换,它包括:

·一个256个字符的描述域。

·创作者域(用于记录创作者或生产者的名字)。

·创作者参考(应该是一个全球唯一的标识符)。

·创建日期和时间。

·时间参考(即序列时码)。

·相关BWF标准的版本。

·编码历史(用特定参数指出声音的类型)。

还可以增加附加的块,不过这些块是可选择的,不一定所有的应用程序都支持。〈wave-data〉块包含编码音频数据。