封闭字幕的完整指南

美国对流媒体content的字幕的法律要求.S. 对于由联邦政府制作或资助的媒体来说，这一点在2010年就变得清晰了 21世纪通信和视频无障碍法案最新的更新是第508节该法案于2018年生效. 该法案和更新的content也涵盖了在传统电视分发系统上同时播放或先前播放的流媒体，联邦通信委员会(Federal Communications Commission)已经对这些系统的字幕设定了要求. 因为从未在电视上播出过的视频节目, 判例法的发展是为了加强期望, 值得注意的是两国之间的一系列民事案件全国聋人协会以及各大网络视频平台和民办高校.

此时此刻, 对字幕的期望得到了很好的证明, 比聋人群体更广泛的观众需要字幕. 随着这种需求成为主流, 这表明在一段时间之前已经达到了临界质量, 任何提供视频的平台都需要为其配上字幕来竞争. 达到临界质量是通用设计运动的目标之一. 它试图为部分有感官障碍的观众提供技术便利，这严格要求它以一种机会主义的方式最大化普通观众的价值.

Closed captioning on television once required a separate device to decode the captions 和 print them on the television screen; for decades, 这种解码功能已经内置到电视机中，可以很容易地打开和关闭. 由于这种易用性, 在无法听音频的情况下，比如在有多台电视播放不同频道的餐馆或小酒馆，封闭字幕对听力正常的观众来说是一种入侵, 在机场, 在哄孩子入睡的时候. 字幕对于学习第二语言的人来说非常有价值，对于那些正在观看使用不熟悉的词汇或带有明显口音的content的人来说也是如此. 制作和提供准确字幕的成本是固定的, 因此，最大限度地提高字幕的受众对content生产者和交付平台都有很大的好处.

在继续之前，让我们先澄清屏幕上三种不同类型的辅助文本. 第一种是封闭字幕，即与视频同步传送的文本. 它可以打开或关闭，并提供等效 content为节目中的所有音频content. 除了, 封闭字幕可以包含音乐等未说出口的音频元素, 闹钟响了, 脚步, 或者一扇门关上, 因为这些元素可能需要创造预期的观看体验. 第二个, 打开字幕, 填充相同的角色，只是文本被合成到携带电影content的视频流中，并且不能隐藏. 开放字幕对于信息亭的展示和社交媒体活动来说是很好的，因为这些活动的目的是让路过或滚动的人听不到音频, 和, 因此, 文本需要提供这些信息. 在大多数其他情况下，打开字幕并不理想，因为观众希望对回放有更多的控制. 打开的标题也不是可以重新用于搜索的文本元数据, 复制/粘贴, 或SEO在良好的通用设计时尚.

第三种文本是字幕. 这与封闭字幕非常相似，只是它们的目的不是提供与音频content相同的content, 而是翻译 content. 有些电影在偶尔出现说不同语言的场景时使用开放字幕. 尽管字幕的功能与字幕不同, 这个功能覆盖了更多的目标受众, 和, 通过使用相同的技术, 它在字幕主流化方面发挥了至关重要的作用. 字幕可能会与在线全球平台上的字幕合并，在这些平台上，不同翻译的字幕将继续为国际聋人观众提供非口语音频的描述, 事实上，这些术语在日常用法中也可以互换.

标准定义时代遗留的字幕格式

最初，在美国的字幕.S. 电视，以及随后的VHS录像带，被标准化为EIA-608，后来是CEA-608. 它们也被称为第21行标题, 因为字幕数据是在国家电视标准委员会的图像字段中编码的. 尽管标准清晰度电视已经过时了20年，EIA-608字幕编码在今天仍然具有相关性. EIA-608的比特率将标题的最大长度设置为32个字符, 这仍然是标题分割的默认设置. 存储在文本文件中的EIA-608数据称为场景封闭字幕(SCC)文件. 这仍然在使用，并得到各种软件和许多视频平台的支持, 包括苹果 Final Cut Pro和Adobe Premiere.

另一种过时的格式是DVD标准的字幕编码, 其中字幕被存储为位图文件，在光盘上的MPEG-2传输流容器内的字幕轨道中有一个alpha通道. 当DVD播放机被指示显示其中一个可用的字幕曲目时, 它会将那些大部分是透明的图像覆盖在视频帧上. dvd也可以在第21行存储标题数据, 在这种情况下, 电视机将代替DVD播放机处理解码.

DVD字幕格式正在变得强大，因为 SubRip这是一个开源程序，用于制作盗版DVD本地化. SubRip扫描DVD的图片流, 使用监督OCR, 生成字幕轨道的文本元数据文件，其中包含所有提取的字幕. SubRip使用自己的标题数据格式，称为SubRip文本(SRT)。, 现在最常用的标题文件格式是什么. SRT包含有趣的时代错误. 例如, 因为这是一种用于非官方本地化的手工编辑翻译字幕的格式, 它是为了便于阅读而不是机器解析而设计的. An SRT file consists of a sequence of data blocks about extracted pictures: the number of the picture in the DVD subtitle track; a pair of timecodes for the start 和 stop time that the picture was shown on the DVD, separated by an ASCII art arrow; 和 one or more lines of text that were identified in the picture (see 图1). 因为SubRip的原作者是法国人, 时间码使用逗号作为秒和毫秒之间的小数点分隔符. 空白行分隔列表中的标题.

在21世纪初，免费的开源MPlayer支持SRT. 在流媒体的早期，它成为一种流行的格式，被其他视频播放软件采用, 但只适用于可下载或盗版的content.

图1. SubRip文本(SRT)标题数据的示例.

流媒体中的老式字幕

在21世纪初，流媒体的视频字幕并没有采用SRT, 但早期支持字幕的流媒体平台的一个有影响力的例子是RealMedia. 真实服务器在RealMedia文件中托管视频，其中包含视频和音频数据的完整编码阶梯，以支持自适应比特率切换. The caption data was not included in the RealMedia files along with the A/V streams; instead, 标题数据存储在单独的RealText文件中——基于xml的数据文件，可以显示定时标题或字幕文本——或者用于非常不同的目的，比如提词器文本. RealMedia和RealText演示使用同步多媒体集成语言(SMIL)文件组合在一起，在受控布局中并行播放媒体和字幕. SMIL可以定义一种布局，其中字幕显示在视频播放器下方的区域，文本和背景之间具有最大的对比度，并且不会阻塞视频的任何部分. 另外, SMIL布局可以将字幕放置在视频上方的某个区域, RealText中的标记可以在框架的不同位置放置不同的标题，以避免覆盖重要的数字或低三分之一的标题卡. 在EIA-608中，标题的位置和样式是不可控制的, 因此，在第一代高清电视采用CEA-708字幕标准之前，电视上的字幕content可能比网络视频更糟糕. 说明文字要求，包括法律和行业标准，由网页content易读性指引，重点放置标题文字，以免遮挡框内重要的视觉content.

By 2010, RealNetworks和其他基于实时流媒体协议的媒体传输技术在很大程度上已经被Flash取代, 一个比仅仅支持媒体播放更有野心的浏览器插件. Flash's video components 和 ActionScript programming language adopted a captioning st和ard originally called Distributed Format Exchange Profile (DFXP) that was around this time renamed Timed Text Markup Language (TTML; see 图2). TTML是一种基于xml的数据格式，微软的流媒体技术以前也使用过这种格式. 它是由万维网联盟工作组开发的，该工作组最初包括来自SMPTE的专家, 微软, 苹果, 以及WGBH的媒体访问组(波士顿公共广播公司电台，在电视和其他媒体的字幕技术以及音频描述方面发挥了巨大作用)。. 后来又有其他人加入了这个团体, 包括Netflix, 英国广播公司(BBC), 以及欧洲广播联盟. 2016年，几位贡献者因开发TTML获得了技术艾美奖. 顺便说一下, Real-Networks公司继续进行其他冒险, 2020年以7000万美元的价格出售Napster，并提供人工智能媒体产品的核心产品线，如SAFR和Kontxt.

图2. 一个定时文本标记(TTML)标题数据的示例

HTML5和超越的封闭字幕

与此同时，Flash已经占据了流媒体的主导地位, HTML5标准正在形成, 包括备受期待的视频标准化，这将简化在网站上嵌入媒体，同时使用所有html5兼容浏览器的原生技术. 也许是为了将HTML5视频标准作为对抗Flash和浏览器插件的陪衬, HTML5采用的视频字幕标准是对SRT的一个小更新, 最初更名为WebSRT, 然后是网络视频文本跟踪(WebVTT), 或者只是VTT). 有几个主要的功能变化:不再需要字幕图片编号, 如果有的话, were used as chapter markers; the decimal delimiter was switched from a comma to a period; 和 optional metadata headers or inline markup were added to allow precise placement 和 styling of caption text. 在TTML上采用VTT是一个令人惊讶的决定，因为VTT依赖于空白和ASCII格式——回想一下，SRT是为手工编辑而不是可靠的机器验证和解析而优化的. ActionScript 3中许多有用的视频相关开发.0也被排除在未来版本的ECMAScript之外, 还有html——这两个婴儿和Flash洗澡水一起被扔出了标准.

但是，TTML正在卷土重来. 国际电视3.0广播标准采用TTML作为其强制的标题标准, 特别是定义标题和副标题所需的TTML规范子集的IMSC1配置文件. 电视3.2016年，0在韩国全国范围内推广，美国也正在发生这种转变.S. 以下一代电视的名义, 该节目目前正在43个城市的150多家电视台播出. 2017年，苹果热情地在HTTP直播(HLS)规范中添加了对IMSC1/TTML字幕的支持.

TTML既是广播电视的字幕标准，也是Netflix等流媒体行业领导者所采用的标准，这对content生产者来说是一个明显的好处，并为TTML指明了光明的未来.

制作封闭字幕

字幕的任务是双重的:准确地转录音频content，并将其布局，以便它与音频同步出现，而不会阻塞电影content的重要部分. 对于字幕来说，不能牺牲准确性. 最快最准确的抄录员是速记员, 例如法庭记录员和通信访问实时翻译(CART)字幕员. 他们的薪水很高, 高技能专业人员, 收入, 至少, 每小时55美元(通常更多)，实时制作逐字抄本. 用于视频点播(VOD), 速度并不是最重要的, 所以便宜, 速度较慢的转录员可以完成这项工作. 通常，领域专业知识需要额外的费用，例如医疗转录服务.

使用自动语音识别(ASR)可以显著提高非专业人员的转录时间。. 20多年了, 当ASR引擎能够很好地调谐到特定说话者的声音，并且说话者不自然地清晰地发音时，ASR的性能就足够了. 利用这些优化, 一种被称为“鹦鹉学舌”的技术已经被采用，在这种技术中，转录员听一段音轨，然后非常清楚地将他们听到的content转化为计算机转录, 边走边纠正. 在过去的5年里, 通用ASR已经改进到这样的程度，即纠正自动识别的转录本所花费的时间比从头开始输入所花费的时间要少得多.

一旦转录产生，它需要与它转录的音轨时间同步. 这项任务被称为强制对准，是一项引人入胜的技术挑战，几十年来已经得到了充分的研究，可以以高精度执行. 强制对齐
实现既可以使用ASR从音频中创建定时文本，也可以用提供的文本中可信的替代方案替换不准确的文本, 使用语音合成从转录生成对齐音频，以找到与真实音频的最佳匹配, 或两个.

现在缺少的一个难题是使用人体工程学编辑器来分割对齐的文本，以便字幕与音频一起流畅地出现, 而不是出现在片段或分散注意力的花园小径句. 通常, 标题编辑器可以很容易地纠正文本，但不容易纠正时间或将短语的一部分从一个标题块移动到另一个标题块. 一个明显的例外是Amara，它提供了一个令人印象深刻的基于网络的标题编辑器.

现场字幕

为网络直播视频配字幕仍然是一项非常艰巨的挑战. 最明显的问题是，您需要实时生成准确的成绩单, 这需要专业的CART captioner的服务. 第二个更困难的问题是以可用的形式将标题数据传递给观众. 从2009年开始, 我给直播视频配字幕的常用技巧是简单地打开视频的字幕. 标题数据将被编码到程序输出中, 然后通过字幕解码器发送，就像聋人电视观众在闭路字幕解码器与电视集成之前使用的设备一样, 特别是Link Electronics的pc -88标准清晰度视频与EIA-608字幕和, 晚些时候, 它的LEI-590用于嵌入CEA-708字幕数据的高清视频. 这些设备可以解码字幕，并将它们叠加在节目视频上，就像电视机一样. 然后，我会将该视频传输给观众(以及活动中的任何投影)，同时录制一个未打开字幕的版本，用于抛光的VOD和存档版本.

另一种为直播流提供字幕的低复杂度方法是使用第三方服务，该服务可以在“sidecar”中显示直播字幕，可以在与嵌入视频完全不同的网页上显示，也可以在视频附近的i帧中显示. 为了使它工作, 你只需要使用比直播流更低延迟的解决方案将音频副本发送到服务.

当COVID-19迫使所有人分开时, Zoom和其他视频会议平台提供日常直播体验. 提供大规模的实时字幕解决方案是平台面临的主要工程挑战之一. 微软 Teams和Google Meet能够整合来自Azure和Google云服务的现有ASR引擎，以实时提供可通过的字幕. Zoom有两种摄取字幕的机制:一种是由会议参与者输入，另一种是通过应用程序编程接口(API)端点，CART提供者和其他字幕服务可以使用该端点, 值得注意的是水獭.ai，一个流行的ASR转录和字幕网站. 尽管在紧急情况下，这可能是一场全球性的大流行, 未纠正的ASR字幕不足以满足法律要求或满足受众的期望. 《百家乐软件》截图, 滑稽的语音识别错误不可避免地会被拿来分享，从而玷污你的品牌或content.

然而, 完全有可能构建低成本的工作流，将HLS视频传输的相对较长的延迟从错误转变为功能. 我通常在商业平台上看到HLS流显示30秒到60秒的延迟. 在文本需要在客户端上与视频同步之前，有足够的时间来生成实时ASR字幕，并让一到三个人以流水线方式编辑它们. 标题数据可以通过常规轮询获取或通过websocket推送.

一些现代直播平台现在支持广播风格的封闭字幕, 摄入含有老式的溪流, 嵌入Line-21/EIA-608标题数据，特别是YouTube, 抽搐, 和Wowza. 所有这些都可以解码字幕数据，并将其作为随流传递的封闭字幕数据提供给观众. 不幸的是, most browsers will need a client-side web application boost to display it; only Safari thus far supports the part of the 媒体源扩展API 原生流式标题数据.

例如，YouTube使用自己的标题文件格式，表面上类似于TTML. 音频, video, 标题片段流是单独下载的, 音频和视频混合成一个数据团，使用媒体源扩展API在视频元素中播放. 标题数据使用传统的DOM操作与元素中的视频同步显示，用户可以在视频字段中的任何位置重新定位, 他们还可以使用弹出式菜单(参见图3).

图3. 在视频元素的阴影DOM中呈现的流标题数据

这些标题工作都没有使用规范的HTML5视频和跟踪技术，除了从视频元素捕获发出的计时事件. 即使在Safari上, 标题数据可以流到Track元素的原生HTML5显示, YouTube使用与其他浏览器相同的方法. 这为Safari用户提供了重新定位和重新设计标题文本的相同机制. 我的预期是，这将是大多数平台继续处理标题的方式，直到浏览器原生标题支持发展到没有办法区分浏览器已经可以做的地步. 在Safari中查看本地字幕流工作, 虽然, 请查看本文中提供的演示来自Mux的博客文章.

为流媒体提供字幕是随着互联网媒体技术的发展而发展的. 我认为我们现在正处于一个黄金时代的开端, 随着广播和互联网技术在有意义的地方采用共享标准，并推动技术为所有观众带来多大好处的极限. 字幕数据最初可能是一项强制要求，以适应聋人观众, 但现在它是通用设计中的一种整体类型的元数据，现代视频传输系统是围绕它构建的, 允许观众找到他们想要的content，并从中获得娱乐或教育.

[编者注:本文最初发表于 2021年11 / 12月版流媒体杂志.]