一种基于多核流水的多标准视频编解码器体系结构

基于多核处理器的任务级与数据级相结合的HEVC并行解码技术与实现

基于多核处理器的任务级与数据级相结合的HEVC并行解码技术与实现与以往视频编解码标准相比,最新的HEVC视频编解码标准面临着计算复杂度迅速增加的问题,这直接影响了它的运行和实现,而提高处理速度、增强计算能力的有效方法之一就是在多核平台上进行并行化处理。

本文将采用美国Tilera 公司提供的Tilera-Gx36多核处理器作为硬件实验平台,并基于该多核平台实现多层次任务级与数据级并行的HEVC解码方法。

论文的主要研究内容和创新点如下:(1)提出了一种基于CTU单元像素依赖关系的低时延去方块滤波并行方法。

通过对图像帧中的各滤波边界的依赖性分析,探究其可采用的并行方法,并分析现有的基于CTU行的去方块滤波并行方法,对其加以改进,实现基于CTU单元的并行处理,进一步提升去方块滤波模块的解码效率。

同时依据CTU单元解码依赖关系设计出合理的CTU单元划分结构,来进一步提升解码器的解码效率。

(2)提出了一种多层次任务级与数据级并行的解码方法。

利用HEVC数据中的依赖性,将整个HEVC解码器划分为5个任务模块,分别为码流读取模块、熵解码模块、像素重构模块、去方块滤波模块以及样点自适应补偿模块;针对不同的解码任务模块分别设计并行方法,并对缓冲存储空间进行有效管理,同时在各模块间利用各CTU单元的依赖关系实现不同解码任务间基于CTU单元的流水线并行处理,采用线程池技术为解码任务动态分配线程资源,实现以功能模块和处理数据单元划分的多层次任务级与的数据级并行的解码,获得了比标准WPP方法更高的解码加速比。

(3)提出了结合多核平台资源的快速解码方法。

为所设计的基于多核平台任务级与数据级相结合的HEVC并行解码方法提供了多种优化方法,包括多任务并行处理时使用线程池技术以减少系统开销,同时在HEVC解码器各任务模块中引入数据冗余减少机制用来减少冗余的数据操作以及使用多核处理器平台提供的各种优化方法以进一步提升HEVC解码器的整体解码性能。

达芬奇技术简单介绍

达芬奇(DaVinci™)技术是一种专门针对数字视频应用、基于信号处理的解决方案，能为视频设备制造商提供集成处理器、软件、工具和支持，以简化设计进程，加速产品创新。

目录∙达芬奇技术产品系列∙达芬奇技术开发工具∙达芬奇技术简化数字视频设计∙面向数字视频的达芬奇技术达芬奇技术产品系列∙TMS320DM644x 数字媒体处理器——基于ARM926 处理器与TMS320C64x+DSP内核的高集成度。

TMS320DM6446、TMS320DM6443 和TMS320DM6441 处理器适用于视频电话、车载信息娱乐以及IP机顶盒(STB)等应用和终端设备。

TMS320DM643x 数字媒体处理器——基于C64x+TM DSP 内核TMS320DM6437、TMS320DM6435、TMS320DM6433 和TMS320DM6431 处理器是低成本应用领域的最佳解决方案，适用于车道偏离、防碰撞系统等车载市场应用、机器视觉系统、机器人技术和视频安全监控系统等。

TMS320DM647/TMS320DM648 数字媒体处理器——专门针对多通道视频安全监控与基础局端应用进行了优化，这些应用包括数码摄像机(DVR)、IP 视频服务器、机器视觉系统以及高性能影像应用等。

DM647 和DM648 数字媒体处理器具有全面可编程性，能够为要求极严格的流媒体应用提供业界领先的性能。

TMS320DM6467 数字媒体处理器——一款基于DSP 的SoC，专为实时多格式高清晰度(HD) 视频代码转换精心打造，能在前代基础上以仅十分之一的价格实现10倍的性能提升。

DM6467 集成了ARM926EJ-S 内核、C64x+ DSP内核，并采用高清视频/影像协处理器(HD-VICP)、视频数据转换引擎与目标视频端口接口。

DM6467 可充分满足HD 转码方面的市场要求，非常适用于企业及个人市场的媒体网关、多点控制单元、数字媒体适配器、数字视频服务器以及安全监控市场记录器与IP 机顶盒等应用。

达芬奇技术简单介绍

达芬奇(DaVinci™)技术是一种专门针对数字视频应用、基于信号处理的解决方案，能为视频设备制造商提供集成处理器、软件、工具和支持，以简化设计进程，加速产品创新。

目录∙达芬奇技术产品系列∙达芬奇技术开发工具∙达芬奇技术简化数字视频设计∙面向数字视频的达芬奇技术达芬奇技术产品系列∙TMS320DM644x 数字媒体处理器——基于ARM926 处理器与TMS320C64x+DSP内核的高集成度。

TMS320DM6446、TMS320DM6443 和TMS320DM6441 处理器适用于视频电话、车载信息娱乐以及IP机顶盒(STB)等应用和终端设备。

TMS320DM643x 数字媒体处理器——基于C64x+TM DSP 内核TMS320DM6437、TMS320DM6435、TMS320DM6433 和TMS320DM6431 处理器是低成本应用领域的最佳解决方案，适用于车道偏离、防碰撞系统等车载市场应用、机器视觉系统、机器人技术和视频安全监控系统等。

TMS320DM647/TMS320DM648 数字媒体处理器——专门针对多通道视频安全监控与基础局端应用进行了优化，这些应用包括数码摄像机(DVR)、IP 视频服务器、机器视觉系统以及高性能影像应用等。

DM647 和DM648 数字媒体处理器具有全面可编程性，能够为要求极严格的流媒体应用提供业界领先的性能。

TMS320DM6467 数字媒体处理器——一款基于DSP 的SoC，专为实时多格式高清晰度(HD) 视频代码转换精心打造，能在前代基础上以仅十分之一的价格实现10倍的性能提升。

DM6467 集成了ARM926EJ-S 内核、C64x+ DSP内核，并采用高清视频/影像协处理器(HD-VICP)、视频数据转换引擎与目标视频端口接口。

DM6467 可充分满足HD 转码方面的市场要求，非常适用于企业及个人市场的媒体网关、多点控制单元、数字媒体适配器、数字视频服务器以及安全监控市场记录器与IP 机顶盒等应用。

飞思卡尔推出完全可编程DSPMSC8144(精)

飞思卡尔推出完全可编程DSP MSC8144飞思卡尔推出完全可编程DSP MSC8144类别：单片机/DSP飞思卡尔半导体推出基于下一代SC3400 StarCore技术的第三代多核DSP。

这款新型MSC8144 DSP面向下一代有线和无线基础设施应用，提供语音、视频和数据服务，并带来领先的性能和低系统成本以及显著提高的通道密度。

MSC8144为有线基础设施应用提供了最佳DSP解决方案，这些应用包括：运营商级中继、企业VoIP媒体网关、视频会议服务器。

MSC8144提供的无线应用包括：无线语音代码转码，IP多媒体子系统（IMS）网关，视频多点会议，3G、Super 3G和WiMax基站的基带卡以及无线网络控制器（RNC）中的第2层处理。

网络融合的一个最根本的例证是通过IMS网关让通信变得'连接无处不在'，在媒体会议时，用户改变地点甚至使用设备时，在三网合一服务中保持特别的QoS，这种高度的适应性是非常有价值的。

MSC8144多核DSP提供了在一个低功耗封装内实现这些融合网络性能的处理能力和灵活性。

新型MSC8144将单片DSP集成提升到一个新的技术水平。

MSC8144将4个频率为1GHz的StarCore DSP内核相集成，提供业界最高的千兆赫兹级性能，相当于1个4 GHz单核DSP。

它在单个产品中集成业界最高的10.5MB嵌入式存储器，实际上降低了对附加外部存储器的需求，同时保持具有竞争力的成本和每通道功耗。

飞思卡尔MSC8144旨在达到最佳可编程DSP性能密度并力求达到每个通道的低功耗和低成本，这些正在成为当前市场上原始设备制造商们在做出选择时考虑的重要因素。

MSC8144 DSP基于具有更深流水线的增强型SC3400 DSP内核，该内核能够提供很高的时钟速率，并增加了新的单指令多数据（SIMD）指令，提供精确的异常和分支预测。

SC3400内核还支持适用于维特比（Viterbi）和视频算法的经过改进的专用指令，使其性能实际上达到上一代StarCore DSP的两倍。

xmos方案

xmos方案简介xmos方案是一种基于XMOS芯片的音频处理解决方案，通过硬件加速和高度可配置的软件处理，提供了高质量的音频处理和分析功能。

该方案可以广泛应用于音频设备、语音识别系统、传感器数据处理等领域。

背景随着数字音频技术的快速发展，人们对音频处理和分析的要求也越来越高。

传统的音频处理方案往往需要借助外部DSP芯片或者复杂的算法来完成，而XMOS 芯片通过其独特的多核架构和高度灵活的软件编程环境，成为了一种更加高效和可定制的音频处理方案。

原理xmos方案的核心是XMOS芯片，该芯片集成了多个处理核心，每个核心都可以独立运行和处理音频数据。

这些核心之间可以通过XMOS的通信接口进行高效的数据交换和协同工作。

通过适当的编程和配置，可以将不同的音频处理任务分配到不同的核心上，从而实现高效的音频处理和分析。

主要特点xmos方案具有以下几个主要特点：高度可配置的软件环境XMOS芯片提供了一个灵活的软件编程环境，开发人员可以根据不同的应用需求进行定制化编程。

这意味着xmos方案可以适应不同的音频处理和分析任务，提供高度定制化的解决方案。

多核架构XMOS芯片内置了多个处理核心，每个核心都具有独立的运算能力和存储资源。

这使得xmos方案可以同时处理多个音频流，实现更高的并行处理能力。

通过合理的任务分配和资源调度，可以提升音频处理和分析的效率。

低功耗设计XMOS芯片采用了先进的功耗管理技术，能够在保证高性能的同时降低功耗消耗。

这使得xmos方案在电池供电设备或者对功耗要求较高的场景下具有更好的应用潜力。

应用场景xmos方案可以应用于多个领域，包括但不限于以下几个方面：音频设备xmos方案可以用于音频处理设备，例如音频接口、音频处理器和音频编解码器等。

通过合理的编程和配置，可以实现高质量的音频采集、回放和处理功能。

语音识别系统xmos方案可以应用于语音识别系统，通过对语音数据的实时处理和分析，可以实现高准确度的语音识别功能。

HEVC若干关键技术研究

HEVC若干关键技术研究HEVC（High Efficiency Video Coding）是一种高效视频编码技术，也是当前最先进的视频压缩标准之一。

这项技术的研究包含了众多关键技术，其中几个核心技术包括多桢并行编码、色度处理和变形滤波等。

本文将就HEVC若干关键技术进行探讨，以便更好地理解和应用这一先进的视频编码标准。

多桢并行编码是HEVC中的一项重要技术，它利用多桢的并行处理，在增加编码复杂度的同时，提高了编码效果。

传统的视频编码标准如H.264/MPEG-4 AVC使用的是基于单个桢的编码技术，而HEVC进行了创新性设计，引入多桢并行编码的概念。

这样一来，编码器可以将多个桢一起进行压缩编码，并且在解码端同样可以并行解码，从而实现更高的编解码效率。

色度处理是HEVC中的另一个关键技术，它主要涉及到对色度信息（Cb和Cr）的处理方式。

在传统的视频编码标准中，色度信息通常以相对较低的分辨率进行采样和编码，这样虽然节约了编码的复杂度，但也导致了色彩细节的损失。

而HEVC则改进了这一问题，通过色度推测方法和高精度的运动补偿技术，在更高的色度分辨率下进行编码，从而提高了视频的色彩还原效果。

变形滤波是HEVC中的重要技术之一，它主要用于减小视频编解码过程中产生的伪影和图像模糊现象。

视频编解码过程中会由于帧间差分和运动矢量引起图像的失真，而变形滤波技术通过计算变形像素和滤波参数来对图像进行补偿，从而减小了失真的程度。

HEVC中采用了一种自适应的滤波算法，根据不同的情况选择合适的滤波强度，使得图像达到更好的视觉效果。

除了上述关键技术外，HEVC还包含了其他一些重要的研究内容。

例如，运动估计算法的优化，通过提高运动矢量的精度和准确度，减小了运动估计误差，从而提高了编码的效率。

此外，比特率控制算法和码率分配技术也是HEVC中的重要研究方向，通过合理地控制压缩比特率，使得视频在满足不同场景需求的同时，保持更高的视觉质量。

hevc的高效并行流水编码器设计

1 引言近年来，通信技术和互联网的高速发展，为各类信息的获取和传播提供了广阔的平台。

而视频作为信息呈现和传播的主要载体，其应用场景越来越广泛，深入文教娱乐、医疗健康等各个领域。

人们对多媒体视听体验的无止境需求，给视频编码技术带来了巨大的挑战。

作为新一代视频编码标准，HEVC[1]可以满足超高清视频的编码需求，并且比AVC/H.264[2]标准的压缩效率高50%[3]，但是其复杂度增加了2~4倍[4]。

HEVC沿用了以往基于块的混合视频编码框架，在基于CTU块的编码流程中，需要经历帧内预测、帧间预测、变换、量化和熵编码等过程。

首先，输入图像划分成大小相同且不重叠的CTU块，HEVC进行一个复杂的率失真优化过程，每个CTU块都可以进行多个深度的四叉树划分，划分后的每个CU块又有多种PU划分和预测模式，对PU块进行帧内/帧间预测得到预测图像块，然后将原始图像块与预测图像块求残差，对残差进行失真估计;为了进一步去除空间冗余，再对残差块进行变换量化；为了去除信源符号的统计冗余，将量化后的系数值进行熵编码，在熵编码的同时进行码率估计。

最后对失真和码率进行率失真优化，根据率失真优化的结果，确定出最优的划分和预测模式，同时得到最优的编码模式下的码流。

而最优编码模式下得到的量化后的系数值又经历反量化和反变换，得到的系数块与之前的预测块相加得到重构图像块，重构图像块作为下一个编码块与下一帧的参考块。

显然，HEVC编码不仅计算复杂度成倍增加，而且率失真优化用到的信息来源于贯穿整个编码过程的反馈，使得数据/时间的依赖性非常强。

如果不进行结构优化，在硬件实现上会形成一个数据依赖的长延时循环，从而阻碍了高效的并行和流水线的运行效率。

文献[5,6,7]均提出了不同的快速率失真优化方案，其中文献[7]提出了一个R-D估计模型，针对不同的残差分布，估计出码率和失真，然后再进行模式选择，该方案可以切断编码过程中数据/时间的依赖性，计算复杂度大大降低，非常适合硬件实现。

海思3716方案

简介海思3716方案是华为海思半导体公司推出的一款多媒体处理方案。

该方案基于ARM Cortex-A9架构，集成了多核技术和专用硬件加速器，提供了卓越的多媒体处理能力。

本文将详细介绍海思3716方案的主要特性、应用场景以及未来发展趋势。

主要特性海思3716方案的主要特性如下：1.高性能处理能力：搭载ARM Cortex-A9多核处理器，主频高达1.2GHz，具备强大的计算能力和并行处理能力。

2.多媒体处理能力：集成高性能图像处理器和视频编解码器，支持多种主流多媒体格式的实时编解码，如H.264、MPEG-4、VC-1等。

3.低功耗设计：采用先进的低功耗技术和功率管理策略，有效降低功耗，延长设备续航时间。

4.高度集成化：集成丰富的外设接口和通信接口，如USB、HDMI、以太网等，可以方便地与其他设备进行互联。

5.强大的安全能力：支持硬件级别的安全加密和解密，保护设备数据的安全性，防止信息泄露和非法访问。

应用场景海思3716方案在以下应用场景中具有广泛的应用前景：智能监控系统利用海思3716方案的高性能图像处理器和视频编解码器，可以实现智能监控系统的视频数据采集、实时传输和智能分析。

该方案支持多路高清视频的实时编解码和智能分析算法的运算，可以应用于城市安防监控、交通监控及智能家居等领域。

网络视频终端海思3716方案支持流媒体协议和常见的互联网视频格式，可以实现网络视频终端的在线观看和本地存储播放。

通过该方案提供的丰富接口和高性能处理能力，用户可以轻松连接电视或显示器，享受高清画质的网络视频娱乐。

直播推流设备借助于海思3716方案的高性能计算能力和视频编码功能，可以实现直播推流设备的实时视频采集、编码和传输。

该方案适用于各类直播应用，如游戏直播、体育赛事直播以及在线教育直播等。

通过与云平台的配合，可以实现大规模直播活动的并发处理和分发。

未来发展趋势随着人工智能技术的快速发展，海思3716方案将进一步融合深度学习算法，提供更强大的图像和视频智能分析能力。