摘要:
为了解决算法程序自动映射到可重构媒体处理器的问题,有效提高程序并行执行的效率,提出一种具有自动并行化的任务编译前端. 该任务编译前端通过展开核心循环可提高并行执行度,在数据依赖分析确保运算正确执行的基础上,对循环体内的数组访问进行标量替换,以优化数据传输开销. 实验结果表明,该任务编译前端能有效提高代码并行性和优化数据传输能力,与Garp C编译器的编译前端相比,该任务编译前端设计的性能可提升约2~4倍.
摘要:
为了解决算法程序自动映射到可重构媒体处理器的问题,有效提高程序并行执行的效率,提出一种具有自动并行化的任务编译前端. 该任务编译前端通过展开核心循环可提高并行执行度,在数据依赖分析确保运算正确执行的基础上,对循环体内的数组访问进行标量替换,以优化数据传输开销. 实验结果表明,该任务编译前端能有效提高代码并行性和优化数据传输能力,与Garp C编译器的编译前端相比,该任务编译前端设计的性能可提升约2~4倍.