24_编译器参数调优方法

1®CompilersForXeon™ProcessorAgendaGeneralXeon™processoroptimizationsLoopleveloptimizationsMulti-passoptimizationsOtherAgendaGeneralXeon™processoroptimizationsLoopleveloptimizationsMulti-passoptimizationsOtherGeneralOptimizations/Od,-O0:disableoptimizations/Zi,-g:CreateSymbols/O1,-O1:Optimizesforspeedwithoutincreasingcodesize–i.e.disableslibraryfunctioninlining/O2,-O2–default–Optimizeforspeed/O3,-O3–High-leveloptimizationsAgendaGeneralXeon™processoroptimizationsLoopleveloptimizationsMulti-passoptimizationsOtherInstructionSchedulingScheduleinstructionstobeoptimalforspecificprocessorinstructionlatenciesandcachesizesWindowsLinuxPentium®processorsandPentiumprocessorswithMMX™technology-G5-tpp5PentiumPro,PentiumIIandPentiumIIIprocessors-G6(Default)-tpp6(Default)Pentium4processor-G7-tpp7Note:defaultmaychangeinfuturecompilersShift/MultiplyLatencyPentium–Shifthas~1xlatencyofadds–Multiplyhas~10xlatencyofaddsPentiumPro,II,andIII–Shifthas~1xlatencyofadds–Multiplyhas~3xlatencyofaddsPentium4(maychangeinfuturereleases)–Shifthas~8xlatencyofadds–Multiplyhas~26xlatencyofaddsUndertheCovers:P4Compileraccountsforthesedifferencesforyou!for(inti=0;ilength;i++){p[i]=q[i]*32;}.B1.7:#-tpp6movl(%ebx,%edx,4),%eaxshll$5,%eaxmovl%eax,(%esi,%edx,4)incl%edxcmpl%ecx,%edxjl.B1.7.B1.7:#-tpp7movl(%ebx,%edx,4),%eaxaddl%eax,%eaxaddl%eax,%eaxaddl%eax,%eaxaddl%eax,%eaxaddl%eax,%eaxmovl%eax,(%esi,%edx,4)addl$1,%edxcmpl%ecx,%edxjl.B1.7UndertheCovers:XeonWhichProcessor:[a]x?Torequireatleast...UseWindows*Linux*PentiumProandPentiumIIprocessorswithCMOVandFCMOVinstructionsiQaxiaxiPentiumprocessorswithMMXinstructionsMQaxMaxMPentiumIIIprocessorwithStreamingSIMDExtensions(impliesiandMabove)KQaxKaxKPentium4processorwithStreamingSIMDExtensions2(impliesi,MandKabove)WQaxWaxWAutomaticProcessorDispatchSingleexecutable–Pentium4targetthatrunsonallx86processors.ForTargetProcessorituses:–ProcessorSpecificOpcodes–Prefetch(PentiumIIIonly)–VectorizationLowOverhead–SomeincreaseincodesizeCanmixandmatch:-xK–axWtogethermakesXeon/Pentium4thetargetandPentiumIIIthedefaultAgendaGeneralXeon™processoroptimizationsLoopleveloptimizationsMulti-passoptimizationsOtherVectorizationAutomaticallyconvertsloopstoutilizeMMX/SSE/SSE2instructionsandregisters.Datatypes:char/short/int/float/double–(butnotmixed)CanUseShortVectorMathLibraryEnabledthrough-[Q]xW,-[Q]xK,-[Q]axW,-[Q]axK-vec_report3tellsyouwhichloopswerevectorized,andifnot,whynot.HighLevelOptimizer•Windows:/O3orLinux:-O3•Usewith–xW,-xK,-QxW,-QxK,etc.–additionalloopoptimizations–moreaggressivedependencyanalysis–scalarreplacement–softwareprefetch(-xKonPentiumIII)LoopsmustmeetcriteriarelatedtothoseforvectorizationUndertheCovers:XeonSMPparallelismOpenMP–Easymultithreadingusingdirectives–UseKSLtoolsforDevelopment–UseInteltoolstooptimizeforIAintandemwithOpenMPAuto-parallelization–SimpleloopsthreadedbycompileraloneLoopsmustmeetcertaincriteria…OpenMP*SupportOpenMP1.1forFortran&1.0forC/C++–DebuggerinfosupportforOpenMP–AssureforThreadssupportedwithIntelCompilerOpenMPswitches:–-Qopenmp,-openmp(or-openmpP)–-QopenmpS,-openmpS(serial,fordebugging)–-openmp_report[n](diagnostics)–worksinconjunctionwithvectorizationAutoParallelizationAuto-parallelization:AutomaticthreadingofloopswithouthavingtomanuallyinsertOpenMP*directive.–-Qparallel(Windows*),-parallel(Linux*)–-Qpar_report[n],-par_report[n](diagnostics)BettertouseOpenMPdirectives–Compilercanidentify“easy”candidatesforparallelization,butlargeapplicationsaredifficulttoanalyze.AgendaGeneralandprocessoroptimizationLoopleveloptimizationsMulti-passoptimizations–InterProceduralOptimization–ProfileGuidedOptimizationOtherInter-ProceduralOptimizations(IPO)-Qip,-ip:Enablesinterproceduraloptimizationsforsinglefilecompilation.-Qipo,-ipo:Enablesinterproceduraloptimizationsacrossfiles.Inter-ProceduralOptimizations(IPO)Morebenefitsthanjustinlining–Partialinlining–Interproceduralconstantpropagation–Passingargumentsinregisters–Loop-invariantcodemotion–Deadcodeelimination–Helpsvectorization,memorydisambiguationPass1Pass2virtual.objand.ilfilesexecutableCompiling:Windows*:icl-c/Qipomain.cfunc1.cfunc2.cLinux*:icc-c-ipomain.cfunc1.cfunc2.cLinking:Windows*:icl/Qipomain.objfunc1.objfunc2.objLinux*:icc-ipomain.objfunc1.objfunc2.objIPOUsage:2StepProcessWindows*Hint:LINK=link.exeshouldbereplacedwithLINK=xilink.exeie:xilink/Qipolinkcommandsmain.objfunc1.objfunc2.objUseexecution-timefeedbacktoguideoptHelpsI-cache,paging,branch-predictionEnabledOptimizations:–Basicblockordering–Betterregisterallocation–Betterdecisionoffunctionstoinline–Functionordering–Switch-statementoptimization–BettervectorizationdecisionsProfile-GuidedOptimizations(PGO)InstrumentedCompilationWindows:icl/Qprof_genprog.cLinux:icc-prof_genprog.cInstrumentedExecutionprog.exe(onatypicaldataset)FeedbackCompilationWindows:icl/Qprof_useprog.cLinux:icc-prof_useprog.cDYNfilecontainingdynamicinfo:.dynInstrumentedExecutable:prog.exeMergedDYNSummaryFile:.dpiDe

24_编译器参数调优方法

免费阅读已结束，点击付费阅读剩下 ... 页

阅读已结束，您可以下载文档离线阅读

小区操作方案

【乐乐经验分享】广州服装进货的“衣、食、住、行”

道排工程监理规划

NCT冲压模具资料

药物相互作用与合理用药

ACCP50S2模拟笔试试卷

报告厅多媒体会议系统方案

模拟IC设计流程总结

稀释剂项目可行性研究报告

运维手册-档案同步、现场调试、终端参数、数据采集

相关文档

相关搜索