跳到主要內容

臺灣博碩士論文加值系統

(216.73.216.108) 您好!臺灣時間:2025/09/02 01:52
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

我願授權國圖
: 
twitterline
研究生:陳約志
研究生(外文):CHEN, YUEH CHIH
論文名稱:分散式記憶體多處理機系統中的迴圈及陣列平行化技術
論文名稱(外文):A Loop and Array Parallelization Technique on Distrbuted-memory Multiprocessor System
指導教授:楊竹星楊竹星引用關係
指導教授(外文):YANG, CHU SING
學位類別:碩士
校院名稱:國立中山大學
系所名稱:資訊工程研究所
學門:工程學門
學類:電資工程學類
論文種類:學術論文
論文出版年:1996
畢業學年度:84
語文別:中文
論文頁數:82
中文關鍵詞:分散式記憶體系統相依關係遠端資料讀取工作負載
外文關鍵詞:Distributed-memory systemDependenceRemote data accessWork load
相關次數:
  • 被引用被引用:0
  • 點閱點閱:235
  • 評分評分:
  • 下載下載:0
  • 收藏至我的研究室書目清單書目收藏:0
本論文之討論重點在於如何對雙層巢式迴圈及其中所使用的陣列資料做適
當的自動平行化處理,使得平行化後的程式可在一維陣列形式的分散式記
憶體多處理機系統中執行,並減少最多的執行時間。平行程式在分散式記
憶體系統中需要極力避免節點間通訊與同步動作,否則會導致平行效益降
低,等待延遲增加及通訊負荷過高,而失去平行執行的意義。為此我們分
析雙層迴圈中因固定形式相依關係存在可能產生的所有情形,並分類找出
最簡單而有效的Unimodular轉換方法,將雙層迴圈轉換為較適於以外層迴
圈平行執行的形式。並且對迴圈中的陣列資料作對齊分析,提出演算法將
可能導致大量遠端資料存取的陣列找出並複製,以消除更多的節點間通訊
。最後將對應於外層迴圈索引(Outer Loop Inde x)的Iteration及不需複
製的陣列資料分散,先分離出互相獨立的Iterati on子空間,再以不固定
區塊大小的Block方式分散,分散之後各個節點再作Loop Interchange,
以達到降低節點間通訊,維護平行效益及平衡工作負載之目的。

In this paper, we discuss how to parallelize the double loop
and distribute any array in the double loop so that a generated
parallel program can be executed on a 1-dimension-form
distributed-memory multiprocessor system, then we can get a
good speedup. On a distributed-memory multiprocessor system, a
parallel program must avoid as much synchronization and
communication between nodes as possible; otherwise we don't
have to parallelize it because of the worse parallelism, much
synchronization delay and communication overhead. Therefore we
analyze all possible conditions produced by the fixed-form
dependence of the double loop. With an efficient unimodular
transformation, we transform the double loop into a form
suitable for outer loop parallelization. In order to reduce
more communication, we suggest a algorithm to find and
replicate a read-only array that causes a lot of remote data
access. At last we partition the index domain of outer loop
and non-replicated array to map into nodes. We split iteration
space into independent subspace to minimize communication. Then
we partition iteration space into non-uniform size block in
order to balance the work load of every node. After
partitioning, every part of double loop should be interchanged
to overlap more computation and communication. Thus we attain
a less communication overhead and minimized synchronization
delay, and do an efficient parallelization.

QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top