研究生(外文):Da-Yi Tsou
論文名稱(外文):Mining Learning Portfolio by Using Documents Analyzing
指導教授(外文):Bin-Shyan JongYen-Teh Hsia
外文關鍵詞:Assisting studyingConcept classificationText miningOnline learning
Because of the flourishing development of the internet, online teaching has already become an important way of teacher's teaching. Online learning has not limited the time and place of the characteristics of students such as: login times, studying time, reading what kind of materials, such as data ... there are records of learning portfolios. There are lots of research has put into the online activities and explore the relationship between the effectiveness of learning.
However, the records of online behavior data in a cumulative-type such as: login times, studying time …can only represent student's time accident of the activity on this platform; Because of the attitude of study and student qualification are different to each students, To stay for a long time can not represent the best learning effect. So our research focused on the activities of students in the online publication of the article content and related data analysis, and hope to predict with the analysis result that students study insufficient idea or theme.
Our research is published by the students is considered an article on the concept or the theme of learning effect, and classification of two parts:
1. For the content of the articles in text mining and statistical algorithms, give each article a rating.
2. To represent the concept of the article or topic classification and find other articles which has similar topic or concept.
The teachers can also utilize the interface that this system offered, establish the parameter according to different demands, revise the analysis of studying about students in time. Or using the database to analyzing or compare the difference of every years data.
Our research can predict the learning effect by using the cumulative data that got in past years. In order to prevent and remained the students, we can make a student list that might be learn to fail in some concept. Teachers can use the list to give them more help.
摘要 I
Abstract II
誌謝 IV
表目錄 VII
圖目錄 VIII
第一章 序論 1
1.1研究動機 1
1.2研究目的 2
第二章 相關研究 4
2.1學習歷程 4
2.2文字探勘 4
2.2.1文字探勘的演進 4
2.2.2文字探勘與教學領域 6
2.3向量空間模型(Vector Space Model,VSM) 7
2.3.1關鍵字串建立(Key Words query) 10
2.4關鍵字權重(Term Frequency Inverse Document Frequency, TFIDF) 10
2.4.1字詞頻率(Term Frequency,TF) 11
2.4.2文件頻率(Document Frequency, DF)及反向文件頻率(Inverse Document Frequency, IDF) 11
2.5差異式潛在語義索引(Differential Latent Semantics Index, DLSI) 12
2.5.1利用差異式分群(Differential Clustering)進行相關度比較 13
2.6資料庫外的文件探勘與蒐集 14
2.7線上表現計分 14
2.8 相關度檢定 15
2.8.1 ANOVA檢定 15
2.8.2 Pearson檢定 15
第三章 系統架構 17
3.1文章內容探勘流程 17
3.2系統架構 18
3.2.1資料庫 18
3.2.2廢文過濾 19
3.2.3文章分類 19
3.3廢文處理 20
3.4使用者介面 21
第四章 實驗規劃 22
4.1實驗方法 22
4.1.1資料庫內容 22
4.1.2文章資訊分析 22
4.1.3實驗環境 23
4.1.4實驗對象 26
4.2問題與假設 26
4.3實驗規劃 27
4.3.1廢文過濾 27
4.3.2文章分類 27
4.3.3門檻值定義 27
4.3.4探討廢文與學生學習成效關係 28
4.4實驗結果 28
4.4.1初始資料庫內容 28
4.4.2歷年文章分析並將”課程討論區”文章過濾後加入資料庫 32
4.4.3實驗一:文章分析 36
4.4.4實驗二:學習成就與文章關係 50
第五章 結論與未來工作 61
5.1 結論 61
5.1.1過濾功能成效 61
5.1.2分類功能成效 61
5.1.3減低教師閱讀負擔 61
5.2未來工作 62
5.2.1與補救教學機制的結合 62
5.2.2效能改進 62
參考文獻 63

表2-1 ANOVA檢定 15
表2-2 Pearson檢定 16
表4-1系統程式初始資料庫狀態 29
表4-2作業系統初始資料庫狀態 30
表4-3 95、96年度系統程式課程討論區分析結果 33
表4-4平均值±2個標準差所過濾出廢文及比例 34
表4-5 兩不同資料庫的資訊 35
表4-6初始資料庫平均值±2個標準差所過濾出廢文及比例 35
表4-7 95、96年度作業系統課程討論區分析結果 36
表4-8資料庫C及資料庫D的資訊 36
表4-9文章分析結果 37
表4-10資料庫A的文章分布 38
表4-11資料庫B的文章分布 38
表4-12預設分群 40
表4-13議題討論之分類結果 41
表4-14課程討論區之分類結果 42
表4-15文章過濾結果 45
表4-16資料庫C的文章分布 46
表4-17資料庫D的文章分布 46
表4-18作業系統預設分群 46
表4-19議題討論區之文章分布 49
表4-20課程討論區之文章分布 49
表4-21發表文章數量前15名學生發表文章狀態及成績 51
表4-22 平均成績統計 52
表4-23 考試平均與發表文章品質之檢定 52
表4-24學期成績與發表文章品質之檢定 53
表4-25考試平均之ANOVA檢定 53
表4-27 TFIDF高於15人平均者與其餘同學比較 54
表4-28 TFIDF低於15人平均者與其餘同學比較 55
表4-29 972作業系統課程學生發表文章與成績統計 56
表4-30文章數量與線上表現分數檢定 58
表4-31實驗組與對照組之考試平均檢定 58
表4-32實驗組與對照組之學期成績檢定 58
表4-33廢文較多之同學與其餘學生比較 59

圖2-1 KDD流程圖(U. Fayyad,1996) 5
圖2-2 三維向量空間模型 8
圖2-3 關鍵字變更後的向量空間模型 9
圖3-1 判斷流程圖 18
圖3-2系統圖 21
圖4-1中原網路學園登入畫面 24
圖4-2課程學習區 24
圖4-3課程討論區 25
圖4-4-1議題討論列表 25
圖4-4-2議題討論內容 26
圖4-5-1符合主題但無關鍵字的誤判 31
圖4-5-2符合主題但無關鍵字的誤判 31
圖4-6 議題討論區文章分布圖 42
圖4-7 課程討論區文章分布圖 43
圖4-8 972作業系統議題討論區文章分布 50
圖4-9 972作業系統課程討論區文章分布 50
圖4-10概念圖診斷系統整合 56
