在本論文中,我們針對基於網頁日誌的數據為經常被訪問的網頁最大組合提出了一個新的大數據分析方法。我們的方法是以Apriori演算法為基礎,加以變化應用。Apriori演算法是資料探勘的關聯規則技術中常被使用的演算法之一,它的主要做法是通過候選項目集的生成和向下封閉檢測(downward closure detection)來探勘頻繁項目集,因為這些特性相似,我們產生了應用Apriori演算法到網頁日誌中計算經常被訪問的網頁最大組合之動機。
現在的互聯網已經成為了人類日常生活中不可或缺的一部份,它具有允許信息快速流動的特徵,因此網頁服務器生成的日誌數據成為我們分析網站用戶行為的良好資源。
分析經常訪問的網頁最大組合,我們稱之為LCF分析。使用LCF分析,我們可以找出瀏覽網頁的訪問者的行為,然後去改善網站內容,增加用戶滿意度。因為Apriori演算法可以探勘所有頻繁的項目集,所以我們使用它來進行LCF分析。我們使用的原始數據來源是台灣觀光局的網站,我們以元宵節燈會期間的網頁日誌(2017.11.01-2018.03.11)為主要的實驗對象。原始數據共有55,318,326筆紀錄,經分析歸納為307,154個到訪區間。我們以閾值從0.2%到0.5%,進行了一系列的四組實驗,分別計算出網頁個數不同的經常被訪問的網頁最大組合。
Apriori演算法不僅可應用於LCF分析,透過修改Apriori演算法,我們可以應用它來做非人類用戶的偵測,我們把這個方法稱為NUD演算法。我們使用NUD演算法進行分析,結果我們發現了四個非人類用戶,它們在原始數據中佔了1,000多萬筆。然後,我們從原始數據中刪除了非人類用戶的使用紀錄並重做了閾值為0.2%到0.5%的LCF分析,並重新計算經常被訪問的網頁最大組合。在每一組實驗,我們得到了不同的組合。我們相信,這個結果更接近人類用戶經常訪問的網頁最大組合。 |