❶ weka裡面 相關系數怎麼計算的
相關系數.相關表和相關圖可反映兩個變數之間的相互關系及其相關方向,但無法確切地表明兩個變數之間相關的程度.於是,著名統計學家卡爾·皮爾遜設計了統計指標——相關系數(Correlationcoefficient).相關系數是用以反映變數之間相關關系密切程度的統計指標.相關系數是按積差方法計算,同樣以兩變數與各自平均值的離差為基礎,通過兩個離差相乘來反映兩變數之間相關程度;著重研究線性的單相關系數.依據相關現象之間的不同特徵,其統計指標的名稱有所不同.如將反映兩變數間線性相關關系的統計指標稱為相關系數(相關系數的平方稱為判定系數);將反映兩變數間曲線相關關系的統計指標稱為非線性相關系數、非線性判定系數;將反映多元線性相關關系的統計指標稱為復相關系數、復判定系數等.
❷ 懂weka文本分類的朋友幫忙看下
把數據存成arff格式,按照你的需要選擇篩選器進行數據預處理,然後再進行分類,分類同樣要選擇相應的函數,並設置函數參數。
❸ 根據公司業務做個輕巧的數據挖掘工具,演算法包需要用到R和weka,GUI設計用Java GUI好還是PyQt好呢
做保險你就不要考慮工資,做保險主要是靠傭金收入,不是靠工資收入。工資其實也是傭金的一部分,只是保險公司把你的傭金分一部分作為工資來發。如果你比較注重工資,那你就不要去做保險了。做保險到處都是陷井!你很容易被騙,然後你再去騙你的客戶,最後你會很痛苦的!所以建議你不要去做。
❹ 救命- -weka在導入csv數據時候報錯,實在不會弄了……
盡量屬性名是英文字母,中文會有亂碼。
另外檢查256行的第9列,是不是有逗號或者其他特殊字元,導致輸入錯誤。
❺ weka應用
數據挖掘用的軟體,軟體裝了之後,點第一項進去,打開你的數據文件(CSV ,arff格式的),然後選擇演算法,點「start"就可以運行了
❻ 使用weka的arffview查看.csv格式文件
在weka explorer里可以直接查看csv文件的, 不然就轉換成.arff格式再看也成.
❼ Weka里可以直接使用TAN演算法嗎還是需要自己添加本人作畢業設計剛剛接觸Weka,求高人指點!
沒有的,Weka中只自帶了一些典型的演算法,像SimpleKmeans之類的。但是可以把演算法集成到Weka中,不知道你最後是用Weka的GUI演示還是用Weka的API開發,前者的話麻煩一點。我做畢設也剛好用到Weka,你也應該是做數據挖掘的東西的吧!希望對你有幫助。
❽ 我今年剛畢業,學的軟體工程,對數據方向比較感興趣,但是不知道是做bi好還是做dba好希望達人幫幫小弟。謝
BI和DBA完全是兩個方向。我就是軟體工程畢業的,當時也是想當然的以為,BI嘛,數據挖掘,不要依託資料庫嗎?後來幹了DBA,畢業設計選的數據挖掘,本來信心滿滿,後來才知道,坑爹啊,數據挖掘這么復雜。
數據挖掘主要還是數理分析,數學功底要好,特別是高等數學的功底要好。主要實現手段是和資料庫沒什麼關系的工具,比如做分類分析的matlab,關聯規則的spss,,聚類分析的weka。唯一和資料庫掛鉤的是從資料庫上把數據export下來。matlab是矩陣實驗室,完全靠數學,spss類似excel,基本靠函數,weka是開源的jar包,主要靠編程,但能夠實現自己的演算法,所以非常牛叉。但是效率你懂得,演算法執行海量數據那是相當的慢。
DBA就不同了。首先dba還是要分兩個方向的,開發DBA和管理DBA。開發DBA主要負責配合項目組開發,最重要的工作就是sql支持,具體力度就不好說了,有的可能要負責資料庫設計,有的只要負責sql審核,不過最主要的工作還是sql性能的優化,需要會使用toad這些工具,最關鍵的是對資料庫優化器、sql甚至磁碟存儲都要有一定認識。這類牛人比如阿里巴巴旗下的童家旺、馮大輝。
管理DBA,一般都是大牛,多數DBA都是從開發DBA開始。對oracle體系結構,資料庫的安裝配置,容災備份,遷移,rac,dg等等,也是大多數人眼中的DBA。這類牛人主要是蓋國強蓋神帶隊的oracle ACE OCM各種大牛,讓你仰視N久。
當然以上這些dba都是應用方向,換句話說,必須給你oracle或者mysql,你才能玩得轉。但是現在資料庫有新的牛人,主要像淘寶和豆瓣這種,自主開發適合自己業務需求的資料庫,那才是潛力無限。
最後,dba需要的是經驗,bi需要的是學識(也包括學歷)。