『壹』 大數據畢設
你這叫社科問題
計算機的畢設都是要做系統的,你那些東西可以從演算法來,但是要體現工作量
也就是數據的處理和計算。
要做就做爬蟲+分析的系統。或者實現一個演算法做做比較實驗都好
『貳』 網路爬蟲 python 畢業論文呢
做爬蟲,特別是python寫說容易挺容易,說難也挺難的,
舉個栗子 簡單的:將http://paste.ubuntu.com上面的所有代碼爬下來
寫個for循環,調用urllib2的幾個函數就成了,基本10行到20行以內的代碼
難度0
情景:
1.網站伺服器很卡,有些頁面打不開,urlopen直接就無限卡死在了某些頁面上(2.6以後urlopen有了timeout)
2.爬下來的網站出現亂碼,你得分析網頁的編碼
3.網頁用了gzip壓縮,你是要在header裡面約定好默認不壓縮還是頁面下載完畢後自己解壓
4.你的爬蟲太快了,被伺服器要求停下來喝口茶
5.伺服器不喜歡被爬蟲爬,會對對header頭部瀏覽器信息進行分析,如何偽造
6.爬蟲整體的設計,用bfs爬還是dfs爬
7.如何用有效的數據結構儲存url使得爬過的頁面不被重復爬到
8.比如1024之類的網站(逃,你得登錄後才能爬到它的內容,如何獲取cookies
以上問題都是寫爬蟲很常見的,由於python強大的庫,略微加了一些代碼而已
難度1
情景:
1.還是cookies問題,網站肯定會有一個地方是log out,爬蟲爬的過程中怎樣避免爬到各種Log out導致session失效
2.如果有驗證碼才能爬到的地方,如何繞開或者識別驗證碼
3.嫌速度太慢,開50個線程一起爬網站數據
難度2
情景:
1.對於復雜的頁面,如何有效的提取它的鏈接,需要對正則表達式非常熟練
2.有些標簽是用Js動態生成的,js本身可以是加密的,甚至奇葩一點是jsfuck,如何爬到這些
難度3
總之爬蟲最重要的還是模擬瀏覽器的行為,具體程序有多復雜,由你想實現的功能和被爬的網站本身所決定
爬蟲寫得不多,暫時能想到的就這么多,歡迎補充
『叄』 計算機專業但技術渣渣,想用python做畢業設計,有什麼好的建議
現在的話,學電子商務或者大數據與雲計算或電子競技都是很好找工作的,不過最主要的還是看你個人的興趣愛好來哦!
『肆』 本科計算機 畢 設 求助,PYTHON,爬蟲,資料庫,文本聚類,文本處理
可以加個好友嗎,我也是計算機渣渣一名,本來我的題目只有爬蟲和數內據簡單的分析還有可視化展示,容可我導師很嚴格,給我加了資料庫,文本聚類,jieba分詞和情感分析還有一些具體分析的要求,現在的我就是當年的你,每天都郁鬱沉沉,茶飯不思。你的問題怎麼解決的?可以教教我嗎?真的很想知道!
『伍』 python數據分析和爬蟲有什麼關系
用爬蟲爬到數據後才能進行數據分析啊,不然數據分析沒有數據。
『陸』 想做爬蟲和數據分析有必要去學一下深度學習嗎
沒必要。。。尤其是爬蟲,和深度學習半毛錢關系都沒有。
『柒』 數據分析工程師教你學習精簡的爬蟲技術
數據分析工程師主要是對網路數據進行處理的,對數據進行分類、聚類、進行一些數據建模等等,然後根據這些數據進行分析,得出重要的結果,今天就教給你學習精簡的爬蟲技術。
1、對於python的基礎語法知識一定要有所了解。
2、學會使用網路解析工具。
3、學會使用正則表達式。
4、從網路了解爬蟲數據的過程。
5、深入學習反爬機制,就是時間間隔、代理ip等等。
6、了解一些特殊的網站爬取,如js模式、Cookie等。
7、學習爬蟲框架和源碼。
這些就是我們要學習的爬蟲技術,如果你想成為數據分析工程師,建議你先從python開始進行學習,因為它是基礎,另外自學顯然不現實,希望大家可以找有經驗的人進行培訓。