[心得] MIT 6.824 lab心得 s9041200 PTT批踢踢實業坊

[心得] MIT 6.824 lab心得

作者: s9041200 (小明阿) 2022-03-12 02:30:54

之前看到有人po國外CS的公開課，剛好最近把MIT 6.824的lab都寫完了，來分享一下心得。
希望下面的心得可以幫助在寫lab的人與讓更多人一起來寫lab:-)
Q1: 這堂課與其他分散式系統的課差在哪裡?
一般的課就是把分散式的手法與概念介紹過去，像lamport clock, raft, 各種consistency。
6.824每堂課都是由一篇又一篇的paper組成，帶大家去看遇到的問題是什麼，他們是怎麼處理的、優缺點是什麼。
所以有人會說6.824上完後沒有什麼架構，但其實只是6.824沒有整個列出來而已。
一開始是單純的single leader(GFS, vmware FT)，但會有single failure；
後面有共識演算法(raft)，讓其他在leader死亡時可以接手，但是performance不好，也不能處理transaction；
為了處理transaction，就有了distributed transaction(2 phases-commit)，performance當然不好，但目前沒有什麼好方法；
但如果不追求強一致性，可以換來性能的提升(zookeeper, casual consistency)；
不追求讀寫的效能提升，只追求read-only效能提升，就有了spanner與aurora；
前面的情境都是建立在彼此可信任不會有造假的前提(非拜占庭)，面對有惡意、不能信任的user，fork consistency與blockchain應運而生。
另外還有上鎖，在cache consistency中介紹悲觀鎖，在FaRM介紹樂觀鎖。
這讓我想起讀little schemer與seasoned schemer的時光，都是不明講的。
Q2: lab在做什麼?
lab1是做一個單機版的MapReduce。
lab2是根據raft paper做一個具有log compaction、log fast backtrack、基本raft功能的raft lib。
lab3是用lab2的raft做一個容錯、線性一致的key-value database。
lab4是一個簡化版的etcd，可以當成是做了shard的lab3。
Q3: lab做完會得到什麼?
1. 用golang實現一個raft與簡化的etcd
2. 設計log與用log除錯的能力
3. 會用lock
4. 成就感與耐心
Q3: lab1要注意什麼?
注意reducer的定義，剩下很簡單(與後面的比)。
話說這lab可以只用atomic完成。
Q4: lab2要注意什麼?
1. 讀raft paper，要知道raft的正確性來自哪裡
2. 一開始只用一個lock就好，慢慢發展自然會看到哪邊還需要lock
3. log的操作要做好抽象，不然做log compaction會改到吐
4. log要把所有改變的state印出來，lab到後面開始測unreliable會看到好幾次才出現一次的bug
5. 寫到一定程度要去讀前TA的student guide
6. log fast backtrack有很多作法，教授有提供一種在raft2那一篇
7. lab頁面上有raft結構與上鎖的建議，也許可以參考看看(我沒看)，個人是
- 上lock要按照一定順序
- 沒有被lock保護的method可以加一些字表示沒有上lock
- 寫到後面會忘記到底哪邊有上lock，之後就默默deadlock
一般來說難以重現的bug出自下面3種情況:
1. rpc條件給錯 => 回去看paper的figure 2
a. HeartBeat並不特別，heartbeat就是AppendEntries
b. RequestVote的條件有沒有錯
- lab2a的投票沒有涉及log，但是log是投票中很重要的條件，在lab2b的測試中lab2a沒做好的部分會暴露出來
2. timer沒有在對的時機reset => 回去看paper的figure 2
3. heartbeat或是election的時間太近 => 兩者不能太近
另外丟log到client的部分可以拉出一個applier做，因為tester的channel是unbuffer，會撞student guide中提到的4-way deadlock。
還有寫個腳本跑test，善用background job一次跑好幾個test，自己寫或是找TA的腳本都好。
在前往下一個lab之前，先把自己的raft多測幾遍，越早找到bug越好。
Q5: lab3要注意什麼?
1. student guide中提到的re-appearing index，底下的raft可能經歷換leader，要確認拿到的commit的term是對的
- 同時還要做timeout retry
2. 去重，rpc會有延遲、多次重試這要處理，其實就是加個sequence number
3. lab3有測試performance的部分，注意raft的persist有沒有在不對的時候persist
Q6: lab4要注意什麼?
1. lab4a的產生config演算法一定要是確定性的，同樣的input同樣的output(map的走訪會變!!)
2. shard的分配config會有index，這是有意義的，利用它才能正確的做shard migration
3. challenge1雖然說是做gc，但我一直吃因timeout而產生的FAIL(明明都print passed了QQ)，最後是調timeout的時間才ok的
Q8: golang有沒有要注意的?
可以先看Russ Cox在2018的slide。
http://nil.csail.mit.edu/6.824/2018/notes/gopattern.pdf
這裡的golang是1.17.x版。
1. map中struct的field是unaddressable，不能改
2. mutex沒有tryLock
3. log可以直接用%v去印
4. goroutine中會變動的值(index之類)一定要從參數傳進去，有的時候風格檢查找不到
5. 傳到rpc的東西要先copy一份，不然會有奇怪的panic
6. slice的copy是取兩者最小的長度
7. slice的slice不一定會copy來產生新的slice
8. race detector要開，先修data race
9. built-in timer不是不能用，要去找正確用法
Q9: 個人而言做完lab有什麼收穫?
1. 好的架構可以在擴展功能時會帶領你到對的地方
2. lock怎麼與object融合在一起
Q10: 能不能公開code?
不行，他們還在上課。
Q11: 整個做完有什麼感想?
能修到這門課的學生是幸福的，lab很有趣。
也感謝MIT 6.824能公開這堂課。
另外同實驗室的6.S081也是很棒的課，lab也有趣同時還有幾乎是明示的暗示。
Q12: 推薦大家來寫嗎?
所有測試與scaffold都有，舞台就在那邊，還不上嗎?
希望這篇能幫到想寫lab的人，以上。

作者: AgileSeptor (S.Duncan_JB) 2022-03-12 02:31:00

推

作者: et84121 (焦糖瑪琦屎) 2022-03-12 03:19:00

推推

作者: worcdlo (worcdlo) 2022-03-12 03:33:00

酷

作者: plsmaop (plsmaop) 2022-03-12 08:41:00

你 lab4 所有的 challenge 都有完成嗎？

作者: kuan (kuan_hiroshi) 2022-03-12 09:02:00

推推

作者: holebro (穴弟弟) 2022-03-12 09:27:00

好酷

作者: MATT1899 (Matt) 2022-03-12 09:59:00

你好，之前那個公開課的文是我發的，我想請問一下這堂課跟6.S081的難度差不多嗎？我在做6.S081的時候有一些lab都做不太下去，想問問看這堂課如何

作者: alan23273850 2022-03-12 10:34:00

建議分享在 jserv 的系統討論區

作者: plsmaop (plsmaop) 2022-03-12 10:35:00

我覺得這堂比 6.S081 難

作者: linnom (繁星) 2022-03-12 10:48:00

比6.s081難我兩個都進行中,6.s081只要xv6 book讀熟都還蠻容易的

作者: alan23273850 2022-03-12 12:35:00

https://facebook.com/groups/system.software2022

作者: drysor 2022-03-12 12:38:00

推推

作者: longlyeagle (長鷹寶寶實驗室) 2022-03-12 12:43:00

nice nice

作者: drajan (EasoN) 2022-03-12 14:00:00

該退

作者: gagalala (嘎啦) 2022-03-12 14:18:00

還沒開始寫lab 但感謝分享！

作者: maoxing 2022-03-12 14:28:00

推，最近也想要修，請問樓主包含上課大概花多久時間

作者: yoche2000 (Sushi Desu! 在下壽司) 2022-03-12 15:24:00

推這真的很棒

作者: schemer (珍惜每分每秒) 2022-03-12 16:40:00

推，感覺很有趣

作者: oscillator (努力中) 2022-03-12 17:32:00

謝謝分享

作者: touurtn (vv) 2022-03-12 17:55:00

好精實@@

作者: godsparticle (阿粒) 2022-03-12 18:01:00

好認真

作者: inte629l 2022-03-12 18:11:00

推

作者: johnny94 (32767) 2022-03-12 18:56:00

其實如果有實際在工作上處理分散式系統學過一些零散知識的話，可以看出這門課的安排是有它的邏輯在的

作者: daddy29 (願上帝與你同在) 2022-03-12 19:30:00

用GOLANG 輕鬆多了

作者: hjtiun852 (楓嵐) 2022-03-12 20:49:00

推推事情忙完也來看看先收藏了

作者: plsmaop (plsmaop) 2022-03-13 00:02:00

我剩 challenge 1沒弄，好懶

作者: nctukmdick (kmdick) 2022-03-13 05:23:00

真有毅力

作者: yoche2000 (Sushi Desu! 在下壽司) 2022-03-13 13:52:00

推感謝

作者: jasonwung (路人JJ) 2022-03-15 12:35:00

推推

作者: argc (哈魯) 2022-03-19 15:18:00

感謝分享

作者: vvind (wind) 2022-03-28 15:57:00

推推

繼續閱讀

[心得] 使用 pyroscope adhoc 加速找到效能瓶頸appleboy46 [新聞] 「72個蚊子APP」數位轉型淪錢坑？高虹安MrTaxes [請益] 目標轉職精進方向請益akane8310 [徵才] 台灣默克高雄廠(台灣賽孚思科技)已徵到huming103 [請益] 在職專班的選擇kimoji [請益] offer 請益Allkay355 [請益] IT背景的求職選擇shaomi Re: [請益] 不想當管理職到了50歲會不會中年失業?taliao [請益] OFFER請益chermany [徵才] Funliday 前端工程師kewang