Re: [新聞] 家登光罩盒訴訟演出逆轉勝:從賠償9億多

作者: ides13 (juso)   2020-06-28 00:26:51
推 MrCAKE: 如果是這樣,關鍵字拓展之後還是卡關,就要想其他招了 06/26 08:35
推 MrCAKE: 以後AI檢索更強的話應該能幫忙(吧) 06/26 08:41
推 patentable: 以目前機器學習的AI架構,還沒辦法做到瞭解文義 06/26 09:49
→ patentable: 對於檢索的幫助其實非常有限,主要用在統計用字頻率 06/26
09:50
https://hant-kb.kutu66.com/others/post_13649887
目前的AI可以做到「句子相似度」的計算,如上連結。
'this is a sentence'及'this is also sentence'的計算結果,高達0.915479828613的
近似度。
因此,如果要用機器幫忙找前案的話,可以先寫下要找的句子(或詞袋),然後用「句
子相似度」的演算法,來找出近似的專利。word2vec是由google提出來,google專利資料
庫的近似專利,應該也是用這個演算法計算出來的。
考慮到專利用語的多變化,(以下是我亂想的,沒有理論基礎)想要提高演算的精確度時
,選擇詞袋中的詞就很重要,可以考慮先對句子中的詞進行處理。舉例,可以考慮先把
下位詞更換成上位詞,或者把所有的近似詞換成相同的詞等,但這個需要自己整理詞庫。
因此,個人認為用機器幫忙找專利,是有機會的,但需要為不同的領域準備好自己的
詞庫。要用一般的詞庫應該很難達到實用的效果。
下面有整理出幾個句子相似度的演算法。
https://reurl.cc/WdQkVx
作者: patentable (可專利)   2020-06-29 06:52:00
最大的問題確實是詞庫,還有上下位用語的關係
作者: VanDeLord (HelloWorld)   2020-06-29 09:58:00
DL角度來看,原始資料清洗剩下的資料量和演算模型難搞之前想開發DL模型演算法,不過這一塊太吃AI科學家能力,弄個五人團隊加上硬體一年硬生生要掉我1200萬台票,市場規模有限,暫時放棄先看後面AI硬體有沒有辦法降價XD演算法的部分等 AutoML的發展,看起來有機會AutoML的好處是,將足夠清洗好後的資料餵進去,會自己找最適合的演算模型, 而不是靠人設計模型,對於沒有頂尖AI科學家的企業來說,這一塊商機感覺很大
作者: ides13 (juso)   2020-06-29 11:33:00
曾經想過這上面的的想法創業,但覺得應該不可能,只留在想想的階段,對於敢付出實際的人,都感到佩服。V大你真有勇氣。https://reurl.cc/WdQOvDhttps://reurl.cc/8GM9j7上面有代碼,提供給有興趣玩的網友參考。只要更換sentance1及2的文字,就能算出相似度。https://reurl.cc/xZM3NZ「GoogleNews」詞向量的下載地址,如上。
作者: VanDeLord (HelloWorld)   2020-06-29 13:52:00
https://arxiv.org/pdf/1905.07870.pdf當初還找了金庸古龍小說訓練出來的演算模型,跑一個月以終於一個claim裡面有一小段話看起來比較像樣google : AI論文機器人不過我也發現有些美國網站開始有推銷AI寫專利這一塊發明人只要輸入發明內容,就會生成專利說明書給你..orz不過我看內容還是需要人工校閱就是了在語意模型裡面, 英文比中文簡單太多了...嘆
作者: ides13 (juso)   2020-06-30 15:03:00
https://reurl.cc/j7Z0zpAI HUB,有在進行類似的專案。
作者: ealvis   2020-07-13 04:30:00
其實你用svm類似的方向去想ai分析專利,會落入pre-train那些拘束。但其實用cluster的方式去想專利相似應該會比較適合。以醫療分析也是這樣,其實你不用管原本的分析標的在你的眼光是什麼特性,因為分析後的ai會告訴你為什麼他要這樣分析。但真正的問題是拿ai來弄專利太浪費錢,拿這些錢來弄人命才比較好賺錢
作者: ides13 (juso)   2020-07-14 13:37:00
謝謝提供進一步資料,原來還有cluster的方式。https://reurl.cc/KkaYxg目前是想找一種能夠幫助檢索的方式,但理論基礎太弱了。
作者: VanDeLord (HelloWorld)   2020-08-01 14:30:00
cluster是傳統語意分析方式cluster分析是有其優點

Links booklink

Contact Us: admin [ a t ] ucptt.com