手把手教你喂養 DeepSeek 本地模型(18頁).docx
下載文檔
上傳人:Le****97
編號:1348050
2025-04-18
18頁
3.20MB
1、手把手教你喂養 DeepSeek 本地模型下面就開始 DeepSeek 手把手系列第二篇:手把手教你喂養 DeepSeek 本地模型 1.基本概念科普 2.下載 AnythingLLM 軟件 3.配置 nomic-embed-text 模型 4.演示如何正確喂養個人數據 5.喂養前后效果對比和缺陷1.基本概念科普這里先給AI小白簡單科普一下基本概念,便于更好地理解本文中的動手操作。為什么我這里叫“喂養”DeepSeek 本地模型,是因為大模型再強大也有它天然的局限性,比如訓練數據不可能包含你的私域數據,而打造自己的本地私域知識庫,就需要檢索這些數據,具體采用的是RAG(檢索增強生成)方法。RA2、G,英文全稱是Retrieval-Augmented Generation。簡單來講,采用RAG就需要把你的私域數據向量化,然后存儲到向量數據庫中,支持向量檢索配合LLM大模型一起提供更專業的回復。2.下載 AnythingLLM 軟件官方網站: 下載符合你系統平臺的軟件,我這里是Apple Intel:下載好的AnythingLLMDesktop.dmg,dmg文件約300M多點,雙擊安裝并拖至應用程序中:拖動時可以看到AnythingLLM安裝程序有1G大小:然后打開AnythingLLM,歡迎界面如下:點擊Get Started配置首選LLM,這里我們選擇上一篇文章已經教大家配置好的Ol3、lama:這里注意,需要確保你的Ollama正常運行,否則會報錯找不到provider endpoint,如下圖:此時就需要檢查你的ollama以及可用的本地模型:修復好之后就可以看到AnythingLLM已經可以正確識別到本地部署的模型:之后可以看到LLM模型選擇了Ollama,Embedding默認是AnythingLLM的Embedder,Vector Database默認是LanceDB:為了不給新手加難度,Embedding和Vector Database我這里都沒有進行修改,直接先進入到下一步,是一個survey,筆者是個i人,實在沒啥可說的,這里直接跳過了:下一步選擇工作區名稱,4、你可以隨便起名字,我這里就用自己的英文名演示了:然后就終于進入了主界面:呼呼,迫不及待的開始測試。我這里直接設計了一個大模型不可能知道的問題,就是拿我的中文名字去做測試,直接問他“趙靖宇是誰?”果然,它不知道!馬上開始上傳一段TXT文本QA-Test.TXT,其實就是簡單包含了我之前在講公開課時的一段個人介紹,全文也沒幾句話。開始期待它的表現,上傳方式如下,可以看到上傳后文件就會自動Embedded!可是 這里不太順利,它居然還是不知道!嗚嗚嗚,我都把小抄給你了你還說不知道,筆者已哭暈此時只能轉而troubleshooting,檢索發現不少人都有遇到類似問題,有人甚至直接發結論說本地大模型的模5、式下,AnythingLLM根本無法識別上傳的個人文件,甚至力勸大家別折騰了。3.配置 nomic-embed-text 模型筆者屬于不撞南墻不回頭的類型,想深挖下問題到底出在哪里?開始逐一檢查可能的配置:1)聊天設置模型選擇肯定是沒問題,本地大模型 DeepSeek:2)向量數據庫默認的,向量數量為1:3)代理配置依然選擇了本地大模型 DeepSeek:筆者初步判斷: 1)本地大模型肯定沒問題,因為上篇使用Chatbox調用都OK,AnythingLLM對應配置也再次確認了,均正確。 2)向量數據庫雖然我有更好的選擇,筆者就是從事數據庫行業,但這里顯然還沒到那個階段,默認的即便再拉跨也不至于6、一個這么簡單的文本向量化都搞不定。 3)那就剩下 Embedding 用的模型,雖然開始也沒懷疑過,但是這樣排除下來就這個可能性最大了。要不,換一個試試?目前 Embedding 采用的是默認的 AnythingLLM Embedder:簡單research了下,選了另一個Ollama下的nomic-embed-textEmbedding 模型,官方網站: 我們可以在terminal下使用ollama直接拉取ollama pull nomic-embed-text:然后再回到Embedder首選項,在嵌入引擎提供商,選擇Ollama,然后在下面的Ollama Embedding Model選擇7、剛剛下載的最新nomic-embed-text:8192,如下圖:選擇好之后點擊藍色的按鈕保存更改,會彈出一個比較醒目的Warning,如下圖:主要是警告你要做的這個更改Embedding模型的操作會重置先前所有embedded的文檔,且不可逆轉。我這之前的根本沒效果,重置就重置,趕緊點擊Confirm,迫不及待想看下這個新的Embedder是否有用?4.演示如何正確喂養個人數據使用跟之前同樣的操作方法,同樣的問題趙靖宇是誰?,喂養文本QA-Test.TXT,終于起作用了!于是興奮地繼續追問:他有幾年的工作經驗?,又不知道了,當然這個正常,因為我提供的信息里就沒有明確提到,可以繼續上傳其他個人數據,比如說來份PDF格式的個人簡歷:然后繼續問些更細節的問題:你知道他的博客地址是什么嗎?、趙靖宇有公眾號嗎?效果還是比較給力的,均給出了正確答案。明確說出我的公眾號名稱趙靖宇,以及Blog的url地址:5.喂養前后效果對比和缺陷上面已經看到了喂養后的效果顯著,但這是否就高枕無憂了呢?其實不是的,比如我繼續測試時發現,當讓它幫我總結下簡歷信息,就看到了較明顯的缺陷:這里有兩處明顯的錯誤:而且有一個錯誤,還是之前單獨問它時,回答正確的,具體如下圖:
CAD圖紙
上傳時間:2022-06-30
20份