书生浦语大模型实战营--第三节作业

2024年1月10日创建

前言

1、https://github.com/InternLM/tutorial/blob/main/langchain/readme.md

一. 环境配置

1.
开源词向量模型下载​

1.1 环境准备

代码块

# 进入环境​
base​
# 查看环境​
conda env list​
​
# 激活环境​
conda activate internlm-demo​

common.docs_name - LarkCCM_Docs_Menu_Image

1.2 模型下载

代码块

# 模型下载​
mkdir -p /root/data/model/Shanghai_AI_Laboratory​
cp -r /root/share/temp/model_repos/internlm-chat-7b /root/data/model/Shanghai_AI_Laboratory/internlm-chat-7b​

1.3 LangChain 相关环境配置

在已完成 InternLM 的部署基础上，还需要安装以下依赖包：

代码块

pip install langchain==0.0.292​
pip install gradio==4.4.0​
pip install chromadb==0.4.15​
pip install sentence-transformers==2.2.2​
pip install unstructured==0.10.30​
pip install markdown==3.3.7​

使用 huggingface 下载

代码块

import os​
​
# 设置环境变量​
os.environ['HF_ENDPOINT'] = 'https://hf-mirror.com'​
​
# 下载模型​
os.system('huggingface-cli download --resume-download sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2 --local-dir /root/data/model/sentence-transformer')​

然后，在 /root/data 目录下执行该脚本即可自动开始下载：

代码块

python download_hf.py

1.4下载 NLTK 相关资源

用以下命令下载 nltk 资源并解压到服务器上：

代码块

cd /root​
git clone https://gitee.com/yzy0612/nltk_data.git  --branch gh-pages​
cd nltk_data​
mv packages/*  ./​
cd tokenizers​
unzip punkt.zip​
cd ../taggers​
unzip averaged_perceptron_tagger.zip​

书生浦语大模型实战营--第三节 作业​

书生浦语大模型实战营--第三节作业