跳到主要内容

带标签的问题[大型语言模型]

大型语言模型(LLM)相关主题的通用标记。如果可用,请始终使用更具体的标签(GPT变体、PaLM、LLaMa、BLOOM、Claude等)

大语言模型
1,499问题
筛选依据
排序依据
标记为
0 投票
0 答案
10 意见

如何在Python中微调merlinite 7B模型

我是Python中LLM编程的新手,我正在尝试在我的Mac M1上微调instructlab/merlinite-7b-lab模型。我的目标是把这个模型教给我的新音乐作曲家Xenobi Amilen。。。
Salvatore D'angelo的用户头像
-3 投票
0 答案
10 意见

Faker库的替代方案(动态生成假数据)[已关闭]

问题-需要动态生成数据。目前我需要使用自定义伪造器提供程序处理奇怪的标签(如果标签是图片,我需要手动处理)。输入-jpg表单(图像W2)输出-。。。
Abbas Zaidi的用户头像
0 投票
0 答案
9 意见

Huggingface Trainer记录的样本大小与实际大小不同

我正在尝试Finetune模型。以下是我的数据集的列车测试拆分-列车-4746(80%)测试-1188(20%)下面是我的代码片段:training_args=训练参数(bf16=真,#指定。。。
Shirish Bajpai的用户头像
0 投票
0 答案
11 意见

有可能在Nvidia jetson系列上构建llm吗?

我想在本地构建一个llm模型。模型可以很小,因为我的服务性能和质量不需要太好。尽管如此,像aws、azure这样的云服务确实。。。
KIMKIMKIM的用户头像
-1 投票
0 答案
12 意见

如何选择1536作为维嵌入向量?为什么采用?

我个人在openai和其他地方见过1536维嵌入向量,你是怎么得到1536这个数字的?为什么是1536年?有人能帮我更好地理解吗?我期待着。。。
Sidharth P的用户头像
-1 投票
0 答案
19 意见

如何在HuggingFaceLLM的llama3中设置eos_token_id?

我想设置我的eos_token_id和pad_token_id。我在谷歌上搜索了很多,大多数人建议使用例如tokenizer.pad_token_ id(就像从这里开始https://huggingface.co/meta-llama/meta-Lama-3-8B/discussions/。。。
yts61的用户头像
  • 1,487
0 投票
0 答案
8 意见

Langchain Pandas代理在分析数据帧时返回SyntaxError

我在循环中使用Pandas数据帧代理时遇到语法错误。LLM(大型语言模型)似乎没有正确使用python_repl_ast工具。以下是一些。。。
MichałO的用户头像
0 投票
0 答案
27 意见

我在pip安装flash-attn时出错

在此处输入代码我当前正在尝试安装“microsoft/Florence-2-large”型号,并遵循文档在github页面上提供。运行pip安装时flash-attn--无建筑-。。。
Tanuj Manikyala的用户头像
0 投票
0 答案
18 意见

如何在SFTTrainer拥抱脸中为我的LLM模型选择dataset_text_field

注:LLM新手背景我正在尝试在stackoverflow c langauge数据集上使用LLama3训练LLM。LLm-meta-lama/meta-lama-3-8B数据集-Mxode/StackOverflow-QA-C-Language-40k我的。。。
Bhargav-迟钝技能的用户头像
1 投票
0 答案
38 意见

使用数据集之类的消息回复微调llama3(slack)

我想在数据集上微调llama3,其中数据结构是考虑以下规则的消息列表:有频道。在每个频道中都有来自各种用户的消息。...
Ben的用户头像
  • 423
-3 投票
1 回答
39 意见

尝试使用空闲资源在本地计算机中的大型数据集上训练gpt2[已关闭]

有可能在colab、jupyter或kaggle上的1.5米数据点上训练gpt2吗?到目前为止,我试着用可乐做,但在标记化过程中存储空间不足,这是可以理解的。我。。。
0 投票
0 答案
11 意见

查询拉玛!!ValueError:文本输入的类型必须为`str`(单个示例)、`List[str]`

我有一个生成骆驼响应的函数,但在调用时,它始终返回ValueError:文本输入必须是str(单个示例)、List[str](批处理或单个预标记示例)。。。
0 投票
0 答案
41 意见

使用DPO:nan优化LLM评估期间的损失值

我想优化一个基于DPO的LLM。当我尝试训练和评估模型时,评估结果中有nan个值。进口焊炬从变压器导入AutoModelForCausalLM。。。
马斯坦的用户头像
  • 737
0 投票
0 答案
10 意见

当我使用langchain-chatopenai模型和调用方法时,它可以工作,但在crewai相同的llm模型中使用时,它给出了无效的api密钥

导入操作系统从langchain_openai导入openai从langchain_openai导入ChatOpenAI从langchain.prompts导入PromptTemplatechat_model=ChatOpenAI(openai_api_base=“https://集成。。。。
Chirag jha的用户头像
1 投票
1 回答
25 意见

使用Ollama流式传输时,Mistral7b响应以额外的前导空格开始

当我用Ollama流式传输mistal7b LLM的响应时,它在第一个流式传输块的左侧有一个额外的空间。下面是我的代码:进口奥拉玛流=ollama.chat(model='mistal',...
noocoder777的用户头像

15 30 50 每页
1
2 4 5
100