最新的“大型语言模型”问题-堆栈溢出

0 投票

0 答案

10 意见

如何在Python中微调merlinite 7B模型

我是Python中LLM编程的新手，我正在尝试在我的Mac M1上微调instructlab/merlinite-7b-lab模型。我的目标是把这个模型教给我的新音乐作曲家Xenobi Amilen。。。

萨尔瓦托尔·丹格洛

1,139

问4小时前

-3 投票

0 答案

10 意见

Faker库的替代方案（动态生成假数据）[已关闭]

问题-需要动态生成数据。目前我需要使用自定义伪造器提供程序处理奇怪的标签（如果标签是图片，我需要手动处理）。输入-jpg表单（图像W2）输出-。。。

阿巴斯·扎伊迪

1

问6小时前

0 投票

0 答案

9 意见

Huggingface Trainer记录的样本大小与实际大小不同

我正在尝试Finetune模型。以下是我的数据集的列车测试拆分-列车-4746（80%）测试-1188（20%）下面是我的代码片段：training_args=训练参数(bf16=真，#指定。。。

谢里什·巴杰帕伊

618

问9小时前

0 投票

0 答案

11 意见

有可能在Nvidia jetson系列上构建llm吗？

我想在本地构建一个llm模型。模型可以很小，因为我的服务性能和质量不需要太好。尽管如此，像aws、azure这样的云服务确实。。。

基姆基姆

13

问12小时前

-1 投票

0 答案

12 意见

如何选择1536作为维嵌入向量？为什么采用？

我个人在openai和其他地方见过1536维嵌入向量，你是怎么得到1536这个数字的？为什么是1536年？有人能帮我更好地理解吗？我期待着。。。

Sidharth P公司

9

问13小时前

-1 投票

0 答案

19 意见

如何在HuggingFaceLLM的llama3中设置eos_token_id？

我想设置我的eos_token_id和pad_token_id。我在谷歌上搜索了很多，大多数人建议使用例如tokenizer.pad_token_ id（就像从这里开始https://huggingface.co/meta-llama/meta-Lama-3-8B/discussions/。。。

yts61年

1,487

问14小时前

0 投票

0 答案

8 意见

Langchain Pandas代理在分析数据帧时返回SyntaxError

我在循环中使用Pandas数据帧代理时遇到语法错误。LLM（大型语言模型）似乎没有正确使用python_repl_ast工具。以下是一些。。。

MichałO。

1

问15小时前

0 投票

0 答案

27 意见

我在pip安装flash-attn时出错

在此处输入代码我当前正在尝试安装“microsoft/Florence-2-large”型号，并遵循文档在github页面上提供。运行pip安装时flash-attn--无建筑-。。。

Tanuj Manikyala公司

1

问16小时前

0 投票

0 答案

18 意见

如何在SFTTrainer拥抱脸中为我的LLM模型选择dataset_text_field

注：LLM新手背景我正在尝试在stackoverflow c langauge数据集上使用LLama3训练LLM。LLm-meta-lama/meta-lama-3-8B数据集-Mxode/StackOverflow-QA-C-Language-40k我的。。。

巴加夫-弱智技能

3,243

问16小时前

1 投票

0 答案

38 意见

使用数据集之类的消息回复微调llama3（slack）

我想在数据集上微调llama3，其中数据结构是考虑以下规则的消息列表：有频道。在每个频道中都有来自各种用户的消息。...

本

423

问昨天

-3 投票

1 回答

39 意见

尝试使用空闲资源在本地计算机中的大型数据集上训练gpt2[已关闭]

有可能在colab、jupyter或kaggle上的1.5米数据点上训练gpt2吗？到目前为止，我试着用可乐做，但在标记化过程中存储空间不足，这是可以理解的。我。。。

网络滑坡（_B）

1

问昨天

0 投票

0 答案

11 意见

查询拉玛！！ValueError:文本输入的类型必须为`str`（单个示例）、`List[str]`

我有一个生成骆驼响应的函数，但在调用时，它始终返回ValueError:文本输入必须是str（单个示例）、List[str]（批处理或单个预标记示例）。。。

Irini Kanaris Miyashiro先生

1

问昨天

0 投票

0 答案

41 意见

使用DPO:nan优化LLM评估期间的损失值

我想优化一个基于DPO的LLM。当我尝试训练和评估模型时，评估结果中有nan个值。进口焊炬从变压器导入AutoModelForCausalLM。。。

马斯坦

737

问昨天

0 投票

0 答案

10 意见

当我使用langchain-chatopenai模型和调用方法时，它可以工作，但在crewai相同的llm模型中使用时，它给出了无效的api密钥

导入操作系统从langchain_openai导入openai从langchain_openai导入ChatOpenAI从langchain.prompts导入PromptTemplatechat_model=ChatOpenAI（openai_api_base=“https://集成。。。。

Chirag jha公司

1

问昨天

1 投票

1 回答

25 意见

使用Ollama流式传输时，Mistral7b响应以额外的前导空格开始

当我用Ollama流式传输mistal7b LLM的响应时，它在第一个流式传输块的左侧有一个额外的空间。下面是我的代码：进口奥拉玛流=ollama.chat(model='mistal'，...

无码器777

64

问2天前

堆栈溢出上的Collections™

带标签的问题[大型语言模型]

如何在Python中微调merlinite 7B模型

Faker库的替代方案（动态生成假数据）[已关闭]

Huggingface Trainer记录的样本大小与实际大小不同

有可能在Nvidia jetson系列上构建llm吗？

如何选择1536作为维嵌入向量？为什么采用？

如何在HuggingFaceLLM的llama3中设置eos_token_id？

Langchain Pandas代理在分析数据帧时返回SyntaxError

我在pip安装flash-attn时出错

如何在SFTTrainer拥抱脸中为我的LLM模型选择dataset_text_field

使用数据集之类的消息回复微调llama3（slack）

尝试使用空闲资源在本地计算机中的大型数据集上训练gpt2[已关闭]

查询拉玛！！ValueError:文本输入的类型必须为`str`（单个示例）、`List[str]`

使用DPO:nan优化LLM评估期间的损失值

当我使用langchain-chatopenai模型和调用方法时，它可以工作，但在crewai相同的llm模型中使用时，它给出了无效的api密钥

使用Ollama流式传输时，Mistral7b响应以额外的前导空格开始

热门网络问题

堆栈溢出上的Collections™

带标签的问题[大型语言模型]

相关标签