AI_Agent面经总结

税友集团

自我介绍

项目背景？是科研项目还是比赛项目？

天池的推荐系统的项目有提交结果么，排名如何？

毕设那个项目有什么创新性的工作？项目数据集？

对图像数据有没有经验？

项目都是Python完成的么？

LightGMB的Learning to Rank的排序原理？

RAG项目是用Langchain做的？有涉及到几个节点？

（刚开始回答错了，说了只用了一个智能体，所以就问了只用了一个智能体为什么选择用Langchain的方法？）

一个智能体用Langchain没有用到它的优势？

项目中看到有解决知识幻觉的问题，什么是知识幻觉？

有了解过幻觉出现的底层的原因是什么么？

知识库的搭建有实现么？

markdown文档数据的分割是通过大标题么？

使用RAG会使用向量数据库存储，检索的时候至少会选择一个余弦相似度来匹配，为什么不使用普通数据库？向量数据库的优点和缺点？（稀疏向量，即关键词检索和密集向量？）

使用的什么Embedding模型？BGE-small-v1.3-zh模型

使用的什么大语言模型？有试过其他的么？

有测过检索的召回率么？

感觉回答的怎么样？你的查询路由是一个LLM接了三个LLM，其实是一个链式的结构。

你这里意图识别完的动态prompt编排就是根据意图加载不同的prompt模版？

在设计的过程中有用到并发功能么？

这是根据用户的点击习惯来进行的推荐么？

Annoy向量索引是什么？（基于树模型方法）具体是怎么索引的呢？

项目数据是怎么来的呢？为了参加比赛么，还是为了练手？

业务题

Langchain的两个节点接入的同一个API key指向同一个模型，但是两个的响应时间远远不一样，有一个远大于另一个？排除了网络的因素，还有什么可能的原因？（后来问面试官说可以考虑提示词给的长度不同，以及提示词给回答限制长度）换一个问法：什么是影响大模型返回速度的主要因素？

关于Python的问题

Python的并发，携程和多进程的区别？

装饰器有用过吧？用装饰器来干什么？装饰器的主要用法？

在家里“好未来”的本子上