community was bringing it up at the same time we developed Csmith. In
Pratyush Kumar的回应比上次更直接。他在X上写道,团队欣赏DeepSeek的研究,也从中学习,但Sarvam-105B是用更小的规模做到了这些结果。一名Sarvam工程师补充:公司所有模型都是从零训练的基础模型,没有例外。,更多细节参见新收录的资料
FT Edit: Access on iOS and web,更多细节参见新收录的资料
你比如说在中渡桥战役中,殉国的王清将军等等,这些人都是那个时期涌现出来的好汉子、真豪杰,像这样的一些人物他们都没有能够进来。不是说在历史上这些人不重要、不精彩,而是在我们的这条表达线上,在选择的轻重缓急上,我们没有选择他,因为我们在顺着表达线走,不是去平铺五代十国的全景。人物上如此,故事上更是如此。