ACL
2024
2024
ValueBench: Towards Comprehensively Evaluating Value Orientations and Understanding of Large Language Models
77引用
两次创业都撞上同一堵墙——AGI 时代专业数据的供给不足。于是我决定亲手建造数据基础设施。
面向 AGI 时代的专业数据基础设施。通过 /v1/search 做结构化过滤 + 语义检索,返回带出处、可溯源的材料,服务尽调工具、投融资 Agent 与研究分析。
开源生态项目,自上线以来 GitHub Stars 突破 7,000,逐月加速增长。把研究方法沉淀成可被社区直接采用的工具。
面向教育场景的 AI Agent 产品,已实现营收 100w+。这次创业让我直接撞上「专业数据供给不足」的问题,也成为后续做火花数据API 的起点。
聚焦大模型价值评测与生成式心理测量。两项工作沿时间线排布,保留会议、年份、作者与引用数。
从价值观理论框架,到大模型评测方法,再到把研究做成可用的数据与工具——研究与实习串成一条线。
近期写作主题,文章陆续上线——把任意一篇的真实链接给我,即可点亮。
欢迎就专业数据、LLM 评测或开源协作交流。