HTMLから中身の文章だけを取り出すLLM、データ収集をしていた時にこういったのが欲しかった。
ただ今はもういろんなサイトがクローリング禁止になってるので、使える場所はどうなのかな。
LLaMaも既にデータを持っていて新しい手法で学習させるだけなら早いよね。
既存LLMと新規参入とでは、その辺でかなりの差が付く。
参入障壁めっちゃ高い。
HTMLから中身の文章だけを取り出すLLM、データ収集をしていた時にこういったのが欲しかった。
ただ今はもういろんなサイトがクローリング禁止になってるので、使える場所はどうなのかな。
LLaMaも既にデータを持っていて新しい手法で学習させるだけなら早いよね。
既存LLMと新規参入とでは、その辺でかなりの差が付く。
参入障壁めっちゃ高い。