-
"We Have No Moat, And Neither Does OpenAI"Dev LLM 2023. 5. 28. 22:25
올해는 일정 분야에 잘쓸 수 있는, 챗봇형태 커스텀 인공지능을 만드려고 합니다. 오픈소스LLM 중 다룰 수 있으며, 성능이 나은 것을 베이스로 고르고 관련 정보들로 다운스트림 태스크할 계획입니다. 얼마 전 "We Have No Moat, And Neither Does OpenAI"라는 재미있는 문서가 공개되었습니다. 공개 의도가 있는지는 모르겠지만 일단 급하게 변해가는 LLM의 주요 사건을 알 수 있습니다. ㅎㅎㅎ 참고로 한번 읽어보세요~~
https://www.semianalysis.com/p/google-we-have-no-moat-and-neither
Google "We Have No Moat, And Neither Does OpenAI"
Leaked Internal Google Document Claims Open Source AI Will Outcompete Google and OpenAI
www.semianalysis.com
아래는 최근에 유출된 문서로, 공개 Discord 서버에서 허가를 받은 익명의 개인이 공유했다. Google 내부의 연구원에서 시작되었고 진위 여부를 확인했습니다. 이 문서는 회사 전체가 아닌 Google 직원의 의견입니다. 우리는 아래에 쓰여진 내용에 동의하지 않으며 우리가 요청한 다른 연구자들도 동의하지 않지만 이에 대한 우리의 의견은 구독자를 위해 별도의 글로 게시합니다.
우리는 해자가 없습니다 OpenAI도 마찬가지입니다.
우리는 OpenAI에서 어깨 너머로 많은 일을 해왔습니다. 다음 이정표는 누가 넘을까요? 다음 단계는 무엇일까요? 하지만 불편한 진실은 우리가 이 군비 경쟁에서 이길 수 있는 위치에 있지 않으며 OpenAI도 마찬가지라는 것입니다. 우리가 다투는 동안 제3의 세력이 조용히 우리의 점심을 먹고 있었습니다.
물론 저는 오픈소스에 대해 이야기하고 있습니다. 간단히 말해, 오픈소스가 우리를 잠식하고 있습니다. 우리가 "주요 오픈 문제"라고 생각하는 것들이 오늘날 해결되어 사람들의 손에 쥐어져 있습니다. 몇 가지만 예를 들어보겠습니다:
휴대폰의 LLM: 사람들은 픽셀 6에서 초당 5토큰으로 파운데이션 모델을 실행하고 있습니다.
확장 가능한 개인용 AI: 저녁에 노트북에서 개인화된 AI를 세밀하게 조정할 수 있습니다.
책임감 있는 릴리스: 이것은 "해결"이 아니라 "제거"입니다. 웹사이트 전체가 아무런 제한 없이 아트 모델로 가득 차 있으며 텍스트도 그다지 뒤처지지 않습니다.
멀티모달: 현재의 멀티모달 ScienceQA SOTA는 한 시간 만에 학습되었습니다.
품질 측면에서는 여전히 당사 모델이 약간 우위에 있지만, 그 격차는 놀라울 정도로 빠르게 좁혀지고 있습니다. 오픈 소스 모델은 더 빠르고, 더 맞춤화할 수 있고, 더 비공개적이며, 훨씬 더 뛰어난 성능을 제공합니다. 오픈소스는 1,000만 달러와 5,400억개의 매개변수로 어려움을 겪고 있는 작업을 100달러와 130억 개의 매개변수로 수행하고 있습니다. 그리고 몇 달이 아니라 몇 주 만에 해내고 있습니다. 이는 우리에게 시사하는 바가 큽니다:
저희에게는 비법이 없습니다. Google의 최선의 희망은 다른 사람들이 Google 외부에서 하고 있는 일에서 배우고 협력하는 것입니다. 3P 통합을 활성화하는 데 우선순위를 두어야 합니다. 사람들은 제한 없는 무료 대안의 품질이 비슷한데도 제한적인 모델에 돈을 지불하지 않을 것입니다. 우리의 부가가치가 실제로 어디에 있는지 고려해야 합니다. 거대 모델은 우리의 속도를 늦추고 있습니다. 장기적으로 최고의 모델은 빠르게 반복할 수 있는 모델입니다. 이제 우리는 20억 미만 매개변수 체계에서 가능한 것이 무엇인지 알았으므로 나중에 생각하는 것보다 더 작은 변형을 만들어야 합니다.
무슨 일이 일어났나요?
3월 초, 메타의 LLaMA가 대중에게 유출되면서 오픈 소스 커뮤니티는 처음으로 실제로 작동하는 기초 모델을 손에 넣었습니다. 이 모델에는 인스트럭션이나 대화 튜닝이 없었고, RLHF도 없었습니다. 그럼에도 불구하고 커뮤니티는 자신들이 받은 것의 중요성을 즉시 이해했습니다. 그 후 엄청난 혁신이 쏟아져 나왔고, 주요 개발이 단 며칠 사이에 이루어졌습니다(자세한 내용은 타임라인을 참조하세요). 한 달이 지난 지금, 인스트럭션 튜닝, 정량화, 품질 개선, 휴먼 평가, 멀티모달리티, RLHF 등 다양한 변형이 등장했으며, 이 중 상당수는 서로를 기반으로 합니다.가장 중요한 것은 누구나 손댈 수 있을 정도로 스케일링 문제를 해결했다는 점입니다. 새로운 아이디어의 대부분은 일반인의 아이디어입니다. 교육과 실험에 대한 진입 장벽이 대형 연구 기관의 총체적인 결과물에서 한 사람, 저녁 시간, 낡은 노트북으로 낮아진 것입니다.
이러한 변화를 예견할 수 있었던 이유
여러 면에서 이것은 누구에게도 놀라운 일이 아닙니다. 현재 오픈 소스 LLM의 르네상스는 이미지 생성의 르네상스에 이어 뜨겁게 달아오르고 있습니다. 커뮤니티에서도 비슷한 점을 발견할 수 있으며, 많은 사람들이 이 시기를 LLM의 "안정적인 확산의 순간"이라고 부릅니다.
두 경우 모두 저비용 대중의 참여는 낮은 순위 적응(LoRA)이라는 훨씬 저렴한 미세 조정 메커니즘과 규모 면에서 획기적인 발전(이미지 합성의 경우 잠재 확산, LLM의 경우 친칠라)이 결합되어 가능했습니다. 두 경우 모두, 충분히 높은 품질의 모델에 대한 액세스는 전 세계의 개인과 기관으로부터 수많은 아이디어와 반복을 촉발시켰습니다. 두 경우 모두 대형 업체를 빠르게 앞질렀습니다.
이러한 기여는 이미지 생성 공간에서 중추적인 역할을 했으며, Stable Diffusion은 Dall-E와는 다른 길을 걷게 되었습니다. 개방형 모델을 채택함으로써 제품 통합, 마켓플레이스, 사용자 인터페이스, 그리고 Dall-E에는 없던 혁신이 이루어졌습니다.
그 결과 문화적 영향력 측면에서 빠르게 우위를 점한 OpenAI 솔루션은 점점 더 무의미해졌습니다. LLM에서도 같은 일이 일어날지는 아직 미지수이지만, 큰 구조적 요소는 동일합니다.
우리가 놓친 것
오픈소스의 최근 성공을 이끈 혁신은 우리가 여전히 고민하고 있는 문제를 직접적으로 해결합니다. 이들의 작업에 더 많은 관심을 기울인다면 같은 일을 반복하는 것을 피할 수 있습니다.LoRA는 우리가 더 주목해야 할 매우 강력한 기술입니다. LoRA는 모델 업데이트를 낮은 순위의 인수분해로 표현하여 업데이트 행렬의 크기를 최대 수천 배까지 줄이는 방식으로 작동합니다. 이를 통해 적은 비용과 시간으로 모델을 미세 조정할 수 있습니다. 소비자 하드웨어에서 몇 시간 만에 언어 모델을 개인화할 수 있다는 것은 특히 새롭고 다양한 지식을 거의 실시간으로 통합해야 하는 경우 큰 의미가 있습니다. 이 기술이 가장 야심찬 프로젝트에 직접적인 영향을 미치고 있음에도 불구하고 이 기술이 존재한다는 사실은 Google 내부에서 제대로 활용되지 않고 있습니다.
처음부터 모델을 재교육하는 것은 어려운 과정입니다.
LoRA가 효과적인 이유 중 하나는 다른 형태의 미세 조정과 마찬가지로 스택이 가능하다는 점입니다. 인스트럭션 튜닝과 같은 개선 사항을 적용한 다음 다른 기여자가 대화, 추론 또는 도구 사용을 추가할 때 이를 활용할 수 있습니다. 개별적인 미세 조정은 낮은 등급이지만, 그 총합은 그럴 필요가 없으므로 시간이 지남에 따라 모델에 대한 전체 등급 업데이트가 누적될 수 있습니다. 즉, 새롭고 더 나은 데이터 세트와 작업을 사용할 수 있게 되면 전체 실행 비용을 지불하지 않고도 모델을 저렴하게 최신 상태로 유지할 수 있습니다.
반면, 거대한 모델을 처음부터 학습시키면 사전 학습뿐만 아니라 그 위에 이루어진 반복적인 개선 사항도 모두 버려지게 됩니다. 오픈 소스 세계에서는 이러한 개선 사항이 지배적이기까지 오래 걸리지 않으므로 전체 재학습에 엄청난 비용이 소요됩니다. 각각의 새로운 애플리케이션이나 아이디어에 정말 완전히 새로운 모델이 필요한지 신중하게 생각해야 합니다. 모델 가중치를 직접 재사용할 수 없을 정도로 아키텍처가 크게 개선되었다면 이전 세대의 기능을 최대한 유지할 수 있는 보다 공격적인 형태의 증류에 투자해야 합니다.
작은 모델에서 더 빠르게 반복할 수 있다면 대형 모델이 장기적으로 더 나은 성능을 발휘하지 않습니다.
LoRA 업데이트는 가장 인기 있는 모델 사이즈의 경우 제작 비용이 매우 저렴합니다(~$100). 즉, 아이디어만 있으면 거의 모든 사람이 업데이트를 생성하고 배포할 수 있습니다. 하루 미만의 교육 시간이 일반적입니다. 이 정도 속도라면 이러한 모든 미세 조정의 누적 효과가 크기로 인한 단점을 극복하는 데 그리 오랜 시간이 걸리지 않습니다. 실제로 엔지니어 시간 측면에서 이러한 모델의 개선 속도는 가장 큰 변형으로 할 수 있는 것보다 훨씬 빠르며, 가장 좋은 모델은 이미 ChatGPT와 거의 구별할 수 없을 정도입니다. 지구상에서 가장 큰 모델을 유지 관리하는 데 집중하면 오히려 불리한 상황에 처하게 됩니다.
데이터 품질은 데이터 크기보다 더 잘 확장됩니다
이러한 프로젝트 중 상당수는 고도로 선별된 소규모 데이터 세트로 학습하여 시간을 절약하고 있습니다. 이는 데이터 확장 법칙에 어느 정도 유연성이 있음을 시사합니다. 이러한 데이터 세트의 존재는 '데이터는 생각대로 작동하지 않는다'의 사고방식에서 비롯된 것으로, Google 외부에서 학습을 수행하는 표준 방식으로 빠르게 자리 잡고 있습니다. 이러한 데이터 세트는 합성 방법(예: 기존 모델에서 최상의 응답을 필터링)과 다른 프로젝트에서 스크래빙을 통해 구축되며, 이 두 가지 방법 중 어느 것도 Google에서 널리 사용되는 방법은 아닙니다. 다행히도 이러한 고품질 데이터 세트는 오픈 소스이므로 무료로 사용할 수 있습니다.
오픈 소스와 직접 경쟁하는 것은 패배의 길입니다. 이러한 최근의 진전은 Google의 비즈니스 전략에 직접적이고 즉각적인 영향을 미칩니다. 사용 제한이 없는 고품질의 무료 대안이 있는데 누가 사용 제한이 있는 Google 제품에 비용을 지불하겠습니까? 그리고 우리가 따라잡을 수 있을 거라고 기대해서는 안 됩니다. 현대 인터넷이 오픈소스로 운영되는 데에는 이유가 있습니다. 오픈소스에는 우리가 복제할 수 없는 몇 가지 중요한 이점이 있습니다. 오픈소스가 우리를 필요로 하는 것보다 우리가 오픈소스를 더 필요로 합니다. 기술을 비밀로 유지하는 것은 항상 어려운 일이었습니다. Google 연구원들은 정기적으로 다른 회사로 이직하기 때문에 우리가 알고 있는 모든 것을 알고 있다고 가정할 수 있으며, 파이프라인이 열려 있는 한 계속 그럴 것입니다.
하지만 LLM의 최첨단 연구 비용이 저렴해지면서 기술 경쟁 우위를 유지하는 것은 더욱 어려워졌습니다. 전 세계의 연구 기관들이 서로의 연구를 기반으로 솔루션 영역을 넓혀가고 있으며, 우리의 역량을 훨씬 능가하는 폭넓은 방식으로 솔루션을 탐색하고 있습니다. 우리는 외부의 혁신이 그 가치를 희석시키는 동안 우리의 비밀을 굳건히 지키려고 노력할 수도 있고, 서로에게서 배우려고 노력할 수도 있습니다. 개인은 기업과 같은 수준의 라이선스 제약을 받지 않습니다. 이러한 혁신의 대부분은 메타에서 유출된 모델 가중치를 기반으로 이루어지고 있습니다. 진정한 개방형 모델이 개선됨에 따라 이러한 상황은 필연적으로 변화하겠지만, 중요한 것은 기다릴 필요가 없다는 것입니다. '개인적 사용'이 제공하는 법적 보호와 개인 기소의 비현실성 때문에 개인은 이러한 기술이 뜨거울 때 접근하고 있습니다.
고객이 된다는 것은 사용 사례를 이해한다는 의미입니다.
이미지 생성 공간에서 사람들이 만드는 모델을 살펴보면 애니메이션 제너레이터부터 HDR 랜드스케이프에 이르기까지 방대한 창의성이 쏟아져 나오고 있습니다. 이러한 모델은 특정 하위 장르에 깊이 몰입한 사람들이 사용하고 만들었기 때문에 우리가 따라올 수 없는 깊이 있는 지식과 공감을 제공합니다.
에코시스템 소유: 오픈소스가 우리를 위해 일하게 하기
역설적이게도 이 모든 것에서 확실한 승자는 바로 메타입니다. 유출된 모델이 자신들의 것이었기 때문에, 그들은 사실상 지구 전체에 해당하는 무료 노동력을 얻었습니다. 대부분의 오픈소스 혁신이 메타의 아키텍처를 기반으로 이루어지고 있기 때문에, 메타가 이를 자사 제품에 직접 통합하는 것을 막을 수 있는 방법은 없습니다.
생태계를 소유하는 것의 가치는 아무리 강조해도 지나치지 않습니다. Google은 Chrome 및 Android와 같은 오픈 소스 제품에서 이 패러다임을 성공적으로 활용하고 있습니다. 혁신이 일어나는 플랫폼을 소유함으로써 Google은 사고의 리더이자 방향 설정자로서의 입지를 굳히고, 자신보다 더 큰 아이디어에 대한 내러티브를 형성할 수 있는 능력을 얻게 됩니다.
모델을 더 엄격하게 통제할수록 개방형 대안을 더 매력적으로 만들 수 있습니다. Google과 OpenAI는 모두 모델 사용 방식을 엄격하게 통제할 수 있는 릴리스 패턴에 방어적으로 집착해 왔습니다. 하지만 이러한 통제는 허구입니다. 승인되지 않은 목적으로 LLM을 사용하고자 하는 사람은 누구나 자유롭게 사용할 수 있는 모델 중 원하는 것을 선택하면 됩니다.
구글은 오픈소스 커뮤니티의 리더로서 폭넓은 대화를 무시하지 않고 협력하여 주도권을 잡아야 합니다. 이는 아마도 작은 ULM 변형에 대한 모델 가중치를 게시하는 것과 같은 불편한 조치를 취하는 것을 의미할 것입니다. 이는 모델에 대한 일부 통제권을 포기하는 것을 의미합니다. 하지만 이러한 타협은 불가피합니다. 혁신을 주도하면서 동시에 혁신을 통제할 수는 없기 때문입니다.
에필로그: 오픈AI는 어떨까요?
오픈소스에 대한 이 모든 이야기는 OpenAI의 현재 폐쇄적인 정책을 고려할 때 불공평하게 느껴질 수 있습니다. 저들은 공유하지 않는데 왜 우리는 공유해야 할까요? 하지만 사실 우리는 이미 모든 것을 그들과 공유하고 있으며, 시니어 연구원이 꾸준히 유출되고 있습니다. 이러한 흐름을 막기 전까지는 비밀 유지에 대한 논의는 무의미합니다.
결국 OpenAI는 중요하지 않습니다. 오픈소스와 관련하여 그들도 우리와 같은 실수를 저지르고 있으며, 우위를 유지할 수 있는 능력에 의문이 제기될 수밖에 없습니다. 오픈소스 대안이 그들의 입장을 바꾸지 않는 한 결국에는 오픈소스가 그들을 잠식할 수 있고 잠식할 것입니다. 이 점에서 적어도 우리가 먼저 움직일 수 있습니다.
타임라인
2023년 2월 24일 - LLaMA 출시
Meta가 LLaMA를 출시하고 코드를 오픈소싱하지만 가중치는 공개하지 않습니다. 현재로서는 LLaMA에 명령이나 대화가 조정되어 있지 않습니다. 현재의 많은 모델과 마찬가지로 비교적 오랜 시간 동안 학습된 비교적 작은 모델(7B, 13B, 33B, 65B 매개변수에서 사용 가능)이므로 크기에 비해 성능이 상당히 뛰어납니다.
2023년 3월 3일 - 피할 수 없는 일이 벌어지다
일주일 만에 LLaMA가 대중에게 유출됩니다. 커뮤니티에 미치는 영향은 아무리 강조해도 지나치지 않습니다. 기존 라이선스로 인해 상업적 목적으로는 사용할 수 없었지만, 갑자기 누구나 실험할 수 있게 된 것입니다. 이 시점부터 혁신은 거세고 빠르게 이루어집니다.
2023년 3월 12일 - 토스터의 언어 모델
일주일이 조금 지난 후 Artem Andreenko는 Raspberry Pi에서 모델을 작동시킵니다. 이 시점에서 모델은 너무 느리게 실행되어 실용적이지 못했는데, 그 이유는 가중치를 메모리에서 호출하고 호출해야 하기 때문입니다. 그럼에도 불구하고 이것은 소형화 노력의 맹공격을 위한 발판이 됩니다.
2023년 3월 13일 - 노트북에서의 미세 조정
다음 날, 스탠퍼드는 LLaMA에 인스트럭션 튜닝 기능을 추가한 알파카(Alpaca)를 출시합니다. 그러나 실제 가중치보다 더 중요한 것은 Eric Wang의 알파카-로라 레포가 낮은 수준의 미세 조정을 사용하여 "단일 RTX 4090에서 몇 시간 내에" 이 훈련을 수행한 것이었습니다.
갑자기 누구나 무엇이든 할 수 있도록 모델을 미세 조정할 수 있게 되면서 저예산 미세 조정 프로젝트에 대한 경쟁이 시작되었습니다. 논문에서는 총 지출이 수백 달러에 불과하다고 자랑스럽게 설명합니다. 또한 낮은 등급의 업데이트는 원래 가중치와는 별도로 쉽게 배포할 수 있어 메타의 원래 라이선스와는 독립적으로 사용할 수 있습니다. 누구나 공유하고 적용할 수 있습니다.
2023년 3월 18일 - 지금이 더 빠릅니다.
Georgi Gerganov는 4비트 양자화를 사용하여 MacBook CPU에서 LLaMA를 실행합니다. 실용적일 만큼 충분히 빠른 최초의 '노 GPU' 솔루션입니다.
2023년 3월 19일 - 13B 모델이 Bard와 '패리티'를 달성합니다.
다음 날, 대학 간 협업을 통해 Vicuna가 출시되고 GPT-4 기반 평가를 사용하여 모델 출력의 질적 비교를 제공합니다. 평가 방법이 의심스럽기는 하지만 이 모델은 이전 모델보다 훨씬 더 우수합니다. 교육 비용: $300.
주목할 만한 점은 API에 대한 제한을 우회하면서 ChatGPT의 데이터를 사용할 수 있었다는 점입니다. 이들은 단순히 ShareGPT와 같은 사이트에 게시된 "인상적인" ChatGPT 대화의 예를 샘플링했습니다.
2023년 3월 25일 - 나만의 모델 선택하기
노믹은 모델이자 더 중요하게는 생태계인 GPT4All을 만듭니다. 처음으로 비쿠나를 포함한 모델들이 한곳에 모이는 것을 볼 수 있습니다. 교육 비용: $100.
2023년 3월 28일 - 오픈 소스 GPT-3
Cerebras(자체 Cerebra와 혼동하지 마세요)는 Chinchilla가 암시하는 최적의 컴퓨팅 일정과 μ-파라미터화가 암시하는 최적의 스케일링을 사용하여 GPT-3 아키텍처를 훈련합니다. 이는 기존 GPT-3 클론보다 큰 폭으로 성능이 뛰어나며, μ-파라미터화를 "야생에서" 사용한 첫 번째 사례입니다. 이러한 모델은 처음부터 학습되므로 커뮤니티가 더 이상 LLaMA에 의존하지 않습니다.
2023년 3월 28일 - 한 시간 안에 멀티모달 훈련 가능
새로운 파라미터 효율적 미세 조정(PEFT) 기법을 사용하는 LLaMA-Adapter는 1시간의 훈련으로 인스트럭션 튜닝과 멀티모달을 도입합니다. 놀랍게도 학습 가능한 파라미터가 120만 개에 불과합니다. 이 모델은 멀티모달 ScienceQA에서 새로운 SOTA를 달성합니다.
2023년 4월 3일 - 실제 인간은 13B 개방형 모델과 ChatGPT의 차이를 구분할 수 없습니다.
버클리가 무료로 제공되는 데이터로만 학습된 대화 모델인 Koala를 출시합니다.
그리고 실제 사람의 선호도를 측정하는 중요한 단계를 거쳐 모델과 ChatGPT를 비교했습니다. ChatGPT가 여전히 약간의 우위를 점하고 있지만, 50% 이상의 사용자가 Koala를 선호하거나 선호하지 않는 것으로 나타났습니다. 교육 비용: $100.
2023년 4월 15일 - ChatGPT 수준의 오픈 소스 RLHF
오픈 어시스턴트가 RLHF를 통해 정렬을 위한 모델과 더 중요한 데이터 세트를 출시합니다. 이 모델은 사람 선호도 측면에서 ChatGPT와 비슷합니다(48.3% 대 51.7%). 이 데이터 세트는 LLaMA 외에도 Pythia-12B에 적용될 수 있으며, 완전히 개방된 스택을 사용하여 모델을 실행할 수 있는 옵션을 제공합니다. 또한 이 데이터 세트는 공개적으로 사용 가능하기 때문에 소규모 실험자들도 저렴하고 쉽게 RLHF를 사용할 수 있습니다.https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
Open LLM Leaderboard - a Hugging Face Space by HuggingFaceH4
huggingface.co
'Dev LLM' 카테고리의 다른 글
Ubuntu에서 CUDA toolkit 버전 변경 & gcc (0) 2023.06.10 윈도우(Windows10-64bit) 환경에서 LLaMA(LLaMA-30b 4bit mode) 테스트하기<모델 로드까지> (1) 2023.03.17