यह प्रोजेक्ट एक छोटा GPT (Generative Pre-trained Transformer) मॉडल है, जिसे हिंदी और प्रोग्रामिंग भाषा के लिए ट्रेन किया जा सकता हे। इसमें sentiment analysis, वेब scraping, और एक CLI चैटबॉट जैसी सुविधाएँ शामिल हैं।
- GPT आधारित Transformer architecture
- हिंदी और प्रोग्रामिंग text datasets पर ट्रेनिंग
- Sentiment (mood) detection
- वेब scraping द्वारा जानकारी प्राप्त करना
- Conversation history सेव और लोड करना
- CLI चैटबॉट इंटरफेस
- Python 3.8+
- torch
- transformers
- requests
- beautifulsoup4
- sentencepiece
- (Optional, Google Colab के लिए) google.colab
इंस्टॉल करने के लिए:
pip install torch transformers requests beautifulsoup4 sentencepiece-
इस repository को clone करें:
git clone https://github.com/dhaval-gamet/Mini-GPT-Model.git cd Mini-GPT-Model -
ऊपर दिए गए dependencies को install करें।
- ट्रेनिंग के लिए आपको एक text फाइल चाहिए जिसमें हिंदी और प्रोग्रामिंग से जुड़ा content हो।
- Default path:
/content/hindi_programming_text.txt - Format: Plain text file (UTF-8 encoded)
- मेने इस mini GPT को गूगल कोलाब मे रन किया था।
- और
/content/hindi_programming_text.txtफ़ाईल को गूगल ड्राइव मे रखा गया था। or सिर्फ 4MB डाटा पर ट्रेन किया गया था। फिर भी ये ठीक ठाक जवाब दे रहा था।
- सबसे पहले इस Mini GPT को आपको अपने डाटा पर ट्रेन करना होगा। उसके बाद इस मॉडल को seve कर्ले।
- स्क्रिप्ट को चलाएं:
python "Mini GPT Model.py" - चैटबॉट शुरू होगा। आप CLI में हिंदी या प्रोग्रामिंग से जुड़े सवाल पूछ सकते हैं।
- 'exit' टाइप करके चैटबॉट बंद करें।
- ट्रेनिंग पैरामीटर्स और dataset path को script के अंदर बदल सकते हैं।
- ट्रेनिंग के बाद मॉडल वेट्स
/content/model_weights.pthमें सेव हो जाते हैं।
- जब मॉडल को जवाब न आए, तब यह वेब से जानकारी लाने की कोशिश करता है।
- मल्टीलिंगुअल sentiment-analyzer (
nlptown/bert-base-multilingual-uncased-sentiment)
Mini GPT Model.py— मुख्य कोड (मॉडल, ट्रेनिंग, चैटबॉट आदि)README.md— यह फाइल- (Optional)
requirements.txt— dependencies की सूची
- Pull requests स्वागत हैं!
- कोई issue मिले तो Issue टैब में रिपोर्ट करें।
MIT License
- Author: Dhaval Gamet
- GitHub Profile
You are free to use or modify this code with proper credit to the author. Commercial use without permission is not allowed.